[분석] 버튜버테크: 관성식과 광학식, 마커리스 및 AI 모션캡쳐 트렌드
1. 들어가며: 트래킹과 모션캡쳐
최근 국내에서 버튜버에 대한 관심이 폭발적으로 늘어나면서, '어떻게 버튜버가 되지?' '저 버튜버는 어떻게 저렇게 움직이는 거지?' 하는 질문을 자주 접하게 됩니다.
사실 저는 버튜버를 직접 해본 적도, 버튜버 제작사나 관련 기업에서 일해본 적도 없지만, 개인적인 호기심에서 시작한 리서치를 통해 알게 된 내용을 공유해보려 합니다.
버튜버의 구현 방식은 크게 '트래킹'과 '모션캡처'로 나눌 수 있는데요. 트래킹은 쉽게 말해서 사람이나 물체의 위치를 실시간으로 따라가는 기술입니다. VR 기기가 머리나 손목의 움직임을 감지하거나, 스마트폰이 GPS로 위치를 찾는 것과 유사합니다.
반면 모션캡처는 좀 더 복잡하고 정교한 기술입니다. 사람의 전체적인 움직임을 세세하게 기록하는 거죠. 특히 관절이나 신체 부위의 미세한 움직임까지 한 번에 캡처할 수 있어서, 영화나 게임 제작에서 실제 배우의 동작을 캐릭터에 자연스럽게 입히는 데 사용됩니다. 다만 추가로 특수 장비나 센서가 필요해서, 움직임에 대한 데이터를 더 자세히 얻을 수 있는 만큼 비용도 많이 들어갑니다.
정리하자면, 트래킹이 '어디에 있는지'를 쫓는 기술이라면, 모션캡처는 '어떻게 움직이는지'까지 꼼꼼하게 기록하는, 더 포괄적인 형태라고 볼 수 있습니다.
버튜버들은 콘텐츠의 종류, 그리고 (가장 중요한) 예산에 따라 이 두 가지 기술을 적절히 활용하는데요. 모션캡처가 좀 더 폭넓은 개념이다 보니, 본 콘텐츠에서는 버튜버들의 모션캡처 활용을 중심으로 이야기를 해보려고 합니다.
2. 모션캡쳐 구현 방식에 따른 구분
기본적으로 모션캡쳐는 사람과 물체의 움직임을 디지털 데이터로 기록하고 재현하는 기술입니다. 이 기술은 센서나 카메라를 사용하여 사람과 물체의 움직임을 감지하고, 이를 컴퓨터로 전송하여 디지털화하는데요.
주로 인체의 관절과 근육의 미세한 움직임을 추적하여 3D 모델에 적용하는 방식으로 작동합니다. 모션캡쳐 기술은 특정 기기를 착용하거나, 몸에 센서를 부착하나, 적외선이나 AI를 이용하는 등의 방법 등 구현 방식에 따라 구분이 가능합니다.
구체적으로 분류하자면 위와 같지만, 현재 많이 사용되고 있는 관성식(Inertial), 광학식(Optical)과 마커리스(Markerless)에 대한 내용 위주로 소개해 보겠습니다.
2.1 관성식 모션캡쳐
먼저 관성식 모션캡쳐는 기울기와 가속도, 지구자기장을 측정하는 센서가 신체의 관절 및 주요 부위에 부착된 전용 수트로 모델의 움직임과 회전, 방향을 읽어내는 방식입니다.
관성식 모션캡쳐의 핵심은 바로 IMU라고 불리는 관성측정장치입니다. 이 작은 센서들은 우리가 스마트폰을 돌렸을 때 화면이 회전하는 것과 비슷한 원리로 작동하는데, 훨씬 더 정교하고 정확한 측정이 가능하죠.
실제 모델은 센서가 부착된 수트를 입고 움직이게 되는데, 각각의 센서들은 마치 작은 나침반처럼 방향과 움직임을 감지하며 이 정보를 실시간으로 컴퓨터에 전송합니다.
가성비 모션캡쳐 장비로 알려져 있는 퍼셉션 뉴런(Perception Neuron)도 관성식입니다. 기본적으로 몸에 착용하는 스트랩과 장갑이 있으며, 이 장갑과 스트랩에 센서를 부착하는 형태로 되어있습니다.
센서를 각 관절 부위에 부착하여 센서의 움직임을 통해 사용자의 움직임을 렌더링 한 후 3D 화면으로 뿌려주고, 전용 소프트웨어를 통해 실시간으로 센서의 위치변화를 감지하며, 캡처 이후 후보정까지 진행하게 됩니다.
관성식 모션캡쳐의 가장 큰 장점은 상대적으로 높은 자유도에 있습니다. 예를 들어, 영화나 게임 제작 현장에서 야외 촬영을 해야 하는 경우, 다른 모션캡쳐 방식들은 환경적 제약으로 인해 사용이 어려울 수 있지만, 관성식은 날씨나 장소에 크게 구애받지 않을 수 있습니다.
또한 관성식 모션캡쳐는 경제적인 측면에서도 상대적으로 장점이 있습니다. 후술할 광학식 모션캡쳐가 대규모 스튜디오와 고가의 장비를 필요로 하는 것과 달리, 관성식 은 상대적으로 적은 비용으로도 모션캡쳐가 가능합니다.
하지만 모든 기술이 그렇듯, 관성식 모션캡쳐도 완벽하지는 않습니다. 가장 큰 단점은 오차입니다. 결국 센서들은 시간이 지날수록 약간씩 오차가 누적될 수 있는데요.
이 오차로 인해 버튜버의 관절이 이상하게 움직인다던지, 머리나 몸이 겹쳐지는 등의 방송사고(?)가 발생할 수 있습니다. 이를 해결하기 위해 주기적으로 보정 작업을 해주어야 합니다.
또 아주 미세한 움직임을 캡처하는 데는 한계가 있습니다. 예를 들어, 모델의 섬세한 얼굴 표정이나 손가락 움직임과 같은 아주 미세한 동작들은 관성식만으로는 완벽하게 포착하기 어려울 수 있습니다.
2.2 광학식 모션캡쳐
광학식 모션캡쳐는 블록버스터 영화나 3D 게임에서 가장 널리 사용되고 있는 방식입니다. 기본 원리는 생각보다 단순한데요. 수트에 특수한 반사 마커들을 부착하고, 여러 대의 적외선 카메라로 이 마커들의 움직임을 추적하는 것입니다.
마블의 슈퍼 히어로 영화나, 판타지 영화의 제작 현장을 살펴보면 배우가 쫄쫄이로 된 수트를 입은 것을 보실 수 있습니다. 쫄쫄이로 된 수트, 그리고 이 수트에 부착된 마커를 통해 모션을 포착하고, 이 모션 데이터를 가지고 3D로 구현하는 것이죠. 하지만 이 단순한 원리가 실제로 구현되는 과정은 생각보다 매우 정교하고 복잡합니다.
카메라는 반사된 빛의 강도를 측정해 마커의 위치를 파악하고, 강도에 따라 마커의 정확한 2차원 좌표를 계산해냅니다. 1~2개의 카메라로는 깊이감을 측정할 수 없기 때문에 여러 대의 카메라를 설치해 다각도로 마커를 촬영하고, 각 카메라가 포착한 2차원 데이터와 카메라 간의 위치 관계를 분석해 3차원 좌표를 생성하게 됩니다. 이후 분석된 데이터를 바탕으로 3D 캐릭터와 일체화시키는 작업을 진행합니다.
보통 광학식 모션캡쳐 스튜디오에는 12대에서 많게는 수십 대의 고성능 카메라가 천장과 벽면에 설치되어 있으며, 이 카메라들은 초당 수백 프레임의 속도로 마커들의 위치를 추적합니다. 또한 마커도 최소 60~70개 이상으로 부착해야 합니다.
광학식 모션캡쳐의 가장 큰 장점은 바로 놀라운 정확도입니다. 카메라를 전방위로 설치하고, 마커를 수십개를 붙여놓을 수 밖에 없는 이유죠. 위 사진의 영화 '아바타'에서 보여진 것처럼 배우의 미세한 표정 변화까지도 완벽하게 포착할 수 있습니다.
배우 얼굴에 수십 개의 마커를 부착하고, 이를 특수 카메라로 촬영하면 미세한 표정 변화까지도 디지털 캐릭터에 그대로 반영할 수 있습니다. 이는 캐릭터의 감정 표현을 훨씬 더 풍부하고 섬세하게 만들어주며, 현실감을 높여줄 수 있습니다.
또한 광학식 모션캡쳐는 여러 명의 배우가 동시에 연기하는 장면도 촬영할 수 있습니다. 각 배우마다 다른 패턴의 마커를 사용하여 시스템이 누구의 움직임인지 구분할 수 있게 하는 것입니다. 이는 캐릭터들 간의 상호작용이 많은 장면을 촬영할 때 특히 유용합니다.
물론 광학식 모션캡쳐에도 몇 가지 단점이 있습니다. 가장 큰 문제는 마커가 카메라의 시야에서 가려지면 데이터가 손실된다는 점입니다. 예를 들어, 배우가 몸을 돌리거나 다른 물체에 가려질 때 일부 마커들이 카메라에 보이지 않게 되면, 그 순간의 동작 데이터가 불완전해질 수 있습니다. 이런 문제를 최소화하기 위해 많은 수의 카메라를 다양한 각도에 설치하지만, 완벽한 해결책은 아닙니다.
또한 광학식 시스템은 고가의 장비와 특수한 촬영 환경을 필요로 합니다. 전문적인 모션캡쳐 스튜디오를 구축하려면 최소 수억 원 이상의 비용이 들 수 있으며, 이를 운영하기 위해서는 전문 인력도 필요합니다. 게다가 촬영 공간의 조명 조건도 매우 중요해서, 외부 빛의 간섭을 최소화하기 위한 특수한 환경 설정이 필요합니다.
물론 이러한 단점을 상쇄할만큼 퀄리티가 좋고 정확도가 높기 때문에, 업계 표준부터 소프트웨어, 플러그인 지원이나 업데이트도 대부분 광학식 위주로 흘러가고 있습니다.
2.3 마커리스(Makerless): AI 모션캡쳐
마커리스는 사전적인 분류로 RGB 카메라(일반 비디오 카메라로 촬영한 영상에서 AI가 동작을 인식)와 RGB-D 카메라(색상 정보와 함께 깊이 정보도 캡처해서 더 정확한 3D 동작 인식이 가능)로 구분할 수 있습니다.
마커리스는 마커 없이 카메라로 촬영한 영상에서 가져온 모션 데이터를 처리하는 방식에 AI를 적용하고 있습니다.
특별한 장비나 센서 없이도 아이폰이나 고프로 같은 카메라만으로도 사람의 움직임을 포착하고 분석할 수 있어, 접근성과 비용 면에서 큰 장점을 가집니다.
틱톡이나 인스타그램에서 볼 수 있는 다양한 AR 필터나 동작 기반 효과들이 바로 카메라를 활용한 모션캡쳐를 기반으로 하고 있는데요. SNS에서 사용할 수 있는 모션캡쳐가 다소 정확도가 떨어진다면, 최근의 AI 모션캡쳐는 차원이 다른 속도로 발전하고 있습니다.
AI 모션캡쳐의 핵심은 바로 딥러닝 기술입니다. 수많은 인간의 동작 데이터로 학습된 인공지능 알고리즘이 영상 속 인물의 자세와 움직임을 실시간으로 분석하고, 이를 3D 캐릭터의 움직임으로 변환합니다. 마치 사람이 눈으로 보고 움직임을 이해하는 것처럼, AI는 카메라로 촬영된 영상을 보고 그 안의 동작을 해석하는 것입니다.
AI 모션캡쳐의 가장 큰 장점은 접근성입니다. 스마트폰만 있어도 누구나 모션캡쳐를 시도해볼 수 있다는 점이죠. 과거에는 고가의 장비와 전문 스튜디오가 필요했던 모션캡쳐가, 이제는 누구나 사용할 수 있는 기술이 되어가고 있습니다.
기존 방식들이 특정한 환경이나 조건(수트 등) 필요로 했다면, AI 모션캡쳐는 카메라만 있으면 다양한 환경에서 작동할 수 있습니다. 실내든 실외든, 밝은 곳이든 어두운 곳이든 상관없이 작동하죠.
하지만 AI 모션캡쳐에도 몇 가지 한계가 있습니다. 가장 큰 과제는 정확도입니다. 아무리 AI라 하더라도, 아직은 광학식 모션캡쳐만큼의 정밀한 동작 포착은 어렵습니다. 특히 빠른 동작이나 복잡한 동작을 캡처할 때는 정확도가 떨어질 수 있습니다.
또한 AI의 특성상 학습되지 않은 특이한 동작과 예측하기 어려운 상황에서는 결과가 이상하게 나올 수 있습니다. 예를 들어, 여러 사람이 서로 겹쳐져 있는 상황이나, 특수한 의상을 입은 경우에는 정확한 동작 인식이 어려울 수 있죠.
그럼에도 불구하고, AI 모션캡쳐는 놀라운 속도로 발전하고 있다는 부문에서 업계가 많이 주목하고 있는 것 같습니다.
3. 버튜버의 트래킹과 모션캡쳐
버튜버는 기본적으로 앞서 설명한 관성식과 광학식을 모두 사용할 수 있습니다. 그러나 리소스의 문제로 인해, 일상적인 콘텐츠는 페이셜 트래킹, 콘서트나 모캡 방송을 할 때는 풀트래킹이나 광학식을 사용하는 것이 일반적입니다.