
近年、YouTubeやTikTokなどの媒体でVTuberによる活動がとても多くなっています。VTuberの中でも多種多様な活動形態があり、3Dモデルを使って動画を撮影したり生放送でライブを開催したり、Live2Dというソフトなどを使用して2Dキャラクターを動かして生放送をしたりと、現在のVTuber活動の中ではこの2つによる活動が一般的となりつつあります。
今回の記事では3Dモデルを使ったVTuberがLiveなどでダンスをする仕組みを解説していきたいと思います。
VTuberがどのように動くのか
VTuberは主に、モーションキャプチャおよびフェイシャルキャプチャと呼ばれる2つの技術を用いて動いています。
モーションキャプチャとは、物体や人間の動きのデータを取り込み、デジタル化する技術のことです。
人間の動きを撮るときに使うマーカーを体につけて、マーカーの動きを専用のカメラで読み取ります。その動きを3Dモデルに反映することでモデルを動かす事が可能となります。
フェイシャルキャプチャとは、小型カメラを付けたヘルメットを装着し、そのカメラから記録した映像をもとに表情のアニメーションを生成する技術です。フェイシャルキャプチャ以外にも、スイッチによる操作で登録されている表情のデータを瞬時に切り替えて喜怒哀楽を表現することも可能です。
これらの技術が組み合わさることで、VTuberはまるで実際の人間のように動き、リアルタイムで視聴者と対話をしたりライブで歌ったり踊ったりする事ができます。
VTuberモデルを動かす仕組み

3Dモデルには「骨格」という設定があります。 人間に置き換えた場合、その名の通り骨にあたる部分になります。この骨格をできるだけ簡略化して、可動域を制限することによって腕が胴体にめり込まないようにしたり、足が変な方向に向かないようにすることができます。
次に3Dモデルを動かすために、モーションキャプチャのデータを3Dモデルの骨格に適用させる仕組みを紹介します。
モーションキャプチャ側で骨格の位置と姿勢を計算します。この計算された骨格の動きのデータを3DCGソフト側の3Dモデルの骨格に流し込むことでアバターが動くようになります。
これを実現するには「モーションキャプチャで計算する骨格と3DCGソフトの3Dモデルの骨格をひとつひとつ適用」させる必要があります。
ただし、必ずしも両方の骨格の構造を同じにする必要はありません。主要な骨格だけ共通していれば、3DCGソフトの設定でアバターに適用することができます。
VTuberの撮影方法
モーションキャプチャによる撮影方法にはバリエーションが幾つかあり「光学式」「慣性式」「ビデオ式」の3つの撮影方法があります。それぞれにメリットやデメリットが存在するので簡単に説明をしたいと思います。
光学式による撮影方法
光学式は、複数台の専用のカメラを使い、体に付けたマーカーの位置を追跡し、データを収集する方法です。モーションキャプチャスタジオなどは基本的に光学式による撮影方法を取り入れており、ViconやOptiTrackと呼ばれる専用のカメラを使用して撮影しています。
【メリット】
メリットとしてはマーカーを付けるだけでよいため、データをとる対象の動作に制限が少なく、アクロバットな動きをしても問題なく撮影することができます。
また、人だけでなく物にもマーカーを付けることができるので、楽器で弾いているような動きや武器を使った動きなども正確に撮影することができます。
【デメリット】
デメリットとしてはカメラからマーカーが隠れてしまい認識できなくなった場合、動きを上手く撮影する事ができずモーションデータを綺麗に収集する事ができない事があります。近年カメラの性能やシステムのアップデートが進み、マーカーが隠れてしまっても比較的綺麗に撮影する事が可能になってきています。
また、撮影するためには複数台のカメラを設置する必要があるため、導入コストやメンテナンスの手間が多くなるデメリットもあります。
慣性式による撮影方法

引用元:https://www.sony.jp/mocopi/
慣性式は、体に装着した慣性センサから得た加速度・角速度・方位の情報を骨格モデルに当てはめることにより、体の動きを計測してデータを収集する方法です。
指の動きを撮るときは慣性式による撮影方法だと綺麗に撮影することができるので、体の動きは光学式で撮り、指の動きだけ慣性式で撮るなど使い分けることも可能です。
mocopiやHaritoraX 1.1などのデバイスは慣性式による撮影方法です。
【メリット】
メリットとしてはカメラや機材を導入する際に専用のスタジオを用意する必要がなくカメラの死角を気にしなくてよいため、あらゆる場所で使用できます。
【デメリット】
デメリットとしては絶対位置の計測はせず、算出による位置情報であるため、位置精度が低くなりがちです。時間経過による誤差の蓄積も起きやすいです。
また、慣性センサーは磁場の影響を受けやすいため、磁場が不安定な場所ではデータが不安定になり綺麗に撮れなくなっていく可能性が高いです。
ビデオ式による撮影方法

ビデオ式は、複数台のカメラやスマホなどで人や物の動きをトラッキングする方法です。
カメラを使うところは光学式と同じですが、ビデオ式ではマーカーを付ける必要がないのが特徴です。精度を上げたい場合はマーカーを使用して撮影する場合もあります。
フェイシャルキャプチャを行うときなどはビデオ式を使うことが多いです。
Webcam Motion CaptureやミチコンPlusなどのアプリケーションを用いた撮影方法はビデオ式にあたります。
【メリット】
メリットとしてはマーカーやセンサーが不要なため、手軽に撮影することができ、リハビリなどを行っている方や、体が不自由な方の動きも撮影できるので医療などで使われることもあります。
望遠レンズを使用することで、遠くからでも撮影する事が可能です。
【デメリット】
デメリットとしては光学式と比べた場合、マーカーを使用していない分、精度は落ちてしまいますが、最近ではAIの導入により相対的に精度が良くなってきています。
撮影した動きを解析しデータ化する必要があるので、生放送などのリアルタイム性に劣ります。
まとめ
今回の記事では3Dモデルを使ったVTuberがどのように動いているのかを簡単に説明していきました。
光学式は精度の高い動きを撮ることが可能ですが、利用コストが比較的高いこともあり個人で利用するにはハードルの高いものとなってしまいますが、クオリティの高いコンテンツを制作できるでしょう。現在ではVTuber以外にもゲームモーションやライブのダンスモーションなどでも使われています。
慣性式は、光学式と比べて安価で扱うことができるので個人の方でも手軽に3Dモデルを動かすことができます。最近ではアニメの3DCGパートやゲームモーションの制作に活用され始めています。その中でも慣性式を採用しているmocopiでは2Dキャラクターも動かせるようになるなど、今後活躍の場が広がるでしょう。
ビデオ式についても、AIの発展によりキャプチャ精度が上がってきています。近い将来、光学式に匹敵するような精度の高いモーションを簡単に撮ることができる時代が来るかもしれません。
種類ごとに使う機材やソフトウェアも異なり、同じ撮影方法でも得意なことや不得意なことが異なっていたりするので、自分の用途に合った撮影方法を見つけてVTuber活動を楽しんでください!