VTuberの仕組みとは?アバターが動く技術をわかりやすく解説
VTuberのライブ配信を見ていて、「あの表情変化は自動なのか」「演者は会場にいるのか」と気になったことはありませんか。仕組みを調べると関連技術が多くて、全体像がつかみにくいままになりがちです。
VTuberのアバターは、カメラで読み取り、データに変換し、アバターに反映し、配信ソフトで届ける4段階の流れで動いています。家庭用のカメラとPCがあればこの流れを組めるため、ここ数年でVTuberの数も市場も大きく伸びてきました。
この記事を読み終えると、表情・体・声・ライブの仕組みがこの流れのどこに当たるかで説明できるようになります。業界での仕事が気になった方は、関連記事から選択肢を確認してみてください。
この記事の内容
VTuberが動く仕組みとは
配信を見ていると、配信者がうなずいた一瞬とアバターの首の動きにほとんど時間差がありません。モーションキャプチャのカメラが1つ1つの動作を読み取り、ほぼリアルタイムでキャラクターの動きへ反映されていきます。
表情は自動で切り替わっているのか、本人は会場にいるのか、立体的なライブはどう映しているのか。配信を見て湧くこうした疑問は、VTube Studioのようなトラッキングソフトがカメラ映像を数値に変換し、OBS Studioで合成して届けるという工程に沿って整理できます。
カメラで顔と体を読み取る
配信者の正面で、Webカメラやスマートフォンのカメラが顔と体を映しています。カメラが拾うのは、目の動き、口の開き具合、頭の傾き。まばたきの幅、口角の上がり下がり、首がどちらへ何度傾いたか。映った映像はそのまま使われるわけではなく、こうした要素が数値の集まりへ置き換わっていきます。
たとえば口を大きく開ければ開度の数値が上がり、目を閉じればまぶたの数値がゼロへ近づきます。読み取りの精度はカメラの解像度や明るさに左右されますが、入口はこの「映して数値にする」一点にあります。
読み取った動きをデータに変換する
抽出された数値は、VTube StudioやnizimaLIVEといったトラッキングソフトへ送られます。ソフトは映像を解析し、配信者が目を細めるとアバターも目を細める、首を左に傾けるとアバターも同じ方向へ動く、という対応へ数値を変換していきます。
配信者の右目の開度はアバターの右目へ、頭の傾き角はアバターの頭部へと、部位ごとに値が割り当てられる流れです。ただし顔のパーツとアバターの動きをどう結ぶかは事前の設定で決まるため、同じソフトを使っても配信者とアバターの相性で動きの出方に差が出ます。人の表情がキャラクターの表情として立ち上がるのは、この変換の段階。
アバターに反映して配信ソフトで届ける
変換されたアバターの映像は、OBS Studioのような出力ソフトが受け取ります。出力ソフトはアバター映像を、ゲーム画面やコメント欄、BGMとまとめて1枚の画面へ合成し、視聴者のもとへ届けます。こうして視聴者の手元には、合成を経た最終的な映像が届きます。
そのため、この一連の流れは家庭用のカメラとPCだけでひととおり組めるようになりました。専用スタジオも高価な機材も必須ではない技術コストの低さが、VTuberの数を一気に増やした要因です。
矢野経済研究所の調査では、VTuber市場規模は2023年度に約800億円、2025年度には1,260億円へ伸びると予測されています。ただし大規模なライブでは、個人配信にはないフルトラッキング設備やAR合成が加わります。
VTuberの2Dと3Dアバターは何が違う?
2DアバターはLive2D、3DはVRoid Studioという無料ソフトで作るのが定番です。最初は2DでVTuberを始めて、フォロワー数の増加に伴い余裕が出てきたら3Dに変更する、という活動の進め方も見られます。同じキャラクターでも、平面のイラストを動かすか立体のモデルを動かすかで、制作の手順も配信でできることも変わってきます。
2Dアバターはイラストを動かす
2Dアバターの作成は、絵師が描いたイラストを目・口・腕など部位ごとに分割するところから始まります。分割したパーツにメッシュと呼ばれる変形ガイドを重ね、それぞれにパラメータを割り当てる作業がリギングです。目を閉じる、口を開ける、顔を傾けるといった動きが、この割り当てによって決まります。
配信時はVTube Studioにカメラ映像を読み込ませ、Webカメラが捉えた顔の動きをパラメータへ変換します。たとえば視聴者がまばたきや口の開閉を見ているとき、その裏で動いているのは分割されたイラストのパラメータです。元の絵の良さを維持したまま動かせる点が2Dの持ち味で、雑談や歌枠など正面を向いた配信との相性がよく出ます。
3Dアバターは立体モデルを動かす
3Dアバターはポリゴンで立体形状を作り、その表面にテクスチャを貼って質感を出します。ここまでは見た目の話。動きを生むのは、モデル内部に設定するボーン、骨格にあたる部分です。腕や脚に骨を通し、骨が動くと表面がそれに追従するよう調整していきます。
2Dが正面向きの配信を得意とするのに対し、3Dは正面・横・後ろどの角度でも表示でき、ダンス配信やライブにも対応できる点が大きく違います。とはいえポリゴンの立体形状作りやボーンの調整にはBlenderのような専門ソフトの操作が絡み、VRoid Studioで土台を整えた後の工程は手間がかかります。動かせる範囲が広がるほど、増えるのは作り込みの手間。
VTuberの表情や体の動きはどう再現される?
表情はソフトが自動で切り替えているのか、それとも誰かがタイミングよく変えているのか。配信を見ていて気になりやすいところです。実際には、演者が普段どおり喋るだけで表情の大半は自動で出ています。ハートの目のような特殊な表情だけ、手動の切り替えが必要です。
表情はカメラが自動で読み取る
カメラがアバターの正面に置かれ、演者の目・口・眉といった顔の特徴点を一つずつ検出します。眉が上がればアバターの眉も上がり、目を閉じればアバターも目を閉じる。VTube StudioやiFacialMocapといったソフトがこの読み取りを引き受け、iFacialMocapはiPhoneの奥行き計測で顔の凹凸まで拾います。
口の動きには別の補い方もあります。たとえば声に合わせてアバターの口を開閉させるリップシンクは標準機能として入っており、カメラ映りが悪い場面でも音声から口を動かせます。だから配信中ずっとカメラの前で口を大きく開け続ける必要はありません。表情のほとんどは、演者が普段どおり喋るだけで再現されていく仕組みです。
特殊な表情は演者が手動で切り替える
手動が出てくるのは、ここだけです。自動トラッキングで出せない顔を、演者がスイッチで切り替えます。ハートの目や、人間の顔ではつくれない記号的な表情は、あらかじめプリセットとして登録しておき、必要な瞬間にボタンで呼び出す仕組みです。
にじさんじの一部には、複数の感情を手動で呼び出せるよう割り当てている例もあります。といっても切り替えるのは差分だけで、土台の表情を動かし続けているのは自動トラッキングのほうです。
腕や全身はモーションキャプチャで動かす
顔がカメラで動くのに対し、腕や全身はモーションキャプチャで動かします。方式は光学式・慣性式・ビデオ式の3つ。精度と手軽さの取り方がそれぞれ違います。
光学式は、スタジオに複数のカメラを並べ、体に付けた反射マーカーの位置を追って動きを取ります。ViconやOptiTrackといった専用機材を使い、精度は高いものの設備のコストも高くつきます。
手軽さで対照的なのが慣性式です。体にセンサーを装着して動きを計測する方式で、mocopiやHaritoraXのように場所を選びません。ところがセンサーのずれが時間とともに重なり、姿勢が少しずつ実際とずれていくこともあります。
一方でビデオ式は、また違う割り切り方をします。Webcam Motion CaptureやミチコンPlusのようにカメラ映像だけで動きを拾うため、マーカーもセンサーも要りません。そのかわりリアルタイムの追従は他の2方式に一歩劣ります。
精度を最優先するなら光学式、場所を選ばず使いたいなら慣性式、機器を増やさず始めるならビデオ式が選択肢になります。
VTuberの声の仕組み
VTuberというと、アイドルのように可愛い声をしている人が多いイメージがあります。ところが、その声がどう作られているかは配信を見ているだけではわかりません。地声での活動が主流とされ、キャラクター作りのために自分で声を作っている人もいます。声の出し方は地声で演じ分けるパターンと、ソフトや機械で変えるパターンの2つに分かれます。
地声で演じ分ける
地声で活動しているVTuberの多くは、編集ソフトを通さず素のままの声を出しています。たとえば、キャラクターの世界観に合わせてカワボや萌え声、お姉さん声を場面ごとに使い分け、同じ配信のなかで別人のような印象に切り替える人もいます。
なかには、性別と異なる声を出す両声類と呼ばれる人もいます。男性が女性の声を、女性が低い声を演じることで、見た目のアバターと耳から入る声のギャップを楽しませる作り方です。地声だけでここまで表現の幅が出るのは、声優や役者が役に応じて声色を変えるのと近い発想です。
ボイスチェンジャーで声を変える
ボイスチェンジャーというソフトや機械を使い、声そのものを別の声質へ変えて活動するVTuberもいます。この方法であれば、男性であっても女性、女性であっても男性のVTuberとしての活動も可能。ただし、従来のボイスチェンジャーは加工感が強く、どうしても不自然な声の聞こえ方になってしまうという弱点がありました。
その弱点も最近はかなり薄れてきました。RVCというAIを活用したボイスチェンジャーが開発され、地声と聞き分けるのが難しいほど自然な仕上がり。一方で、RVCは特定のキャラクターや有名人の声に似せることもできるため、悪用される危険性も指摘されています。技術が進むほど、本人の声と作られた声の境目は見分けにくくなっていくでしょう。
VTuberのライブはどう実現しているのか
生3Dライブはどうやって立体的に姿を映し出しているのか。VTuberのライブで分かりにくいのはこの部分です。ライブには生と事前収録の2パターンがあり、有観客の場合は別室にフルトラッキングスタジオが用意されます。
演者は会場におらず、その動きから作られたアバターの映像が、会場の透過ディスプレイに映し出されます。工程を順に追うと、配信で見えている立体的なステージがどう組み立てられているのかが見えてきます。
生配信と事前収録を使い分ける
ライブは事前にとったものを流すだけなのか、当日本人はいないのか。気になりやすいのはこの点です。歌とダンスは機材トラブルのリスクが高く、別撮りの事前収録で進めるライブが多めです。
もっとも、トークパートは生で流すことがほとんどです。音ズレやトラッキングの乱れが起きても、歌よりは進行で吸収しやすいためです。
コロナ禍以降は、シーンごとに別日で収録するやり方も増えました。1本のライブの中に、収録済みの歌と生のトークが混在しています。当日本人がいるかどうかはパートによって変わります。
演者は別室のフルトラッキングスタジオで動く
有観客ライブでも、演者はステージの中にはいません。会場とは別の部屋に組まれたフルトラッキングスタジオで、全身を動かしています。指先や腰の動きまで取得する機材が並ぶ、専用の収録空間です。
たとえば数千人規模のホールでライブをしていても、演者自身は同じ建物の別室、ときには遠く離れたスタジオから動いていることがあります。配信のみのライブなら、演者が同時刻にスタジオへ入って生で動かすことが多くなります。観客が湧いているステージと、機材に囲まれた静かな収録室。同じライブを支える2つの場所は、本番中に交わることがありません。
会場では透過ディスプレイに映像を投影する
別室で取得した動きは、どうやって会場のステージで立体的に見えるのでしょうか。答えは透明スクリーン、いわゆる透過ディスプレイへの投影にあります。背景が透けて見える特殊なスクリーンに映像を映すと、キャラクターがその場に立っているように見えます。
ただし、現地の観客に映るのは平面の2D映像です。スクリーンの設置やライティングで奥行きを感じさせています。もっともホログラムのように360度から眺められるわけではありません。ホログラムと透過ディスプレイは別物だという点は、知っておきたい違いです。
ホロライブやにじさんじは、独自の3D技術をこの投影へ投入してきました。スクリーンの質と映像処理が上がるほど、立体感は増していきます。会場の照明と投影をどう合わせるかで、ステージの見え方は変わります。
リアルライブはARで客席とステージを合成する
カバーやエニーカラーといった運営は、ARを使った合成にも取り組んでいます。固定カメラで客席だけをリアルタイムに撮り、そこへ無人のステージ映像を重ねる手法です。ステージは3DCGで作られ、多角度の映像として合成されます。
実際に配信を見ると、観客の前に演者が立っているように映ります。客席の実写とステージの3DCGを重ねることで、そこにいるかのような画面が組み上がっています。会場では透過ディスプレイへの2D投影、配信ではARによる合成。現地と画面では、映し出す仕組みそのものが分かれています。
VTuber配信に必要なもの
REALITYやMirrativ、カスタムキャストは、アバター作成からフェイストラッキング、配信までがアプリ1つで完結し、追加の機材がいりません。初期費用はほぼゼロで、スマホ1台あればその日のうちに活動を始められます。ただし目指す配信スタイルによって初期費用はゼロから数十万円まで変わり、やりたいことと用意できる環境を照らし合わせて選ぶことになります。
スマホアプリだけで始める
VTuberを最も手軽に始める入口が、REALITY、カスタムキャスト、Mirrativ、IRIAMといったスマホアプリです。アプリを入れてアバターを組み、そのまま配信に入れます。顔をスマホのカメラに向ければフェイストラッキングが働き、表情やうなずきがアバターに反映される仕組みです。
もっとも取得できるのは顔の動きが中心で、上半身より下は別の機器がないと動かせません。手元のスマホだけで完結する分、配信のレイアウトやカメラワークの自由度は限られます。それでも雑談やゲーム実況であれば、追加投資なしで十分に成立するでしょう。
PCとウェブカメラで配信環境を整える
配信を作り込む段階になると、GPUを積んだPC、Webカメラ、マイクの3点が基本になります。費用の目安はPC本体が10万円前後から、Webカメラが3,000円前後から、マイクが5,000円前後からです。トラッキングソフトと配信ソフトには、VTube StudioとOBS Studioという定番があり、いずれも無料で使えます。
アバターは2Dと3Dで用意の仕方が分かれ、2DはLive2D対応モデルを購入するか制作者に依頼します。一方、3DはVRoid Studioを使えば自分で作ることも可能です。Live2D向けにはnizimaのような配布・販売の場もあります。スマホ完結と比べると初期費用はかかるものの、画面構成やカメラワークを自分の意図どおりに組める点が大きく変わります。
全身を動かすにはVR機器やトラッカーがいる
全身を動かす配信を目指すなら、Meta Quest 2やVALVE INDEXといったVRヘッドセット、腰や足に着けるトラッカーが別途いります。VRヘッドセットだけで数万円前後から、トラッカーを揃えると合計10万円超えも珍しくない段階です。
手や足まで動かしてダンスや演技を見せたい人向けの選択です。
VTuberの仕組みについてよくある質問
VTuberのライブで、現地の観客にはどう見えているの?
現地の観客は、透過ディスプレイに映し出された平面映像を見ています。
配信画面がAR合成でキャラクターをステージに立たせているのに対し、会場では舞台照明と大型スクリーンの組み合わせで奥行きを演出しているため、画面越しと会場では受け取れる映像の作り方そのものが異なります。
VTuberの身長はどうやって決まっているの?
身長はキャラクターデザインの段階で、依頼するイラストレーターやモデラーと合意して決める数値です。
アバターの身長は配信画面上の見え方に影響するもので、演者の実身長とは切り離されており、後からモデルを調整して変更することも可能です。
VTuberはスマホだけで始められる?お金はどれくらいかかる?
スマホアプリだけで始める場合、アプリ自体は無料なので機材費はほぼかかりません。
なお、オリジナルのアバターをイラストレーターやモデラーに外注すると数万円から数十万円の費用がかかるため、まず既製のアバターで試してからオリジナル制作を検討すると無理がありません。
2Dと3Dのアバターは後から変更できる?
2Dから3Dへの変更は技術的には可能で、同じキャラクターデザインを3Dモデルとして作り直す形で対応できます。
とはいえ2Dと3Dはファイル形式も対応ソフトも異なるため、変更は「既存ファイルの書き換え」ではなくゼロからの新規制作になり、制作費と時間がその分だけ追加でかかります。
VTuber業界で働くには
VTuber市場の広がりとともに、運営スタッフや企画職、映像制作、モーションキャプチャ関連まで、活動を支える裏方の求人が増えています。仕組みを追ってきて分かるとおり、VTuberの配信は1人で成り立つものではなく、モデル制作・トラッキング設定・配信運営といった複数の役割が組み合わさって動いています。
技術の流れが見えてくると、自分がどの領域に関わりたいかも整理しやすくなります。アバターを作るモデラー、動きを設定するエンジニア、本番を回す配信オペレーターなど、入口は一つではありません。
職種の全体像は以下の記事で解説しています。
▶ VTuberスタッフとは?仕事内容・職種・年収・なり方を解説
業界に関わる仕事の種類とくわしいなり方は以下でまとめています。
▶ VTuberスタッフになるには?職種別のなり方と求人の探し方を解説
VTuber業界への就職や転職を考えているなら、エンタメ業界に強い転職エージェントに相談するところから始めると、非公開求人を含めて選択肢を比べられます。
ホロライブやにじさんじをはじめとする事務所の規模・特徴・所属メリットは別にまとめています。
▶ VTuber事務所一覧18選!大手から中堅まで特徴や所属メリットなどを解説
まとめ
VTuberが動いて見える仕組みは、カメラで読み取り、データに変換し、アバターに反映し、OBS Studioのような出力ソフトで届けるという流れで動いています。表情は自動トラッキングと手動の切り替えの組み合わせ、声は地声とボイスチェンジャー、ライブは別室のフルトラッキングと透過ディスプレイやAR合成が重なります。
アバターは2Dと3Dで作り方が分かれ、始め方もスマホ完結からPC環境までさまざまです。まず手元のスマホで試してみて、物足りなさを感じた段階で機材を足していくと無理がありません。
VTuber業界の職種や仕事内容が気になった方は、以下で概要をまとめています。