「Alibaba EMO AI」顔写真でAIに歌わせる・喋らせる動画を生成！

野口陽葵

最終更新日 2025年10月13日

Alibabaの顔写真でAIに歌わせる・喋らせる動画生成AI「EMO AI」の機能、生成した動画事例及び技術訓練について、ご紹介します。

Meta、OpenAI、Microsoft、Google、Vidnozに続き、Alibabaも人間の生活を楽にするAI開発の競争に入っています。最近、Alibabaは新しいAIモデル「EMO AI」（The Emote Portrait Alive）を発表しました。このAIツールは、1枚の顔写真をアニメーション化し、しゃべったり歌ったり動画を生成できます。

最近の画像生成の進歩は、AIモデルによるリアルな画像生成を促進しています。特に拡散モデルは高品質な画像作成だけでなく、ダイナミックなビジュアル・ナラティブの可能性を提供し、動画生成への関心を高めています。EMO AIモデルは、音声を動画に直接合成することで生き生きとしたアニメーションを実現する革新的なフレームワークです。この記事では、Alibaba EMO AIについてご紹介します。

Alibaba EMO AI

目次

AlibabaのEMO AIとは？
EMO AI技術訓練
EMO AIによる動画をチェック
Alibaba EMO AIの限界
Alibaba EMO AIの代替ーVidnoz喋れる顔写真
まとめ

AlibabaのEMO AIとは？

従来の技術では、人間の表情の全領域や個々の顔のスタイルの独自性を捉えることができないことがよくありました。これらの問題に対処するために、我々は、中間3Dモデルや顔のランドマークの必要性を回避し、直接音声からビデオへの合成アプローチを利用する新しいフレームワークであるEMOを提案します。

Alibaba

EMOはEmote Portrait Aliveの略で、アリババグループの研究者が開発した革新的なシステムです。人工知能と映像制作を融合させ、驚くべき能力を発揮します。EMOの機能は以下の通り：

ポートレートに命を吹き込む：EMO AIは1枚のポートレート写真に命を吹き込むことができる。写真に写っている人物が、まるで話したり歌ったりしているように見える、リアルな動画を生成します。
音声と映像の合成：中間的な3Dモデルや顔のランドマークに依存する従来の技術とは異なり、EMO AIは音声の合図から映像を直接合成します。このアプローチにより、シームレスなフレーム遷移と一貫した同一性の保持が保証され、非常に表現力豊かでリアルなアニメーションが生成されます。
表現豊かな表情：EMO AIは、オーディオキューと顔の動きの間のダイナミックで微妙な関係を捉えます。静的な表情の枠を超え、人間の感情や個々の顔のスタイルを幅広く表現することができます。
汎用性：EMO AIは、様々なスタイルで説得力のある話し方や歌の動画を生成することができます。心のこもった会話でも、メロディアスな歌でも、EMO AIが命を吹き込みます。

EMOは、写真の唇と音を同期させ、見る人を魅了する流麗で表情豊かなアニメーションを作成する画期的な進歩です。静止画のポートレートを、生き生きと話したり歌ったりするアバターに変身させることを想像してみてください！

撮影なしで、説明動画が完成？｜無料

1500体以上のリアルなAIアバターが、
140以上の言語で自然なナレーションを話す。
リップシンクや表情の動きも本格的！

EMO AI技術訓練

AI技術訓練

AlibabaのEMO AIは、表現力豊かな音声駆動型の肖像画・動画生成フレームワークで、画像と音声クリップからキャラクターの頭部動画を合成します。これにより、中間表現が不要になり、音声入力に沿った高い視覚的・感情的忠実度が保証されます。EMOは拡散モデルを活用してキャラクターの頭部動画を生成し、ニュアンスに富んだ微細な表情を捉え、自然な頭の動きを促進します。

EMOを訓練するために、研究者たちは250時間の映像と1億5000万枚の画像を超える多様な音声・映像データセットをキュレーションしました。このデータセットは、スピーチ、映画やテレビのクリップ、複数の言語による歌唱パフォーマンスなど、さまざまなタイプのコンテンツを網羅しています。コンテンツが豊富なため、EMOは幅広い人間の表情や発声スタイルを捉えることができ、開発のための強固な基礎となります。

EMO AIによる動画をチェック

EMO AIによる最近のビデオです：

さまざまなキャラクターとの会話

急速な音楽リズム

異なる言語と似顔絵スタイル

AIに歌わせるなら！おすすめアプリ・サイトの特徴と使い方を簡単解説

AIで写真が歌うアプリおすすめ！無料で瞬時に写真を歌わせる

Alibaba EMO AIの限界

以下はその限界です：

時間の消費：採用された方法には一定の限界があり、主な欠点のひとつは、拡散モデルに頼らない代替アプローチと比較して、所要時間が長くなることです。
意図しないボディパーツの生成：もう1つの制限は、キャラクタの動きを指示するための明示的な制御信号がないことにあります。この不在は、手のような追加的なボディパーツの意図しない生成につながる可能性があり、結果のビデオにアーティファクトを引き起こします。

不用意なボディパーツの生成に対処する1つの潜在的な解決策は、各ボディパーツ専用の制御信号を実装することです。

Alibaba EMO AIの代替ーVidnoz喋れる顔写真

Vidnozの顔写真を動かすサイトで、自分の顔写真・イラストをアップロードして、喋らせることができます。

Vidnoz喋れる顔写真

ステップ1：Vidnozの顔写真を動かすサイトにアクセスして、新規登録してください。

新規登録すると、制作された動画をダウンロードしたり、共有したりできます。

ステップ2：好みの実際の人物写真を選択して、アップロードしてください。ここで、Vidnozの顔写真を動かすサイト上のモデル画像を例にして説明します。

ステップ3：テキストを入力したり、コピペしたりしてください。

ステップ4：プレビューまたは「画像喋らせる動画を作成する」ボタンをクリックして、動画を自動生成します。

画像喋らせる動画を作成する

まとめ

Alibaba EMOは、音声と参照画像から表情豊かなキャラクターの頭部映像を直接合成する革新的なフレームワークを導入し、トーキングヘッド映像生成における画期的なソリューションとして登場します。拡散モデル、安定した制御メカニズム、および同一性保持モジュールを統合することで、非常にリアルで表現豊かな結果が保証されます。この分野の進歩に伴い、Alibaba AI EMOは音声駆動型肖像動画生成の変革力を証明するものとなっています。

撮影なしで、説明動画が完成？｜無料