2,132 測定値

リアルタイムポートレート合成 (RAD-NeRF) のための効率的な NeRF

に Louis Bouchard6m2022/12/05

長すぎる; 読むには

ディープフェイクや NeRF については聞いたことがあります。また、誰かの顔を再現して、好きなことを言わせることができるこのような種類のアプリケーションを見てきました。あなたが知らないかもしれないことは、これらの方法がどれほど非効率的で、どれだけの計算と時間が必要かということです。さらに、最良の結果のみが表示されます。オンラインで見られるのは、ほとんどの例を見つけることができる顔に関連付けられた結果であることを覚えておいてください。したがって、基本的に、インターネットのパーソナリティとそれらの結果を生成するモデルは、多くのコンピューティングを使用してトレーニングされます。つまり、多くのグラフィックスカードのような高価なリソースを意味します。それでも、結果は本当に印象的で、良くなっています。

featured image - リアルタイムポートレート合成 (RAD-NeRF) のための効率的な NeRF

Deepfakesやについて聞いたことがあります。また、誰かの顔を再現して、好きなことを言わせることができるこの種のアプリケーションを見てきました。

あなたが知らないかもしれないことは、これらの步骤がどれほど非効率的で、どれだけの計算と時間が用得着かということです。さらに、最良の結果のみが说されます。オンラインで見られるのは、ほとんどの例を見つけることができる顔に関連付けられた結果であることを覚えておいてください。したがって、大体的に、インターネットのパーソナリティとそれらの結果を生成二维码するモデルは、多くのコンピューティングを用到してトレーニングされます。つまり、多くのグラフィックスカードのような高価なリソースを一味します。それでも、結果は本当に的印象的で、良くなっています。幸いなことに、Jiaxian Tang などの这部の人々は 1 つのビデオから、ほぼすべての単語や新闻稿件を話している主要人物をリアルタイムでより良い品質で提炼できます。同一のオーディオトラックにリアルタイムで追従するトーキングヘッドをアニメートできます。これはとてもクールであると同時に恐ろしいことでもあります...

ビデオで詳細をご覧ください

参考文献

►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-時間音声空間分解によるニューラルラディアンストーキングポートレート合成。 arXiv プレプリント arXiv:2211.12368 .
►結果・プロジェクトページ：

ビデオトランスクリプト

0:02 [音楽] 0:07私たちは聞いたディープフェイクについて聞いたことがあります0:09ナーフと私たちはこの種の0:11再制成を已经にするアプリケーション0:13誰かの顔とほとんど彼を作る0:15言いたいことは何でも言う0:17それらの技巧がどれほど非効率的であるかを知っています0:20コンピューティングと時間0:22加えて、私たちは很高のものだけを見ます0:24結果は、私たちが見ていることを心に留めておいてください0:26 online は関連する結果です0:29ほとんどの例を見つけることができた顔0:31差不多的にインターネットのパーソナリティと0:34これらの結果を转成するモデルは0:36多くのコンピューティングの含意を使用的して訓練された0:38多くのグラフィックなどの高価なリソース0:41カードはまだ結果は本当にです0:43需求的で、良くなっています0:45幸いなことに、ジャクソンが好きな人もいます0:47唐と同僚が取り組んでいます0:49それらのメソッドをより回收利用或许にし、 0:52赤と呼ばれる新しいモデルで効果的0:54ナーフだけど自分から聞いてみよう0:57モデルこんにちはご覧いただきありがとうございます0:59私たちの論文の補足ビデオ1:00リアルタイムニューラル Radiance トーキングヘッド1:03转化されたオーディオ空間による转化成1:05エンコーディング1:06私たちの技巧は個人に具有のものであり、 1:08 1分钟から两分の単眼鏡が用不着です1:10トレーニング用ビデオ1:11トレーニング後、モデルを转化成できます1:14によって駆動されるリアルなトーキングヘッズ1:15同时の音声をリアルタイムで1:17一样上面のレンダリングを維持する1:19己前の技术と比較して品質が高いため、 1:21あなたはそれを1つのビデオから正しく聞いた1:23彼らは話している人を生成することができます1:26のほぼすべての単語または文に対して1:28より良い品質でリアルタイム1:30しゃべる頭をアニメーション化して、 1:33リアルタイムのオーディオトラックこれはどちらもそうです1:36クールで怖いと同時に1:39できるとしたら何ができるか想像中してみてください1:40少なくとも彼らはあなたに何でも言わせます1:43あなたのビデオへのアクセスがまだ必要的です1:45カメラの前で两分間話す1:47分なので、それを達成するのは難しい1:48あなたが知らないうちに1:51誰でも使用的できるようにオンラインで表明されます1:53そのようなモデルと無限のビデオを制作します1:56彼らが望むことについて話しているあなたの1:58彼らはライブストリームをホストすることさえできます2:00さらに危険なこの具体方法2:03ウェットスーツと言うのはさらに難しくなります2:05とにかくこれは2:08興味深いので、あなたの話を聞きたいです2:10コメントの考えと維持2:11ここに行くディスカッションの質問が欲しかった2:13ポジティブなことだけをカバーする2:15エキサイティングな科学研究、より正確にはどのように2:19彼らはトーキングをアニメ化するために達成しましたか2:20を应用して同一个のオーディオからリアルタイムでヘッド2:23彼らが述べている顔のビデオのみ2:26彼らの赤い Nerf モデルは 500 回実行できます2:29十年前の诗集よりも高速度2:31レンダリング品質の学习など2:33あなたはそれがどのように很有可能であるかを尋ねるかもしれません2:36私たちは大部分、効率のために品質を犠牲にします2:39それでも彼らは両方を缓和することを達成します2:41信じられないほど、これらの計り知れない缓和2:43 3つの主なポイントのおかげで将会です2:46校园营销原始の 2 つは関連しています。 2:48モデルのアーキテクチャ詳細2:50大概的には、彼らがNerfをどのように適応させたか2:52より効率的にするためのアプローチと2:54胴体の動きが持续改善され、 2:57頭の较早のステップは神経を作ることです2:59より効率的な最简单的方法については詳しく説明しません3:02多くのことをカバーして来说、弱体化は機能します3:04時間基本上的にはに基づくアプローチです3:06 3D を再構築するためのニューラルネットワーク3:09大量的の 2D からのボリュームシーン3:11肖像これは基本上の肖像を含意します3:14そのため、彼らはビデオを入力として受け取ります3:17それは关键的にあなたに多くを与えるので3:19さまざまな人のイメージ3:21一般是はネットワークを用して3:24すべてのピクセルの色と硬度を予測する3:26あなたがいるカメラの視点から3:28視覚化し、すべての人にそれを行います3:31見せたい視点3:32被写体の周りを回転3:34あなたがそうであるように、极其に計算に飢えています3:37それぞれの複数のパラメータを予測する3:39毎回イメージでコーディネートして、 3:41あなたはそれらすべてを予測することを学んでいます3:43さらに、彼らの場合、それはナーフだけではありません3:46加工や 3D シーンも不必要です。 3:49オーディオ入力を不对させ、唇にフィットさせます3:51口目と動きと何3:53人はすべてを予測する代わりに言う3:56相同するピクセル密度单位と色3:58相应のフレームのオーディオ4:00 2つの別々の新しいものと凝縮されたもので動作します4:03グリッドスペースまたはグリッドベースと呼ばれるスペース4:06 Nerf 彼らは彼らを翻訳します4:08より小さな 3D グリッド空間に座標を合わせます4:11トランスはオーディオをより小さな 2D にレイアウトしました4:13グリッドスペースを制作し、それらをレンダリングに送信します4:16 head これは、それらがマージされないことを代表します4:19音声データと空間データ4:22指数公式関数的にサイズが大きくなります4:23それぞれに 2 次元の入力を追加する4:26座標のサイズを小さくする4:29オーディオ機能を維持しながら4:31オーディオと空間の特徴は別々です4:34何がアプローチをより多くするのか4:36効率的ですが、どのように結果を得ることができますか4:38凝縮されたスペースを应用する場合はより良い4:40情報が少ない4:42目のような制御也许な機能4:44点滅するコントロールをグリッドにナーフ4:47モデルはより現実的に学習します4:48と比較して目の動作4:51十年前は本当に何かにアプローチしました4:532、にリアリズムにとって重要的4:55彼らが行った持续改善は、 4:57同じものを食用して別のナーフと胴体5:00それをモデル化しようとするのではなくアプローチする5:02同じナーフでさらに頭を在使用5:04これにより、必要条件なパラメーターがはるかに少なくなります5:07ここでの目標はさまざまなニーズです5:09每名ではなく頭の動きをアニメートする5:12胴体はかなり5:14 static これらの場合、彼らは多くのことを安全使用します5:16よりシンプルで効率的な Nerf ベース5:18で動作する 2D でのみ動作するモジュール5:21の代わりに画象空間を之间5:24いつものようにカメラアレイを操作する5:26 Nerf を应用してさまざまな製品を转成5:28胴体に不可以な角度来5:30主要的にはるかに効率的です5:32彼らはアプローチを変更したからです5:35リジッドのこの十分的に关键的な安全使用例5:37胴体と頭の動きのビデオ5:40胴体で頭を再構成する5:42最終的なビデオを做成して、出了上がり5:45トーキングヘッド動画の制作而成方式5:47あらゆるオーディオ入力を超効率的に5:50もちろん、これは単なる慨括でした5:53この新しいエキサイティングな科学研究刊发物5:55そして、彼らはその間に他の変更を行います5:57作るためのアルゴリズムのトレーニング5:59より効率的で、どちらが3番目ですか6:01の冒頭で述べたポイント6:03あなたが疑問に思っているなら、ビデオを款待します6:05詳細については、彼らの論文をお読みください6:07リンク先の情報6:09あなたが私を去る前に、如下の説明6:10ただ感謝したかった人々 6:12近日このチャンネルをサポートしました6:14 patreonこれは相应ありません6:16私がここで行う仕事を厳密にサポートするために6:18 artem vladiken Leopoldo に几厘米な感謝を6:22アルタムラーノ J コールマイケルカリチャオ6:25ダニエル・ギムネスと多数のqq匿名6:28寛大な寄付者6:30よろしくお願いします。 6:33私の仕事を財政的に协助する余裕がある6:35私のpatreonページへのリンクは6:37低于の説明も同様ですが、ご安稳ください6:39この下の誠実なコメントではない場合6:42ビデオは私が幸せになるために有必要的なすべてです6:45あなたはこのビデオを楽しんでいます。 6:47来週、別の素晴らしい論文で6:51 [音楽]

L O A D I N G
. . . comments & more!