文を できるモデルを以前に見たことがあります。 受け取って画像を生成 オブジェクトや特定のスタイルなどの特定の概念を学習 も見てきました。 することで、生成された画像を操作する他のアプローチ 先週、Meta は、私が取り上げた を公開しました。このモデルを使用すると、テキスト センテンスからも短いビデオを生成できます。結果はまだ完璧ではありませんが、この 1 年間でこの分野で達成した進歩は驚くべきものです。 Make-A-Video モデル 今週、私たちはさらに一歩前進します。 これは、3D モデルを生成するのに十分な文を理解できる Google Research の新しいモデル、DreamFusion です。 これは、 または として見ることができますが、3D で表示されます。 DALLE 安定拡散 なんてクールなの?!これ以上涼しくすることはできません。 しかし、さらに魅力的なのは、それがどのように機能するかです。それに飛び込みましょう... 参考文献 ►記事全文を読む: ►Poole, B.、Jain, A.、Barron, JT および Mildenhall, B.、2022 年。DreamFusion: 2D 拡散を使用したテキストから 3D へ。 arXiv プレプリント arXiv:2209.14988. ►プロジェクトのウェブサイト: ►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): //www.louisbouchard.ai/dreamfusion/ //dreamfusion3d.github.io/ //www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:02 私たちは、モデルが取ることができるのを見てきました 0:04 文と画像を生成し、次にその他 0:07 生成されたものを操作するアプローチ 0:09 特定の概念を学ぶことによるイメージ 0:11 オブジェクトや特定のスタイルのように 0:13 先週、メタが公開されました 0:16 私がカバーしたビデオモデルは、 0:18 からも短いビデオを生成します 0:20 結果がそうでないテキスト文 0:22 まだ完璧ですが、私たちが成し遂げた進歩 0:24 昨年からのフィールドで 0:26 信じられないほど今週は別のものを作ります 0:28 step forward here's dream Fusion a new 0:32 できるGoogleの研究モデル 0:34 生成するのに十分な文を理解する 0:36 それからの3Dモデルは、これを次のように見ることができます 0:39 ゆっくりとしたまたは安定した拡散ですが、3Dでは 0:41 私たちがそれをあまり作ることができないのはなんてクールなことでしょう 0:44 よりクールですが、さらに魅力的なのは 0:46 それがどのように機能するかについて詳しく見ていきましょう 0:49 最初に数秒間話してください 0:51 関連科目について コンピュータビジョン 0:53 あなたがいるなら、あなたはそれを聞きたいと思うでしょう 0:55 このフィールドもこのビデオの I'm 0:57 エンコード・ザ・オンラインとの提携 1:00 コンピュータビジョンの学習プラットフォーム 1:01 データは最も重要な部分の 1 つです 1:04 革新的なコンピューター ビジョンの作成 1:06 エンコードプラットフォームが持っている理由です 1:09 作るためにゼロから構築された 1:10 トレーニングデータの作成と 1:12 機械学習モデルのテスト 1:14 これまでのencordよりも速い 1:17 これは2つの方法で最初にそれを作ります 1:19 注釈と評価の管理が容易 1:22 さまざまなトレーニングデータ 1:24 共同注釈ツールと 1:25 自動化機能は 2 番目にエンコードします 1:28 QA ワークフロー API へのアクセスを提供します 1:31 および SDK を使用して、独自のものを作成できます。 1:33 高速化するアクティブ ラーニング パイプライン 1:35 モデル開発とエンコードの使用 1:38 構築に時間を無駄にする必要はありません 1:39 独自の注釈ツールにより、 1:41 適切なデータを取得することに集中する 1:44 面白そうならあなたのモデル 1:46 以下の最初のリンクをクリックして入手してください 1:48 エンコード専用の 28 日間無料トライアル 1:51 私たちのコミュニティへ 1:54 あなたが私の仕事の夢を追ってきたなら 1:56 フュージョンは非常にシンプルで、基本的に使用します 1:59 私がすでにカバーした2つのモデルNerfsと 2:02 テキストから画像へのモデルの1つ 2:04 イモージェンモデルの場合ですが、あなたは 2:07 安定した拡散やドリーのようにします 2:09 あなたが良い人だったかどうか知っているように 2:11 学生で、以前のビデオを見た 2:12 Nerfs は、レンダリングに使用される一種のモデルです 2:15 ニューラル ラディアンスの生成による 3D シーン 2:18 の 1 つまたは複数の画像からのフィールド 2:21 オブジェクトですが、どのように生成できますか 2:23 Nerf モデルの場合、テキストから 3D レンダリング 2:26 私たちがよく使う画像でのみ機能します 2:29 imagen 他の AI が画像を生成する 2:31 それが取るものからのバリエーションとその理由 2:34 直接の代わりにそれを行いますか 2:36 テキストから 3D モデルを生成する理由 2:38 3D の膨大なデータ セットが必要になります。 2:41 関連するデータとともに 2:43 トレーニングするモデルのキャプション 2:46 これは非常に難しいでしょう 2:48 代わりに、事前にトレーニングされたテキストを使用して 2:50 はるかに複雑でないデータの画像モデル 2:53 一緒にそれを 3D に適応させて、 2:56 3D データは必要ありません。 2:57 既存の AI のみで訓練された 3:00 画像を生成する方法は本当にクールです 3:03 強力なテクノロジーを再利用できます 3:05 通訳時のこのような新しいタスク 3:07 問題は異なるので、開始すると 3:09 最初からNerfモデルがあります 3:12 以前のビデオで説明したように、これは 3:14 モデルのタイプは、予測するために画像を取得します 3:17 を作成する各新規ビューのピクセル 3:20 の画像ペアから学習することによる 3D モデル 3:22 同じオブジェクトで異なる 3:24 私たちの場合、私たちは始めません 3:26 画像を直接使用して、 3:28 テキストとサンプルランダムビュー 3:30 画像を生成したい向き 3:33 基本的に、私たちは作成しようとしています 3:35 すべての画像を生成することによる 3D モデル 3:38 カメラがカバーできる可能性のある角度 3:40 オブジェクトを見回して推測する 3:42 ピクセル 色 密度 光 3:45 反省などに必要なすべて 3:48 現実的に見えるようにしてから始めます 3:50 キャプション付きで、小さな調整を追加します 3:52 それはランダムなカメラに依存します 3:54 生成したい視点 3:56 前線を生成したい例 3:58 ビューに前面ビューを追加します 4:01 私たちが使用する反対側のキャプション 4:03 の同じ角度とカメラ パラメータ 4:05 最初のトレーニングされていない Nerf モデルを 4:09 最初のレンダリングを予測してから 4:11 イメージ バージョンを生成する 4:13 追加されたキャプションと初期レンダリング 4:17 事前に訓練されたテキストを想像してください 4:20 さらに説明した画像モデルへ 4:22 興味があれば私の画像とビデオで 4:24 それがどのように行われるかを確認するために、私たちのイメージと 4:26 モデルはテキスト入力によって導かれます 4:28 の現在のレンダリングと同様に、 4:30 ここにノイズが追加されたオブジェクトを追加します 4:33 これは画像と 4:36 モジュールは、必要な入力として受け取ることができます 4:38 ノイズ分布の一部 4:40 モデルを使用して生成することを理解しています 4:43 より高品質の画像 画像を追加 4:45 それを生成してノイズを除去するために使用されます 4:48 この結果を使用するために手動で追加しました 4:51 Nerf モデルを導き、改善する 4:54 次のステップでは、すべてをより良いものにします 4:55 ナーフが画像のどこにあるかを理解する 4:57 モデルはその注意を集中する必要があります 4:59 次のステップでより良い結果を生み出す 5:01 3Dモデルが完成するまでそれを繰り返します 5:05 十分に満足してからエクスポートできます 5:07 このモデルをメッシュ化してシーンで使用する 5:10 あなたの選択の、そしてあなたの何人かの前に 5:12 いいえ、再トレーニングする必要はありません 5:15 彼らが言うように画像生成モデル 5:17 論文では、それは単に 5:19 画像空間を予測する凍った評論家 5:21 編集とvoiraこれがFusionの夢です 5:25 テキスト入力から 3D レンダリングを生成します 5:28 もっと深くしたいなら 5:30 アプローチの理解は 5:32 神経をカバーする私のビデオを見て、 5:34 Imogen もぜひお読みください。 5:36 この特定の詳細については、ペーパー 5:39 メソッド全体を見てくれてありがとう 5:41 ビデオで、来週お会いしましょう 5:44 別の素晴らしい紙