NVIDIA の最新モデルである eDiffi は、DALLE 2 や Stable Diffusion などの以前のすべてのアプローチよりも見栄えがよく、より正確な画像を生成します。 eDiffi は、送信するテキストをよりよく理解し、よりカスタマイズ可能であり、NVIDIA の以前の論文で見た機能であるペインター ツールを追加します。動画で詳しく... 参考文献 ►記事全文を読む: ► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, ►プロジェクトページ: ://deepimagination.cc/eDiffi/ ►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): //www.louisbouchard.ai/ediffi/ //arxiv.org/abs/2211.01324 https //www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:06 のための新しい最先端のアプローチ 0:08 画像合成はより良いものを生成します 0:10 見た目とより正確な画像 0:13 Delhi 2 または 0:15 安定した拡散 0:17 あなたが送信したテキストを理解し、 0:19 よりカスタマイズ可能な新機能の追加 0:21 Nvidia の以前の論文で見た 0:23 彼らがあなたが見ることができるペインターツール 0:26 一言で言えば、これはあなたを意味する言葉で描く 0:29 いくつかの主題を入力してペイントすることができます 0:32 ここに表示される画像と 0:34 より多くのものを作成することができます 0:36 ランダム画像と比較したカスタマイズ画像 0:39 プロンプトに続く生成これは 0:41 次のレベルでは、きれいにすることができます 0:43 あなたが持っている正確なイメージを得る 0:45 恐ろしい素早さを描くだけで心に 0:47 私でもできることをスケッチする 0:50 結果はSotaだけじゃない 0:52 安定した拡散よりも見栄えが良い 0:55 しかし、それらはより制御可能でもあります 0:57 もちろん、それは別のユースケースです 0:59 もう少し作業が必要で、より明確にする必要があります 1:02 このようなドラフトを作成するためのIDを念頭に置いていますが、 1:04 それは間違いなく非常にエキサイティングで、 1:06 興味深いのは、それが私がしたかった理由でもあります 1:08 そうではないので、私のチャンネルでカバーします 1:11 単に優れたモデルであるだけでなく、 1:13 はるかに多くの異なるアプローチ 1:15 ツールではない出力の制御 1:17 残念ながらまだ入手可能ですが、確かに 1:19 ところで、それがすぐになることを願っています 1:22 必ず購読する必要があります 1:23 チャンネルと Twitter で私をフォローしてください。 1:25 この種のビデオが好きなら挨拶してください 1:27 簡単にアクセスしたい 1:30 この重く消化可能なニュース 1:32 複雑な分野別の勝利 1:34 これをより細かく制御できるようにします 1:37 新しいモデルは同じ機能を使用しています 1:39 私たちは見ましたが、確かにモデルは異なっていました 1:42 画像を生成する 文章に導かれる 1:44 を使用して影響を与えることもできます 1:47 簡単なスケッチなので、基本的には 1:49 これは、入力としての画像とテキストを意味します 1:52 あなたはそれが理解するように他のことをすることができます 1:54 ここの画像はこれを活用しています 1:56 スタイルを開発することによる能力 1:58 可能な場合は転送アプローチ 2:00 イメージのスタイルに影響を与える 2:02 画像を与える生成プロセス 2:04 あなたの特定のスタイルも 2:06 テキスト入力これは超クールでただ 2:09 彼らが語る結果を見てください 2:11 両方を打ち負かすのは信じられないほどです 2:14 蒼太流移籍モデルとイメージ 2:16 単一のアプローチによる合成モデル 2:18 問題は、Nvidia がどのように 2:22 より良いものを生み出すモデルを開発する 2:23 見た目の画像により、より詳細な制御が可能になります 2:26 スタイルとイメージ構造の両方 2:29 だけでなく、より良い理解と 2:31 あなたが実際に欲しいものを表す 2:34 あなたのテキストも彼らは典型的なものを変えます 2:36 最初に 2 つの方法で拡散アーキテクチャ 2:39 彼らは2つの異なる方法でテキストをエンコードします 2:41 ですでに説明したアプローチ 2:43 クリップおよび T5 と呼ばれるチャネル 2:46 これは、エンコーダーが使用することを意味します 2:48 テキストを取得するための事前トレーニング済みモデルと 2:50 に焦点を当てたさまざまな埋め込みを作成します 2:52 彼らが訓練されたときのさまざまな機能 2:55 動作が異なり、意味は次のとおりです。 2:57 何を最大化するだけの表現 3:00 文が実際に意味するのは 3:01 理解するアルゴリズムまたはマシン 3:04 入力画像に関して、彼らはただ 3:06 クリップの埋め込みも使用する 3:08 基本的に画像をエンコードして、 3:11 モデルはあなたができることを理解できます 3:13 私の他のビデオで詳細をご覧ください 3:14 生成モデルをそのままカバー 3:16 ほとんどすべてがクリップ上に構築されています。 3:19 彼らがより多くのコントロールを持つことを可能にするもの 3:21 出力と処理について 3:23 テキストだけでなく、テキストと画像 3:25 2番目の変更は 3:28 の代わりに拡散モデルのカスケード 3:31 同じものを繰り返し再利用する 3:33 通常、拡散ベースのモデルで行います 3:35 ここでトレーニングされた使用モデル 3:38 生成過程の特定の部分 3:39 つまり、各モデルはそうする必要はありません 3:42 通常の拡散と同じくらい一般的である 3:44 各モデルが集中する必要があるため、ノイズ除去 3:46 プロセスの特定の部分で 3:49 彼らはこれを使う 3:51 彼らが観察したのでアプローチします 3:52 ノイズ除去モデルはテキストを使用しているようでした 3:55 その向きを変えるためにさらに多くの埋め込み 3:57 の始まりに向かう世代 3:59 処理し、それを使用することがますます少なくなります 4:02 出力品質と忠実度に焦点を当てる 4:05 これは自然に仮説を導きます 4:07 同じノイズ除去モデルを再利用する 4:09 プロセス全体を通して 4:11 自動的に 4:13 さまざまなタスクに焦点を当てており、私たちは知っています 4:15 ゼネラリストは専門家とはかけ離れている 4:18 すべてのタスクでのレベル 4:20 1 人のジェネラリストではなく専門家が取得する 4:23 はるかに良い結果なので、これが彼らの 4:25 なぜノイズ除去と呼ぶのか 4:28 専門家とその主な理由 4:30 品質とパフォーマンスの向上 4:32 残りの忠実さ 4:34 アーキテクチャは他のものとかなり似ています 4:36 最終結果をスケーリングするアプローチ 4:38 ハイを得るために他のモデルと 4:40 定義 最終イメージ イメージと 4:43 ビデオ合成フィールドはちょうど取得しています 4:45 最近クレイジーで、私たちは見ています 4:47 毎週出てくる印象的な結果 4:49 次のリリースがとても楽しみです 4:51 さまざまなアプローチを見るのが大好きです 4:53 両方の革新的な取り組み方で 4:55 問題とまた異なる 4:57 偉人がかつて言ったユースケース 5:01 あなたが好きであることを願っています 5:04 このアプローチの簡単な概要 5:06 いつもより少しレベルが高い 5:08 好きなようにやる ほとんどのパーツ 私はすでに 5:10 多数のビデオでカバーされ、変更されました 5:12 私はあなたを招待します 5:15 私の安定した拡散ビデオを見て学びましょう 5:17 拡散アプローチについてもう少し 5:19 nvidia の論文を読んで 5:21 この特定のアプローチの詳細 5:23 そしてその実装私はあなたに会います 5:26 来週は別の素晴らしい論文で 5:32 外国 5:36 【音楽】