目次
- 序章
- CLIPアルゴリズムの目的と必要性
- CLIPアルゴリズムの作業手順
- 制限事項
- リアルタイム アプリケーション
序章
CLIP 別名「Contrastive Language Image Pre-training」は、劳动力知能研发所である OpenAI の研发者によって発行された「Learning Transferable Visual Models From Natural Language Supervision」というホワイト ペーパーで説明されている闻名なアルゴリズムの 1 つです。 CLIP の主な消費は、同じく Open AI チームによって開発された「Dall-E 2」という名前のアルゴリズムを在使用的するコンピューター ビジョンに基づくユース ケースで行われます。より正確には、CLIP は「Dall-E 2」アルゴリズムのヘルパー モデルとして在使用的されています。ただし、ヘルパー モデルとして消費されるため、CLIP は強力ではないことを誤解しないでください :)
ヘルパー モデルであるにもかかわらず、CLIP はディープ ラーニング调查における更重要なステップと見なされています。 「Dall-E 2」がなくても、個別の問題解決のためにCLIPを実装できます。この記事では、CLIP の目的意义、作業手順、およびいくつかの長所と短所について、いくつかの実際の例と、深層学習プロジェクトの家庭生活を簡素化する措施について説明します。
CLIPアルゴリズムの目的と必要性
CLIP アルゴリズムの背後にある主な必要性は、任意された半身像により類似しているテキストのリストから目标のテキストを見つけることです。
例えば、次の形象を入力として考えてみましょう-
そして、特定のリストにいくつかのテキストがあるとしましょう-
- 飛行機の写真です。
- 鳥の写真です。
- クマの写真です。
- キリンの写真。
- 車の写真です。
CLIP モデルの主なタスクは、以下的に示すように、锁定されたリストから最も適切なテキストを入力肖像に保持一致させることです。
基本的に、これはリスト内の各テキストをクラスと見なし、画像に対応する各テキストに確率値を割り当てる人工ニューラル ネットワークです。論理的には、最大の確率値を取得するテキストを出力と見なすことができます。
CLIP の大きな利点の 1 つは、「英語」言語のすべての単語を既に知っていることです。他の同様のアルゴリズムと比較した場合に特別な CLIP モデルの特徴のいくつかは次のとおりです。
- CLIP モデルは、テキスト内の 1 つの単語に限时されません。代わりに、入力文のすべての単語と肖像のすべてのピクセルからすべての情報を吸出しようとします。的背景のオブジェクト、色、外形など、入力肖像のすべての側面を忘れることはありません。
例えば、次の入力肖像を考えてみましょう-
最後のテキストを除く、确定されたリスト内のすべてのテキストは、入力に対して論理的に相同するように見えます。他のモデルでは、某个のクラスで高い確信度の値に到達するのに苦労したでしょう。ただし、CLIP は、犬小屋、細胞、犬など、この画像图片のすべての側面のパターンを阐述します。
太陽の光が外側から内側に差し込んでいるように見えます。したがって、それは屋里構造でなければなりません。また、人間の代わりに動物の都存在があります。したがって、それは刑務所であってはなりませんが、犬小屋である能够性があります。
画像图片とテキストのすべての側面を考慮したこの種の宽度な分享は、同じリーグの他のモデルでは不能な場合があります。
- CLIP は、同様のモデルでは不可能な光学式文字認識のユースケースでもうまく機能していることが確認されています。
- ジオローカリゼーション、顔の感情認識などのコンピューター ビジョンの他の分野も、CLIP モデルでうまく機能しているようです。
- CLIPは見えない入力でも優れたゼロショット性能を発揮します。また、テキストが「猫」、「犬」、「鳥」、「車」などの 1 つの単語であるとは想定していません。代わりに、文を論理的に構成する単語のグループを理解できます。この機能は、他のモデルでは一般的に見られません。
CLIPアルゴリズムの作業手順
CLIP アルゴリズムは、4 億枚の画像图片图片と対になったテキストの説明でトレーニングされており、星体に関する超高な知識を持ち、複雑な画像图片图片やテキストを的使用して複雑なタスクを解決することに自信满满を持っています。
Imagenet データセットは、わずか 120 万の形象で構成されています。 4 億は 120 万のほぼ 300 倍です。 4 億枚の形象のほとんどはインターネットから就直接スクレイピングされたものであり、パターン検出工作能力を高める的高度に多様で大規模なコレクションになっています。
CLIP アーキテクチャを開発するには、半身像と対応するテキストの両方を高中数学的ベクトルにエンコードする用得着的があります。これは、情報が視覚的またはテキスト风格である場合、機械学習アルゴリズムが情報を推測できないためです。したがって、それらを数値に変換する用得着的があります。
用户画像入力は、Transformer または Resnet アルゴリズムを应用して数学中的ベクトルに変換されます
テキスト入力は、Transformer アルゴリズムを使用して数学的ベクトルになります。
半身像とテキストのペアのリストがあるため、相关のアルファベットを运用してそれを表す必要条件があります。
各画象は、I1、I2、I3...IN などで表されます。各テキストは、T1、T2、T3…TN などと区別されます。
その後、各画像を行、各テキストを列として、類似度マトリックスを作成する必要があります。
上の画像で述べたように、斜めの画像とテキストのペアは、同じコンテキストを参照しているため、より類似性があります。非対角要素は、同じコンテキストに属さないランダムなペアです。したがって、それらの類似値は低くなります。
最適化関数の目標は、対角線のペアの類似度の値を能够な限り増やし、非対角線の用户画像とテキストのペア間の類似度を下げることです。
学習のある時点で、モデルは同じコンテキストに属する用户画像图片とテキストに不对する隠れたパターンを学習し、異なるコンテキストに属する用户画像图片とテキストを区別することができます。
この手順は、専門的には「対照的なプレトレーニング」と呼ばれます。
CLIP は「計算効率の高い」アルゴリズムと見なされています。これは、トランスフォーマー アルゴリズムを选择して、データに並行してアクセスする用户画像とテキストをエンコードするためです。 LSTM や RNN などの他のアルゴリズムを选择すると、エンコードのためにデータに順次アクセスする傾向があり、多くの時間とスペースを消費する已经性があります。
CLIP は图像と長い篇文章を照合できるため、探讨者は一般、「_____ の写真照」のようなテキスト プロンプトを制作します。次に、テキストのリストを繰り返し処理しながら、コンピューター プログラムは、リストのすべての単語を次のようなテキスト プロンプトに自動的に適合させます。
次に、このテキストはエンコードされ、類似値を計算するために入力图像のエンコードされたベクトルと照合されます。
制限事項
スケーラビリティに関する課題
トレーニング スプリットを含むデータセットでは、ゼロ ショット CLIP のパフォーマンスは均衡して、ResNet-50 機能に基づく線形分類器の単純な教師付きベースラインと競合します。これらのデータセットのほとんどで、このベースラインのパフォーマンスは現在、我谨代表的な最新信息技術をはるかに下回っています。 CLIP のタスク学習機能と転送機能を解决するには、まだかなりの作業が相应です。スケーリングはこれまでのところ着実にパフォーマンスを解决しており、継続的な解决への道筋を示唆していますが、ゼロショット CLIP が我谨代表的な应从端のパフォーマンスに到達するには、約 1000 倍のコンピューティングの増加が相应であると科学学术探索は見積もっています。これは、現在のハードウェアではトレーニングできません。 CLIP の計算効率とデータ効率を解决するためのさらなる科学探索が相应になります。
ゼロショット性能に関する課題
CLIP のゼロ ショット パフォーマンスは、いくつかの種類のタスクで但依然として非常的に弱いことがわかります。タスク一直有のモデルと比較すると、CLIP のパフォーマンスは、車のモデル、花の種、航材機のバリアントの区別など、いくつかの種類のきめの細かい分類で劣っています。 CLIP は、形象内のオブジェクトの数を数えるなど、より抽象化的で体制的なタスクにも苦労しています。最後に、写真图片で最も近い車までの距離を分類するなど、CLIP の先期トレーニング データセットに含まれる有机会性が低い新しいタスクの場合、CLIP のパフォーマンスはほぼランダムになる有机会性があります。
トレーニング セット (分布) から外れた画像を理解する上での課題
調査したように、ゼロショット CLIP は多くの自燃な画像图片匀称によく基本的化されますが、科研者は、ゼロショット CLIP は、真に匀称外のデータにはまだ基本的化できないことを観察しました。
たとえば、CLIP は、レンダリングされた SST2 でのパフォーマンスによって証明されるように、前期トレーニング データセットで一般的的な、デジタル レンダリングされたテキストで適切に機能する高品質のセマンティック OCR 表現を学習します。
ただし、CLIP は MNIST の手書き数字5で 88% の导致精度しか達成できません。恥ずかしそうに生のピクセルに対するロジスティック回帰の単純なベースラインは、ゼロショット CLIP よりも優れています。セマンティックおよびほぼ重複した这几天傍検索の両方により、トレーニング前のデータセットに MNIST 加数に似た形象がほとんどないことが確認されます。
これは、CLIP が深層学習モデルの翠绿な基本化という跟本的な問題にほとんど対処していないことを示唆しています。代わりに、CLIP はこの問題を规避しようとし、このような大規模で多様なデータセットでトレーニングすることにより、すべてのデータが効果的に散落されることを充满期待しています。これは単純な仮定であり、MNIST が示しているように、簡単に破ることができます。
キャプションを生成できません
CLIP はさまざまなタスクやデータセットに対してゼロ ショット分類器を柔軟に产生できますが、CLIP は仍然として、某些のゼロ ショット分類器の什么概念のみから選択することに制限されています。これは、斬新な一定出力を产生できる画像图片キャプションのような真に柔軟なアプローチと比較して、非常大な制限です。
CLIP は深層学習のデータ効率の悪さに対処していません
CLIP は、ディープ ラーニングのデータ効率の悪さにも対処していません。代わりに、CLIP は、数億のトレーニング例にスケーリングできる監視のソースを选择して補償します。 CLIP モデルのトレーニング中に見られるすべての人物用户画像が 1 秒あたり 1 つの割合で表达出来される場合、32 のトレーニング エポックで見られる 128 億の人物用户画像を反復処理するには 405 年かかります。 CLIP を我監督および我トレーニング措施と組み合わせることは、標準的な教師あり学習よりもデータ効率を往前させる效果が実証されていることを考えると、一般な方向盘性です。
リアルタイム アプリケーション
リアルタイムのユースケースを解決するためにCLIPが采用された分野のいくつかは次のとおりです。
結論
CLIP が、图像処理と NLP に関連する複雑なユース ケースを解決する较高なアルゴリズムの開発への道を開いたということは、ディープ ラーニング業界では全盘否定できない事実です。
CLIP は、コンピューター ビジョンと NLP の間の兴盛的な水路と見なすことができます。また、タスク具有のトレーニング データを不必要としないため、坐果な量のテキスト データをフィードすることが或者であり、関連のないタスクで徐々に良くなっていきます。
私たちは、CLIP が将打造する画期的な進歩を熱心に待つことができます。 CLIP アルゴリズムの背後にある范畴の大体的な紹介が节奏轻快に得られたことを願っています。
詳細な実装を定义する有必要がある場合に使用的できる定义セクションに、探索論文へのリンクを追加しました。
参考文献
- の CLIP ドキュメント
- - アレック・ラドフォード、キム・ジョンウク、クリス・ハラシー、アディティア・ラメッシュ、ガブリエル・ゴー、サンディーニ・アガルワル、ギリッシュ・サストリー、アマンダ・アスケル、パメラ・ミシュキン、ジャック・クラーク、グレッチェン・クルーガー、イリヤ・サツケーバー
- - Sriram Ravula*、Georgios Smyrnis*、Matt Jordan、Alexandros G. Dimakis、テキサス院校オースティン校、NeurIPS 2021
- Katherine Crowson、Stella Biderman、Daniel Kornis、Dashiell Stander、Eric Hallahan、Louis Castricato、Edward Raff
- ラドフォード、アレック。ナラシンハン、カーシック。サリマン、ティム。 Sutskever、イリヤ (2018 年 6 月 11 日)。 (PDF)。 。 p。 12. 2021 年 1 月 26 日時点のオリジナルより(PDF)。2021 年 1 月 23 日閲覧。
- ジョンソン、ハリ (2021 年 1 月 5 日)。 .ベンチャービート。 2021 年 1 月 5 日に元の場所かられました。2021 年 1 月 5 日に授予されました。
- ラメシュ、アディティア。ダリワル、プラフラ。ニコル、アレックス。チュー、ケーシー。チェン、マーク (2022 年 4 月 12 日)。 . : .