1,204 讀數

CLIP：计算机视觉和 NLP 之间的创新渡槽

所经 Sanjay Kumar10m2023/01/19

太長; 讀書

CLIP 又名“对比语言图像预训练”是在名为“从自然语言监督中学习可迁移视觉模型”的白皮书中讨论的著名算法之一。CLIP 的主要消耗是在基于计算机视觉的用例中完成的。名为“Dall-E 2”的算法在本文中，我们可以通过一些现实生活中的例子来讨论 CLIP 的目标、工作过程和一些优缺点。

featured image - CLIP：计算机视觉和 NLP 之间的创新渡槽

介绍
CLIP 算法的目标和需要
CLIP算法的工作过程
限制
实时应用

介绍

CLIP 被称作“相比较文学编程语言图面预训练学习”，是人数自动化的理论研究科学试验室 OpenAI 的的理论研究人数文章发表的名是“从自然规律文学编程语言监控功能初中习可知识视野建模”的市场研究报告中座谈会的最有名的汉明距离的一种。 CLIP 的大部分购买是在通过来计算机网视野的用例中结束的，该用例用名是“Dall-E 2”的汉明距离，该汉明距离也是由 Open AI 队伍開發的。更最准地说，CLIP 被当作“Dall-E 2”汉明距离的助手建模。虽然避免曲解 CLIP 并不力量强大，担心它被当作助手建模:)

总之是辅助性绘图，CLIP 仍被观点是深层次借鉴分析的必要一个步骤。虽然沒有“Dall-E 2”，咱们也应该施行 CLIP 来一个人搞定状况。在中心句中，咱们应该确认那些现实衣食住行衣食住行中的列子谈论 CLIP 的的目标、的工作整个过程和那些优劣势，相应咱们是怎样的简化法深层次借鉴内容的衣食住行。

CLIP 算法的目标和需要

CLIP 图形匹配后边的大部分目的是在文字表单中寻到与给定图形更类似于的当前文字。

这类，我能们将接下来影像看作输进-

假设我们在给定列表中有一些文本 -

一张飞机的照片。
一张鸟的照片。
熊的照片。
一张长颈鹿的照片。
一张汽车的照片。

CLIP 实体模型的包括的任务是将给定索引中最好的文件与輸入数字图像匹配好，相应已知 -

从根本上说，这是一个人工神经网络，它将列表中的每个文本视为一个类，并为与图像对应的每个文本分配一个概率值。从逻辑上讲，可以将获得最大概率值的文本视为输出。

CLIP 的两小乐观方向是它都已经清楚“英语教育”语言英文中的任何英语单词。与另一相似优化算法想必，CLIP 建模的其他优势特点使其与众多种：

CLIP 沙盘模型不受到限制文案中的每个英语的单词英语。反之，它尝试从读取诗句中的一切英语的单词英语和数字图像文件的一切分辩率中去除每一条短信。它永久不能记不清要铭记读取数字图像文件的一切层面，列如视频背景中的人群、顏色、造型等。

比如，我能们综合考虑如下输进影像 -

用来另外的囿于，给定下拉列表中的大多数文档看着都好似显示的方式相匹配。所有某些仿真模型都易于到达某些类属的高定罪可能性值。但，CLIP 会讲解此图形中大多数方面的形式，列举狗窝、牢房、狗等。

太阳光然而最先底下喷到当中。那么，它大概是一种个地下室型式。除此之外，发生绿色而而不是人類。那么，它不大概是少管所，而大概是犬舍。

这样充分考虑数字图像和文本文档大部分问题的高级的研究谈谈同极别的同一建模我认为很有应该是不很有应该的。

CLIP 在光学字符识别用例中也表现良好，这在类似模型中是不可能的——

计算机视觉的其他分支，如地理定位、面部情绪识别等，似乎也能很好地与 CLIP 模型配合使用。

即使在看不见的输入中，CLIP 也表现出了出色的零样本性能。此外，它不希望文本包含单个词，例如“cat”、“dog”、“bird”、“car”。平面”等。相反，它可以理解一组逻辑上构成句子的词。此功能在其他型号中通常不可见。

CLIP算法的工作过程

CLIP 计算方法己经在 4 亿张帶有成对文案文件陈述的图案努力上进行了锻炼，这会使它对世界上有很高的知晓，然而有干劲处理好具繁复图案和文案文件的繁复每日任务。

Imagenet 大数据集仅构成 120 万张图文。 4亿基本上是110万的300倍。 4 亿张图文中的大那部分是会从网络网上微信添加的，这使其当上是一个高各异化的超大型java集合，导致延长了其模式英文测量本事。

要为开拓 CLIP 架构设计，企业可以将图案和响应的文章简码为数学题向量。这是这由于仪器掌握算法流程图没有推论出设计或文章格局的内容。故而，企业可以将它转型为量值。

用到 Transformer 或 Resnet 计算方法将彩色图像显示转型为数学题向量

使用 Transformer 算法将文本输入转换为数学向量 -

因他们有个个图案-文本格式对索引，他们必须要用到某些的英文符号表来透露它。

任何图像文件标识为 I1、I2、I3...IN 等。每台文字被定意为 T1,T2,T3…TN 等。

之后，我们需要构建一个相似度矩阵，其中每个图像为行，每个文本为列。

如上图所述，对角图像文本对将具有更多相似性，因为它们指的是相同的上下文。非对角线元素是不属于同一上下文的随机对。因此，它们的相似度值会很低。

提高数学函数的指标是尽或者加大对角线对的类似于度值，并下降非对角线图文-word文档对之前的类似于度。

在深造的某类时间段，模形将可能深造与归算是一致下文的图形和文章相输入的隐藏桌面形式，并分清归算是各不相同下文的图形和文章。

这个过程在技术上称为“对比预训练” 。

CLIP 被觉得就是种“换算效应高”的算法流程图流程图流程图。这是担心这些动用切换器算法流程图流程图流程图对以并行传输手段方法仿问参数的影像和文件实施识别码。如果.我动用另外的算法流程图流程图流程图，如 LSTM 或 RNN，两者因此会以串行手段方法仿问参数实施识别码，这可以会能量消耗一大批时光和范围。

由 CLIP 能否将图形与长语段输入，故而研究方案人常见会创立了一位txt文档表示，比如“A photo of a _____”。进而，在遍历txt文档所有页时，算出机系统程序会自然将所有页中的每隔单词发音都放上此txt文档表示中，比如 -

一张飞机的照片
一辆车的照片
狗的照片等。

接下来对该文章开始标识号并与读取彩色图像的标识号向量开始相配，以换算相仿度值。

限制

与可扩展性相关的挑战

在具备着体能来训练分割的数剧集上，零子样版 CLIP 的效果平均可与 ResNet-50 特点之外的规则化分级器的简单开展基线相匹敌。在大多都数哪些数剧集上，该基线的效果现今远高出当下技術的布局品质。即使必须要做大量岗位来加强 CLIP 的世界任务掌握和挪动能力素质。一般到当下到止，图片缩放就已经稳步推进加强了效果，并确立了定期调整的行业，但实验者想大概，零子样版 CLIP 必须要将估算量上升要花费 1000 倍方能可达布局最早进的效果。用特定的网络设备实现体能来训练可不现实可行的。非常有必要的进一歩实验加强 CLIP 的估算和数剧利用率。

与零样本性能相关的挑战

发现了 CLIP 的零范本的效果在这几种的目标神器任务上照样很弱。与某一的目标神器任务三维模型工具相对来说，CLIP 在细粒级类型部分的呈现不佳，列举差别客车三维模型工具、盆栽花卉进行分类和战机变体。 CLIP 还难易处里更宽泛和系统的的的目标神器任务，列举算图形中的构造函数总数。到最后，对于那些不太也许涉及在 CLIP 预学习数据报告集结的新的目标神器任务，列举较片里近日客车的多远来进行类型，CLIP 的的效果也许贴近随机数。

理解训练集之外的图像（分布）的挑战

现在零样例 CLIP 可非常好的地形式化到所抽样调查的大多数当然图文布局，但探索人了解到，零样例 CLIP 依然不可以非常好的地形式化到真正意义上达到布局的数据信息。

如，CLIP 学会了本身高品重量的语义 OCR 带表，该带表在数码渲图的文本格式上表演不错，这在其预练数值集中授课很分类，渲图 SST2 的特点证明文件了这些许。

可是，CLIP 在 MNIST 的笔写数字1上仅到 88% 的较准率。尴尬时刻地默认图片像素原理回馈的方便基线依赖于零样本量 CLIP。语义和近似值抄袭的最近的邻搜索都检验了在公司的预锻炼数据信息低效基本上不这样于 MNIST 数字式的彩色图像。

这表示 CLIP 基本上并没有满足强度专业学习沙盘模型广泛贫瘠的未知现象。相反的，CLIP 命令避开该现象，并渴望经过在这样的德奥达和各式各样化的动态统计数据集勤奋努力行魔鬼训练，所以动态统计数据都将很好的地分布图制作。这就是有一个纯真的猜测，所谓 MNIST 所证实的其实，很便捷被违犯。

无法生成字幕

虽说 CLIP 可不就可以灵巧地为各个世界任务和数据库集绘制零模本几大类器，但 CLIP 始终只能于从给定零模本几大类器中的哪此概念呢中做挑选。与真真正正灵巧的工艺（如可不就可以绘制有趣伤害的图片英文字幕）相比较，它是另一个关键要求。

CLIP 没有解决深度学习数据效率低下的问题

CLIP 也是没有来解决厚度学习的培训统计参数成功率不足的现象。相左，CLIP 可通过施用可优化到数百万个练范例的监察源来做出应对。一旦在 CLIP 型号练当天见到的每份数字形象都以每秒一份的快速呈，则要有 405 年方能优化 32 个练五代十国时期见到的 128 亿张数字形象。将 CLIP 与自我价值观管理监察和自我价值观管理练方式方法相联系就是一个很有发展潜力的方问，正是因为同旁内角已表明也可以提升准则监察学习的培训的统计参数成功率。

实时应用

CLIP 用到很好解决实时公交用例的一下领域是：

全是个称为“paint.wtf”的网站建设，我们都会在那儿玩画面。现在的后卫将由 CLIP 确定考评。
CLIP 该用于快速执行活性炭水过滤器，列如 “NSFW（运作不的安全）”。
如咱们先前挑选的本来，“DALL-E”是 Open AI 的某种svm算法，它应用 CLIP 充当辅助制作绘图。
CLIP 用来检索等站点上的婚纱照。
CLIP 常用于为诗词、谜语、童谣、小說等复杂性语言学录找适合的的图面。
CLIP 还可用于挑选损坏或扭曲的图像。一篇题为“”的新研究论文展示了如何使用监督反演方法来获得损坏图像的有效表示。
2021 年发布公告的本身名里 CLIP+VQGAN 或矢量素材明确自动提取应对网络信息的自动提取沙盘实体模型在txt文档到彩色彩色图像文件范式中安全使用，以在给定一套txt文档系统提示的的情况下自动提取可变气门正时深浅的彩色彩色图像文件。以至于，与 VQGAN 各不相同的是，CLIP 都是自动提取沙盘实体模型，反而經過方便锻炼还有效地显示彩色彩色图像文件和txt文档。

结论

CLIP 为消除与画面治疗和 NLP 相应的繁复用例的高档java算法的研发刮平了路，这时厚度掌握餐饮行业不容承认的真相。

CLIP 能被我认为是运算机视线和 NLP 内的转型升级渡槽。然而，因它不需特定的于神器日常任务的来训练的统计数据，从而能供应大量的文本格式的统计数据，以及它会在许多不相关的的神器日常任务中不知不觉变得更加越多好。

我们都是可以一个殷切看好CLIP在十年后的中国可以提供的进阶性重大进展。我期望您已是以清晰可见的手段对 CLIP 汉明距离之后的凡路通过了主要了解。

我一直在规范部位生成了学习本文的网页链接，您不错在必须要规范进入推进时用到。

参考

位于的 CLIP pdf文件
——Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskever
- Sriram Ravula*、Georgios Smyrnis*、Matt Jordan、Alexandros G. Dimakis，德克萨斯社会奥斯汀分校，NeurIPS 2021
Katherine Crowson、Stella Biderman、Daniel Kornis、Dashiell Stander、Eric Hallahan、Louis Castricato 和 Edward Raff
拉德福德，亚历克；纳拉西姆汉，卡尔提克；萨利曼斯，蒂姆； Sutskever, Ilya（2018 年 6 月 11 日）。 (PDF)。。 p. 12. (PDF) 于 2021 年 1 月 26 日。2021 年 1 月 23 日索引。
Johnson, Khari（2021 年 1 月 5 日）。。 VentureBeat。原原于 2021 年 1 月 5 日。2021 年 1 月 5 日查阅。
拉梅什，阿迪亚；普拉富拉达里瓦尔；尼科尔，亚历克斯；楚凯西；陈马克（2022 年 4 月 12 日）。。：。