1,594 讀數

人工智能时代已经一去不复返

经过 Shrinivasan Sankar5m2024/07/13

太長; 讀書

过去十年，人工智能确实发生了变化——从婴儿变成了野兽。我在这里快速总结了变化

本周，我将稍微偏离我平时解释人工智能概念或编码教程的文章。是的，这是一次哲学的、怀旧的旅程，我有幸一路走来。

很早就进入一个领域的人拥有的罕见特权之一是，你可以亲眼看到这个领域像婴儿一样成长。十年前，当我开始攻读计算机视觉硕士学位时，我的一位计算机科学毕业生朋友问道：“计算机视觉到底是什么意思？”如今，这个问题已经不是什么大问题了，因为互联网上流传着足够多的计算机视觉任务视频，比如分割（见下文）。

图像分割的结果——这是十年前深度学习兴起时遍布互联网的一项计算机视觉任务。

那么，过去十年发生了什么变化？事物都有两面性。而且，增长既有好处也有坏处。

封闭社区——小即是美

据说，冰岛人之间都有某种血缘关系，如果某人的血缘关系超越了你的二代表兄妹，那么你就可以嫁给他。

同样，人工智能社区也曾是紧密联系的。那种紧密联系的社区感觉已经一去不复返了。与任何研究人员交流时，你通常都知道他们属于哪个群体。当你阅读并欣赏他们对该领域的影响时，你会在某种程度上理解并尊重他们的工作。

随着该领域不断蓬勃发展，甚至很难说你知道某人的工作，忘记他们。有太多新名字和新分支，甚至很难跟踪。

再举一个例子，PyTorch 还处于起步阶段。Slack 社区规模很小，但很有帮助，PyTorch 的开发人员直接回答了我们关于使用该库的问题。这鼓励我们更多地了解它。如今，该框架已经非常成熟，并且出现了 LangChain 和 Llamaindex 等新框架。与 AI 的其他分支相比，人们的注意力都集中在 LLM 上。

硬件豪华

过去，我们习惯在单个 GPU 上训练深度神经网络，以创造一些有影响力的东西。在 CVPR、NeurIPS 和 ICML 等顶级会议上发表的大多数作品都可以在一台 8 GB GPU 机器上进行训练和复制，在极少数情况下，最坏的情况下，也可以在一台配备 4 个 GPU 的机器上进行训练和复制。

特斯拉用于 AI 的最新 GPU 集群图片（来源：）

我清楚地记得，当时我买了一个只有 8 GB RAM 的单 GPU 来参加 Kaggle 比赛，当时是多么高兴。一些 Kaggle 大师的获奖解决方案就是在家里的一台 GPU 机器上训练深度学习模型的。

当今的 AI 世界需要 GPU 集群来训练基础模型。即使对这些模型进行微调也需要 24GB 的 GPU，这些 GPU 非常强大且价格昂贵，只有拥有“AI 预算”的企业才能负担得起。

技能需求

那时，该领域还没有人工智能的包装。招聘人员被赋予了一项陌生的任务，即寻找“深度学习”工程师。招聘人员和初创公司创始人通过各种渠道寻找深度学习专家。在 LinkedIn 上定期收到邀请我加入他们团队担任深度学习工程师的消息是常态。

仅 5 天前发布的机器学习工程师招聘广告截图就收到了 100 多名申请者！

目前的情况是，在 LinkedIn 上，“机器学习工程师”的招聘广告发布后一天内就收到了 100 多份申请。如果你觉得难以置信，请看一下上面的截图。问题仍然是申请人的技能与职位要求有多大关系。但市场很快就会饱和技能！

子技能——运营和架构

增长意味着更多的多样性和机会。ML-ops、LLM-ops 和 ML-architects 等新角色不断涌现。微型单模型文件 (< 1 GB) 的时代已经一去不复返。模型在大小和功能上的增长催生了部署和维护它们的新技能。

此外，使用 MLFLow 等工具可以自动完成模型的训练和部署。用于训练的云基础设施需要足够复杂。所有这些都催生了具有专门职责的全职职位。

再见机器学习工程师，你好人工智能工程师

在 AI 领域工作最有趣的是编写模型架构，并使用我们内部的数据从头开始训练模型。虽然这需要大量预处理数据，但训练模型和可视化训练结果曾经非常有趣。过去有/现在仍然有一个专门的职位，称为机器学习 (ML) 工程师。

科技巨头开发基础模型正在重新定义这一角色。随着模型规模的扩大，培训预算也变得非常庞大。事实上，Meta 培训 LLama 2 模型的成本为 2000 万美元。显然，试图采用人工智能的初创公司或组织不想浪费这笔钱。现在已经确定，基础模型是科技巨头开发的，但 Mistral 和 Anthropic 等一些公司除外。

遗憾的是，这意味着 ML 工程师的角色正在转变为 AI 工程师的角色。ML 工程师的角色主要是开发模型架构、进行训练和评估。新的 AI 工程师角色主要涉及开发 API 或调用科技巨头（OpenAI、Meta 和 Google）提供的 API 来提示基础模型。

在极少数情况下，这需要对这些基础模型进行微调。但公司可以选择构建 RAG 管道或“按原样”使用基础模型，而无需对其进行微调。