近年来,大型语言模型 (LLM) 的出现为消费者的日常生活带来了重大变化。个人现在可以通过这些强大的语言工具执行各种任务,例如检索信息、撰写文本和完善文档。LLM 与日常生活的融合显著提高了工作和个人生活的生产力。
然而,我们必须认识到,并非所有消费者都能平等地享受到这些好处。事实上,世界上相当多使用非主流语言的人无法与法学硕士互动,这主要是因为针对这些特定语言设计的语言模型不足。目前世界上有 7,000 种语言,而最大的多语言法学硕士仅使用不到 100 种语言进行训练,因此许多语言和人完全被抛在后面。
支持非英语语言需要高质量、丰富的数据源,而这些数据源很难找到和访问。而且这些模型不仅表现较差,而且据报告
针对低资源语言 (LRL) 定制的 LLM 的性能受到几个关键挑战的阻碍。
首先,许多 LLM 的基础模型依赖于从互联网上抓取的数据,而这些数据往往缺乏对 LRL 的全面覆盖。下图显示了互联网上按语言组划分的数据分布。虽然更常见的语言有数百 GB 的数据可用于训练模型,但图表尾部的语言只有数百兆字节范围内的数据可用。
由于许多 LRL 缺乏经过微调的指令数据集,这一限制进一步加剧。指令数据集由问题集和理想答案组成,是 LLM 训练的关键部分 - 在本例中,是特定语言的 LLM 训练。这就是模型学习遵循指令的方式,如果没有这一资产,模型只能预测序列中的下一个单词,而不能帮助人类解决复杂的问题和解决问题。
上述情况是由于 LLM 是按顺序进行训练的。第一步是通过阅读大量未注释的文本来学习语言,这使模型能够预测序列中的下一个世界。第二步是定制这种预测行为以遵循特定指令,例如回答问题、撰写摘要或提取数据。这就是为什么微调数据集如此重要,因为它们的质量将进一步决定 LLM 协助用户完成所需任务的能力。
在下一节中,我们将介绍一种为斯瓦希里语创建高质量数据集的方法,可用于微调该语言的 LLM。该方法可应用于任何低资源语言。
斯瓦希里语是 14 个非洲国家超过 2 亿人使用的语言,也是坦桑尼亚、肯尼亚、乌干达和刚果民主共和国的官方语言。它属于资源匮乏的语言,是没有现成的 LLM 微调教学数据集的语言的一个例子。
一般来说,有三种方法可以为一种语言创建微调数据集。第一种方法是由评估人员(在这种情况下是语言专家)直接生成数据集,这需要用目标语言开发问题和理想答案。这对于斯瓦希里语来说可能具有挑战性,因为评估人员需要是高级专家,而且这个过程通常很昂贵。
另一个可能的解决方案是将现有的英语教学数据集翻译成斯瓦希里语。这可以由会说斯瓦希里语和英语的翻译人员来完成,但这也需要大量时间和资源。可以使用自动翻译器,但这通常会导致翻译结果不足或质量较差。
另一种解决方案将自动翻译与人工验证相结合,提供了一种经济高效且可扩展的方法,这对于确保 LRL 模型准确、反映当地习俗和规范以及对使用它们的社区有用至关重要。这种方法利用目前最好的斯瓦希里语到英语的自动翻译器,然后请斯瓦希里语母语人士过滤掉不符合质量标准的示例。
最近开展了一个开发项目,他们从 15,000 个原始数据集中创建了一个 11,000 个斯瓦希里语微调数据集
然后利用数据集来改进
随着开发人员和组织努力创建更具包容性的 AI 生态系统,评估变得更加重要,人类参与 LLM 培训也同样重要。Cohere 最近推出了