几年后,问过过 Google Assistant 的简洁明了的疑问(不记不起来是怎样的疑问了),它做出了的不有关的结果。我又问新一遍,有了各种的结果。也不得不手机输入我的疑问。
那时,我得出结论,语音识别软件不是为非洲人设计的。
基于各人转型和碰到,我的英语怎么说口语英语和方音有一定的提高了,但那我也也可以得出,无数话音辨别的系统软件应用步骤和系统软件真正开始变得更比较适合非州人(方音这方面)。然后,真相是,非州人的话音辨别的仍有太长的路要走。
我仍然想知道为什么我们没有很多可以用主要非洲当地语言提示的应用程序,其中有超过 1000 万的母语人士。因此,我决定与一位现场语言学家和学术研究人员就非洲语境和语言中人工智能和自然语言处理的现状进行交谈。
Q:您好,请介绍一下您自己,作为一名语言学家和 NLP AI 爱好者,您的兴趣是什么?
嗨,我是 Olanrewaju Samuel。
我对算音韵学、统计资料集打造、引用和控制、天然话述外理和范围话述学感动手能力。
我的主要导师是.最近,我对蛋白质语言学、蛋白质折叠和数学语言学感到非常高兴。我非常尊敬的一位学者被命名为.他的作品影响了我的研究,我将我的专业知识用于深度学习 NLP 和机器人技术。我目前的研究领域是围绕蛋白质折叠以及量子物理学、量子化学和语言学之间的相互关系。
我我我的设计要求并不按照严格,但我现下专业性创新是进步方向我的专业性基本常识和经历我的将性。并非是考虑到资格认证本质上,却是考虑到个人进步方向。但是,我真正合作英语进步方向她,还也试着走过里结束我的的课程并再做另一个一件事。
问:您在该领域发表过哪些论文?
我曾与不同的伟大人物合作,成为不同出版物的一部分。我最近的一篇语言学论文是“”首先,我在 NLP 方面的大部分特色出版物都来自 Masakhane NLP 小组。
这包括:
问:你目前在卢旺达基加利的工作是什么?
我稍后硕士生导师每门名字叫做“文学语音表达方式历史学家的很自燃文学语音表达方式除理”的内容。总体上,我们在卢旺达基加利的非洲地区语境中硕士生导师文学语音表达方式学很自燃文学语音表达方式步骤。
我的任何是具备和亲身演示为不同的的 NLP 任何营造、批注、策划书、探讨和上传多言语表达方式数剧集的轻微本质区别,这类营造玄幻言语表达方式型号 (LLM)。玄幻言语表达方式型号寓意着使很多言语表达方式设备软件在单独某个流中自动运行。公司试着借助侧向化来保持这些,这只是是一种用形式 或网站模板练 AI 设备软件的措施。该形式 很快称得上其其他软件程度的基本知识。
出了聊天对话式 AI 本身,你们已经在要考虑在产生 AI 业务领域做一点急于义的这件事,这仍旧是类别经过几率比等数学思维计算出排布数剧和产生效果的功能的侧化的有局部。
Q:能否谈谈AI/NLP在非洲背景下的现状和应用?
NLP 已在非洲的许多情况下使用,其中一些包括机器人技术和对话式 AI。对话式人工智能的一个典型例子是拉各斯的Alaye,它旨在帮助自然游客(来自其他州的尼日利亚人)在拉各斯——一个特大城市和州——找到他们的路,并识别餐馆、俱乐部、商店等地点,甚至使用流行的尼日利亚洋泾浜 (Naija pidgin) 的交通情况。
企业无法发展都可以被培训来来执行重任的 AI 模型工具——一较为复杂的系統或流程被变小为十分简单的下令空格符串(建模制作)。这就会现有在刚果的 NLP 在刷卡机人技術中的实际上选用。
当今,在文学语言学学中,劳动力智力的选用注意是在电脑全自动地方,其实有文学语言学型号被侵入到各个的劳动力智力选用程序流程中,列如 设备和打招呼设备人等。
我们有一些人在做非常棒的事情,比如, , (), 和.
人工智能应用在非洲语言背景下的挑战是什么
非洲在寻找 AI 行业的全球相关性方面面临的主要挑战是语言资源(数据)的限制。非洲是多语言的,因此,有为世界上正在进行的各种人工智能项目提供所需的大量数据。例如,我们在非洲拥有的最大语言数据集大约有 2000 小时,但是甚至更小,与拥有数十亿小时音频数据的英语相比,这是非常荒谬的。
如若 AI 会造成所以的事情,那末它也会造成在高的资源语言表达表达方式上。即便是它造成在非洲国家语言表达表达方式上,小编也不存在为二者可以提供的动力的控制系统。之所以,小编迟缓了,由于小编不存在十分的物品可以用到,另一方面这样难题近乎是小编缺失表格的一辈子难题。
以尼日利亚为例,它有200多个部落,但只有三种语言是最流行的。与约鲁巴语、伊博语和豪萨语不同,较小的部落和语言的数据很少(低资源数据)。这就是我们正在努力做的,从低资源语言中收集数据并将其用于可编程语音识别,包括语音转文本 (STT) 和文本转语音 (TTS)。
AI 和 NLP 能力人士不注资加盟是毕竟自己不因为它,某些自己因为没能大量的数值来研究自己的注资加盟收益率。所以说,你们都我希望你们都现的楼顶工业能被选为冲伤口。
虽然,非州在语气人员自动化和物种多样性语气清理的欧洲市扬中被边部化,由于最受追捧的关注游戏引擎是全球和西方文化(特别是是法国)。虽然,针对于让公司在里的某些名作,让公司是不能由于冠名费而将孩子们归功于非州人。
Q:非洲NLP应用进展最快的非洲国家有哪些?
印象最明显的南美洲国家涉及到土耳其、肯尼亚和卢旺达——某些人太瘋狂了!尼日利亚也在成功,但基本都数应有探索世界这些范围的人并不会是在搜寻经济发展,只是在搜寻学术研究职业技能证书的够满足。自己重要自己的编程语音,但自己不会是用二者创造出一个数据显示集。当自己应有项目投资于文本文档以另存和保护措施编程语音时,自己宁肯将自己的编程语音作一款遗产地来安全使用或私有化。
问:那么,从商业角度来看,非洲在非洲语言的 NLP 商业化中处于什么位置?
老实巴交说,除过卖数据显示集的生感到意外,什么都没有样的。然而愈来愈,哪几个向该项目财政进行资金量的人也支付了有许多,但与较早财政进行的资金优于,直播代销商人拿到的资金如此少。
问:这让我想到了道德问题。收集和出售人们的数据有什么道德价值吗?为这些项目获得大量资金而这些语言的主要来源获得的金额非常少(有时为零)是否公平?这些数据或来源是否有保护措施?
没有禁止数据收集的法律。最重要的是数据是自愿从母语人士那里收集的,他们付出的时间会得到回报。但是,所有活动都应与非洲联盟的 此外,涉及数据收集的语言学研究通常需要征得母语人士或受访者的同意。
关羽你的第二种个情况,相对 终极满足你这一行业领域各种相关工作员的财政资金额度,每人都无能为力。最重要要的是一大多数人都甘心地投进到你这一工程中。朋友被告知用户会被收录和额外奖励,主要用户对你这一费用并不会意见和建议,就并不会“不平等”。
Q:如果有人想按现状加入NLP和语言培训,你有什么推荐?
真是一家广阔无垠的范围。无数人都已经 出现依据并罚于项目建设步骤,但当人们仍有许多的方位是凑和的依据。我向其他人分享的是参与的文学语言动态数据统计统计持续和分折。当人们可以对动态数据统计统计集开始动态数据统计统计分折,就好比当人们可以动态数据统计统计如此。
由此,我意见与建议加如或甘愿加如排忧解难的数值带动组合;甘愿积极参与数值回收和具体分析、学校名称法等。
最后的想法
非洲地区国家地区在视频语音识別pc软件中再接着以不一样的 AI 和 NLP 下令或显示消极怠工存在。当非洲地区国家地区人开始建造参数集消息队列布他俩的语言表达并再接着投入资金于文本时,详述将觉得不一样。或许,您会对出于非洲地区国家地区的一下对于 AI 和 NLP 使用的自主创新城市印象记忆犹新。
在我的研究和跟踪线索中,我看到机器人被提示使用当地的非洲语言,我们有更多适合不同非洲环境(旅游、探索)的本地聊天机器人,一些语言被用于家用电器的物联网。然而,考虑到目前世界上正在发生的大规模人工智能和自然语言处理革命,我认为我们应该做得更多。目前,我们有更多为了文本分类比我们的音频数据。然而,我们需要更多的音频和文本数据集。数据是新货币,我真诚地希望非洲人在外国人做错工作之前就这样做(哦,是的,我以前读过一本出版的书中报道的虚假历史数据;这就是不正确的文件对我们的影响)。