×
语言研究

日产45亿词!“地表最强语言模型”GPT-3已落地

智东西(公众号:zhidxcom)

编译 | 屈望苗

编辑 | 江心白

智东西4月3日消息,据The Verge报道,OpenAI最近宣布,其人工智能文本生成器GPT-3现已被数万开发者用于300多个不同的应用程序,每天输出45亿词之多。

报道称,虽然GPT-3生成的大部分文本都很生涩,但如此大的输出量也反映出,AI文本生成技术的规模、影响和商业潜力正在不断增长。

一、约2000亿个单词的训练,让机器“开口说话”

GPT-3的全称叫生成预训练转换器-3 (Generative Pretrained Transformer-3),这套强大的“大型语言模型”于2020年6月问世,训练了大约2000亿个单词,估计花费了数千万美元。

目前,文本生成是机器学习的一大趋势。人工智能系统从互联网上抓取大量的单词进行学习,并根据各种提示生成文本。学习完成后,机器就可以实现一系列功能,比如创作小说、编写潦草的代码,以及让用户对话历史人物等。

二、众多公司申请使用GPT-3通用API以构建服务

获取GPT-3底层代码是OpenAI的一项商业服务。GPT-3与微软签订了独家协议,允许微软独家访问GPT-3程序的底层代码。

不过,任何公司都可以申请使用GPT-3的通用API,并在此基础上构建服务。目前已经有数百家公司这样做了。

美国一家名为Viable的客户反馈分析公司采用了GPT-3,从调查、服务台票、实时聊天记录和评论中识别出“主题和情绪”;美国的AI虚拟形象公司Fable Studio使用这个程序实现了用户跟虚拟形象的对话;美国旧金山的人工智能搜索平台Algolia也在用它改进自己的网络搜索产品,然后卖给其他客户。

三、难逃同质化、文本质量堪忧,应用仍存难点

GPT-3的大量使用对OpenAI以及微软来说都是好消息,因为微软Azure云计算平台能够为OpenAI提供更强大的技术支持,但并非所有创业公司都对此感兴趣。

据分析人士观点,如果不是真正拥有这项技术,那么一家公司全靠GPT-3来构建业务是十分不明智的选择。

主要原因在于,尽管使用GPT-3能让公司和业务的创建更加简单,但自己的竞争对手也同样能这么做。就算能通过品牌和用户界面让公司业务打出差异化,技术背后所产生的大量收益还是归OpenAI所有。

与此同时,GPT-3的智能文本输出质量也存在令人担忧的问题。和许多算法一样,GPT-3也会吸收和放大有害的偏见,这有时会让它犯下“愚蠢的错误”。例如,在使用GPT-3构建的医疗聊天机器人进行测试时,该模型曾鼓励“有自杀倾向”的病人去自杀。

测试中,GPT-3鼓励有自杀倾向的用户言论

去年9月4日,蒙特雷的米德尔伯里国际研究所的两名研究人员在airXiv平台上发布了一篇论文,文章提到,GPT-3在生成激进文本方面远远超过上一个版本GPT-2。对此,OpenAI也在开发工具,帮助用户更好地控制GPT-3生成文本。

结语:机器对话来临,还需摸索前进

OpenAI的“45亿字”里程碑说明了,像GPT-3这样的智能文本生成工具目前已经在大量生成机器对话,并且已经被开发者大量地采用。

但当前来看,实际应用中算法还是会造成错误、不公和偏见,过于依赖算法未必是好事。这类问题仍然值得关注,因为AI文本生成的机器对话还会继续下去、甚至愈演愈烈。

或许在未来,我们会迎来一个充满机器人生成对话的世界。

来源:The Verge

上一篇:世界上7000种语言,有一个词发音全都一样,答案
下一篇:没有了

Top