日产45亿词！“地表最强语言模型”GPT-3已落地

来源：语言研究 【在线投稿】栏目：综合新闻时间：2021-04-06

智东西（公众号：zhidxcom）

编译 | 屈望苗

编辑 | 江心白

智东西4月3日消息，据The Verge报道，OpenAI最近宣布，其人工智能文本生成器GPT-3现已被数万开发者用于300多个不同的应用程序，每天输出45亿词之多。

报道称，虽然GPT-3生成的大部分文本都很生涩，但如此大的输出量也反映出，AI文本生成技术的规模、影响和商业潜力正在不断增长。

一、约2000亿个单词的训练，让机器“开口说话”

GPT-3的全称叫生成预训练转换器-3 （Generative Pretrained Transformer-3），这套强大的“大型语言模型”于2020年6月问世，训练了大约2000亿个单词，估计花费了数千万美元。

目前，文本生成是机器学习的一大趋势。人工智能系统从互联网上抓取大量的单词进行学习，并根据各种提示生成文本。学习完成后，机器就可以实现一系列功能，比如创作小说、编写潦草的代码，以及让用户对话历史人物等。

二、众多公司申请使用GPT-3通用API以构建服务

获取GPT-3底层代码是OpenAI的一项商业服务。GPT-3与微软签订了独家协议，允许微软独家访问GPT-3程序的底层代码。

不过，任何公司都可以申请使用GPT-3的通用API，并在此基础上构建服务。目前已经有数百家公司这样做了。

美国一家名为Viable的客户反馈分析公司采用了GPT-3，从调查、服务台票、实时聊天记录和评论中识别出“主题和情绪”；美国的AI虚拟形象公司Fable Studio使用这个程序实现了用户跟虚拟形象的对话；美国旧金山的人工智能搜索平台Algolia也在用它改进自己的网络搜索产品，然后卖给其他客户。

三、难逃同质化、文本质量堪忧，应用仍存难点

GPT-3的大量使用对OpenAI以及微软来说都是好消息，因为微软Azure云计算平台能够为OpenAI提供更强大的技术支持，但并非所有创业公司都对此感兴趣。

据分析人士观点，如果不是真正拥有这项技术，那么一家公司全靠GPT-3来构建业务是十分不明智的选择。

主要原因在于，尽管使用GPT-3能让公司和业务的创建更加简单，但自己的竞争对手也同样能这么做。就算能通过品牌和用户界面让公司业务打出差异化，技术背后所产生的大量收益还是归OpenAI所有。

与此同时，GPT-3的智能文本输出质量也存在令人担忧的问题。和许多算法一样，GPT-3也会吸收和放大有害的偏见，这有时会让它犯下“愚蠢的错误”。例如，在使用GPT-3构建的医疗聊天机器人进行测试时，该模型曾鼓励“有自杀倾向”的病人去自杀。

测试中，GPT-3鼓励有自杀倾向的用户言论

去年9月4日，蒙特雷的米德尔伯里国际研究所的两名研究人员在airXiv平台上发布了一篇论文，文章提到，GPT-3在生成激进文本方面远远超过上一个版本GPT-2。对此，OpenAI也在开发工具，帮助用户更好地控制GPT-3生成文本。

结语：机器对话来临，还需摸索前进

OpenAI的“45亿字”里程碑说明了，像GPT-3这样的智能文本生成工具目前已经在大量生成机器对话，并且已经被开发者大量地采用。

但当前来看，实际应用中算法还是会造成错误、不公和偏见，过于依赖算法未必是好事。这类问题仍然值得关注，因为AI文本生成的机器对话还会继续下去、甚至愈演愈烈。

或许在未来，我们会迎来一个充满机器人生成对话的世界。

来源：The Verge

首页

期刊导读

在线投稿

联系我们