×
语言研究

国内首次!这家中国企业的语言AI实力被公认全球

针对这类问题问题,达摩院语音实验室借鉴混合专家系统(Mixture of Experts)的思想。

但除此之外更为细节的能力,Gartner的报告并未详细描述。

△ SAN-M网络结构框架

但纵观语音语义的发展,有一点是始终未曾变化的,那就是它的理想目标——和机器对话,像在跟人类交流

在此基础上,达摩院融合了其自研的端到端语音识别技术SAN-M网络结构,打造出新一代的端到端中英自由说语音识别系统。

自然语言技术是人工智能领域的核心技术,过去几年预训练模型的兴起已经让这一技术领域取得了质的飞跃,也加速了人工智能领域从感知智能走向认知智能的进程。

阿里云上的AI能力,主要包括:

基于AliceMind技术,达摩院先后斩获了35个冠军,在某些领域的水平已经非常接近人类对语言理解的程度了。并且,该技术已面向全球开发者开源。

其中,语言能力对AI的智能水平有决定性影响。视觉研究怎么“看”,语言研究“听”、“说”和“理解”。

举个栗子,中英文混说——“借你的iPad给我看下paper”,这句话机器如何理解呢?

量子位 QbitAI · 头条号签约

那么在未来,语音语义技术又将如何颠覆人们的生活,是值得期待了。

2019年,阿里语音AI曾被MIT评选为当年度的“十大突破技术”,这背后的技术能力,就来自于达摩院。

对人类来说,“听”、“说”、“理解”相加,基本等于思维能力,对AI,道理也差不多。

报告对每个细分项赋予权重,结合单项得分和项目权重计算总分,最终谷歌的语言AI以3.55的总分排名第一;阿里得分3.48,排名第二。

于是,让机器“听到”、“听懂”人类语言这件事,便在那段时间起,成为了学界和产业界争相发展的技术高地。

各界的纷纷投入,也让工业界诞生了众多“史诗级”的产品,例如苹果在2011年发布的Siri,以及后来亚马逊、谷歌、微软等推出的Alexa、Google Assistant、Cortana等。

每一个语音产品,背后都有一套语音技术软硬件作支撑。

还是跟着Gartner报告,把“语言AI”一拆为二,看看什么是语音,什么是语义。

众所周知,大规模预训练模型开发成本极高,玩家通常集中于头部科技企业,但新的模型赋能范式,使得更多中小团队、个人开发者也能分享大模型的红利。

多模态预训练模型mPLUG在视觉问答(VQA)任务上首次超过人类结果。对话预训练模型SPACE在10多个对话国际榜单和数据集上取得SOTA。

首先是语音层面的AI技术。

最后的效果就是:阿里的语音AI能在没有语种信息的前提下,大幅提升中英文混说场景下的识别性能。

全球前十中,中国的BAT占了三席,成绩可谓是瞩目。

预训练语言模型出现后,AI的整体智能比过去大幅提升,NLP技术的赋能方式也逐渐变成“预训练+微调”范式。

这些模型各有专长,StructBERT、mPLUG和StructuralLM具备挖掘文本、图像、表格“结构”信息的能力,单语言生成模型PALM、多语言生成模型VECO、超大中文预训练模型PLUG都为语言生成任务(NLG)而生。

在不需要提供方言id的情况下,用一个模型就能识别14种常用方言,并且保证纯中文相对于单语模型的识别性能基本不降。

前不久谷歌研究员爆料“AI具备人格”的事件在科技圈引发了热议,虽然后来谷歌对其已经进行了辟谣,但其背后无法掩盖的事实是AI正在逐渐向人类逼近。

以Gartner报告评估过的Speech to text、也就是我们常说的“语音识别”技术为例。

阿里达摩院是业界最早开展大模型探索的团队之一,2019年就开始研发大规模预训练语言模型体系AliceMind,并以此作为技术底座,开展对内对外的技术服务。

在大模型体系基础上,达摩院语言技术实验室先后孵化了一系列“中模型”,包括:

StructBERT一经推出,便在当时GLUE基准上取得了SOTA(89.0分),并且还将SQuAD v1.1问题回答上的F1得分推至93.0的新高度。

……

语义技术更是可以追溯到1947年,当时英美科学家联手提出了利用计算机进行语言自动翻译的设想,机器翻译的诞生也正意味着打开了语义发展的大门。

上一篇:报告:谷歌语言AI技术全球第一,BAT均入围前十
下一篇:没有了

Top