×
语言研究

比肩千亿大模型,周明团队提出中文语言模型孟

机器心脏发布

机器心脏编辑部

周铭团队提出了孟子预训练模型,刷新了CLUE列表。

近日,兰州科技创新工场团队与上海交通大学、北京理工大学等单位联合开发了中文模型——孟子轻量模型,在中文理解上超越腾讯、搜狗等公司评估CLUE排名第一,打破行业纪录。

作为中文理解领域最权威的评测基准之一,CLUE涵盖了文本相似度、分类、自然语言推理、阅读理解等10个语义分析和理解子任务。近日,腾讯、搜狗、华为、阿里达摩等团队以大模型刷新榜单。

据了解,兰州科技是创新工场孵化的认知智能公司。公司创始人周明博士为创新工场首席科学家。他是世界顶级人工智能科学家,自然语言处理领域的代表。特点。以下是CLUE综合排名、分类排名和阅读理解帮助的最新结果:

孟子预训练模型是基于兰州团队自主研发技术的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多个文本理解和文本生成任务,可快速满足不同领域、不同应用场景的需求。 Mencius 模型基于 Transformer 架构,仅包含 10 亿个参数,基于数百个 G 级高质量语料训练,覆盖互联网网页、社区、新闻、电子商务、金融等领域。

“小模型,大智慧”。基于轻量化高效训练的研究路线,我们致力于构建十亿级小模型,充分发挥模型在现有参数下的潜力,有利于快速低成本实现真实业务场景。孟子预训练模型的性能堪比甚至超过千亿大模型,在包括文本分类和阅读理解在内的各种任务上都有很好的表现。与现有的中文语言模型相比,孟子模型取得了多项突破:坚持“小而精”的轻量级训练策略。在同等车型规模下,性能远超公款车型。作为一款精致的小模型,对标“巨无霸”,小模型性能超过1000亿比例模型。使用知识图谱来增强模型,让 AI 真正获得知识。孟子模型拥有顶级的语言理解能力。在权威的CLUE中文理解评测综合排名、分类排名和阅读理解排名中均位列第一,刷新了三项排名的世界纪录。总排行榜得分超过84分,接近人类基准得分(85.61)。灵活的现场和场景适应性,方便快捷的定制和应用。基于T5-style的端到端生成训练范式,同步适配BERT-style的基于决策的架构,可理解生成。易于适应行业应用,业务场景覆盖广泛。

轻量模型研究

在轻量模型算法研究方面,基于自主研发的基于语言知识、知识图谱和领域数据增强技术,从模型架构(包括基本层嵌入表示和交互层注意力机制)到预训练策略的各个方面都得到了改进。具体来说,在模型结构方面,将语义角色、词性标注等语言特征融入到Embedding表示中,在基于句法约束的注意力机制中引入注意力机制,从而增强模型对语言的建模能力。知识。在训练策略上,引入基于实体知识和Discourse的Mask机制,加强模型对语言成分和文本关系的表示。为了进一步提高训练效率,采用了提取大模型和初始化小模型的策略。为了让孟子模型更好地适应金融、营销等垂直领域,利用领域数据继续训练,构建相应的提示模板(Prompt),取得了显着的性能提升。

图2:孟子轻量级模型算法策略。

基于上述算法策略,我们可以实现对涵盖词级、句子级和文本级知识的语料库的高效学习,大大提高语言模型提取语言结构和语义信息的能力,如以及良好的域名转移能力,适应广泛的产品应用场景。

Finetune 的进展

如何将预训练模型用于各种任务也是一个重要的挑战。兰州团队专注于数据增强、知识提炼、迁移训练、训练优化等方面,进行了一些探索,进一步提升语言模型的性能: 数据增强:使用领域相关数据;知识提炼:基于师生自我提炼,提高培训效率;迁移训练:结合课程学习的思路,从易到难训练下游模型;训练优化:利用多个训练目标,多角度提升模型能力;

垂直领域适配

基于领域适配技术,孟子模型深度垂直化,赋能相应行业。一个典型的例子是适用于金融领域的孟子模型。领域适配策略主要包括两个方面:利用大规模泛金融语料库将通用孟子模型迁移到金融领域。金融版孟子模型已应用于多个金融行业的合作企业,并在构建金融知识图谱、脱水研究报告、提取公告等多项任务中取得了优异的成绩。通过大规模营销语料,将孟子模式转移到数字营销领域,完成营销文案生成、新闻摘要等多项任务。将用于行业领先的数字营销公司和多家世界500强企业的合作。之中。

上一篇:中国东北亚语言研究中心在大外揭牌
下一篇:没有了

Top