科大讯飞荣获多语言理解评测XTREME冠军

本文章由注册用户 沉静时光 上传提供 评论 发布 纠错/删除 版权声明 0
摘要:世界多语言理解评测XTREME中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。科大讯飞发布面向少数民族语言的多语言预训练模型CINO,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。

2021年11月,在世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。

这也标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。

这个难度有多高?先来看一段话:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述这段话包含了英语、德语、西班牙语,而这只是机器多语言理解评测的冰山一角,它要面临的是多达40种语言的高难度理解。翻译成中文就是:

让水沸腾以提供蒸汽所需热量有多种来源,最常见的是在封闭空间(别称有燃烧室、火箱)中供应适量空气来燃烧可燃材料。在某些情况下,热源是核反应堆、地热能、太阳能或来自内燃机或工业过程的废气。如果是模型或玩具蒸汽发动机,还可以将电加热元件作为热源。

最新突破:在40种语言下完成自然语言理解

XTREME评测由谷歌公司举办,旨在全面考察模型的多语言理解与跨语言迁移能力。该评测覆盖了中文、英语、韩语、日语、阿拉伯语、越南语等40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。吸引了国内外众多知名高校和研究机构参加。

XTREME评测包含4大类9个任务,分别为:

句对分类:XNLI、PAWS-X(自然语言推断)

序列标注:UDPOS(词性标注)、PANX(命名实体识别)

阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)

句子检索:BUCC、Tatoeba(跨语言文本检索)

与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评测的是模型在多种语言上的理解能力平均指标,因此对系统模型的多语言理解与跨语言迁移能力要求大大提高。

其难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。

机器是怎么做到多语言理解的?

本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:

1、加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。

2、利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。

3、创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。

也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作。

这就是多语言理解与跨语言迁移能力!

发布少数民族语言预训练模型CINO

“要让中文语音技术由中国人做到最好。”

成立以来,科大讯飞初心未改,持续关注并积极推动中文相关信息处理技术的研究与发展。少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。

目前由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。为了促进中国少数民族语言信息处理的研究与发展。2021年11月,科大讯飞发布了首个面向少数民族语言的多语言预训练模型CINO(Chinese mINOrity pre-trained language model),弥补相关资源的空白,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。

网站提醒和声明
本站为注册用户提供信息存储空间服务,非“MAIGOO编辑”、“MAIGOO榜单研究员”、“MAIGOO文章编辑员”上传提供的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。 申请删除>> 纠错>> 投诉侵权>> 网页上相关信息的知识产权归网站方所有(包括但不限于文字、图片、图表、著作权、商标权、为用户提供的商业信息等),非经许可不得抄袭或使用。
提交说明: 快速提交发布>> 提交资讯帮助>> 注册登录>>
相关推荐
五大上海话翻译器 上海话在线翻译器 上海话翻译成普通话的软件
上海话是吴语的重要代表,狭义的上海话指的是上海市区的方言,广义的上海话指的是上海各郊区的方言。本文中MAIGOO小编盘点了一批上海话翻译器在线翻译app、上海话翻译器在线网站,如上海话在线发音翻译器、汉语方言发音字典、沪语小词典、上海话App、海词词典上海话方言词典等,以帮助大家更好的了解和学习上海话。
翻译器 翻译 ★★★
14w+ 22
三大梵文翻译器 梵文在线翻译 梵文翻译软件推荐
梵文是世界上极古老的一门语言,虽然是印度法定的官方语言之一,但使用人数甚少。梵文已成为当代语言学研究的活化石。本文中Maigoo小编针对梵文在线翻译领域,盘点了一批梵文翻译中文工具、梵文翻译软件,其中有百度翻译、文字网梵文在线翻译器、Closbe。一起来了解下!
翻译器 翻译 ★★★
2.7w+ 13
翻译有哪些分类 翻译的基本要求是什么
翻译是在准确、通顺、优美的基础上,把一种语言信息转变成另一种语言信息的行为。翻译是将一种相对陌生的表达方式,转换成相对熟悉的表达方式的过程。其内容有语言、文字、图形、符号和视频翻译。现代翻译分为人工翻译和机器翻译两种形式,不过随着AI技术的发展,机器翻译的精准度也在不断提升。下面一起来看看翻译的相关知识吧。
想要听懂宠物说什么?你怎么能错过这些翻译器?
很多人都喜欢养宠物,但是有时候我们却很难读懂宠物们到底在想什么。不过有了宠物语言翻译器一切问题都会变得不是问题。使用宠物语言翻译器能够识别动物们的语言,并且通过文字或者语音的形式表达出来。这样我们在和宠物互动的时候就会更加容易了!接下来就一起了解一下详细知识吧。
翻译机有哪些种类?翻译机选购技巧
随着科技的发展,翻译机已经能够实现比较精准的翻译,因此成为很多人出国旅游的首选产品。那么你知道翻译机有哪些种类吗?一般来说我们常见的翻译机种类有人工智能翻译机、普通翻译机、拍照翻译机等。不过翻译机还有很多分类方法。不同的翻译机适用于不同的场合,那么翻译机选购技巧有哪些呢?下面就来一起看看吧。