科大讯飞荣获多语言理解评测XTREME冠军

本文章由注册用户 沉静时光 上传提供 评论 发布 纠错/删除 版权声明 0
摘要:世界多语言理解评测XTREME中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。科大讯飞发布面向少数民族语言的多语言预训练模型CINO,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。

2021年11月,在世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录,在四个赛道中获得三项最好成绩。

这也标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。

这个难度有多高?先来看一段话:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述这段话包含了英语、德语、西班牙语,而这只是机器多语言理解评测的冰山一角,它要面临的是多达40种语言的高难度理解。翻译成中文就是:

让水沸腾以提供蒸汽所需热量有多种来源,最常见的是在封闭空间(别称有燃烧室、火箱)中供应适量空气来燃烧可燃材料。在某些情况下,热源是核反应堆、地热能、太阳能或来自内燃机或工业过程的废气。如果是模型或玩具蒸汽发动机,还可以将电加热元件作为热源。

最新突破:在40种语言下完成自然语言理解

XTREME评测由谷歌公司举办,旨在全面考察模型的多语言理解与跨语言迁移能力。该评测覆盖了中文、英语、韩语、日语、阿拉伯语、越南语等40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。吸引了国内外众多知名高校和研究机构参加。

XTREME评测包含4大类9个任务,分别为:

句对分类:XNLI、PAWS-X(自然语言推断)

序列标注:UDPOS(词性标注)、PANX(命名实体识别)

阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)

句子检索:BUCC、Tatoeba(跨语言文本检索)

与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评测的是模型在多种语言上的理解能力平均指标,因此对系统模型的多语言理解与跨语言迁移能力要求大大提高。

其难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。

机器是怎么做到多语言理解的?

本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:

1、加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。

2、利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。

3、创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。

也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作。

这就是多语言理解与跨语言迁移能力!

发布少数民族语言预训练模型CINO

“要让中文语音技术由中国人做到最好。”

成立以来,科大讯飞初心未改,持续关注并积极推动中文相关信息处理技术的研究与发展。少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。

目前由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。为了促进中国少数民族语言信息处理的研究与发展。2021年11月,科大讯飞发布了首个面向少数民族语言的多语言预训练模型CINO(Chinese mINOrity pre-trained language model),弥补相关资源的空白,并将相关预训练模型和任务数据开源。希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。

网站提醒和声明
本站为注册用户提供信息存储空间服务,非“MAIGOO编辑”、“MAIGOO榜单研究员”、“MAIGOO文章编辑员”上传提供的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。 申请删除>> 纠错>> 投诉侵权>> 网页上相关信息的知识产权归网站方所有(包括但不限于文字、图片、图表、著作权、商标权、为用户提供的商业信息等),非经许可不得抄袭或使用。
提交说明: 快速提交发布>> 提交资讯帮助>> 注册登录>>
相关推荐
语音翻译机的工作原理是什么 语音翻译机和翻译软件的区别
虽然智能手机的功能越来越强大,但是仍然有它不能胜任的工作,比如说翻译。不少人说智能手机可以使用翻译软件,但是市面上的翻译软件并不能很好的翻译出相应的语言。而使用翻译机,这种问题却会小得多。翻译机不同于翻译软件,由于拾音更准确,同时配合专门的算法和AI加持,翻译质量要比翻译软件好。接下来跟着小编一起看看详细知识。
扫描翻译笔的分类有哪些 扫描翻译笔的发展前景如何
扫描翻译笔,即是通过扫描技术,将印刷字体扫描到笔里通过里面的OCR进行识别,在通过里面的内置翻译软件,实现翻译功能。市面上大多都分为:脱机扫描笔和联机扫描笔。二者的主要区别是,脱机扫描笔不需要链接电脑就可直接使用。扫描翻译笔的发展可能最终导致电子词典的消失,毕竟扫描笔使用更方便,并且输入效率高得多。下面一起来看看详细介绍。
十大英语翻译器 英汉互译在线翻译 英文翻译器推荐
我国英语在线翻译市场规模庞大,已呈多元化发展,如谷歌翻译、有道翻译、金山词霸、必应翻译、百度翻译、CNKI翻译助手、沪江小D等主流英语翻译器、英语在线翻译工具,均有着较高的市场份额。这些英文翻译器主要被用于资料文献翻译、网页浏览、外语学习、软件应用等。下面MAIGOO小编为大家推荐十大中英在线翻译网站,一起看看!
翻译器 翻译 ★★★
4311 17
出国在外不懂外语?下面的几款软件让你轻松交流不卡带!
随着人们生活水平的不断提高,越来越多的人开始出国旅游、购物。不过很多人并不会外语,这可如何是好?如果手头没有翻译机的话,那么翻译软件也能够帮你的大忙!例如我们最常见的金山词霸,使用它你就可以轻松把自己想要表达的内容轻松转换成当地人听得懂的语言,这样是不是方便多了?那么还有那些好用的翻译软件呢?下面就和小编一起了解一下吧。
人工翻译和机器翻译的优势 人工翻译会被机器翻译取代吗
随着科技的不断进步,尤其是人工智能加入了机器翻译,机器翻译已经变得越来越精准。那么机器翻译可以代替人工翻译了吗?答案显然是不能。这是因为翻译可不是一项简单的工作,它更像是一门艺术,因此机器翻译需要更加复杂的算法和系统去应对。相比人工来说,现在的机器翻译虽然速度更快,但是质量明显会更低。不过随着技术的不断进步,机器翻译应当能弥补现在的缺陷。而人工翻译应该会成为机器翻译的良好补充,而不是被替代。下面来看详细介绍。
翻译机 翻译
1082 25