月亮链 月亮链
Ctrl+D收藏月亮链
首页 > OKB > 正文

XLS:在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型 支持128种语言无障碍对话_FACEMETA

作者:

时间:1900/1/1 0:00:00

改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现。这一次,Facebook 把目光投在了元宇宙社交上。

Meta 发布语音处理模型 XLS-R

近日,Meta 正式发布 XLS-R——一套用于各类语音任务的新型自监督模型。据悉,XLS-R 由海量公共数据训练而成(数据量是过去的十倍),能够将传统多语言模型的语言支持量增加两倍以上。目前,XLS-R 共支持 128 种语言。

Meta 认为,语音交流是人们最自然的一种交互形式。“随着语音技术的发展,我们已经能够通过对话同自己的设备及未来的虚拟世界直接互动,由此将虚拟体验与现实世界融为一体。”

日本科技巨头索尼:公司有能力在元宇宙中发挥主导作用:5月18日消息,日本科技巨头索尼集团公司表示,其有能力在虚拟世界(元宇宙)或沉浸式虚拟世界中发挥主导作用。索尼首席执行官吉田贤一郎战略简报会上表示:“元宇宙兼具社交空间和实时网络空间,游戏、音乐、电影和动漫等在这里交汇,我们的目标是将移动空间变成一个新的娱乐空间,我们相信移动将成为下一个大趋势。”

据此前消息,今年2月份,索尼与曼城达成合作,着手创建全球首个元宇宙足球场。此外,索尼参与了致力于元宇宙发展的游戏巨头Epic Games的20亿美元融资。(凤凰网科技)[2022/5/18 3:24:48]

这与扎克伯格此前宣称的“公司业务将以元宇宙优先”不谋而合。此前,扎克伯格曾概述了他建立“元世界”的计划:一个建立在我们自己的数字世界之上的数字世界,包括虚拟现实和增强现实。“我们相信元宇宙将会接替移动互联网”。

上海国盛资本在元宇宙方面已布局数10家企业:金色财经报道,据新华网消息,上海国盛资本在元宇宙方面已布局企业数10家,包括为元宇宙提升效率的AI算法的商汤科技、云从科技、依图科技,为元宇宙提供底层动力、算力、芯片的壁仞科技、摩尔线程和兆芯。此外,国盛集团领投的达闼科技,在数字孪生、区块链等元宇宙底层架构技术上,在国内外均处于领先地位。[2022/3/11 13:50:55]

而 XLS-R 作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙无障碍对话。

值得一提的是,为了通过单一模型实现对多种语言的广泛语音理解能力,Meta 对 XLS-R 进行了微调,使其获得语音识别、语音翻译及语言识别等功能。据介绍,XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都取得了不错的成绩。

Enjin将在元宇宙项目Bloktopia中设立总部:金色财经报道,Polkadot项目Enjin宣布将在元宇宙项目Bloktopia中推出其全新的总部。这个新空间旨在展示其不断发展的 NFT 生态系统和项目。通过在 Bloktopia 设立总部进入 Metaverse 是举办活动和探索保持持续社区参与的新方法的方式。Bloktopia是由一个分散的元宇宙构建并由Polygon网络支持。它是Crypto 中一些最大品牌的所在地,以由 21 层组成的摩天大楼形状的独特风格,向可用的 2100 万比特币致敬。(cryptoslate)[2022/1/6 8:28:28]

为了尽可能降低功能访问门槛,目前,Meta 与 Hugging Face 联手发布了模型本体,并通过 fairseq GitHub repo 全面开放。

俄罗斯国家博物馆宣布将在元宇宙构建“数字版本博物馆Celestial Hermitage”:金色财经报道,据俄罗斯国家博物馆当代艺术部负责人德米特里·奥泽科夫 (Dmitry Ozerkov)透露,该馆正在构建一个“数字版本冬宫”,其中将展示NFT艺术。位于圣彼得堡的俄罗斯国家博物馆The State Hermitage Museum是世界上最大的美术馆,拥有约 300 万件艺术品。2021 年 9 月,该博物馆就以 NFT 形式出售了5 件最著名作品的数字复制品,在 NFT 世界迈出了第一步,并筹集到近 450,000 美元资金。11 月时还推出了第一个完全数字化的展览,名为“The Ethereal Aether”,在博物馆的数字重建中展示了 38 个 NFT。[2021/12/11 7:31:45]

试用地址:https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

XLS-R 工作原理

据介绍,XLS-R 在 wav2vec 2.0 训练集上接受了超过 43 万 6 千小时的公开语音录音训练,从而实现了对语音表达的自监督学习方法。这样的训练量已经达到去年发布的当时最强的模型 XLSR-53 的 10 倍。利用从会议记录到有声读物的多种语音数据来源,XLS-R 的语言支持范围扩展到 128 种,涵盖的语种量达到前代模型的近 2.5 倍。

作为 Meta 打造的有史以来最大模型,XLS-R 中包含超过 20 亿个参数,性能远高于其他同类模型。Meta 表示,事实证明,更多参数能够更充分地体现、数据集中的各类语种。此外,Meta 还发现,规模更大的模型在单一语言预训练方面的性能也同样优于其他较小模型。

Meta 在四种主要多语言语音识别测试中对 XLS-R 做出评估,发现它在 37 种语言上获得了超越以往模型的效能。具体测试场景为:BABEL 中选取 5 种语言,CommonVoice 中选取 10 种语言,MLS 中选取 8 种语言,以及 VoxPopuli 上选取 14 种语言。

BABEL 上的单词错误率基准测试结果。XLS-R 较前代模型实现了显著改进。

此外,Meta 还评估了语音翻译模型,即将录音资料直接翻译成另一种语言。为了打造一套能够执行多种任务的模型, Meta 同时在 CoVoST-2 基准测试的数个不同翻译方向上对 XLS-R 进行了微调,使其能够在英语与多达 21 种语言之间实现内容互译。

在使用 XLS-R 对英语以外的其他语言进行编码时,获得了显著的效能提升,这也是多语言语音表达领域的一次重大突破。据 Meta 介绍,XLS-R 在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中 BLEU 准确率平均翻了一番。BLEU 指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。

以 BLEU 指标衡量的自动语音翻译准确率,其中较高值表示 XLS-R 从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。

Meta 认为,XLS-R 证明扩大跨语言预训练规模可以进一步提高低资源语言的理解性能。它不仅提高了语音识别率,同时也将由外语到英语的语音翻译准确率提高了一倍以上。

“XLS-R 是我们朝着以单一模型理解多种不同语言(语音)目标迈出的重要一步,也代表着我们在利用公共数据推进多语言预训练方面做出的最大努力。我们坚信这是一条正确的探索方向,将让机器学习应用更好地理解所有人类语音、并促进后续研究,大大降低语音技术在全球范围内、特别是服务匮乏社群中的使用门槛。我们将不断开发新方法,通过低监督学习拓展模型的语言理解能力、逐步使其覆盖全球 7000 多种语言,实现算法的持续更新。”Meta 提到。

https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

标签:XLS元宇宙METAETAPIXLS价格元宇宙平台公司合法吗metas币发行量FACEMETA

OKB热门资讯
加密货币:金色观察|五大预测:BTC将在2022年经历什么_区块链技术

起起伏伏,跌跌荡荡,辞旧迎新。在新的一年中,展望我们所在的行业,看看这些大咖眼中BTC在2022年有哪些小目标?预测一:BTC成为部分国家法定货币1月27日,三箭资本创始人Su Zhu在推特上表.

1900/1/1 0:00:00
FTX:金色前哨|FTX.US以80 亿美元估值完成首轮融资 FTX新一轮融资进行中_区块链最新局曝光

FTX 的美国子公司加密货币交易所 FTX.US宣布以 80 亿美元估值完成 4 亿美元 A 轮融资.

1900/1/1 0:00:00
元宇宙:元宇宙时代 如何捍卫我们的数字身份?_MECH

如今的互联网已经迎来web3.0的拐点,在元宇宙时代到来之际,面临多重新型法律前沿问题,值得深思.

1900/1/1 0:00:00
FIL:金色前哨 | 鲍威尔发表鹰派言论 美股三大指数冲高回落_OIN

北京时间1月27日凌晨3时,美联储公开市场委员会宣布将联邦基金利率目标区间维持在0-0.25%不变.

1900/1/1 0:00:00
ARE:高能开年 金色虎年送路虎全攻略_Phaeton

迎新年,纳新福,金色财经“虎年开新礼”活动正在进行中,1月24日-1月30日与大家一同恭贺新春,喜迎虎年.

1900/1/1 0:00:00
LAYER:为什么说模块化是必然的?以及它对我们的启示_区块链用大白话解释

逆向思考如何设计一条公链,你会发现模块化是多么的顺理成章此前PANews在文章《Layer2之后该怎么扩容,深度解读Celestia的数据可用性模块》中简单介绍过什么是模块化.

1900/1/1 0:00:00