近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。
让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。
数字翻译「中译英」测试
首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。
火山翻译:
腾讯翻译君:
市场消息:马来西亚与澳大利亚、南非研究数字货币问题:7月14日消息,有市场消息称,马来西亚与澳大利亚、南非研究数字货币问题。(金十)[2022/7/14 2:12:04]
以下为其他7款翻译产品的测试结果。
翻译为39.2亿:
翻译为392:
翻译为392万亿:
翻译为3.92亿:
星巴克:将使用区块链技术构建Web3数字“第三空间”并推出首个NFT:5月4日消息,据官方博客显示,星巴克将基于区块链技术构建 Web 3 数字“第三空间”并推出首个 NFT。计划将数字社区 Web3 平台打造为一个易于交互、可广泛访问的前端组合,并以快速且低成本的区块链技术为后盾。此外,星巴克宣布将创建一系列品牌 NFT 集合,并建立世界级合作伙伴关系。星巴克相信 NFT 具有广泛的潜力,成为增值业务收入来源,在此过程中使许多利益相关者受益,同时还可以创建一种新型的数字生态系统来补充星巴克当前的数字平台产品。
此前报道,星巴克首席执行官霍华德·舒尔茨表示,星巴克将在 2022 年底之前涉足NFT业务。[2022/5/4 2:49:07]
美国国家情报委员会:稳定币和“私人数字货币”对美元和欧元构成“威胁”:美国国家情报委员会已向美国及其盟国发出警告,称稳定币项目和“私人发行的数字货币”对美元和欧元构成“威胁”。
该机构最新的四年期报告题为“ 2040年全球趋势:一个更具争议的世界”,声称私人部门的代币和其他非国家发行的代币“可以通过减少国家的货币储备来增加货币政策的复杂性。控制他们的汇率和货币供应。”该报告写道,“金融部门无法幸免正在变革其他行业的技术变革。随着CBDC数量的增加,数字货币很可能在未来的二十年中得到更广泛的接受。”(Cryptonews)[2021/4/9 20:02:19]
数字翻译「英译中」测试
我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?
这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。
声音 | 美国缉局:犯罪活动交易占数字货币交易总量10%:美国缉局特别探员Lilita Infante在接受彭博社采访时表示,随着数字货币的兴起,犯罪活动交易在数字货币交易中的占比逐渐下降,目前犯罪活动交易约占数字货币交易总量的10%。[2018/8/8]
火山翻译:
其他产品的翻译结果:
唱衰加密货币的众议员Brad Sherman 本财年从单个公司收到最多的献金来自一家数字支付处理商:昨天在美国“审查数字和ICO市场”的听证会上,众议员Brad Sherman称加密货币为一种局,恐怖分子和犯罪分子利用它在世界各地转移资金,逃税者利用它逃税,创业公司利用它募资。据CCN报道,针对Sherman的观点,Reddit用户对其接受过的献金做出了研究。据中心数据,相比其他公司,Sherman在本财年收到更多来自总部设在洛杉矶的数字支付处理商Allied Wallet工12500美元的捐款,这是Sherman从单个公司获得的最大的献金。此外,证券和投资行业共为Sherman贡献了5.67万美元[2018/3/16]
数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。
数字翻译难在哪?
数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:
a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」
b.很长的数字容易带来偏差
c.超大数字的翻译问题,如trillion、万亿以上的单位
d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”
e.带有货币符号的数字容易犯错
当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。
火山翻译如何解决数字翻译难题?
我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。
火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。
「本文来源:中国证券报」彭扬欧阳剑环中国证券报·中证网中证网讯中国人民银行数字货币研究所副所长狄刚9月10日在2021中国数字金融论坛的平行论坛“区块链赋能数字经济高质量发展”上表示.
1900/1/1 0:00:00「本文来源:全球技术地图」 科技战略 美智库发布《美国国会在重振北约中的作用》报告据BelferCenter网站9月7日消息.
1900/1/1 0:00:00来源:财联社 原标题:华尔街资深人士拥抱数字资产前高盛和大摩高管加入加密货币独角兽Amber 财联社讯.
1900/1/1 0:00:00最近半年以来,“元宇宙”概念火得一塌糊涂。扎克伯格说,元宇宙就是下一代互联网,他准备花5年时间,把脸书变成一家元宇宙公司.
1900/1/1 0:00:00宁波60岁的孙阿姨万万没想到,去海边玩了一下午,第四天竟然不得不接受右腿截肢手术才捡回一条命。她被诊断为海洋弧菌感染.
1900/1/1 0:00:002009年1月比特币创世区块链诞生,数字货币萌芽,至今走过了12年时间,币圈的财富浪潮一波接一波。从周期来看大概是这样的:2009-2013年:以比特币为核心,仿币及分叉币的时代.
1900/1/1 0:00:00