第四届机器翻译论坛在西湖大学举行
2019年5月25-26日,由西湖大学承办,小牛翻译、四川语言桥、北京深知无限人工智能研究院联合赞助的第四届机器翻译论坛在杭州西湖大学召开。共有来自81家单位的100余名代表出席,就机器翻译技术发展和应用落地场景各抒起见、切磋论道、共谋发展。
论坛现场分享了机器翻译前沿的研究发现与应用成果,探讨机器翻译技术发展机遇与挑战,涵盖“机器翻译技术/产业应用报告”与“圆桌研讨”两部分。
“机器翻译技术/产业应用报告”部分由中科院计算所和信工所博导、阡寻科技&丹渥智能董事长白硕、对外经贸大学国际语言服务与管理研究所副所长崔启亮、华为诺亚方舟实验室语音语义首席科学家刘群、西湖大学副教授张岳、微软亚洲研究院高级研究员张冬冬、中国科学院自动化所研究员宗成庆、神州泰岳副总裁李国东、讯飞听见总经理王玮分别作了精彩的报告,内容涉及机器翻译的多个方向,包括外部知识的引入方法、篇章机器翻译、低资源机器翻译、机器翻译的落地应用等。
近年来,随着人工智能再度崛起,机器翻译重新成为人们关注的焦点。中科院自动化所博导宗成庆教授在报告“基于用户需求牵引的机器翻译系统研发”中主着重阐述了机器翻译近期进展以及如何提高机器翻译水平两部分。他指出,机器翻译距今已有近70年历史,语义障碍一直是机器翻译难以克服的问题。如果想提高机器的翻译水平,机器必须从“知识”和“智能”两个方面下功夫,不仅需要文本中的词法句法语义等语言学知识,还需要图、音等多模态知识以及领域常识等。此外,好的机器翻译系统还需要与人交互学习,机器也需要lifelong learning。
如何让机器听懂人话? 这是人工智能的核心难题。在中科院计算所/信工所博导、阡寻科技&丹渥智能董事长白硕教授在报告中,结合如何让机器理解语言以及使用外部知识,他着重阐述了自己提出的“关联语法”理论及技术。他强调,虽然标注成本高、数据规模小,但是资源标注可以让机器学习“举一反三”,不可被忽视。为改善机器翻译质量,白硕教授提出需要建设实体知识库,将“本体+事理”作为辅助手段,为机器引入常识推理能力,将语义知识嵌入编码解码模型。无论是深度解析精准语义服务,还是知识图谱动态知识演化,都将有助于自然语言处理变身”硬科技”。
机器翻译真的能和人工翻译媲美吗?虽然句子级的神经机器翻译质量确实可以达到很高的水准,但是从篇章角度看机器译文仍然问题重重。华为诺亚方舟实验室语音语义首席科学家刘群教授在报告中为大家讲解了“篇章机器翻译技术”。结合相关研究工作,刘群教授介绍了代词缺失句的机器翻译方法以及基于篇章的神经机器翻译方法,他认为未来需要考虑比BLEU值更科学的篇章级机器翻译评价方法,从技术发展方向上,基于预训练的语言模型来做篇章机器翻译应该比较有前景。
机器翻译已经成为促进全球交流的重要组成部分,如何应对低资源语言机器翻译的挑战?微软亚洲研究院自然语言计算组研究员张冬冬博士介绍了微软在这方面的研究探索。在数据层面,可以利用大量单语数据进行数据增强,比如无监督方法来扩展伪数据训练解决低资源问题;在语言层面,通过多个语言输入训练一个解码器共享翻译知识,或者用第三方语言做桥接来辅助低资源语言的翻译。在算法层面,可以利用迁移学习对模型进行预训练然后再做调优。此外,张博士也介绍了微软在模型训练和解码方面的工作,包括半监督联合训练、一致性规范、对偶学习和推敲网络等可提高机器翻译质量的最新技术。
面对智能翻译百花齐放的繁荣盛景,机器翻译如何真正为人所用显得尤为重要。讯飞听见总经理王玮在报告中介绍了机器翻译的落地应用。她指出,翻译技术应用场景主要分为以信息获取为目的、以信息发布为目的、以信息交流为目的三个方面,从商业模式看,翻译应用是跨越技术鸿沟后的场景化落地。此外,报告中她提到,机器翻译不能替代人类同传,她认为人与机器始终是要共生的,要不断合作进步。
神经机器翻译的优势是可以处理各类序列到序列的任务,但是端到端的翻译过程很难融入外部有用知识。针对此问题,来自西湖大学工学院张岳博士做了“结合外部知识的神经网络机器翻译”的报告。针对神经机器翻译结果中形态丰富语言(如俄语)的词形错误,他介绍了可融合语言学先验知识的词尾增强NMT网络的方法。针对神经机器翻译过程中难以融用户指定的术语翻译问题,他讲解了基于译词copy的干预方法。相比传统方案,这种方法即可以使用户指定的译文生效,又不影响翻译结果整体的流畅性和忠诚度。目前这个方法已经在阿里巴巴上线并取得不错的效果,主要应用在电商标题翻译中的应用产品词翻译词典里。
随着深度学习技术的突破,人工智能走进生活,自然语言理解细分领域的发展也不断加快。针对认知智能的落地问题嘉宾神州泰岳总裁李国东指出,目前NLP的商业化以及落地还处于中初期,限定边界下才大有可为。数据显示,中国NLP市场逐年扩大,保守估计2020年至少占全球市场900亿人民币的10%,约90亿人民币,带动1000亿相关市场。
如今,在机器翻译发展的蓬勃之势下,还很多应用没有得到实现。最后一个报告中,对外经贸大学崔启亮博士从人工译者的角度对机器翻译提出了一些期望,希望未来可以提供简便高效的译后编辑工具,并且能够提供经济适用,部署维护方便的机器翻译系统。
在小牛翻译创始人朱靖波教授主持的“机器翻译技术发展与应用落地”研讨中,大家就朱教授抛出的诸多话题各抒己见,精彩观点层出不穷,将论坛推向高潮。包括机器翻译产品形态、市场定位及商业模式、机器翻译市场与人工翻译市场的关系、用户对机器翻译的付费意愿、如何建立机器翻译公司与人工翻译公司互利共赢的行业生态。
针对“第四代机器翻译技术会是什么样子?”这个问题,阿里达摩院的陈博兴博士表示,颠覆第一代规则翻译系统的人不是做规则的,颠覆第二代统计翻译模型的人不是做统计翻译的,所以,虽然我们无法预测下一代机器翻译技术会如何发展,但是肯定不是基于神经网络的,目前的神经机器翻译技术极有可能被来自其它外部领域的技术所颠覆。广东外语外贸大学的宋柔教授也提出了自己的看法。他认为,我们现在应用的机器翻译,实际上是一种蕴含式机器翻译,缺乏一种联想类比,而联想类比又是人工智能的核心。我们需要认真分析现有技术的不足,建立科学的评价体系,相关研究单位应该在这些基础性问题上下功夫,只专注于技术本身是不能突破的。
应小牛翻译邀请,厦门精艺达旗下的译直播作为本次论坛的独家视频直播合作伙伴,全程提供高清、顺畅、低延迟直播服务,让无法亲临现场的观众也能同样享受到大咖们的精彩分享。
据了解,机器翻译论坛是由小牛翻译发起的国内高水平的机器翻译盛会,迄今已成功举办了2016年(沈阳)、2017年(大连)、2018年(四川)三届年度论坛。该论坛积极推动了机器翻译产学研发展,从首届以机器翻译学者为主、近50位代表出席,到此次囊括机器翻译产学研、语言服务及高校翻译教育等各行业100余人参会,参会人员规模和会议影响力在不断扩大,如今已发展成为国内最大的公益性机器翻译产学研交流平台。论坛邀请国内外顶尖的机器翻译专家学者作特邀报告,邀请产业界知名企业分享研发经验,极大促进了科研成果从象牙塔走向产业应用,对推动我国机器翻译技术产业化产生了积极而深远的影响。
(一鸣)
- 标签:
- 编辑:马可
- 相关文章