URL: https://www.aclweb.org/anthology/P19-1453/ https://github.com/jwieting/simple-and-effective-paraphrastic-similarity

简介

ACL 2019 利用平行语料学习句子相似性,但是不利用回翻技术,而是直接在平行预料上用三元损失函数。

数据集

2012-2016 SemEval Semantic Textual Similarity (STS) shared tasks

算法

在平行语料中每次选一个句子s,它对应的翻译t和其他的翻译t'。 以让s和t的句子编码尽可能相近,s和t'的句子编码尽可能远为目标来优化。 \( \min\limits_{\theta_{src}, \theta_{tgt}} \sum\limits_i [\delta - f_\theta(s_i, t_i) + f_\theta(s_i, t'_i)] \) 其中 $f_\theta(s, t) = \cos(g(s; \theta_{src}), g(t; \theta_{tgt})), \text{g is encoder.}$

这样就省去了回翻的算力消耗。 如果是多语言翻译语料,则t'会在所有的集合中随机抽取,而不是向双语言语料那样只在对应的翻译语言上。

模型

编码器主要采用子词编码取平均的方法(SP)。 也对词编码、三元语言模型、双向LSTM等进行了实验。

实验与对比

双语实验,相似性都是英文句子间相似性。 说明了本文的子词编码取平均的方法(SP)优于其他句子编码方法。

tab1

多语言实验,训练语料是多语言平行语料,指标是跨语言相似性准确程度。 说明了本文的不依赖回翻的方法在跨语言相似性上的优越性。

tab2

作者还通过消融实验说明结果和语言的选择是无关的。

fig1

思考

本文说明了相似性度量可以省去回翻这一步,节省大量时间与算力。 至于可省去回翻是否因为字词编码效果好,消融说明感觉不是很充分。