Paper Read 《Simple and Effective Paraphrastic Similarity from Parallel Translations》

URL: https://www.aclweb.org/anthology/P19-1453/ https://github.com/jwieting/simple-and-effective-paraphrastic-similarity

简介

ACL 2019 利用平行语料学习句子相似性，但是不利用回翻技术，而是直接在平行预料上用三元损失函数。

数据集

2012-2016 SemEval Semantic Textual Similarity (STS) shared tasks

算法

在平行语料中每次选一个句子s，它对应的翻译t和其他的翻译t'。以让s和t的句子编码尽可能相近，s和t'的句子编码尽可能远为目标来优化。 $ \min\limits_{\theta_{src}, \theta_{tgt}} \sum\limits_i [\delta - f_\theta(s_i, t_i) + f_\theta(s_i, t'_i)] $ 其中 $f_\theta(s, t) = \cos(g(s; \theta_{src}), g(t; \theta_{tgt})), \text{g is encoder.}$

这样就省去了回翻的算力消耗。如果是多语言翻译语料，则t'会在所有的集合中随机抽取，而不是向双语言语料那样只在对应的翻译语言上。

模型

编码器主要采用子词编码取平均的方法(SP)。也对词编码、三元语言模型、双向LSTM等进行了实验。

实验与对比

双语实验，相似性都是英文句子间相似性。说明了本文的子词编码取平均的方法(SP)优于其他句子编码方法。

多语言实验，训练语料是多语言平行语料，指标是跨语言相似性准确程度。说明了本文的不依赖回翻的方法在跨语言相似性上的优越性。

作者还通过消融实验说明结果和语言的选择是无关的。

思考

本文说明了相似性度量可以省去回翻这一步，节省大量时间与算力。至于可省去回翻是否因为字词编码效果好，消融说明感觉不是很充分。

Contents

简介

数据集

算法

模型

实验与对比

思考