Read Paper 《PARABANK: Monolingual Bitext Generation and Sentential Paraphrasing via Lexically-Constrained Neural Machine Translation》

2019-08-10

Paper Note NLP

Contents

URL: http://decomp.io/projects/parabank/

TL;DR

一个英文句子复述改写的数据集基线，通过机器翻译和词法约束构造。

Dataset

本文的ParaBank包含79.5M参考句和人工打分。研究方法主要基于ACL2018的ParaNMT-50M,那是一个50M的复述改写数据集; 并参考经典的PPDB(Paraphrase Database) 本文的数据集参考句有更好的语义相关，和更多样的词法结构。

Algorithm/Model

通过捷克语-英语数据训练复述改写的机器翻译模型，即把同一句或相似句的捷克语对应的英语参考作为复述改写的参考。
通过词法约束选择输出，主要是要求必须出现或必须不出现什么词。
通过反向文档词频筛选掉异常频繁或不频繁的词(保留介词)，这里作者随手拍了个阈值，优化留着以后做。
形态约束:去掉仅仅改变时态语态的参考句。
位置约束:要求复述的输出不能仅仅改动前几个词(参考文献的经验)。
将和PPDB数据集相似的情况，去那个数据集查询以做约束。

Experiment Detail

实验主要和ParaNMT对比语义相似性和词法多样性，同时通过消融实验证明本文的各种trick的作用。

Thoughts

感觉满满的trick。

Author lvcudar

LastMod 2019-08-10