URL: http://decomp.io/projects/parabank/

TL;DR

一个英文句子复述改写的数据集基线,通过机器翻译和词法约束构造。

Dataset

本文的ParaBank包含79.5M参考句和人工打分。 研究方法主要基于ACL2018的ParaNMT-50M,那是一个50M的复述改写数据集; 并参考经典的PPDB(Paraphrase Database) 本文的数据集参考句有更好的语义相关,和更多样的词法结构。

Algorithm/Model

  1. 通过捷克语-英语数据训练复述改写的机器翻译模型,即把同一句或相似句的捷克语对应的英语参考作为复述改写的参考。
  2. 通过词法约束选择输出,主要是要求必须出现或必须不出现什么词。
  3. 通过反向文档词频筛选掉异常频繁或不频繁的词(保留介词),这里作者随手拍了个阈值,优化留着以后做。
  4. 形态约束:去掉仅仅改变时态语态的参考句。
  5. 位置约束:要求复述的输出不能仅仅改动前几个词(参考文献的经验)。
  6. 将和PPDB数据集相似的情况,去那个数据集查询以做约束。

Experiment Detail

实验主要和ParaNMT对比语义相似性和词法多样性,同时通过消融实验证明本文的各种trick的作用。 image

Thoughts

感觉满满的trick。