URL: https://arxiv.org/abs/1910.03506

简介

EMNLP2019 使用GAN结构通过商品介绍和顾客之前评论数据,自动生成新的评论。

数据集

Amazon Review Dataset 三个方向的子集

算法与模型

RevGAN由自注意力递归自编码器、条件鉴别器和个性化解码器组成。

自注意力递归自编码器是作者强调的部分。 fig1 底层(图中的顶层)采用双向GRU设计,因为训练更快,更适合捕捉语义。 然后通过自注意力机制类似transformer的方式进行递归编码。 通过重构的方式进行训练。

条件鉴别器和传统的条件GAN区别在于只将原始评论为积极的视作1,其他的视作0。 应该是为了更好的收敛和结果的可控。

个性化解码器是将作者历史用词特征矩阵和候选矩阵相乘后再生成候选词。

实验与对比

再亚马逊评论数据集上,用WMD、BLEU、ROUGE等指标对其他生成模型和本文模型的各个模块组合方式进行对比。 作者还提出了显著性检验,来判断原始评论和生成评论是否有明显差异。 具体方法是混合真实评论和生成评论,让人类区分。 本文认为生成效果是类似真实评论并且个性化有用的。 tab4&tab5

思考

效果似乎是不错的,为GAN再NLP上应用再添新作。 模型的设计感觉调参比例很大,做了很多约束,不知道如果混合三个子集会不会出问题。