URL: http://aclweb.org/anthology/K16-1002

简介

CoNLL 2016 利用变分自编码器生成句子的早期论文,可能是第一篇

数据集

Name Desc Link
Penn Treebank 词性句法标注的语料 https://catalog.ldc.upenn.edu/LDC99T42
Books Corpus 英文电子书的句子 https://yknzhu.wixsite.com/mbweb

模型

使用一层LSTM作为编码器和解码器,变分推理主要用于学习和调整中间变量z。 fig1

算法

虽然VAE相比于GAN将生成和对抗的损失函数统一,但是训练的时候仍然可能被偏向优化某一项。 为此作者为VAE的KL和熵动态分配全重,从而平衡损失函数前后两项的优化过程。 fig2

为了让生成的语句更通顺则采用了解码器输入随即替换为的方式。

实验与对比

  • 语言模型 tab2

  • 填空 tab4

  • 还对两种优化策略作了消融实验

思考

单单对中间编码z进行改进难以提供足够的信息量,应当在更大范围使用z。 这不仅是将z输入到解码每一步,而是应当在每一步生成不同的z。