Read Paper 《Toward Controlled Generation of Text》

URL: http://proceedings.mlr.press/v70/hu17e.html

简介

ICML2017 尝试生成通顺的符合设定属性(情感、时态等)的短句。

数据集

名称	简介	链接
IMDB	大型电影评论数据集	https://www.imdb.com/interfaces/
SST	标注情感和语法的电影评论	https://nlp.stanford.edu/sentiment/index.html
Lexicon	句子的语义及其关键词标注	参考文献 https://dl.acm.org/citation.cfm?id=1220619
TimeBank	标注文档中句子时态的数据集	http://timeml.org/timebank/timebank.html

模型

模型看起来有些类似GAN，原始样本经过编码器得到编码z，在条件c的参考下，生成器生成符合条件的样本。为了解耦或者说条件的可解释性，c的每个维度控制不同的条件，比如第一维的01表示情感积极消极。训练时c为真实的标签，并用重构损失训练编码器和生成器生成真实的句子。而鉴别器则负责让生成的结果符合c中设置的属性。 fig1

算法

为了成功求解，作者采用了唤醒-睡眠方法来达到优化目标。这不像传统的VAE同时优化生成和鉴别过程，而是像GAN一样轮流优化。 alg1&fig2

实验与对比

作者和NIPS2014的Semi-supervised learning with deep generative models 对比了生成和鉴别的精度，这篇baseline本来是做MNIST条件生成的。还提供了同时生成各种属性的效果。 tab4&tab5

思考

感觉唤醒-睡眠方法和GAN的对抗训练很像，反而没使用VAE损失函数能同时包含生成和鉴别的优点。似乎像是GAN，而不是改进的VAE。

Contents

简介

数据集

模型

算法

实验与对比

思考