Read Paper 《You Write Like You Eat: Stylistic variation as a predictor of social stratification》
Contents
URL: http://arxiv.org/abs/1907.07265 https://github.com/anbasile/social-variation(尚未存在)
TL;DR
ACL 2019 一篇脑洞大开的创意文章。 受不同阶层人们发音不同研究的启发,在更大的数据集上验证不同阶层的人们的写作文体不一样,并给出了重要特征。
Dataset
一个包含用户点餐、酒吧等娱乐消费与评价的数据集。 https://www.yelp.com/dataset
作者对数据进行了重整,以消费价格来标注匿名用户的阶层。 并筛选数据,以使得数据集满足: 1. 选中的评论者的每一条评论的标注阶层应当尽可能一致; 2. 每个评论这的评价数目尽可能多; 3. 不同阶层的样本尽可能一致。
Algorithm & Model
鉴于任务比较新颖,作者采用词频作为基线,并对比采用不同语法特征的其他模型,来挖掘不同阶层消费者的评论特征。 分类模型采用如下三种表示,来获取特征: 1. 漂白表示,获得独立于语言的表层特征; 2. 词性标签,用词性标签取代原有单词建模; 3. 依赖树,词语间的依赖关系。 这些特征都用类似词碗的方式打包到固定维度。 分类时作者采用逻辑回归和最朴素的CNN。
Experiment Detail
结果是语法形态上的特征不如直接用词更好。 作者表示发现了不同特征在阶级间的差异程度。
Thoughts
可以进一步考虑时间纬度,挖掘一个人阶层变化时的文体变化。
Author lvcudar
LastMod 2019-07-18