URL: https://www.aclweb.org/anthology/D19-1121/ https://github.com/BBN-E/ecim

简介

EMNLP2019 对于国家经济指标(如失业率)统计困难,提出了一种基于新闻事件的估计方法,和经济指标有很强的相关性。

fig1

数据集

Gigaword包含了1994-2010的570万文章。

方法

从数据集的大规模新闻中提取事件及其事件和位置,然后对每个社会经济指标在每个时间点汇总相关事件,从而产生相应指标对预测序列。

具体的,抽取时间采用语义角色标注(SRL),而时间和地点来自文档数据或相同句子。 对于每个指标累加一段时间内相关事件出现次数$\sum_{e \in Ei} N{e, t'}$, 考虑新闻增长,对月度进行归一化除以所在月份文章总量Mt',最终在一段时间进行平滑。

\[ ECIM_{i,t} = \frac{1}{T} \sum\limits_{t' \in [t - \frac{T}{2}, t + \frac{T}{2}]} \frac{\sum_{e \in E_i} N_{e, t'}}{M_{t'}} \]

实验

对失业率(UR)芝加哥期权交易所波动率指数(VIX)和经济政策不确定性(EPU)三项重要且公开对指标进行估计。 如图似乎估计还有一定提前预测能力。

fig3

还有皮尔逊系数和p值对量化分析(p值全0)

tab2

思考

想法很新,方法很简单,实用性和效果感觉一般。