Read Paper 《Measure Country-Level Socio-Economic Indicators with Streaming News: An Empirical Study》

简介

EMNLP2019 对于国家经济指标(如失业率)统计困难，提出了一种基于新闻事件的估计方法，和经济指标有很强的相关性。

Gigaword包含了1994-2010的570万文章。

从数据集的大规模新闻中提取事件及其事件和位置，然后对每个社会经济指标在每个时间点汇总相关事件，从而产生相应指标对预测序列。

具体的，抽取时间采用语义角色标注(SRL),而时间和地点来自文档数据或相同句子。对于每个指标累加一段时间内相关事件出现次数$\sum_{e \in Ei} N{e, t'}$, 考虑新闻增长，对月度进行归一化除以所在月份文章总量Mt',最终在一段时间进行平滑。

\[ ECIM_{i,t} = \frac{1}{T} \sum\limits_{t' \in [t - \frac{T}{2}, t + \frac{T}{2}]} \frac{\sum_{e \in E_i} N_{e, t'}}{M_{t'}} \]

对失业率(UR)芝加哥期权交易所波动率指数(VIX)和经济政策不确定性(EPU)三项重要且公开对指标进行估计。如图似乎估计还有一定提前预测能力。

还有皮尔逊系数和p值对量化分析(p值全0)

想法很新，方法很简单，实用性和效果感觉一般。