19KDD AccuAir Winning Solution to Air Quality

目的:用空气质量、meteorology (气象学)、spatial topology (空间拓扑)、天气预报、站点信息、时间信息来预测空气质量。

难点:影响因素多,参量之间的影响是非线性的且具有时空特性,突变的噪声性质,有未知参量的影响。

解决方案:建立了LightGBM、spatial-temporal gated DNN、Seq2Seq model三个模型,分别用现有数据集训练;再训练一个线性模型将上述三个模型的结果合并起来作为预测的输出。

related work

介绍了气象学模型,静态学习模型,深度学习模型(基于时间序列)来解决空气质量预测的问题。提出完成此任务要提出融合多种时空信息的策略,这是解决问题的关键。

提出的方法

LightGBM:特征选择器,比较稳定

spatial-temporal gated DNN:有处理时空响应的能力

Seq2Seq model:编码输入,解码输出

LightGBM

LightGBM是基本的baseline,spatial-temporal gated DNN提取时空信息。Seq2Seq model做编解码,能对快速变化的输入产生良好的反应。本文分为了四个步骤训练LightGBM。第一步使用72h的气象学数据训练模型,得到的效果很差。第二步加入天气预测数据,效果比第一次好。第三步加入了历史空气质量数据,效果提示明显。第四步加入城市中12个站的数据,效果又得到提升。

Spatial-temporal Gated DNN

为了解决深度神经网络对于时间信息的不敏感性,本文提出时空门的概念,可以控制信号的长度。

ps:swish是一个激活函数:swish(x)=x*sigmoid(bx)

有缺失的数据?通过mask进行预处理?

Sequence to Sequence Model

用GRU做循环单元。

历史数据72h,预测未来48h。

对于缺失数据用了另一篇文章提到的方法。

result

4.1先介绍了评测指标。4.2和别的参赛队伍的比较。4.3用控制变量法分析输入特征的作用,并说明了用线性回归模型来整合三个模型的输出结果。