19IJCAI Multi-Group Encoder-Decoder Networks to Fuse Heterogeneous Data for Next-Day Air Quality Prediction

本文提出multi-group Encoder-Decoder networks (MGED-Net) 模型融合多种输入特征,解决预测一天后预测给定站点,给定污染物种类(PM2.5)的污染程度的问题。

难点:时空数据都存在,面临异构数据融合的问题;需要进行较长时间(一天)的预测。针对这些难点,本文提出了一个多组数据的Encoder-Decoder模型,主要贡献有三点。

  • 将空间网格的天气数据(包括历史与未来的)通过卷积核(根据先验得出的)变换成观测站附近的天气数据。
  • 按照皮尔斯相关系数进行特征分组。
  • 利用组间互相关进行encoder后的特征融合。

感觉(2)(3)步共同构成了类似集成学习的一个算法。

用到的数据类型:用到k个空气污染物种类,历史和预测的天气数据都用。还用到地理环境(道路信息和海拔数据)、时间戳信息。

总体解决方案:作者主要从数据的角度入手,利用经典的Encoder-Decoder网络模型,加上提出的三点创新性的数据融合算法,来解决此预测问题。下面是本文提出的网络架构图:

structure

本文创新点

特征表示

此方法在文中仅仅针对天气数据。天气特征是网格化的,而我们针对的是站点的空气质量预测。所以要将网格化的数据转换为与某一站点有关的数据,采用了三种方法结合:

  • 选取站点所在的网格的天气数据。
  • 取周围k×k网格天气数据的平均。
  • 用各种代表天气状态(比如风向)的卷积核卷积k×k的网格天气数据。

特征分组

本文提到了3种不同的分组方法:

  • 每个特征一组
  • 每个领域的特征一组。(天气特征一组,空气质量特征一组)
  • 相关性分组

相关性分组是重点。本文的分组思想是最大化类内相关性并且最小化类间相关性。用到了皮尔逊相关系数来表示相关性。采用枚举把特征分为2,3,4个组,来找出符合最大化类内相关性和最小化类间相关性的分组方法。

融合架构

  • 特征融合(在encoder之前)
  • encoder之后融合(在网络结构图中fusion位置)
  • encoder之后与相关性结合的融合(在网络结构图中fusion位置)

实验结果对比

  • 特征表示的三种方案对比
  • 特征分组三种方案对比
  • 三种融合架构的对比
  • 和其他模型的对比

由这些对比论证了模型的合理性。