19IJCAI Multi-Group Encoder-Decoder Networks to Fuse Heterogeneous Data for Next-Day Air Quality Prediction

本文提出multi-group Encoder-Decoder networks (MGED-Net) 模型融合多种输入特征，解决预测一天后预测给定站点，给定污染物种类（PM2.5）的污染程度的问题。

难点：时空数据都存在，面临异构数据融合的问题；需要进行较长时间（一天）的预测。针对这些难点，本文提出了一个多组数据的Encoder-Decoder模型，主要贡献有三点。

感觉（2）（3）步共同构成了类似集成学习的一个算法。

用到的数据类型：用到k个空气污染物种类，历史和预测的天气数据都用。还用到地理环境（道路信息和海拔数据）、时间戳信息。

总体解决方案：作者主要从数据的角度入手，利用经典的Encoder-Decoder网络模型，加上提出的三点创新性的数据融合算法，来解决此预测问题。下面是本文提出的网络架构图：

structure

本文创新点

此方法在文中仅仅针对天气数据。天气特征是网格化的，而我们针对的是站点的空气质量预测。所以要将网格化的数据转换为与某一站点有关的数据，采用了三种方法结合：

本文提到了3种不同的分组方法：

相关性分组是重点。本文的分组思想是最大化类内相关性并且最小化类间相关性。用到了皮尔逊相关系数来表示相关性。采用枚举把特征分为2,3,4个组，来找出符合最大化类内相关性和最小化类间相关性的分组方法。

由这些对比论证了模型的合理性。