会议摘要(Abstract)
近年来,数据爆炸式增长给复杂时间序列大数据的现代化统计分析带来了重大挑战,其中包括多重记录、网络序列、树状结构、图像和时变空间数据等。大数据的一个共同特征是异质性,这可能是由随时间和/或空间结构的变化,或来自多个来源的数据而引起的。这类数据的一个自然建模范式假设数据的不同子集(聚类或分段)是同质的,并且子集内的变异可以通过相对简单和稳定的统计模型来描述。分析的挑战在于同质数据子集是未观测到的。这种建模范式具有计算效率高的优势,因为数据子集的模型是可处理的,并且具有灵活性,因为它允许为不同的子集使用不同的模型。此外,它自然地关注于识别数据中最重要的变化和特征。需要面对的挑战包括高维性(因为每个段内的观测次数相对于每个时间点采取的记录数而言相对较小)和变点检测。这两个问题都非常重要,并且由于它们在大数据应用中的重要性,近年来引起了兴趣的快速增长。
近年来,对于大规模和复杂时间序列进行预报也日益显得重要。针对这样的数据,有效的预报技术对于决策、资源配置、风险管理和战略规划至关重要。能够预报未来的趋势、识别异常情况、估计大规模复杂时间序列中的不确定事件的能力,可以提供宝贵的洞察力,使组织能够优化运营、降低风险,并提升整体表现。因此,发展传统的基于模型的技术和现代机器学习方法,用于预报大规模复杂时间序列,已成为一个具有深远实际影响的紧迫研究领域。
另一个在大数据领域具有战略意义的研究前沿是因果分析。其目标是识别潜在的导致观察结果的原因,或者生成关于变量之间关系性质的假设。这与相关性分析不同,后者仅识别两个变量之间的关系,而不试图推断因果联系。尽管大多数因果分析工作侧重于独立观察,但因果关系最自然地在时间滞后框架内进行阐述,而对于时间序列的因果分析则涉及初步尝试。应该注意到,这与著名的Granger因果关系不同,后者用于确定一个时间序列是否有助于预报另一个时间序列。
本次研讨会将是交流最新研究成果的论坛,涵盖以下领域:高维与复杂时间序列的建模与预报、时间序列中的变点检测、非欧几里德过程、非平稳空间和/或时间过程、因果时间序列分析。此外,它还将作为一个平台,回顾和探索那些通常设计用于独立数据的机器学习技术的应用和/或适应性。
举办意义(Description of the aim)
此次研讨会将在统一的框架下,涵盖大型和复杂时间序列分析的四个相互关联的领域。
I. 高维时间序列分析
对于以向量、矩阵或张量形式出现的大型时间序列进行建模一直是一项挑战,即使是具有相对大的p维向量序列也不例外。虽然大多数单变量自回归滑动平均(ARMA)过程的推断方法及其相关理论都有相应的多变量对应,但在p ≥ 3时,很少直接在实践中使用向量自回归滑动平均(VARMA)模型。因为VARMA模型存在过多的参数,导致似然函数平坦,从而在统计推断中带来固有的困难。因此,寻找一种有效的方法来减少参数数量,在建模和预报高维时间序列中尤为重要。在这个信息时代,这种需求更为紧迫,因为人们经常接触和分析数百甚至更多成分序列的高维时间序列数据。高维时间序列数据的来源包括经济和自然现象的面板研究、社交网络、医疗保健和公共卫生、金融市场、超市交易、信息检索和推荐系统等。
此次研讨会将体现高维时间序列在建模和预报方面的现代发展。具体而言,展示和交流将聚焦于以下三个主题,每个主题都由一位主要发言者:
1.包含各种惩罚项的正则化向量自回归或自回归滑动平均模型。
主要发言者:David Matteson/Sumanta Basu,康奈尔大学(美国)。
2.包含奇异值分解(SVD)及其变种的用于矩阵和张量的因子模型。
主要发言者:Hashem Pesaran,南加州大学(美国)。
3.用于时间序列的独立成分分析。
主要发言者:Rong Chen,罗格斯大学(美国)。
II. 时间序列的变点检测
由于现代数据的复杂性不断增加,变点检测在过去5到10年内重新变得流行。随着大数据的崛起,更好的机器学习算法以及更强大计算资源的可用性,使得研究人员开始重新探索变点检测,以便轻松准确地识别数据随时间发生的变化。变点检测可用于确定数据中的基本变化,例如分布模式的转变、异常值和趋势,这些能够提供洞察力并帮助做出决策。此外,变点检测在风险管理、安全性、欺诈检测和其他需要快速准确识别数据变化的应用中越来越受欢迎,因为这些情况下迅速做出反应至关重要。
变点检测是一个与时间序列推断密切相关的问题,因为数据的时间顺序是重要的。虽然大多数变点检测研究是针对独立观测数据的,但我们将重点关注其在时间序列框架下最近的发展,主要涵盖以下三个领域:
1. 离线变点检测。
主要发言者:Yi Yu,华威大学(英国)。
2. 在线变点检测。
主要发言者:Yao Xie,佐治亚理工学院(美国)。
3. 变点检测的计算。
主要发言者:Guillem Rigaill,法国国家农业食品与环境研究院(法国)。
III. 大规模复杂时间序列的预报
此次研讨会旨在聚集时间序列预报领域的知名研究人员,探索和展示前沿预报技术。本次活动将聚焦于两个关键主题:传统的基于模型的技术和现代机器学习方法。展示和交流将深入探讨基于扩散指数和基于因子模型的预报方法,它们已长期在该领域被提出并研究。此外,研讨会将重点突出应用最先进的机器学习方法,包括使用长短期记忆(LSTM)网络和贝叶斯非参数模型。通过结合传统和现代方法,本次研讨会旨在为参与者提供对预报大规模复杂时间序列的多种技术的全面了解。参会者将获得关于这些方法的优势、局限性和潜在应用的见解,使他们能够做出明智决策并推动时间序列预报领域的发展。
高维/函数时间序列的预报。
主要发言者:Han-Lin Shang,麦考瑞大学(澳大利亚)。
IV. 时间序列因果性分析
关于事件之间的因果关系,或是某一现象变化的原因,这是一个常见的问题。例如,一种药物是否导致了某种医疗状况的改善(与安慰剂效应、额外的医院访问等进行比较),追踪导致生产线故障的原因,或确定是什么导致了网站流量的激增。尽管对问题的朴素解释可能暗示简单的方法,如将因果关系等同于高度相关性,或从x作为y的预测因子的适合程度推断x导致y的程度,但问题实际上要复杂得多。虽然确定因果关系的黄金标准是进行适当的随机试验,但在这个现代时代,大数据的存在也需要发展所谓的观测研究,以寻找不依赖随机实验的因果性识别。大多数因果性研究都集中在独立观测数据上。时间序列的因果性分析(超出了有效地进行条件独立性检验的Granger因果性)仍处于初级阶段。另一方面,在许多科学领域,学习动态系统和时间序列数据的因果结构被视为一个有趣的任务,它在科学发现中扮演着重要的角色。通过因果推理,可以估计干预效果并从数据中识别因果关系。
1. 因果处理效应估计。
主要发言者:Peng Ding,加州大学伯克利分校(美国)。
2. 因果发现。
主要发言者:Michael Eichler,马斯特里赫特大学(荷兰)。
Dong Li, Department of Industrial Engineering, Tsinghua University
George Michailidis, University of California, Los Angeles
Xinghao Qiao, London School of Economics
Qiwei Yao, London School of Economics