Skip to content

Time‐Series

megashare edited this page Sep 4, 2023 · 2 revisions

矢量化

将时间序列矢量化(转换成矢量)通常涉及将一系列时间步的数据转换为单个矢量表示。这可以有多种方法和思路,取决于您的具体需求和数据特点。以下是一些常见的方法和思路:

滑动窗口特征提取: 使用滑动窗口的方式,从时间序列中提取固定长度的窗口,然后将窗口内的数据作为特征。可以根据窗口内的数据计算统计特征如均值、方差、最大值、最小值等,然后将这些特征组合成一个矢量。

傅里叶变换: 将时间序列进行傅里叶变换,将其转换为频域中的频谱表示。频谱表示可以包含不同频率上的振幅信息,可以用于分析周期性和频率特征。

小波变换: 小波变换可以将时间序列分解为不同尺度和频率的成分,然后将这些成分转换为特征。小波变换能够捕捉到不同时间尺度上的特征变化。

特征提取模型: 使用机器学习或深度学习模型,如卷积神经网络(CNN)或循环神经网络(RNN),将时间序列输入模型中,提取出具有代表性的特征,然后将这些特征表示作为矢量。

直接编码: 将时间序列数据直接编码为矢量,例如将每个时间步的数据连接在一起形成一个矢量。

统计特征: 计算时间序列数据的统计特征,如均值、方差、斜度等,然后将这些特征组成一个矢量。

自编码器: 使用自编码器等无监督学习方法,将时间序列数据压缩为较低维度的编码,然后将编码作为矢量。

选择适当的方法取决于您的数据类型、问题领域和目标任务。在选择方法时,您还可以考虑特征的可解释性、维度压缩效果以及是否适合您的分析或预测任务

如果您希望能够容易地还原出原始时间序列(允许有损失),则使用滑动窗口特征提取、傅里叶变换、小波变换这类方法可能不太适合,因为它们可能会丢失原始序列的部分细节信息。

以下两种方法在允许有一定损失的情况下,仍然能够较容易地还原出原序列:

特征提取模型(如CNN、RNN): 使用这些模型提取时间序列的特征表示,可以在一定程度上保留原始序列的信息。虽然特征提取后的表示不一定能完美还原原始序列,但仍然可以通过解码过程来近似还原。

自编码器: 自编码器是一种无监督学习方法,可以将时间序列数据压缩为低维编码,然后再解码回原始序列。自编码器可以在编码和解码过程中捕获原始序列的信息,允许一定程度的信息损失。

无论选择哪种方法,都需要权衡信息损失和还原能力。一般来说,特征提取模型和自编码器能够在保留一定信息的基础上进行压缩,但仍可能在一些细节上产生损失。您可以根据实际需求和问题的特点来选择最适合的方法。

同向性和相关性

同向性和相关性。对于这两个概念,有几种数学工具可以描述他们之间的关系:

协方差 (Covariance): 协方差描述的是两个随机变量整体变动的趋势,如果两个随机变量的变动趋势相同,即一个变量大于期望值时,另一个变量也大于期望值,那么两者之间的协方差就是正值。

相关系数 (Correlation Coefficient): 相关系数描述的是两个随机变量之间线性关系的强度和方向。它是通过协方差除以两个随机变量的标准差得到的。当相关系数为1时,表示两者之间存在完全正相关;当为-1时,表示两者之间存在完全负相关;当为0时,表示两者之间不存在线性关系。

Pearson相关系数: 用于描述两个连续变量之间的线性关系。
Spearman秩相关系数: 当数据不满足正态分布时,可使用Spearman秩相关系数来描述两个变量之间的单调关系。
加权和 (Weighted Sum): 这是一个简单的方法来观察两个时序数据的同向性。通过为每个时序赋予一个权重,并将它们加在一起,可以观察到哪个时序在总和中起着主导作用。

互信息 (Mutual Information): 互信息是描述两个随机变量之间信息共享的一个度量。它可以捕获到变量之间的任何种类的关系,而不仅仅是线性关系。

交叉相关函数 (Cross-Correlation Function): 当我们关心两个信号在不同延迟下的相关性时,交叉相关函数是一个非常有用的工具。

共频谱 (Co-spectrum) 和 相干系数 (Coherence): 这是在频域中描述两个时间序列相关性的工具。共频谱表示两个时间序列在各个频率上的相关性,而相干系数则度量了这种相关性的稳定性。

当时序数据中的时间间隔不固定时,传统的方差和协方差可能不会准确地反映数据的内部特性。这是因为这些统计量基于的假设是数据之间的时间间隔是固定的。对于不均匀间隔的时序数据,以下是一些建议的方法和注意事项:

重采样 (Resampling): 一个常见的方法是将数据重采样到一个固定的时间间隔。例如,如果你的数据最小的间隔是5分钟,你可以考虑将所有数据重采样到5分钟的间隔。这种方法可能会导致数据的丢失或插值,但它可以使数据适用于传统的统计方法。

时间加权的统计量: 对于不均匀的时间序列,可以使用时间加权的方差和协方差。这意味着在计算这些统计量时,每个数据点都会根据其与前一个数据点之间的时间差进行加权。

核密度估计 (Kernel Density Estimation, KDE): 这是一种非参数方法,可以用来估计变量的概率密度函数。对于不均匀的时间序列,KDE可以提供一个平滑的估计,不受不规则采样的影响。

State-Space Models: 这些模型,如卡尔曼滤波器,可以用于不均匀间隔的时间序列数据,因为它们会考虑时间的进程和观察的不确定性。

考虑物理意义: 如果你的数据是从某种物理过程中得到的,那么考虑这个过程的物理意义可能会帮助你确定如何处理不均匀的时间间隔。例如,如果数据表示的是某种过程的“累积效应”,那么不均匀的时间间隔可能不那么重要。
Clone this wiki locally