讨论一般时间序列相似的度量方式 1、概念: 时间序列的相似性度量是衡量两个时间序列的相似程度的方法。它是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础;也是时间序列挖掘的核心问题之一。 2、意义: 时间序列式进行序列查询、分类、预测的基本工作,寻求一种好的度量对提高挖掘任务的效率和准确性有着至关重要的意义。 3、影响因素: 两个序列是否相似,主要看它们的变化趋势是否一致。由于时间序列数据的复杂性特点,实际中不可能存在两条完全相同的时间序列,即使相似的时间序列往往也会呈现出各种各样的变化。所以,任何两个序列之间都存在着某种差异, 影响这种差异的主要因素有: ( 1) 噪声:现实的大多数时间序列数据都存在噪声,体现在图形上式指数据的曲线不光滑,即存在“毛刺”。( 2)振幅平移:即两条形态相似的时间序列分别绕高低不同的均值波动。( 3) 振幅伸缩:即两条时间序列的变化趋势相同,但其中一条时间序列在纵轴上似乎被拉伸或者压缩过一样,即两个序列的振幅不同。( 4) 时间轴伸缩:是指两条时间序列的波形相似,但其中一条时间序列在时间轴上按比例伸缩。( 5) 线性漂移:是指两条时间序列的波动节奏相似,但其中一条时间序列呈现线性递增或递减趋势。( 6) 不连续性:是指两条时间序列整体的波动趋势相同,只是在别的时间点或段出现间断。然而,在实际应用中情况要复杂得多,往往是以上多种因素交织在一起。时间序列的相似性并没有一个客观的定义,具有一定的个人偏好性,也就是说,不同的人或不同的应用场合对各种差异影响的重视程度是不一样的。给定两条时间序列?? 1 2 , ,...., n X x x x ?和?? 1 2 = , ,.... m Y y y y ,相似性度量的问题就是在各种各样差异因素的影响下,寻求一个合适的相似性度量函数??, Sim X Y ,使得该函数能很好地反映时间序列数据的特点。 4、方法:目前时间序列相似性度量,最常用的有 Minkowski 距离和动态时间弯曲。一、 Minkowski 距离给定两条时间序列???? 1 2 1 2 .... = .... n n X x x x Y y y y ?和它们之间的 Minkowski 距离如下: ?? 11, npp i i i d X Y x y ?? ?? ?? ?? ?? Minkowski 距离是一种距离度量,因为它满足距离的三个条件: (1)非负性: ????, 0, , , 0 d X Y
时间序列相似性度量 来自淘豆网m.daumloan.com转载请标明出处.