交通事故大数据挖掘分析
国外交通事故大数据挖掘分析
摘要:近年来,随着车速的提高及交通量的增长,道路交通事故每年呈上升趋势。通过对交通事故大数据挖掘分析,k-means聚类分析和Apriori关联规则分析交、道路位置、道路类型、碰撞类型、伤害程度等。通过用户自定义交通事故数据维度,进行更高级的数据分析识别趋势和模式。
2 数据分析
k-means聚类分析,Apriori关联规则分析,关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。事故数据的维度包括:日期、事故伤害程度、事故地点和区域、事故影响因素、事故碰撞类型、天气条件、路面情况、建设或维护相关、光照条件、路拦等;交通个体数据的维度包括:车辆是否是有资格的发动机型号、车辆类型、车辆制动、车辆机动前缀、车辆机动后缀、驾驶员或行人的年龄、驾驶员或行人是否喝酒和吸毒、车辆出毛病的个数、首先撞上物体、然后撞上物体。涉及人员数据维度包括ID号、伤害分类、座位、年龄、保护系统的使用、安全气袋的状态、喷射状态。道路特性数据的维度包括平均日流量、农村或城市、通道数。
3 数据可视化
Tableau进行数据可视化,生成相应的图表图形,直观表示交通事故大数据分析结果。
三、关于研究领域的原理及应用介绍(算法原理)
(1)K-means算法是一种经典的聚类算法,其基本思想是:以随机选取的K个样本作为起始中心点,将其余样本归入相似度最高中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环下去,直到所有样本类别不再变动,得到K个交通事故类,并得到聚类算法模型,能够将所有交通事故数据划分到所属的类中,同时得到m个交通事故信息的特征对聚类效果的重要性程度。
图1 K-means聚类算法流程
(2)Apriori算法是一种挖掘关联规则的频繁项集算法,设置最小支持度和最小置信度,产生频繁项集,关联分析数据源,某个项目集的支持度大于或等于最小支持度,则该项目集被标记为频繁项集。找出频繁项集,根据这些频繁项集可以得到候选关联规则,计算每条候选关联规则的置信度,筛选出大于最小置信度的关联规则,这些关联规则能够发现道路交通事故数据中各种属性的关联,以及驾驶员、车辆、道路、天气、时间等属性引起道路交通事故的原因因素与事故结果之间的规则,从中得到规律。
图2 Apriori算法流程图
本文采用k-means聚类算法对交通事故数据进行基于属性聚类分析,在属性聚类中,使得在一个类中的事故特性具有很高的相似性,将每个类的事故原因当作一个整体来看。采用Apriori关联规则算法找到引起事故的多因素和各自的占比,运用多维关联规则挖掘方法建立Apriori关联规则挖掘模型,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并将这些规律作为现实中作出预防举措的依据。
四、研究的点
采用数据挖掘方法研究交通事故数据,建立多维关联规则数据挖掘模型,旨在通过数据挖掘的关联规则算法,将事故因素集和事故结果集组成事故模式,交通管理部门就可以通过对驾驶员、车辆、道路、天气、时间等因素来判断道路交通事故发生的可能性。
k-means算法对属性做聚类分析,通过指定时间范围,选择某个区域或某条道路来确定要分析的数据对象,选定需要分析的项目属性进行聚类分析,在属性聚类中,利用聚类分析对事故原因进行聚类和分组,使得在一个类中的事故特性具有很高的相似性,可以将每个类的事故原因当作一个整体。根据实际需要,在事故原因聚类分析时,要考虑事故原因中各个属性的重要程度,进行属性重要度分析。
五、结果分析
表明引起交通事故绝大部分都是在没有不利天气条件下发生的,下雨或下雪对事故发生有较大影响。
上图说明事故多发生Daylight和Darklight,事故发生和光照条件并无太大关系。
交通事故多发生路面情况正常即干燥路面,其他情况如路面是湿的、有融雪等等容易引起交通事故。
上图表明引起交通事故的影响因素依次从大到小,分别是跟车距离太近、未能给出优先权、司机失控、变换车道不当、违反交通管理、速度过快、弯道超车、不安全倒退等等。
按路面情况进行聚类,路面情况可分为冰雪、潮湿、平坦等状况,根据聚类算法得出结论:平坦路面状况最多,事故数也最多,冰雪只在冬季的部分时间和部分路面才出现,发生事故的比例相对很大,说明冰雪路面易发生事故。路面积水导致摩擦系数降低,车辆容易发生侧滑而冲出公路,导致交通事故的发生。
六、未来展望
随着经济与社会的发展,公路交通量与日俱增,其交通堵塞、交通拥挤与交通肇事等现象日益增多。且公路占地多、环境污染和
交通事故大数据挖掘分析 来自淘豆网m.daumloan.com转载请标明出处.