大数据可视化分析.doc大数据可视化分析
陈明
(中国石油大学计算机科学与技术系,北京 102249)
摘?要:人类利用形象思维获取视觉符号中所蕴含的信息并发现规律,进而获得科学发现。文章介绍科学可视化、信息可视化和数据可视化的内涵,阐述大数据可视化分析方法。
.jyqkail protected]。
0 引言
人类的创造性不仅取决于逻辑思维,还与形象思维密切相关。人类利用形象思维将数据映射为形象视觉符号,从中发现规律,进而获得科学发现。期间,可视化关键技术对重大科学发现起到重要作用。在大数据时代,大数据可视化分析的研究与发展将为科学新发现创造新的手段和条件[1]。
数据可视化于20世纪50年代出现,典型例子是利用计算机创造出了图形图表。1987年,布鲁斯·麦考梅克等撰写的《Visualization in Scientific puting》促进了可视化技术的发展,将科学计算中的可视化称之为科学可视化[2]。20世纪90年代初期,出现了信息可视化。目前将科学可视化与信息可视化都归为数据可视化。
2 科学可视化
问题的提出
传统的科学可视化技术已成功应用于各学科领域,但如果将其直接应用于大数据,将面临实用性和有效性问题,这说明需要对科学可视化技术重新审视与深入研究。
分布式并行可视化算法
可扩展性是构造分布式并行算法的一项重要指标。传统的科学可视化算法应用在小规模的计算机集群中,最多可以包括几百个计算节点,而实际应用是要在数千甚至上万个计算节点上运行。随着数据规模的逐渐增大,算法的效率逐渐成为数据分析流程的瓶颈,设计新的分布并行可视化算法已经成为一个研究热点。
并行图像合成算法
传统的并行图像合成算法主要包括前分割算法、中间分割算法和后分割算法3种类型,前分割算法主要分为如下3步骤:
(1)将数据分割并分配到每个计算节点上;
(2)每个计算节点独立绘制分配到的数据,在这一步,节点之间不需要数据交换;
(3)将计算节点各自绘制的图形汇总,合成最终的完整图形。
从上述步骤中可以看出,由于节点之间可能需要大量的数据交换,尤其是步骤(3)可能成为算法的瓶颈。解决这个问题的关键是减少计算节点之间的通信开销,可以通过对数据进行划分并在各计算节点间进行分配来实现。划分和分配方案需要与数据的访问一致,原则是计算节点只使用驻留本计算节点的数据进行跟踪,从而减少数据交换。
并行颗粒跟踪算法的研究
传统的科学可视化研究对象主要集中在三维标量场数据。在科学大数据中,经常使用三维流场数据,其原因如下所述。
将二维的流场可视化方法直接应用在三维流的结构不可能都成功,每个颗粒虽然可以单独跟踪,但是可能出现在空间中的任何一个位置,这就需要计算节点之间通过通信交换颗粒。同时,当大量的颗粒在空间移动时,每个计算节点可能处理不同数量的颗粒,从而造成计算量严重失衡。解决这些问题的关键是减少计算节点之间的通信开销,其基本思路同并行图像合成算法。
重要信息的提取与显示技术
科学大数据可视化的另一个重要研究方向是如何从数据中快速有效地提取重要信息,并且用这些重要信息来指导可视化的生成。从可视化的角度来看,一方面需要可视化设计表达数据中特定信息的定义,通过人机交互工具,由用户来调整参数,观察和挖掘数据中的重要信息
大数据可视化分析 来自淘豆网m.daumloan.com转载请标明出处.