大数据技术对心理研究的影响
【摘 要】行为模式的建立可以用于用戶分析,精准营销,数据分析还有数据应用。最为典型的就是精准营销,也是让大部分用户非常头疼的一种情况,将用户群体切割成更细的粒度,通过推送,邮件,活动等手段来进行营销,这是与过去的“广撒网”式的传统营销方式完全不同的,从技术手段来说,这也是对大数据手段和用户心理学研究最完美的应用。
【关键词】大数据技术;心理学;用户画像;精准营销
一、大数据背景介绍
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的五大特征,它们分别是:1、大量;2、高速;3、多样;4、低价值密度;5、真实性。大数据资源,是需要新处理模式才能具有更强的洞察发现力、决策力和优化流程能力的海量、高增长率和多样化的信息资产。
大数据的核心价值就是在于对于海量数据进行存储和分析;大数据技术的战略意义不在于掌握庞大的数据资源,而在于对这些含有意义的数据进行专业化处理,通过加工的方式实现数据的增值。
大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如不同的群体通过搜索引擎搜索同样的内容,但是每个人页面呈现出来的内容却是大不相同的,系统甚至会“大胆”地猜测用户的喜好,推荐的内容也较为满足大多数人的真实需求。再比如精准营销、百度的推广、淘宝的喜欢推荐,或者用户在旅游的过程中,系统会自动为用户推荐周边的消费设施,娱乐场所等,这些细节处处体现着大数据技术的魅力所在。[1]
日常生活中,我们一台电脑可完成所有计算和数据存储,当觉得不够用时,通常是更换更快的CPU和更大硬盘来解决。但当计算速度和存储要求越来越高时,这种通过提升单台服务器性能的集中模式会导致服务器成本极为昂贵,且最终可能仍然无法满足要求。另外一种思路,则是将大的计算需求分摊到多台计算机一起来完成。相应的分布式计算就是通过多台廉价、低性能服务器来实现超高的计算存储能力。在分布式计算系统中,任何计算和存储请求,被自动分为多个小的任务,分摊到各服务器上
并行完成。同时,数据分布在多个服务器节点并有备份,这样即使部分服务器损坏也并不影响系统运行。
相比集中模式,分布式计算成本和门槛更低,易扩展并具高可靠性。成为近10年来IT体系架构最重要的技术,支撑起了整个互联网的数据和业务,也是云计算和大数据的支撑技术之一。
如果说分布式计算是IT体系架构的明星,那么机器学习就是智能数据分析的利器了。机器学习是为了让计算机通过经验来模仿人类的学习能力,从而获得计算机系统能力的提升。基于训练-建模-分类-优化的迭代生成模式,使得机器学习在实际的分析性能和模型适用性方面,具有较大的优势。
在前面了解的技术理论之上,我们进一步介绍大数据业务中可使用的技术资源和工具
(1)分布式计算框架
分布式计算框架用于完成分布式计算所需的底层任务管理和调度等核心工作,是大数据计算体系结构的基石。
(2)数据管理
数据管理主要包括存储和快速检索。大数据环境中,研究业务相关的数据更多以数据库而不是文件方式存储。
(3)处理与计算
市场研究行业大数据业务中,分析相关的数据计算技术是最重要的技术内容,主要集中在以下几个领域:
并行机器学习:机器学习本已是数据计算利器,而基于分布式的并行机器学习框架则将其能力又大大增强。Mahout中实现了大量的机器学习算法的并行版本,是当前大数据机器学习的主要工具包。MLib基于Spark框架,在性能上有优势,也开始受到广泛的关注。
自然语言处理:在中文自然语言处理领域,当前可用的免费开放资源并不多,一些开放资源主要来自学术院校,但在效果上面向工业应用尚有不足。当前常见方式是通过院校或者专业技术企业合作获得深入分析能力。
图计算:如果有图计算相关的需求可考虑采用这些开源资源。GraphLab是当前最主流的图计算框架,实现了图数据的存储和基础计算逻辑。而GraphX是Spark体系下的图计算新贵。
(4)研究分析
以下是基于大数据环境下分析阶段的数据库简介:
Hive/Impala/Spark Sql分布式的大数据分析工具,支持以传统关系数据库Sql语句进行大数据内容的检索,大大降低了研究分析人员的大数据分析门槛,是适合数据分析/研究人员的最佳工具。
TableAU 企业级大数据分析工具,其优点是大数据下的可视化和方便性,研究人员使用比较容易。就实际应用体会上,感觉更适合企业级内部数据、亿级以下的结构化大数据的场景。分析维度主要是统计性维度,可分析深度相对不足。
SPSS Modeler IBM的商用数据挖掘工具,对大数据支持能力不如计算复杂度相关的工具,其特点
大数据技术对心理研究的影响 来自淘豆网m.daumloan.com转载请标明出处.