2015 年第 60 卷第 8 期: 694 ~ 703 csb. 引用格式: 刘言, 蔡文生, 邵学广. 大数据与化学数据挖掘. 科学通报, 2015, 60: 694–703 Liu Y, Cai W S, Shao X G. Big data and chemical data mining (in Chinese). C hin Sci Bull, 2015, 60: 694–703, doi: 4-01106 《中国科学》杂志社 SCIENCE CHINA PRESS 专题: 大数据与化学评述大数据与化学数据挖掘刘言, 蔡文生, 邵学广* 南开大学化学学院分析科学研究中心, 天津 300071 * 联系人, E-mail: ******@nankai. 2014-11-03 收稿, 2014-12-08 接受, 2015-01-16 网络版发表摘要数据是重要的战略资源, 大数据挖掘技术已成为学术界、企业界甚至各国政府关注的热点. 本文介绍了大数据的基本概念及发展现状, 综述了与化学研究有关的大数据研究状况, 讨论了大数据在基础理论与关键技术 2 个层面上的主要问题以及大数据挖掘技术在化学各领域中的应用, 并对大数据发展的未来及其在化学学科中的应用前景进行了展望. 关键词大数据数据挖掘可视化云计算化学 1 大数据的基本概念随着人类对自然和社会认识的进一步加深及人类活动的进一步扩展, 科学研究、互联网应用、电子商务、移动通讯等诸多领域产生了多种多样、数量巨大的数据. 在此背景下, 一个崭新的概念——大数据(big data) 应运而生, 成为世界各国关注的热点. 大数据挖掘技术及其应用创造了巨大价值, 对国家治理模式、企业决策、组织和业务流程以及个人生活方式都将产生巨大影响. 大数据尚无统一的定义. 一般认为, 大数据是一种新现象, 具有 4 个带“V”字的特点: (1) 数据体量(volume) 巨大, 达 TB 级, 甚至 PB 级; (2) 数据种类(variety) 繁多、来源复杂、格式多样, 除了结构化数据, 还有半结构化和非结构化数据; (3) 价值(value) 密度低, 在大量的数据中, 有价值的信息比例不高. 例如在连续监控视频中, 有用数据可能仅为 1, 2 min, 甚至 1, 2 s. 但是大数据中蕴藏的信息非常丰富, 可挖掘价值很高; (4) 速度(velocity) 快, 数据的产生和增长速度快, 对数据的处理的速度也要快. 当前, 各行各业都遇到大数据问题. 例如, 商界利用大数据关联分析, 通过了解消费者行为模式的变迁而发现新的商机[1]、优化库存和物流缓和供需矛盾、控制预算开支、提高服务质量. 在医疗领域, 大数据分析被用于复杂疾病的早期诊断[2]、心血管病的远程治疗[3]、器官移植[4] 、HIV 抗体的研究[5]等已经取得了一定的效果. 在生命科学领域, 大数据技术被用于基因组学[6]、生物医学[7]、生物信息学[8]等研究. 此外, 大数据技术还被用于温室气体排放的检测[9] 以及政府信息管理[10]等公共领域. 2 大数据的发展现状 2008 年, Science 发表文章“Bi
大数据与化学数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.