摘要:本文将用户画像引入数字图书馆各项服务的用户兴趣模型构建过程中,在对比国内外用户画像概念基础上引申出数字图书馆领域用户画像概念,通过国内外图书馆用户画像研究现状归纳出数字图书馆用户画像建设思路。从理论层面详细阐述模型设计、数据准备、数据挖掘与标签映射3项关键步骤,之后遵循以上建设步骤以国家农业图书馆知识服务用户为研究对象开展用户画像建模及管理实践,以期为后续的研究探索提供参考。
关键词:数字图书馆;用户画像;数据建模
Edwards等[1]通过研究发现,1945年以后,科研产出量每九年可翻一番,此外计算机、通信、网络及存储技术的高速发展,催生了科研产出数字出版的新业态。数字图书馆容纳的电子资源数量、类型和知识内容空前增长。海量资源衍生出知识冗余及知识迷航问题,知识消费者的获得感低。新形势下,通过对科研用户精细刻画,实现用户需求与馆藏资源的精准匹配,优化数字图书馆知识服务形式成为突出问题。用户画像作为数字化、虚拟化描述真实用户的技术手段,可整合用户资源,从动态增长的用户行为日志中挖掘用户的场景域、资源域及服务域需求。将其应用于数字图书馆领域用户建模,一方面可充分释放馆藏资源价值,促进图书馆各项服务增值;另一方面,可准确把握用户脉搏,提升图书馆智能化、个性化服务水平。同时,近年来用户画像在电商、智慧出行等智能信息服务领域的成功应用,也为数字图书馆领域提供了相对成熟的技术应用经验及成功案例[2]。
1图书馆用户画像概述
图书馆及信息学界对用户画像的概念界定目前尚不统一。用户画像这一概念最早源于交互设计/产品设计领域,交互设计之父Cooper[3]于2004年提出了用户画像概念,并指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。陈慧香等[4]认为用户画像是建立在一系列真实数据之前的描述用户需求和偏好的目标用户模型,该模型可全方位、立体化地反映用户特征。胡媛等[5]认为数字图书馆将知识社区用户信息抽象化并运用聚类、关联规则及分类等数据挖掘方法汇制所得的用户可视化画像即为用户画像。陈冬玲等[6]将用户画像称为“userprofile”,认为其是用户兴趣的描述文件,是用户个性化需求的体现,是个性化搜索的基础设施。总之,由于总体设计思路及实现技术的不同,不同学者对用户画像的理解各有侧重。
笔者引入互联网用户行为分析领域用户画像概念,拟通过用户行为信息标签化以实现数字图书馆用户画像的构建。笔者认为数字图书馆用户画像主要指面向真实读者用户,以用户的静态属性(人口统计特征、科研属性特征、空间和地理特征等)和动态属性(访问行为、资源检索及获取行为、学术社交行为、学术成果发表行为等)数据为基础,综合应用文本挖掘、机器学习等方法提炼出的具有显著特征的用户标签集合,该标签集合应该是关联、无歧义并且富含语义的。
以“图书馆用户画像”作为检索词搜索谷歌学术相关主题中文文献,得到800余条检索结果,发文时间在2010年之后。以“libraryuserprofile”作为检索词搜索谷歌学术外文文献,检索结果数达百万余条,最早文献发表时间可追溯至20世纪50年代。由此可见,国外相关研究起步较早,在理论及实践探索层面已相对成熟和完善,国内用户画像的研究在互联网产业的带动下开始成为热点,目前国内发文主要处于理论研究和前期探索阶段,实践层面研究成果相对较少。按照建模的数据对象来划分,用户画像包含基于用户行为及基于科研产出两类方法。
基于用户行为的画像构建方面,Leung等[7]通过搜集搜索引擎日志中的正向与反向反馈为目标用户画像并完成聚类分析。国家图书馆在其大数据项目中通过汇总读者的注册、到馆、搜索、借阅等系列行为数据,搭建HadoopMapReduce大数据管理与计算框架,构建了包括三级标签的读者画像[8]。
基于科研产出的画像构建方面,美国加州圣玛丽学院图书馆研究并设计了PlumX管理工具,该工具以学者兴趣领域的科研产出为对象,构建可视化学者画像以响应本校科研管理战略[9]。Gu等[10]以学者的研究成果为分析对象,设计MagicFG算法,以出版成果数据为对象从中抽取学者基本信息,挖掘学者研究兴趣,并构建了Aminer研究者学术搜索网站。
综上可知,基于用户行为的建模方法受限于用户行为数据的离散性;基于科研产出的建模方法则更聚焦于学术兴趣,无法兼顾行为模式研究。笔者以国家农业图书馆各项知识资源内容及应用服务用户群体为研究对象,综合使用基于用户行为及
数字图书馆用户画像建模与应用实践 来自淘豆网m.daumloan.com转载请标明出处.