该【标签数据定义和管理 】是由【学锋】上传分享,文档一共【5】页,该文档可以免费在线阅读,需要了解更多关于【标签数据定义和管理 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。一、什么是标签标签是一种用来描述业务实体特征的数据形式。通过标签可以有效扩充业务实体的分析角度,且通过对不同标签的简单操作,便可进行数据筛选和分析。比如对用户进行刻画时,可以从“性别”、“年龄”、“地区”、“兴趣爱好”、“产品偏好”等角度进行描述。分析角度片面会导致很多问题,例如:某大学年度调查数据显示,本校计算机系女生中,50%都嫁给了本校男老师。该消息一经公布,就引起了校内外的巨大反响,人们对师生恋、校园恋爱议论。纷纷结果是该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。所以尽可能多的扩展分析角度,能够更全面、更准确地对分析对象进行刻画。二、如何管理标签(1)标签分类标签分类的主要目的是方便用户查找标签。对标签分类的方式有很多,大致可以分为几大类:按生成方式分类、按业务主题分类、按技术特性分类、按使用情况分类。,标签可分为事实标签、模型标签以及策略标签。(2)标签生成标签的产生大致可分类手工产出和自动产出两类。手工产出就是通过手写SQL或建模依次产出每个标签。自动产出是一种更高效的方式,通过逻辑配置或者数据挖掘一次性产生多个标签。要获得能给业务带来实际帮助的标签体系,我们需要在标签体系中引入“假设-测试-验证-定义”的迭代过程,通过不断的迭代挖掘与试验,才会找到可以准确刻画用户的标签体系,找到更多业务增长点。(3)标签更新除了少数专用型标签可能仅使用一次之外,其他绝大部分标签上线后必须持续进行更新,否则便成了僵尸标签。按照标签更新方式,标签大致可以分为批量更新标签和实时更新标签两类。对于实时更新标签,一旦产生标签的数据发生了变化,就需立即更新该标签。比如最后一次登录APP的时间这个实时标签,只要用户登录了APP,就把标签值更新为此次登录时间。对于批量更新标签,不管是每天、每周还是每月更新,都是通过跑批方式进行。这里需要注意的有两点,一是为了更新方便,尽量把更新周期相同的标签放在同一个表中。二是标签更新会有先后顺序,对于特别强调逻辑一致性的业务来说,如果该业务相关的部分标签已经更新了,但另一部分还未更新,这时产出的数据结果是不准确。
标签数据定义和管理 来自淘豆网m.daumloan.com转载请标明出处.