下载此文档

广东工业大学.ppt


文档分类:研究生考试 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
数据挖掘
滕少华
广东工业大学
协同计算与知识工程
案例三:客户细分与流失分析
概述
本案例主要使用两类模型进行挖掘:聚类和分类预测模型。就针对客户流失这个问题来说,聚类有利于分析客户特征,让经营决策者可以根据流失客户的特征制定具有针对性的市场策略来减少客户的流失;而分类预测模型通过数据挖掘获得的知识,更主要地是对每个客户的消费行为进行评估,对客户的流失行为进行预测。结合聚类和分类模型的结果判定流失客户的类别及价值。从这些知识的用途来说,聚类模型建立的是战略方面的知识,分类预测模型建立的是战术层面的知识。
数据准备-1
样本选择和数据描述
以某地区电信行业的客户业务数据作为实验数据。该样本数据集中总共包含了176 921条(正常客户记录156 885条+流失客户记录20 036条)记录,每条记录由18个客户基本特征和108个客户行为特征(9种业务,12个月共108个)以及一个类别特征来刻画。
样本数据集中主要包含三类特征数据:
客户基本特征:主要客户资料数据
客户基本特征数据是客户的静态数据(如表7-7),相对来说是比较稳定的,但由于这些数据在收集时会包含大量的缺失值、不一致的值甚至是错误的数据。所以需要进行大量的数据转换和清理工作。
编号
字段
类型
编号
字段
类型
1
服务编号
Char
10
产品
Varchar
2
行业大类ID
Char
11
竣工时间
Date
3
行业小类ID
Char
12
拆机类型
Varchar
4
电话号码
Varchar
13
通话级别
Varchar
5
客户编号
Char
14
状态
Varchar
6
用户类型
Varchar
15
套餐名称
Varchar
7
客户类别
Varchar
16
套餐生效时间
Date
8
行业大类
Varchar
17
套餐失效时间
Date
9
行业小类
Varchar
18
套餐竣工时间
Date
数据准备-2
表7-7 客户基本特征表
数据准备-3
客户行为特征:主要是客户的消费行为特征数据
每条记录包含了客户在一个年度内的消费行为数据,共有9个基本消费行为特征。详细内容见表7-8。
字段名
字段含义
字段类型
Total_fee
月总费用
Decimal
FEE1
月租费
Decimal
Local_fee
本地通话费用
Decimal
CK_D_fee
传统国内通话费用
Decimal
CK_I_fee
传统国际通话费用
Decimal
CK_GOT_fee
传统港澳台通话费用
Decimal
IP_ CK_D_fee
IP国内通话费用
Decimal
IP_CK_I_fee
IP国际通话费用
Decimal
IP_CK_GOT_fee
IP港澳台通话费用
Decimal
表7-8 客户消费行为特征表(单个月份)
数据准备-5
客户类别特征
实验样本数据集中包含一个能够判定类别信息的类别特征,根据类别信息可知道每个样本的基本状态(如表7-9)。
字段名
字段含义
字段类型
Class
客户是否流失
Char
表7-9 客户类别特征
数据预处理-1
数据清洗
在客户样本数据集中有些客户的套餐名称、套餐生效时间等数据为空。在处理含有缺失值的特征时,如果有些特征的有效值少于总记录数据的1/5,则可删除此类特征;如果某记录中存在大量的空缺值,而这些空缺值难以以正常方法给予补全,则可以去除此类记录。
数据变换
数据转换主要包括构造新的衍生特征和对连续型数据进行规范化。在实验数据集中没有直接体现客户价值和客户流失倾向的特征。根据需要可以构造以下特征:
年度总费用:为一年内12个月的费用总和,表示为Year_total_fee。
月消费比率:指下一个月与上一个月的总费用比值。根据这一原理可构造11个月消费比率特征。用符号可表示为:
ratei=total_feei+1/total_feei(1≤i≤11)
根据客户在一个年度内的消费情况可构造未消费月份数Non-fee,此特征可反映样本客户消费情况及流失情况。由于在原始数据中存在有些记录有连续11或12个月都没消费的,在本案例中将删除这些记录。
数据预处理-2
同时为了体现不同类别客户群体之间的消费差别,我们还需要构造8个不同的消费行为特征,其计算方法比较简单,就是将12个月份的相关费用进行累加。
聚类算法中要求对各连续型数据进行规范化,使得各连续数据的取值范围在[0,1]之内。在该值域范围内各数据的规范化使用最大最小值规范化方面,其表达式可表示为:
数据预处理-3

广东工业大学 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人suijiazhuang2
  • 文件大小637 KB
  • 时间2018-10-16