数据的来源分为4部分:
点击流数据-----用户浏览网站时产生的数据;
运营数据-----用户在网站中应用服务时记录下来的数据;
调研数据-----网站通过某些用户调研手段(线上问卷或调研)获取的一些定性数据;
竞争对手数据----与网站有业务关系或竞争关系或存在某种利益影响的一切网站的可能的数据来源。
因时间关系,就只简单谈谈点击流数据。
什么是点击流?点击流就是用户日常浏览你的网站时产生的日志信息;
常见的日志主要由以下几个部分组成:
访问主机(remotehost):显示主机的IP地址或者已解析的域名。
标识符(ident):由identd或直接由浏览器返回浏览者的唯一标识。
授权用户(authuser):用户记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息这项不为空,但目前大多数网站的日志这项也都是空的。
日期时间(date):一般的格式形如【22/Feb/2010:09:56:21 +0800】,即【日期/月份/年份:小时:分钟:秒钟时区】,占用的时间字符位数也基本固定。
请求(request):即在网站上通过任何方式获取了哪些信息,也是日志中较为重要的一项,主要包括以下三个部分:
请求类型(method):常见的请求类型主要包括get/post/head这三种;
请求资源(resource):显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;
协议版本号(protocol):显示协议及版本信息,通常是http/。
状态码(status):用户显示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功,3xx表示请求的重定向;4xxx表示客户端错误;5xx表示服务器错误。
传输字节数(bytes):即该次请求一共传输的字节数。
来源页面(referrer):用来表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。
用户代理(agent):用来显示用户的详细信息,包括IP、OS、Browser等。
点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来的形成的“线”。也可以
把“点”认为是网站的page,而“线”则是访问网站的session。所以点击流数据时从网站日志中整理得到的,它可以比网站日志包含更多的信息,从而使基于点击流数据统计得到的结果更加丰富和高效。
那么点击流数据是如何从WEB日志中扩展出来的呢?其实很简单,只要有Sessionid和站内Referrers就可以将这些“点”串联起来。其中Sessionid唯一地标识一条点击流,再通过Referrers确定这个Session中页面被依次访问的顺序,那么这条线就可以轻松地画出来了。
通常我们会分两张表(数据库中)或两种格式的文件(文件系统中)来记录点击流数据,一张记录“点”的信息,另一张记录“线”的信息:
线(Session)的信息:Sessionid(唯一标识符)、访问来源(Referrers)、进入页面(Entrance)、离开页面(Exit)、开始时间(Begin Time)、结束时间(End
网站分析的数据来源-点击流 来自淘豆网m.daumloan.com转载请标明出处.