膈报告:社区类产品潜在用户研究莅莃样本整体描述袂样本整体描述袈本次研究采用线上问卷和检索日志相结合的方法。线上问卷的数据来自mp3首页2006年7月5日至2006年7月13日的问卷调查,共收集到问卷2544份。删除没有cookie的样本,共剩余2455个样本。跟踪填答问卷用户的cookie,获得以上用户从2006年8月5日至2006年8月29日,共计25天的网页搜索检索日志。莆蒁需要说明的是,由于本次数据的cookie来自mp3首页,应该考虑到的是mp3的用户并不能完全代表百度的所有用户。从艾瑞的iUserTracker数据可以看到,%的百度用户使用百度mp3,%的百度用户的检索行为。在解读数据时这个因素是需要被考虑进去的。节虿膄 图1:百度主要服务用户月度到达率袃在这2455个样本中继续剔出无效样本,具体的判断标准是:1、25天内在网页搜索上检索量为0的。2、平均每次检索会话(session)的检索次数大于20的。(这类cookie属于机器抓取或攻击的行为)。3、25天内总检索量大于3000的。(这类cookie很可能来自网吧或者公共机房)。最终剩余691个有效样本。蚁荿当然这种判断标准主要来自于主观的经验判定,可能并不绝对合理。尤其是总检索量大于3000这一标准,很可能把一些检索次数非常高的用户剔除在外。但考虑到本次研究将一个cookie假定为一个用户,多人一机时的检索数据将对分析结果造成较大影响,因此在检索量上限的设定上采用了较为严格的标准。芅羂在确定有效样本后,对他们的检索词进行分类,共计4大类,54小类。%,%。具体数据见下表:%%肆表1:研究标注词的覆盖率芇检索量前十位的类别分别是:羃膂袇肄肂1薁网址/%%%%%膁6羂性/%%%%膃10蚀企业/%芁表2:检索量前十名的检索类别聿我们可以看到,检索量最高的类别是网址/网站类,也就是说用户使用搜索引擎进行“网站导航”的需求量很高。其次是游戏和音乐,这两类娱乐主题的检索比例也很高。教育培训的检索量是第四名,主要原因是我们对日志的跟踪时间段是在8月份,正好是高考招生的时候,很多学生、老师、家长都会大量的检索与之有关的信息。螇袇用户检索行为聚类分析薄根据用户检索三大类别内容(娱乐、消费、信息)上的偏好,将用户聚为两大类六小类。具体类别及所占的人数比例见下表:%%%%%%%%表3:用户检索行为聚类特征及比例我们可以看到,六类人中比例最高的集中在三类检索都很低的人群上,占总人数的近30%。在检索行为有明显的内容偏好的三类人中,比例最高的是偏好检索娱乐内容的人。而检索行为没有没有明显的内容偏好,和检索行为有明显的内容偏好的人各占一半。除了检索量,我们还将用检索的平均字节数和平均会话检索次数这两个指标来描述用户的检索行为。平均字节数指的是用户平均检索一个词包含的字节数,能够反映用户倾向用更宽泛地检索还是更精确检索。从统计数据中我们发现,倾向检索信息内容的用户平均检索的字节数最长,也就是说检索信息类内容需要用户给出更为精确检索Query。平均会话检索次数指的是在一个session里面用户的检索次数,代表了用户围绕一个信息主题会进行多少次检索,从一定程度上反映了用户对这个主题的关注程度和用户的检索技巧。通过统计数据,我们发现检索量越大的用户,平均会话的检索词也越高。这说明了,检索量高的用户一方面是由于其关注的主题广泛,另一方面是由于其检索一个主题时进行的检索次数也高。具体统计数据见下表:
网络社区类产品潜在用户研究 来自淘豆网m.daumloan.com转载请标明出处.