浙江大学-凉山州统计系统干部业务能力提升班
大数据时代统计面临的挑战
——统计方法在政府经济管理中的应用
章上峰
统计学博士、经济学博士后
个人简介
浙江工商大学统计与数学学院副教授、研究生导师
浙江工商大学经济统计与数量经济研究所副所长
国家统计局优秀成果奖和浙江省科技进步奖获得者
在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的世界里,所有的判断都是统计学。
——《统计与真理》
2017年1月20日,71周岁的美国新总统特朗普宣誓就职。
成为美国历史上最年长的总统。
共和党候选人:特朗普民主党候选人:希拉里
2017年5月14日,39周岁的法国新总统马克龙于宣誓就职。
成为法国历史上最年轻的总统。
1936年《文学文摘》对罗斯福总统
竞选的大数据预测为什么会失误?
• 1936年,兰登(共和党候选人)与罗斯福(民主
党候选人)竞选总统,当时很有声望的杂志社
《文学文摘》承担了选情预测的任务。
•《文学文摘》曾在1920年、1924年、1928年、
1932年连续4届美国总统大选中成功预测总统宝
座的归属。再次雄赳赳气昂昂地照办老方法——
民意点钞,范围拓展得更广。数据集合越大,预
测结果越准确。计划寄出1000万份调查问卷,覆
盖当时四分之一的选民。
•最终在两个多月内收到了惊人的240万份回执,
在统计完成以后,《文学文摘》宣布,兰登将会
以55比41的优势击败罗斯福赢得大选,另外4%
的选民则会零散地投给第三候选人。
真实的选举结果与《文学文摘》的预
测大相径庭,罗斯福以61比37的压
倒性优势获胜。
让《文学文摘》脸上挂不住的是,新
过一场规模小得多的问卷——一个
3000人的问卷调查,得出了准确得
多的预测结果:罗斯福稳操胜券。
罗斯福总统
盖洛普的3000人“小”抽样,居然
挑翻了《文学文摘》240万的“大”
调查,实在让专家学者和社会大众跌
破眼镜!
原因分析
《文学文摘》的失败在于取样存在严重偏差,调查对象主
要锁定为它自己的用户,虽然问卷数量不少,但订户多集
中在上阶层(共和党),中下阶层(民主党)预定较少,
样本一开始就是有偏差的,数据质量也受到影响,推断结
果不准确也就可以解释了。
中(吴承恩)
红楼梦(曹雪芹)
水浒传(施耐庵)
三国演义(罗贯中)
红楼梦的作者有几人?
红楼梦的作者有几人?统计学家揭开玄机
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以
来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来
这种看法一直都饱受争议。能否从统计上做出论证?
从1985年开始,复旦大学的李贤平教授带领他的学生将120回看成是
120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用
数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回
目中47个虚词(之,其,或,……;呀,吗,咧等)出现的次数,作为《
红楼梦》各个回目的数字标志。利用多元分析中的聚类分析法进行聚类,
果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实
了不是出自同一人的手笔。
之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹
的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回
为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,
还有一些别的增加成分。而后40回是否为高鹗写的呢?论证结果推翻了后
40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为
一人所写,贾府衰败情景当为另一人所写等等。
这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了
红学界的观点,使红学界大为赞叹。
莎士比亚的新诗:一曲统计学的赞歌
1985年11月14日,研究莎士比亚的学者泰勒从1775年以来就保存在
Bodelian图书馆的收藏中发现了写在纸片上的九节新诗。新诗只有429个
字,没有记载谁是诗的作者。这首诗会是莎士比亚的作品吗?两个统计学
者Thisted和Efron(1987)利用统计方法研究了这个问题,得到的结论是
这首诗用词的风格与莎士比亚的风格非常一致。这个研究纯粹基于统计学
的基础,其过程可描述如下:
已知
大数据时代统计面临挑战 来自淘豆网m.daumloan.com转载请标明出处.