《数学之美》笔记
刘建强 2012/7/1 17:58:32 永昌
—统计语言模型
1) 几十年前,数学家兼信息论的祖师爷香农(Claude Shannon)提出了用数学的办法处理自
然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他
这个想法当时并没有被人们重视。
2) 七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。首先成功
利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克(Fred Jelinek)。
3) 马尔可夫假设:假定任意一个词 wi 的出现概率只同它前面的词 wi-1 有关。
4) 事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。
—谈谈中文分词
1)八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应
该分成数量最少的词串。无法解决分词二义性。
2)90 年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词
的错误率降低了一个数量级。
3)一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。
4)不同的应用,应该有不同的分词系统。
—隐含马尔可夫模型在语言处理中的应用
—怎样度量信息?
一条信息的信息的量和它的的不确定性有直接关系;香农指出,对任意一个随机变量 X,它
的熵定义如下:
H (X ) = −∑ p(x)log2[ p(x)]
x
—简单之美:布尔代数和搜索引擎的索引
布尔代数:
1) 运算的元素只有两个:1(TRUE,真)和 0(FALSE,假)。基本的运算只有“与”(AND)、
“或”(OR)和“非”(NOT)三种(后来发现,这三种运算都可以转换成“与”“非”A
ND-NOT一种运算)。
全部运算只用下列几张真值表就能完全地描述清楚。
2)
AND|1 0
1|1 0
0|0 0
这张表说明如果 AND 运算的两个元素有一个是 0,则运算结果总是 0。如果两个元素都是 1,
运算结果是 1。
3)
OR|1 0
1|1 1
0|1 0
这张表说明如果 OR 运算的两个元素有一个是 1,则运算结果总是 1。如果两个元素都是 0,
运算结果是 0。
4)
NOT|
1|0
0|1
这张表说明 NOT 运算把 1 变成 0,把 0 变成 1。
5) 1938 年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为
数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方等等,全部能
转换成二值的布尔运算。
—图论和网络爬虫(Web Crawlers)
1) 离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、
集合论、图论和近世代数四个分支。数理逻辑基于布尔运算。
2) 世界上第一个网络爬虫是由麻省理工学院(MIT)(Matthew Gray)在 1993
年写成的。他给他的程序起了个名字叫“互联网漫游者”("")。
3) 在网络爬虫中,我们使用一个称为
《数学之美》笔记 V1.0 beta.pdf 来自淘豆网m.daumloan.com转载请标明出处.