自然语言处理中的最大熵方法
信息检索研究室
1
纲 要
熵理论的发展
信息熵
最大熵理论
最大熵理论的应用
2
什么是熵
什么是熵? 没有什么问题在科学史的进程中曾被更为频繁地讨论过
普里高津
熵定律是自然界一切定律中的最高定律
里夫金&霍华德
3
熵的提出
德国物理学家克劳修斯(Rudolph clausius)
于1865提出熵的概念
其经典意义定义为:
R表示可逆过程,即体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度。
4
熵原理的形象比喻
一滴墨水滴入一杯清水中,墨水扩散后均匀地分布在清水中
比喻热力体系的自发过程总是趋于温度均匀分布, 反之不行。
5
微观世界中熵的含义
热力学定律都是对物质宏观性质进行考察得到的经验定律
宏观物体是大量微观粒子构成的
1872年,波尔兹曼(L.Boltzmann)指出熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏观参数
熵值高意味着无序性强 !
6
熵增原理
一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构。
当熵处于最小值, 即能量集中程度最高、有效能量处于最大值时, 那么整个系统也处于最有序的状态,相反为最无序状态。
熵增原理预示着自然界越变越无序
7
熵的普遍性
熵概念的泛化
熵理论是存在问题的, 需要发展和完善
8
熵与信息
1948年电气工程师香农( Shannon)创立了信息论,将信息量与熵联系起来。
他用非常简洁的数学公式定义了信息时代的基本概念:熵
H(p) = -p(x)logp(x)
单位:bits
9
通信中的熵
表示“是” 和 “否”
1 = 是 0 =否
表示“是” 、“否”和“可能是”
11 =是 00 = 否 10(01) = 可能是
一条消息的熵就是编码这条消息所需二进制位即比特的个数。
10
自然语言处理中的最大熵方法 来自淘豆网m.daumloan.com转载请标明出处.