文本挖掘–信息提取(IE)
参考Jaime Carbonell教授讲稿
1
文本中信息的提取
出发点:从文本中挖掘信息,而不是简单的词项匹配
上下文无关实体的提取
Context-Free Entity Extraction
基于规则的实体提取
关系提取(Relational Extraction)
在eBusiness中的应用
2
Text Mining (1)
文本本来是给人读的,不是计算机
大多数信息以文本形式存储
100 times as much online text as online DBs
HTML网页是带有结构标记的文本(带来机会和挑战)
数据挖掘操作的是数据表(. numbers, fixed fields, adherence to data models).
3
Text Mining (2)
许多应用,我们需要从文本到数据库表的转换器
一般的自然语言理解问题依然太困难
但我们能够解决简单些、同时也有用的子问题吗?
Yes!
对文本按照主题分类
并且从文本中或者标记结构文字中提取某些信息是可能的。
4
Text Mining (3)
Components of Text Mining(基本策略)
按照主题(话题,topics)分类
今天稍提一下,以后专门有一讲
从分类的文本中提取事实(本讲主要内容)
在数据库或者提取的事实中进行信息挖掘
5
Text Categorization (文本分类)
Definition:给文档或者网页贴上“标签”(label)
这些标签可能是像Yahoo类型那样的主题
. "finance," "sports," "news>world>asia>business“
还可能是题材种类(genre)
. "editorials“, "movie-reviews“, "news"
标签还可以是二元的
. "interesting-to-me" "not-interesting-to-me“
要点: “类”是一个很宽的概念,由应用目标定
6
Text Categorization (2)
Methods
人工指定(as in Yahoo)
按照事先确定的简单规则(as in Reuters)
通常是事先建立一个“词语的布尔组合”和类别的对应关系。当一篇文档包含的词语满足了那个布尔组合,则就认定它为相应的类别。
7
Text Categorization (3)
机器学习法
k-最近邻法(简单,有效,以后介绍)
决策树归纳(最常用的方法)
支持向量机法(Support-vector machines),时髦的方法
8
命名实体的识别(Named Entity Identification)
目的(回答下面这样的问题):
在这100篇文章中提到了哪些人?
在这2000篇网页中提到了哪些地点?
在这些专利申请表中提到了哪些公司?
今年的消费者报告评估了什么产品?
注意,我们并不是给定X,问哪些文档含有X。此时需要有一定的语法分析能力(词汇表+有限状态机)。
9
Named Entity Identification I (2)
Example
President Clinton decided to send special trade envoy Mickey Kantor to the special Asian economic meeting in Singapore this week. Ms. Xuemei Peng, trade minister from China, and Mr. Hideto Suzuki from Japan’s Ministry of Trade and Industry will also attend. Singapore, who is hosting the meeting, will probably be represented by its foreign and economic ministers. The Australian representative, Mr. Langford, will not attend, though no reason has been given. The parties hope to reach a framework for currency stabilization.
10
文本挖掘c 信息提取ie 来自淘豆网m.daumloan.com转载请标明出处.