相似性概念与聚类分析
机器学习的目的之一:概念
人们学习的目的是学习知识, 因此, 机器学习的一个自然期望是: 从数据中学习到知识
什么是知识的最基本单位: 概念
Concepts are the glue that holds our mental world together。 Cited from page 1 in the book entiled “The big book of concepts”, written by . Murphy, 2002, MIT
经典概念的定义:(Plato and Aristotle)
概念的内涵: 必要而且充分条件(命题描述, 命题可以是复合命题)
概念的外延: 给出论域中符合该概念的所有样例
符合排中率(law of the excluded middle)
要么符合这个概念,要么不符合这个概念
这种经典的概念形式称为定义法
什么是概念?
概念与数据分析
数据分析的一个重要的应用就是从数据中学习到概念(语义).
Cited from C. Rother, V. Kolmogorov, and A. Blake, GrabCut: Interactive foreground extraction using iterated graph cuts, ACM Trans. Graph., vol. 23, pp. 309–314, 2004
相应的机器学习问题(I)
已知:既定概念和该既定概念外延的一个有限子集(即: 标定样本)
期望: 学习既定概念的内涵定义
机器学习:分类, 回归等技术可以归为此类问题, 即所谓的有监督学习
相应的机器学习问题(II)
已知: 样本集, 但其中的样本属于哪一个概念未知 (未标定样本)
期望:, 否则,也希望得到概念的外延子集.
机器学习: 聚类分析可以归为此类问题, 无监督学习
本次演讲的重点
如何从未标定的数据集中提取概念, 即聚类分析
Outline
概念的形成(Gestalt Theory)
概念的非经典定义
聚类分析
类的复杂性讨论
未来展望
概念的形成
可分为实体类别(natural kinds)与抽象类别( abstract kinds)
Max Wertheimer (1923)说:
“我站在窗前, 看到的是房屋,树, 天空.”… 不可能认到一个一个的像素点这种程度.
提出了实体类别的组织原则
概念的形成格式塔理论与样本的概念归属
格式塔学派——整体上认识视觉,提供了根据二维数据形成概念的基本依据
邻近律
相似律
连续律
封闭律
对称律
相似性概念与聚类分析 来自淘豆网m.daumloan.com转载请标明出处.