在中文语言理解中,该被重视的传统分析任务——学文/黄安然自然语言处理技术的发展势不可挡,但是,自然语言理解相对于视觉和语音识别而言,是目前深度学习中做的还差强人意的地方。自然语言理解本身有很多困难点,如何使用最新的技术找到最新的模型来解决这些困难点,是我们今天所要讨论的话题。一、自然语言处理(NLP)与自然语言理解(NLU)的区别无论是NLP,还是NLU,不能把以前传统的处理方法都抛弃,这些传统的处理方式,今天再度回顾,依然有可借鉴的学习之处。比如,当我们使用一些分词工具的时候,思考分词技术的原理,能帮助我们去突破自然语言的瓶颈。那么,什么是自然语言处理,什么又是自然语言理解呢?什么是NLP,什么是NLU?NLP(NaturalLanguageProcessing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。一般来说,NLP流程分为:1.)分词(只针对中文,英文等西方字母语言已经用空格做好分词了):将文章按词组分开2.)词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择。比如DIAMOND,有菱形、棒球场、钻石3个含义,要根据应用选择正确的意思。3.)语法分析:通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。4.)语义分析:通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。方法主要有语义文法、格文法。自然语言理解(NaturalLanguageUnderstanding,NLU)技术,涵盖领域非常广泛,包括句子检测,分词,词性标注,句法分析,文本分类/聚类,文字角度,信息抽取/自动摘要,机器翻译,自动问答,文本生成等多个领域。NLP与NLU的领域如此相似,那么二者之间的区别又是什么呢?自然语言处理做不到人类对自然语言的理解,“处理”和“理解”是天差地别的两个概念。“处理”好比控制眼睛、耳朵、舌头的神经,他们将接收的信息转化成大脑可以理解的内部信息,或者反过来,他们的功能就是这么多。而“理解”则是大脑皮层负责语言理解那部分,多少亿的脑细胞共同完成的功能。一个人因为其自身家庭背景、受教育程度、接触现实中长期形成的条件反射刺激、特殊的强列刺激、当时的心理状况,这么多的因素都会影响和改变“理解”的功能,所以,“理解”是更加深奥的东西,其技术的攻破仍需一代工程师的不懈努力。二、深度学习技术加速了自然语言技术的发展深度学习在自然语言处理领域的进展非常迅速。三年前人们还认为深度学习对语言这种非自然信号并不有效,通过这几年的发展,深度学习方法已经在自然语言处理的很多任务上都取得了很大的进展,并超越了传统统计学习的方法。那么,如今的深度学习网络又有哪些呢?深度学习网络百花齐放!目前,深度学习网络包括深度信念网络、卷积神经网络、递归神经网络。深度信念网络是一种概率生成模型,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,递归神经网络又分时间递归网络和结构递归网络。时间递归神经网络的神经元间连接构成有向图,而结构递归神经网络利用相似的神经网络结构递归构造更为复杂的深度网络。这些深度学习网络共同促进了机器的发展。LSTM,让语言在深度学习领域“热起来”!LSTM网络(LongShortTerm网络),是一种递归神经网络,其核心技术在于长短期记忆。关键在于细胞状态,在我们LSTM中的第一步是决定我们会从细胞状态中丢弃什么信息,下一步是确定什么样的新信息被存放在细胞状态中,最终,我们需要确定输出什么值。LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。图像与文字融合——抽象的机器翻译一些比较有趣的机器翻译包括:1.)把文字转化成图像,2.)把视频通过机器翻译整理出文档3.)读懂图片当中的内容,形成一个大纲。4.)对于一篇长篇文章,使用机器翻译,提出摘要。翻译不仅仅是语种的翻译,更是信息源的翻译。每一位做医生的都要写病例,每一位大学生都要写论文,无论是病历还是论文,都是一种具备特殊格式的文体,这是一件很繁琐的事情,解决人类的繁琐,是人工智能的宗旨。但人工智能并不能帮你写论文或病历,但它可以帮你把病历或论文转化成符合该文体的格式。深度学习下语言翻译的局限性机器学习在语言翻译的领域,目前还是做得不够完善。比如“松下问童子”。中文文字的复杂性中文的复杂性,不单单是汉字数量过于庞大,更在于结构复杂而导致的上下文语境理解的认知差距。目前深度学习所能解决的只是小规模的上下文理解,可是我们生活中的语言运用所涉及到的上下文,其中篇幅量可是非常之庞大的。形文字的魅力,中文字型的自描述性象形文字中的汉字自带语境,比如草字,因为有艹,所以人们自然联想到植物,这是基
在中文语言理解中,该被重视的传统分析任务——学习笔记 来自淘豆网m.daumloan.com转载请标明出处.