下载此文档

深思维智能知识云脑使用说明书.docx


文档分类:IT计算机 | 页数:约59页 举报非法文档有奖
1/59
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/59 下载此文档
文档列表 文档介绍
深思维智能知识云脑使用说明书

天津深思维科技有限公司
2021/06/18
声明
本使用说明书旨在帮助用户与运营人员对平台使用、管理、维护进行了解与掌握,使用说明书将对平台功能进行讲解,衷心希望深思维智能知识云脑能为大家带来科技产能的改变,归天津深思维科技有限公司所有,翻版必究。
目录
一、名词解释 4
4
28
35
二、产品介绍 41
1. 什么是知识图谱 41
2. 优势说明 41
3. 体系架构 42
三、系统功能结构 43
四、系统功能介绍 44
44
50
51
52
53
56
58
60
一、名词解释

(1)新词发现:
采用(逐)点互信息(PMI, Pointwise Mutual Information)和左右熵(Left and Right Entropy)的算法自动发现特定领域中惯用及常用的新名词和词语组合。更容易发现更高阶的词语组合(例如93号/无铅/乙醇/汽油),同时加入了用户自定义相关参数的功能,可以灵活地根据用户自身的需求对所发现新词进行筛选。
①(逐)点互信息(PMI,Pointwise Mutual Information):可以更好的发现无穷多个原子词汇;
PMI算法的得分域为(-∞,0],评分越高对应新词发现质量越高。它反映了构成新词的原子词之间内聚的强度,得分越高,则原子词之间的关联性越强。若构成新词的原子词从不其他地方单独出现,则算法得分为最大值0。得分小于阈值的词语将不被计入已发现新词,阈值越高,返回结果越少。建议值是-;
②左右熵(Left and Right Entropy)
左右熵算法的得分域为[0,+∞),评分越高对应新词发现的质量越高。它反映了新词对于其左右相邻词语的依赖程度,得分越高,则新词对左右相邻词语的依赖程度越低,新词本身的独立性越高。若新词在语料中仅以一种固定的方式与固定的左右词相邻,则算法得分为最小值0,阈值越高,返回结果越少。得分小于阈值的词语将不被计入已发现新词。;
③golang:封装部署,高效率、多并发,运行速度快,所有正在运行的程序轮流使用 CPU,每个程序允许占用 CPU 的时间非常短(比如 10 毫秒),根本感觉不出来 CPU 是在轮流为多个程序服务,就好象所有的程序都在不间断地运行一样。并发好处就是可以运行多个程序,并不卡顿
,运行速度快。
(2)实体关系部分:
①数据标注:知识图谱常用的isA 关系+语义依存关系(semeval16),用到hanlp;hanlp是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、句法分析、文本分析和情感分析等功能。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,极速分词模式下可达2,000万字/秒。在IO方面,词典加载速度极快,只需500 ms即可快速启动。具备中文分词、命名实体识别、信息抽取、文本分类、文本聚类、画法分析等功能。
②模型训练:训练模型用到词向量化word2vec、transformer、Bert;
word2vec:是一种基于神经网络训练的自然语言模型。其特点就是将词汇进行向量化,这样我们就可以定量的分析和挖掘词汇之间的联系。因而 word2vec 也是我们上一讲讲到的词嵌入表征的一种,只不过这种向量化表征需要经过神经网络训练得到。训练神经网络得到一个关于输入 X 和 输出 Y 之间的语言模型,要获取训练好的神经网络权重,这个权重就是我们要拿来对输入词汇 X 的向量化表示。一旦我们拿到了训练语料所有词汇的词向量,接下来开展 NLP 分析工作就相对容易一些了。通常有两个版本的语言模型。一种是给定上下文词,需要我们来预测中间目标词,这种模型叫做连续词袋模型(Continuous Bag-of-Wods Model,CBOW),另一种是给定一个词语,我们来根据这个词预测它的上下文,这种模型叫做 skip-gram模型。而且每个模型都有两种策略

-CBOW:应用场景是要根据上下文预测中间词,所以我们的输入便是上下文词,当然原始的单词是无法作为输入的,这里的输入仍然是每个词汇的 one-

深思维智能知识云脑使用说明书 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数59
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1017848967
  • 文件大小4.11 MB
  • 时间2021-11-01