陕西十一选五玩法
010-82092128 English

集团概况

加入我们

联系我们
【AI之美】系列四:知识图谱概述

1. 知识图谱 VS 话题模型

在上一篇文章中,我们详细分析了话题模型的优势与局限性,即匹配的扩展与精度的平衡,虽然很多信息服务商使用话题模型取得了一定的效果,但它也限制了用户体验提升的潜力。

针对这?#26234;?#20917;,合享基于多年的技术沉淀与钻研,开创性的构建了“全球专利知识图谱?#20445;?#24050;经将全球1.2亿件专利数据完全结构化,从中抽取技术方案、技术点、技术关系,建立起包含10亿个节点、100亿个关系的知识网络,为提升用户体验打下了坚实的基础。

“知识图谱”的概念是很朴素?#27169;?#23601;是把抽象的知识变成具体的形式展现出?#30784;?#20363;如,如图1所示。

1.png


图1  合享“全球专利知识图谱?#26412;?#20363;

图中包含“燃烧器”、“电暖气”等数个知识点,有些知识点是实体,有些知识点是属性。知识点之间是有关系?#27169;?#29123;烧器?#26412;?#26377;“火盖?#20445;?#28779;盖”是“灶具”。

这样把知识点都写下来,然后连起来,就构成了“知识图谱”。不?#31995;?#23558;新的知识加入其中,就是“知识挖掘”。把不同来?#30784;?#19981;同形式的知识统一表示,就是“知识融合”。从“蓄热式”出发可以找到“灶具”的一些属性,就是“知识推理”。

我们回想一下自己是怎么思考问题?#27169;?#27604;如我该买什么颜色的车。最可能是路线是:首?#21462;?#29233;人”?#19981;丁鞍咨保?#32780;且“?#21672;?#26174;得?#26696;?#20928;?#20445;?#26041;便“擦?#30784;保?#33258;己”非常尊重“爱人?#20445;?#25152;以选了?#21672;?#30340;车。

到这里我们就能发现,知识图谱更贴近人的思维模式,它把物体内在的与外在的方方面面,都明确的表示出来,形成知识网络,然后游走在这个网络里。话题模型是把每个物体变成一个向量,但谁的脑子里会始终想着一个数学向量呢?

所以知识图谱是基础设施,其表征能力、计算能力相对于话题模型是质的变化。

2. 知识图谱的挑战

图2列举了知识图谱的一些主要技术点,大体上由三部分组成:知识的获取、融合、应用。每一项技术都是一个专门的话题。人类社会积累下来的知识浩如烟海,如何获取知识,从非结构化数据中抽取结构化数据是第一个挑战。数据的来源多种多样,行业不一样,格式不统一,如何融合在一起是第二个挑战。在海量的知识体中遍历、检索、分析,与应用系统结合找到用户痛点,同时满足服务的性能与效果是第三个挑战。

2.png


图2  知识图谱的主要技术点

我们以“实体识别”为例,介绍下技术原理。举例:小明住在希尔顿酒店。“实体识别”的任务是从这段文本中抽取出实体,“小明”和“希尔顿酒店”。

主流的技术手段包括规则匹配、HMM、CRF、LSTM?#21462;?#35268;则匹配的方式最直接,由人事先定义好规则,由计算机执行规则,其问题是规则繁杂不易穷举、不易维护。其余方法大多属于机器学习的思路,由人事先标注语?#24076;?#21738;些词属于实体,哪些词不属于实体,哪些词属于实体边界,然后训练模型,利用概率手段得到实体识别的结果。

以LSTM模型为例:LSTM(Long Short Term Memory Network)属于神经网络模型之一。最初级的神经元由输入、激活函数、输出组成,数学表达是Y(t) = f(W*x(t))。如果输出Y不仅和输入X有关,还和前一个时间点的计算结果有关,则数学表达就变成:H(t)=f(W1*H(t-1)+W2*x(t)), Y(t) = f(W*H(t)),Y是计算结果,H用户传递中间结果。再进一步,如果输出Y的同时,传递2个状态H和C,一个改变的快,一个改变的慢,就可以实现对以前的计算结果不同等?#21019;?#20570;到有的加强,有的减弱。但其内部过程比较繁琐,训练的复杂度也相应的提高了。

在LSTM之后再加上一步CRF计算,也是一个不错的选择。但每一种实体的表?#20013;?#24335;不一样,所以在数据的结构化问题中,往往要多种方法配合使用,或者为每种数据训练不同的模型。

知识图谱的建立与应用,就是以自然语?#28304;?#29702;、图像处理、深度学习等技术作为基础,其价值巨大,同时对技术的深度与广度的要求也比?#32454;摺?/p>

3. 合享的知识图谱实践

合享作为一家知识产权领域的人工智能公司,专注于为广大用户提供可信、好用的智能服务。合享的知识图谱系统,包含全球1.2亿件专利、10亿个知识节点、100亿个关系。知识节点类型包括技术方案、技术点、组件、组件团?#21462;?#20851;系类型比较多,有数千种类型。

图3.png

图3  专利内容节选

在图3 的专利中描述了一?#26234;?#31471;附件驱动器系统,是一个完整的技术方案,里边包含很多组件,若干个组件形成组件团,组件之间有各种关系。我们将这篇专利处理成如下形式:

图片4.png

当我们把1.2亿篇专利?#21363;?#29702;成结构化模型之后,就会形成一张大网,这张大网将各领域的技术知识融会贯通。

incoPat研发的超级附图功能,就是典型的基于知识图谱的技术应用。专利的原始文本描述的是技术方案,是非结构化?#27169;?#24418;式如下:

图片3.png

专利的附图形式如图4所示。

图片4.png

图4  专利附图举例

图中有一辆平衡车和部件的标号。专利的附图是技术方案的图形画展示,但?#28508;?#36739;简单,信息量不算丰富。专利数据的图文是分开?#27169;?#22270;是图,文是文。用户在阅读的时候,想知道标号“1”是什么组件,要去文章中找,问题?#28508;?#21495;会很多,文章很长,需要花很多时间来回对应,是一件费眼睛费时间的事。

合享第一步从知识图谱中获取“平衡车?#20445;?#36710;体?#20445;?#21069;轮”等组件以及他们之间的关系,第二步利用OCR算法从图形中抽取出1、2、3等标号,第三步将两者融合到一起,就形成图5的形式,在图中把标号框出来,在旁边写上他的组件名称,节省用户的阅读时间,保护用户的眼睛。

 图片2.png

图5  超级附图举例

知识图谱技术已经深入合享系统的方方面面,未来合享会推出更多的智能化应用,在功能层面与场景层面,帮助用户节省时间、提升效率。


 

微信扫一扫 关注我们

陕西十一选五玩法