2012年5月,谷歌知识图谱一出激起千层浪,美国的微软必应,中国的百度、搜狗等搜索引擎公司在短短的一年内纷纷宣布了各自的“知识图谱”产品,如百度“知心“、搜狗“知立方“等。为什么这些搜索引擎巨头纷纷跟进知识图谱,在这上面一掷千金,甚至把它视为搜索引擎的未来呢?这就需要从传统搜索引擎的原理讲起。以百度为例,在过去当我们想知道“泰山”的相关信息的时候,我们会在百度上搜索“泰山”,它会尝试将这个字符串与百度抓取的大规模网页做比对,根据网页与这个查询词的相关程度,以及网页本身的重要性,对网页进行排序,作为搜索结果返回给用户。而用户所需的与“泰山”相关的信息,就还要他们自己动手,去访问这些网页来找了。
当然,与搜索引擎出现之前相比,搜索引擎由于大大缩小了用户查找信息的范围,随着网络信息的爆炸式增长,日益成为人们遨游信息海洋的不可或缺的工具。但是,传统搜索引擎的工作方式表明,它只是机械地比对查询词和网页之间的匹配关系,并没有真正理解用户要查询的到底是什么,远远不够“聪明”,当然经常会被用户嫌弃了。
而知识图谱则会将“泰山”理解为一个“实体”(entity),也就是一个现实世界中的事物。这样,搜索引擎会在搜索结果的右侧显示它的基本资料,例如地理位置、海拔高度、别名,以及百科链接等等,此外甚至还会告诉你一些相关的“实体”,如嵩山、华山、衡山和恒山等其他三山五岳等。当然,用户输入的查询词并不见得只对应一个实体,例如当在谷歌中查询“apple”(苹果)时,谷歌不止展示IT巨头“Apple-Corporation”(苹果公司)的相关信息,还会在其下方列出“apple-plant”(苹果-植物)的另外一种实体的信息。
从杂乱的网页到结构化的实体知识,搜索引擎利用知识图谱能够为用户提供更具条理的信息,甚至顺着知识图谱可以探索更深入、广泛和完整的知识体系,让用户发现他们意想不到的知识。谷歌高级副总裁艾米特·辛格博士一语道破知识图谱的重要意义所在:“构成这个世界的是实体,而非字符串(things, not strings)”。
由北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR语义智能平台KGB知识图谱引擎,是基于汉语词法分析的,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,以完成语义智能分析与知识推理及深度挖掘知识关联的知识图谱引擎。
KGB知识图谱引擎核心技术与特色:
1、 KGB知识抽取
KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。
KGB知识图谱引擎可以定义不同的动作,增加、删除、修改、抽取等等。每一类动作还能自定义各类后处理程序。
2 、语义智能分析
NLPIR大数据语义智能分析针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。
NLPIR大数据语义智能分析十三大功能:精准采集、文档抽取、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索与编码转换。
3 、语义精准搜索
JZSearch大数据语义精准搜索引擎:是灵玖软件联合中科院与北理工的信息检索专家,针对大数据垂直搜索需求的全文智能检索引擎,融合了自然语言理解、网络搜索和文本挖掘的技术,通过人机互动、深度机器学习后具有一定的语义推理能力,是结合了 人工智能技术的新一代搜索引擎,具有专业精准、高扩展性和高通用性的特点。
部分摘自《知识图谱——机器大脑中的知识库》刘知远
|