在人类获取知识的过程中越来越关注事物的本质,借助人工智能以及大数据分析的能力,在其基础上衍生了各类各样的智能应用,其中知识图谱的构建,至关重要。
初识知识图谱
1.知识图谱的意义
AI需要从感知智能迈向认知智能,本质上知识是一个基础,然后基于知识的推理,刚好知识图谱其实是具备这样的一个属性。
2. 知识工程的历史
3.什么是知识
信息:是指外部的客观事实,如封面新闻,中国,第一智媒体
知识:是对外部客观规律的归纳和总结,如封面新闻是中国的第一智媒体。
4.什么是知识图谱
知识图谱(Knowledge Graph)本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条变为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。
5. 知识图谱的构成
实体:具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。
概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
内容:通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
属性:从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如 “面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。
关系:关系是连接不同的实体,指代实体之间的联系。通过关系节点把知识图谱中的节点连接起来,形成一张大图。
构建知识图谱
1.数据类型
知识图谱的数据类型包含结构化数据(关系数据库),半结构化数据(如XML、JSON、百科),非结构化数据(如图片、音频、视频、文本)。
2. 逻辑结构
模式层:模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
数据层:数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质
3. 存储方式
RDF(资源描述框架):其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。
RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系。
图数据库:在知识图谱方面,图数据库比关系数据库灵活的多。
在数据少的时候,关系数据库也没有问题,效率也不低。但是随着知识图谱变的复杂,图数据库的优势会明显增加。当涉及到2,3度的关联查询,基于图数据库的效率会比关系数据库的效率高出几千倍甚至几百万倍。
4.技术架构
5.知识图谱构建过程
知识图谱应用
1. 信息检索
语义搜索-答案检索型
[ 原理 ] 对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案
[ 场景 ] 直接找到问题的答案,而非大量的网页链接
关系搜索
[ 场景 ] 快速准确地查询两个实体之间的关系
可视化展示
[ 场景 ] 直观清晰的呈现概念的所有实例
2.智能推荐
推荐系统作为一种信息过滤的重要手段,是当前解决信息超载问题的最有效的方法之一,是面向用户的互联网产品的核心技术。
使用推荐服务会遇到2个问题:
使用数据稀疏:在实际场景中,用户和物品的交互信息往往是非常稀疏的。
冷启动问题:对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐。
解决上述问题的常用方式就是:在推荐算法中额外引入一些辅助信息
(1)社交网络(social networks):一个用户对某个物品感兴趣,他的朋友可能也会对该物品感兴趣;
(2)用户/物品属性(attributes):拥有同种属性的用户可能会对同一类物品感兴趣;
图像/视频/音频/文本等多媒体信息(multimedia):例如商品图片、电影预告片、音乐、新闻标题等;
(3)上下文(context):用户-物品交互的时间、地点、当前会话信息等。
知识图谱…
知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱在诸多推荐场景中都有应用的潜力,例如电影、新闻、景点、餐馆、购物等。
精确性:知识图谱为物品引入了更多的语义关系,可以深层次地发现用户兴趣;
多样性:知识图谱提供了不同的关系连接种类,有利于推荐结果的发散,避免推荐结果局限于单一类型;
可解释性:知识图谱可以连接用户的历史记录和推荐结果,从而提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任。
3.反欺诈
不一致性验证:不一致性验证可以用来判断一个借款人的欺诈风险
比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
再比如,借款人说跟张三是朋友关系,跟李四是父子关系。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。
4.其他行业应用
公安刑侦:分析实体和实体之间的关系以获得线索等;
司法辅助:法律条文的结构化表示和查询来辅助案件的判决等;
电子商务:构建商品知识图谱来精准地匹配用户的购买意愿和商品候选集合;
医疗诊断:提供可视化的知识表示,用于药物分析、疾病诊断等。
作者:封面科技_今日头条
原文链接:https://www.toutiao.com/a6881805451156161028/
转载请注明:www.ainoob.cn » 知识图谱的入门与应用