现代知识图谱通常是以三元组为基础进行简单的知识表示,弱化了对强逻辑表示的要求。
基于向量的知识表示在现代知识图谱中越来越收到重视,因为基于向量的知识图谱表示可以使这些数据更易于和深度学习模型集成。
2.2 人工智能早期的知识表示方法
一阶谓词逻辑:用变量和谓词来表示知识。
霍恩子句:带有最多一个肯定文字的子句。有且只有一个肯定文字的霍恩子句叫做明确子句,没有任何肯定文字的霍恩子句叫做目标子句
霍恩逻辑
语义网络:三元组(节点1,联想弧,节点2)
框架:基本单元为类(槽,侧面)。基本单元表示一类事物吗?
描述逻辑:一阶逻辑的一个可判定子集,即每个描述逻辑中的命题都可以在有限时间内完成证明或证否,只有极少数的描述逻辑类型被认为是不可判定的。利用一阶逻辑对语义网络和框架进行形式化后的产物?描述逻辑方法多数被用到涉及知识分类的应用领域,如数字图书馆和面向万维网的信息处理。描述逻辑是当前语义网发展中本体的理论基础。例如,OWL因特网本体语言就是一种描述逻辑SHIOQ (D)的语法形式。
一个描述逻辑系统中的名字可分为概念(concept),属性(role)和个体(individual)。例如,一个用描述逻辑描述的知识库如下:
男人 人 (男人 是 人)
丈夫 男人 婚配于人 (丈夫是 婚配于 至少一个 人 的 男人)
男人(张三) (张三是一个男人)
其中,“男人”、“人”、“丈夫”是概念,“婚配于”是属性,“张三”是个体
描述逻辑和一阶谓词逻辑的区别?
2.3 互联网时代的语义网知识表示框架
RDF/RDFS:DBpedia,Yago,Freebase
统一资源标识符(英语:Uniform Resource Identifier,缩写:URI)在电脑术语中是一个用于标识某一互联网资源名称的字符串。
该种标识允许用户对网络中(一般指万维网)的资源通过特定的协议进行交互操作。URI的最常见的形式是统一资源定位符(URL),经常指定为非正式的网址。更罕见的用法是统一资源名称(URN),其目的是通过提供一种途径。用于在特定的名字空间资源的标识,以补充网址。
OWL/OWL2:我认为就是在RDF的基础上再加一些约束。
OWL2QL为查询设计的;OWL2EL提供多项式推理,专为概念属于描述,本体的分类推理而设计,广泛应用于生物医疗领域,如临床医疗术语本体SNOMED CT;OWL2ET的分类复杂度是Ptime,用于推理(后两个区别?)
查询语言SPARQL
语义Markup表示语言:在网页中嵌入语义Markup的方法和表示语言。主要包括JSON-LD、RDFa和HTML5 MicroData。
详细区别在:知识图谱基础之RDF,RDFS与OWL
2.4 常见开放领域知识图谱的知识表示方法
Freebase:对象-object、事实-Facts、类型-Types和属性-Properties.
Wikidata:页面-Page、实体-Entities、条目-Items、属性-Properties、陈述-Statements、修饰-Qualifiers、引用-Reference等。
ConceptNet5:概念-Concepts、词-Words、短语-Phrases、断言-Assertions、关系-Relations、边-Edges。包含21种预定义的、多语言通用的关系。
2.5知识图谱的向量表示方法
词的向量表示方法:独热编码、词袋模型、词向量
词向量的产生方法中经典的额开源工具word2vec中包含两个模型cBoW和Skip-gram。
cBoW和Skip-gram都是用来训练word embeding的。
cBow和Bow的区别:Bow用于一段文本,是一种思想;cBow是把Bow的思想通过滑动窗口用于此向量的实现。
TransE是一个算法,用于graph enbeding.
word enbeding是将文本变成向量;graph emdeding是将实体和关系变成向量。
思考如何从word embeding变成graph embeding?
2.6 开源工具实践:基于protege的本体知识建模
代表性知识图谱介绍:
1. SNOMED CT
SNOMED CT(Systematized Nomenclature of Medicine -- Clinical Terms,医学系统命名法-临床术语,医学术语系统命名法-临床术语),是一部经过系统组织编排的,便于计算机处理的医学术语集,涵盖大多数方面的临床信息,如疾病、所见、操作、微生物、药物等。采用该术语集,可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合。同时,它还有助于组织病历内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。(From wiki)
SNOMED CT目前包括大约321 900条概念(Concept)、超过80万条临床概念相关的描述(Descriptions),和超过700万条进一步描述概念的关系(Relationships)。
SNOMED CT的主要内容包括概念表、描述表、关系表、历史表、ICD映射表和LONIC映射表。其中核心构成是:概念表(按层级结构组织的具有临床含义的概念表)、描述表(用于表达概念的人类自然语言表)和关系表(用来说明的两个临床概念之间的关系)。