您的位置:首页 > 教育 > 锐评 > 国外好的网页设计_重庆在线app_上海有实力的seo推广咨询_深圳网站搜索优化工具

国外好的网页设计_重庆在线app_上海有实力的seo推广咨询_深圳网站搜索优化工具

2025/8/22 3:40:34 来源:https://blog.csdn.net/m0_64531791/article/details/142965618  浏览:    关键词:国外好的网页设计_重庆在线app_上海有实力的seo推广咨询_深圳网站搜索优化工具
国外好的网页设计_重庆在线app_上海有实力的seo推广咨询_深圳网站搜索优化工具

知识图谱

  • 1.知识图谱
    • 1.1知识图谱形态
    • 1.2知识图谱架构
  • 2.知识抽取
    • 2.1实体抽取
    • 2.2关系抽取
      • 2.2.1限定领域
        • pipeline
        • Rbert实现(见论文):
        • 联合训练(multi-task)
      • 2.2.2 开放领域
  • 3.知识融合
    • 3.1实体对齐
    • 3.2实体消歧
    • 3.3属性对齐
  • 4.知识推理
  • 5.知识表示
  • 6.图数据库
  • 7.NL2SQL
    • 7.1基于FAQ
    • 7.2基于分类/抽取任务
    • 7.3基于LLM

1.知识图谱

简介: 知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在也泛指各种大规模数据库。

1.1知识图谱形态

简介: 三元组是知识图谱的一种通用表达形式或者说是单元。

三元组包含:

  1. 实体 - 关系 - 实体 案例: 萧炎–妻子–美杜莎
  2. 实体 - 属性 - 属性值 案例:萧炎–身高–226cm
  3. 实体 - 标签-标签值 案例:萧炎 - 标签 -养蛇爱好者
    实体与其他的区别就在于,实体拥有属性、标签、和其他实体的关系。当然也可用根据实际的场景,去定义实体、属性、标签之间的区别和定义。

知识图谱可以是excel、json各种文件格式,其核心是数据中存在的三元组关系。

1.2知识图谱架构

在这里插入图片描述
简介: 知识图谱构建的核心是知识抽取,实体对齐、知识推理这三个部分。

关键技术及作用:

  1. 知识抽取 从非结构化数据中 -> 获取结构化数据
  2. 知识融合 即实体对齐,即消歧提升数据质量
  3. 知识推理 挖掘扩充或补全数据
  4. 知识表示 向量化

2.知识抽取

含义: 面向非结构化数据,过自 动化的技术抽取出可用的知识单元,即包含实体抽取、关系抽取、属性抽取。

介绍: 做实体抽取,关系抽取的方案,基本也能够使用在属性抽取上,没有太明显的区别,所以下面主要介绍实体抽取和关系抽取。

2.1实体抽取

重要性: 实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识 库的质量。

可以采用命名实体识别的相关方法

  1. 基于规则和词典的方法
  2. 基于机器学习的模型预测方法
    (序列标注问题)

2.2关系抽取

2.2.1限定领域

简介: 限定领域关系抽取,关系类型有限,已知。(比如:只抽取:父子、母子)

pipeline
1. NER:先进行实体抽取:  文本      -> 序列标注模型   ->  实体2. 结合实体和文本,去文本中分类这两者之间的关系: 文本+实体 -> 文本分类模型   ->  关系
Rbert实现(见论文):

在这里插入图片描述
释义逻辑:

  1. 标注出两个实体的位置,并前后有做特殊的符号标记;
  2. 将其通过BERT表示出来,分别得到这句话、两个判断关系的实体的向量
  3. 实体的向量先求平均,再过线性层,过激活层,与句子结合在一起,过一个线性岑分类,得到两个句子间的关系。
  4. 使用模型时,则将上一层模型抽取的实体标记出来,送人到分类模型中预测结果。
联合训练(multi-task)

简介: 即将文本交给模型模型,直接输出实体和实体间的关系信息。

训练方法:

  1. 将文本经过embedding和模型层计算。
  2. 最后分为两个线性层计算,一个是序列标注出实体位置,有一个loss值
  3. 预测出实体关系的是一个loss值
  4. 通过将两个loss值,相加,可以将两个任务一起进行训练。

好处:

  1. 共用了线性层、Embedding层,极大减少了原有两个模型的所需要的资源。
  2. 一个模型完成预测,比两个模型串联预测,效率高,速度快。

注意:

  1. 由于两个任务的loss值,相加成为最终的loss,在这个的基础上进行训练,由于难度不一样,所以会导致,一个任务已经基本接近拟合,另外一个还很初级(序列标注),所以在两个loss相加为一个进行计算时,需要设置一些系数,调整他们得到的训练量
  2. 正常来将,multi-task训练的结果可以和单独训练的结果相当。
  3. 这种情况,更倾向于材料中,只有一对实体和实体的关系。

2.2.2 开放领域

简介: 开放领域关系抽取,主要是基于序列标注做的。当前可以基于大模型做。

例子如下: subject 实体1、predict 关系、object 实体2;jinxBIO标注
在这里插入图片描述
问题点:

  1. 知识图谱的构建在梳理实体关系后,还需要将这些抽取的知识融合,但是开放式的抽取,实体关系就会非常多样,不好处理,会为后续的融合有较大的影响。
  2. 用大模型做实体抽取,以当前的水平,仍然未能达到直接使用的完美状态,需要人工进行审核。

3.知识融合

简介: 由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。简单说,就是对第一步知识抽取数据的清洗加工。常见的内容包含:实体对齐、实体消歧、属性对齐。

3.1实体对齐

简介: 将不同来源的知识认定为真实世界的同一实体。即名称相同、或者指代的是相同的事物,叫法不一样,需要将数据整合。

示意图:
在这里插入图片描述
处理方法:

  1. 依据不同实体所包含的属性之间的相似度,来判断实体是否为同一实体,将这种相似的列举出来
  2. 人工对相似实体进行处理。

3.2实体消歧

简介: 将同一名称但指代不同事物的实体区分开。

示意图:
在这里插入图片描述
处理方案:

  1. 场景1,在整理的内容中,找出相同名称的实体,对比属性等信息进行消歧
  2. 场景2,有一个非结构的文段,识别出其中实体名称,现在归类到那个实体中呢,需要通过上下文,去进行匹配。

3.3属性对齐

简介: 不同数据源对于实体属性的记录可能使用不同的词语。

举例:

  1. x度百科:姚明 - 生日 - 1980年9月12日

  2. 搜x百科:姚明 - 出生日期 - 1980年9月12日

  3. wxkx百科:姚明 - 出生年月 - 1980年9月12日

处理方案:

使用属性和属性值做相似度计算。属性对齐在有些场景下,无法做好时,做一部分重复数据的冗余,对于使用也是没有问题的。比如上面举例的三条都存入知识图谱中。

4.知识推理

简介: 在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。

举例:

  1. 传递性:A-儿子-B,B-儿子-C, A-?-C
  2. 实例性:A-是-B,B属于C,A-?-C A是四川人,四川人属于中国人,所欲A是中国人。

挖掘方法: 基于特定的规则、句法;比如爸爸的爸爸是爷爷;这种方式在一些垂直领域内效果明显,比如医药。

使用模型来做: 基于模型的知识补全,给出两个实体,推断其关系,h + r -> t, h + t -> r , (h, r, t) -> {0, 1},相关论文 KG-Bert。

5.知识表示

简介: 将知识图谱中的实体,关系,属性等转化为向量,利用向量间的计算关系,反映实体间的关联性。

原理逻辑: 对于三元组(h, r, t),学习其向量表示lh lr lt 使其满足 lh + lr ≈ lt,即实体加上关系,应该接近另一个实体。

训练流程论文截图:
在这里插入图片描述
释义:

  1. 第一步份,即初始化三元组的实体、关系的向量,其中e代表实体,l代表向量l取值还需要除以它的模长。
  2. 任取一个三元组,将其中的实体随机换成其他的三元组的实体,这样构成一个正样本和多个负样本;将所有的正样本三元组都构造一遍,存在Tbatch中。
  3. 训练的时候,有常量r,加上正样本:实体+关系 与另一个实体的距离;与负样本求距离做差。并且只有当值为正时,才做loss。
  4. 训练的方式,使得,配置r;可以训练最终,正样本的距离和负样本距离的区分度。即正样本距离应该比负样本距离,小于等于r。

扩展: 融合文本的知识表示,将文本表示和知识图谱中的实体关系表示放入同一个空间。使得学习到的实体表示可以在文本相关的任务中使用。在实体关系的计算中,实体是用向量表示的,用来转化向量的不一定需要使用真实的字词,可以是一段话的id、一个词的id;这样就可以将其之间的关系训练到一起。

6.图数据库

示意图:
在这里插入图片描述
释义:

  1. 图数据库的每一个节点相当于原来的数据库的一条数据。
  2. 图数据库中,会允许设置不同数据之间的关系,在查询时,可以查询指定关系的值的数据内容。
  3. 图数据库是可以存储和查询知识图谱的数据容器。
  4. 常见的图数据库:Neo4j,
    通过python接口,pip install py2neo,连接数据库,执行cypher语句

7.NL2SQL

介绍: 即将文本或者自然语言转化成符合特定数据库使用的查询语句。

流程: 文本 --》 SQL --》 数据库 --》 结果

7.1基于FAQ

介绍: 基于模板+文本匹配,类似于faq库问答。
在这里插入图片描述
注意:

  1. 这里匹配的问答对中,问题是有卡槽的,即知识图谱中的实体、关系、属性信息。
  2. 答案中的内容,即为实际需要查询数据库的SQL,这里的SQL对应的也有属性值、实体卡槽。

优点:

  1. 即可以通过一条SQL完成一类查询语句的生成,即通过问题实体的抽取,将实体赋值到SQL中。
  2. 降低相似实体、属性名称的问题,由于匹配度较高,而被相似度匹配到。

缺点:

  1. 需要人工的构造模板,并且随时模板的增多,管理比较困难

举例:
在这里插入图片描述

  1. 进入一个问题,首先对问题进行实体、关系的抽取,进行数量的校验。(这里的提取可以使用正则,因为在构建知识图谱时,已经知道现有的实体、实体关系、标签、属性有那些)效果不好的情况:有两个实体:周杰、周杰伦。
  2. 在校验通过的问题中,进行打分,选择最高的问题对应的cypher。打分时,是将客户问到的问题,与校验通过的Q进行匹配度的计算,这个时候的Q,应该是将抽取实体赋值上去的完整句子
  3. 将抽取的实体与关系放到cypher中,进行数据库查询,得到结果。

7.2基于分类/抽取任务

简介: 即将问题解析为sql的过程中,拆解成多个分类或抽取问题处理,也叫:semantic parsing。

示例图:
在这里插入图片描述

逻辑:

  1. 按照构造SQL的逻辑,逐步的去判断和拆解。
  2. 举例,上述中,在查询选择的列时,将问题和每一列列名都交由模型判断,得到是否采用的结果,是则在此处,标注序号。
  3. 其他部分都按照这个逻辑进行,最后得到sql拼接的一个json格式
  4. 按照固定格式解析json即可生成完整的SQL。

优点:

  1. 单表查询时,构建SQL灵活,查询范围、内容等多

缺点:

  1. 存在一些复杂的表嵌套、多表关联查询的SQL,比较难实现

7.3基于LLM

简介: 利用LLM的生成能力,直接生成SQL.

优点:

  1. 通过大模型可以方便生成一些简单的查询语句。

缺点:

  1. 对于复杂的SQL就无法完成任务,或者完成效果较差,比如:嵌套、多表查询等
  2. 需要完善表、表字段的释义,并且在迁移时,会有一些问题,比如不同的公司相同含义的字段名称不同、释义也不同。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com