
书: https://pan.baidu.com/s/1A6ZLSPMbCiZ-L4eRucUvXQ?pwd=kt7i
一些笔记分享给大家:
一、知识图谱基础
- “知识图谱的本质是结构化语义网络,节点表示实体/概念,边表示关系,三元组(Subject, Predicate, Object)是其基本单元。”
- “知识表示的两大范式:符号主义(如RDF、OWL)与向量主义(如知识嵌入),前者可解释性强,后者适合计算。”
二、知识获取与构建
- “实体识别(NER)与关系抽取(RE)是知识抽取的核心任务,远程监督(Distant Supervision)解决标注数据稀缺问题。”
- “知识融合的关键:实体对齐(Entity Alignment)消歧同名异义,关系对齐解决异构图谱的语义冲突。”
三、存储与查询
- “图数据库(如Neo4j)原生支持关联查询,相比关系数据库的JOIN操作性能提升百倍。”
- “SPARQL是RDF图谱的标准查询语言,支持图模式匹配与推理。”
四、知识推理
- “规则推理(如SWRL规则)与统计推理(如Path Ranking)互补,前者依赖专家经验,后者依赖数据规律。”
- “知识嵌入(如TransE)将实体和关系映射为低维向量,通过‘h + r ≈ t’建模关系路径。”
五、行业应用
- “金融风控中,知识图谱挖掘隐性关联(如担保圈、实际控制人),识别复杂欺诈模式。”
- “医疗知识图谱整合疾病、药品、基因等实体,辅助临床决策支持(CDSS)。”
六、动态图谱与事件推理
- “时序知识图谱引入时间戳(如四元组),建模‘特朗普2017-2021任美国总统’类动态事实。”
七、质量评估
- “知识质量评估指标:准确性(人工校验)、覆盖率(实体/关系完备性)、新鲜度(更新频率)。”
八、构建工具链
- **“开源工具栈:
- 抽取:DeepDive、StanfordNLP;
- 存储:JanusGraph、Nebula;
- 可视化:Gephi、Cytoscape。”**
九、与大模型结合
- “LLM(如GPT)辅助知识图谱构建:生成候选三元组,但需人工校验避免幻觉。”
- “知识图谱增强LLM:提供结构化背景知识,缓解大模型的胡说八道(Hallucination)。”
十、挑战与未来
- “多模态知识图谱融合文本、图像、视频,但跨模态对齐(如图文语义一致)仍是难题。”
- “自动化构建的瓶颈:低资源领域(如古汉语)缺乏标注数据和预训练模型。”
附:经典问题表述
- “知识图谱补全(Link Prediction)任务:给定(h, r, ?),预测缺失的尾实体t。”
- “本体(Ontology)是知识的‘宪法’,定义概念层级与关系约束(如‘人 is-a 哺乳动物’)。”
- “知识图谱的未来是‘认知智能’——将人类常识与领域知识注入机器,实现可解释推理。”