Wikidata知识图谱嵌入数据集

知识图谱作为人工智能领域重要的知识表示形式，在自然语言理解、智能问答、推荐系统和信息检索等方向发挥着不可替代的作用。然而，现实世界中的知识图谱往往存在严重的不完整性，大量实体之间的潜在关联未被显式记录。知识图谱补全（Knowledge Graph Completion）与链接预测（Link Prediction）任务正是为了解决这一问题而提出的核心研究课题，其目标是通过已知的三元组结构推断出缺失的实体关系，从而丰富和完善知识图谱的覆盖范围。

本数据集是基于Wikidata构建的大规模知识图谱嵌入（Knowledge Graph Embedding）训练数据，完整覆盖了实体映射、关系映射、训练三元组、验证三元组和测试三元组等核心组成部分。数据集包含实体ID到Wikidata QID的完整映射表（entity_ids.del）、关系ID到Wikidata PID的映射表（relation_ids.del）、大规模训练三元组集合（train.del）、验证集（valid.del）以及测试集（test.del），同时还提供了实体和关系的频率统计信息（parameter.frequencies.tsv）。数据集的全部内容来源于Wikidata这一全球最大、覆盖领域最广的开放知识图谱，涵盖了人物、地理、生物、体育、文化、科技、历史等几乎所有知识领域。

该数据集对于知识图谱嵌入算法的研究与评估具有极高的价值。研究者可以利用其中的训练三元组学习实体和关系的低维向量表示，通过验证集和测试集对模型性能进行标准化评估，从而推动TransE、RotatE、ComplEx、ConvE等经典模型以及各类新型知识图谱嵌入方法的发展。全量数据超过2134万个三元组，规模之大足以支撑深度学习模型的有效训练，而多样化的关系类型（828种）则对模型的泛化能力提出了更高的要求，是检验和对比各类知识图谱嵌入算法性能的理想基准数据集。

数据基本信息

数据规模与构成

本数据集包含实体总数4818679个，关系类型总数828种，训练集三元组数量为21343681条，验证集三元组数量为5357条，测试集三元组数量为5321条。所有实体均映射为Wikidata的QID编号，所有关系均映射为Wikidata的PID编号，确保数据标准化和可追溯性。数据文件采用.del格式存储，以制表符分隔各字段，便于程序读取和处理。整个数据集压缩包大小约为190MB，解压后数据总量超过600MB，属于中等规模的知识图谱嵌入数据集，兼顾了数据规模和计算资源的可用性。

数据字段说明

下表详细列出了各数据文件的字段结构及其含义：

字段名称	字段类型	字段含义	数据示例	完整性
entity_id	整数（Integer）	实体在数据集中的唯一数字编号	0	100%（4818679条）
wikidata_qid	字符串（String）	实体对应的Wikidata QID标识符	Q29387131	100%（4818679条）
relation_id	整数（Integer）	关系在数据集中的唯一数字编号	0	100%（828条）
wikidata_pid	字符串（String）	关系对应的Wikidata PID标识符	P31	100%（828条）
head_id	整数（Integer）	三元组中头实体的数字编号	1508248	100%（训练集21343681条）
relation_id_triple	整数（Integer）	三元组中关系的数字编号	0	100%（训练集21343681条）
tail_id	整数（Integer）	三元组中尾实体的数字编号	69	100%（训练集21343681条）
type	字符串（String）	频率统计类型（e=实体, r=关系）	e	100%（4819507条）
stat_id	整数（Integer）	被统计实体或关系的数字编号	1	100%（4819507条）
frequency	整数（Integer）	出现频率计数	1529972	100%（4819507条）

关系类型分布

训练集中共包含828种关系类型，下表列出了出现频率最高的前20种关系，合计占比超过65%，反映了数据集在多个人们关心的核心维度上拥有丰富的知识覆盖：

关系ID	Wikidata PID	关系含义	三元组数量	占比（%）	累计占比（%）
0	P31	instance of（实例）	4179564	19.58	19.58
16	P17	country（所属国家）	1394090	6.53	26.11
11	P106	occupation（职业）	1175253	5.51	31.62
3	P27	country of citizenship（国籍）	1153785	5.41	37.03
5	P131	located in administrative entity（位于行政实体）	925411	4.34	41.37
4	P54	member of sports team（体育俱乐部成员）	922194	4.32	45.69
12	P735	given name（名字）	876264	4.11	49.80
6	P19	place of birth（出生地）	860075	4.03	53.83
8	P161	cast member（参演者）	516978	2.42	56.25
17	P641	sport（运动项目）	489498	2.29	58.54
14	P69	educated at（毕业院校）	440848	2.07	60.61
24	P47	shares border with（接壤）	430089	2.02	62.63
20	P421	located in time zone（所处时区）	405638	1.90	64.53
38	P136	genre（类型/流派）	378139	1.77	66.30
15	P105	taxon rank（生物分类等级）	377293	1.77	68.07

实体类型分布

通过对P31（instance of）关系的尾实体进行分析，可以揭示数据集中实体的主要类型分布。以下是出现频率最高的实体类型：

实体ID	Wikidata QID	实体含义	出现次数	占比（%）
1	Q5	human（人类）	1518499	36.33
69	Q16521	taxon（生物分类单元）	363781	8.70
88	Q4167410	Wikimedia disambiguation page（消歧义页）	118963	2.85
223	Q11424	film（电影作品）	114615	2.74
440	Q16521	Wikimedia template（模板页）	110947	2.65
134	Q173021	television series（电视剧集）	108308	2.59
61	Q16521	Wikimedia category（分类页）	98707	2.36
1172	Q4830453	business（企业）	62819	1.50
1160	Q7725634	literary work（文学作品）	55415	1.33
59	Q4167410	anatomical structure（解剖结构）	48286	1.16

主要实体频率分布

以下是在整个数据集中出现频率最高的实体（作为头实体或尾实体出现的总次数）：

实体ID	Wikidata QID	实体含义	频率
1	Q5	human（人类）	1529972
116	Q30	United States（美国）	817667
69	Q16521	taxon（生物分类单元）	363971
146	Q7432	species（物种）	286494
306	Q145	United Kingdom（英国）	265427
98	Q1860	Portuguese language（葡萄牙语）	230247
128	Q2736	Saint Petersburg（圣彼得堡）	222630
118	Q82955	German football club（德国足球俱乐部）	164455
249	Q937857	administrative division of Portugal（葡萄牙行政区划）	150159
879	Q6655	female（女性）	144303

数据集划分分布

数据集按标准的知识图谱嵌入实验范式划分为训练集、验证集和测试集三部分：

数据集	三元组数量	占比（%）
训练集（train.del）	21343681	99.95
验证集（valid.del）	5357	0.03
测试集（test.del）	5321	0.02
合计	21354359	100.00

验证集和测试集数量相当，确保评估结果的可比性和公正性，同时训练集占据了绝对多数，为模型学习提供了充足的数据基础。

数据优势

优势特征	具体表现	应用价值
数据规模庞大	481万实体、828种关系、2134万训练三元组	支撑深度学习模型训练，避免过拟合，提升嵌入表示的泛化能力
标准化三元组格式	采用统一的三元组（头实体、关系、尾实体）格式存储	可直接用于TransE、RotatE、ComplEx、ConvE等主流知识图谱嵌入模型的训练与评估
完整的训练-验证-测试划分	严格划分训练集（99.95%）、验证集（0.03%）和测试集（0.02%）	提供标准化评估基准，便于不同算法之间的公平对比
实体与关系的完整映射	提供实体到QID、关系到PID的完整映射文件	便于与Wikidata原始数据关联，支持结果的可解释性分析
频率统计信息	提供parameter.frequencies.tsv文件，包含所有实体和关系的出现频率	支持负采样策略优化、基于频率的权重设计和模型训练加速
覆盖领域广泛	涵盖人物、地理、生物、体育、文化、科技、历史等几乎所有知识领域	适用于通用知识图谱研究，支持跨领域知识推理与迁移学习
数据来源权威	全部数据来源于Wikidata全球开放知识图谱	数据质量有保障，研究成果可直接应用于实际知识图谱场景

数据样例

由于原始训练集文件较大（316MB），包含超过2100万条三元组，无法在本文中完整列出。以下通过均匀采样的方式从训练集中选取15条代表性三元组，展示数据的格式和内容多样性。每条样例均包含实体数字ID、对应Wikidata QID/PID以及三元组结构信息，读者可以据此了解数据的组织方式。

样例类型：三元组数据样例（展示实体ID、关系ID及其对应的Wikidata标识符）

序号	头实体ID	头实体QID	关系PID	尾实体ID	尾实体QID	关系含义简述
1	1508248	Q13532169	P31（instance of）	69	Q16521	实体Q13532169是生物分类单元Q16521的一个实例
2	1690883	Q947917	P155（followed by）	1602106	Q5094377	实体Q947917的后继是Q5094377
3	3834098	Q3275088	P17（country）	116	Q30	实体Q3275088的所属国家是美国（Q30）
4	1547276	Q147338	P641（sport）	2165	Q5849	实体Q147338参与的运动项目是Q5849
5	1267843	Q24088358	P161（cast member）	836261	Q317740	演员Q317740参演了作品Q24088358
6	3687693	Q660691	P734（family name）	377343	Q16865715	实体Q660691的姓氏为Q16865715
7	2860616	Q7172761	P3373（sibling）	710088	Q693204	实体Q7172761的兄弟姐妹是Q693204
8	3468749	Q6385194	P735（given name）	924	Q1159033	实体Q6385194的名字为Q1159033
9	2418456	Q5343527	P735（given name）	839	Q278835	实体Q5343527的名字为Q278835
10	1711714	Q3189176	P106（occupation）	54653	Q805221	实体Q3189176的职业是Q805221
11	1206241	Q452004	P735（given name）	58168	Q2087646	实体Q452004的名字为Q2087646
12	1672983	Q18046123	P31（instance of）	2255	Q7187	实体Q18046123是基因Q7187的一个实例
13	1875750	Q23615101	P1344（participant in）	14575	Q8128	实体Q23615101参与了Q8128（某事件）
14	399974	Q22003562	P20（place of death）	3209	Q28848	实体Q22003562的死亡地是Q28848
15	91789	Q1633380	P106（occupation）	944	Q36834	实体Q1633380的职业是Q36834

从以上样例可以看出，本数据集涵盖了人物属性（职业、姓名、国籍、出生地等）、地理信息（所属国家）、生物信息（分类单元、物种、基因）、体育运动、文化作品（参演关系）等多个领域的知识，数据多样性突出。实际数据集中包含完整的4818679个实体映射和21343681条训练三元组，远不止样例所能展示的范畴。

此外，验证集和测试集的样例如下：

验证集样例：

223125（Q3576734） –[P495（country of origin, 原产国）]–> 116（Q30, 美国）
1874671（Q641724） –[P1412（languages spoken, 使用语言）]–> 98（Q1860, 葡萄牙语）
3978539（Q4263990） –[P105（taxon rank, 分类等级）]–> 146（Q7432, 物种）

测试集样例：

3142376（Q7965079） –[P27（country of citizenship, 国籍）]–> 246（Q16, 加拿大）
575167（Q6719921） –[P31（instance of）]–> 4106（Q11446, 体育赛事）
2849660（Q11010724） –[P734（family name, 姓氏）]–> 550（Q59853, 特定姓氏）

应用场景

知识图谱补全与链接预测研究

本数据集最直接的应用场景在于知识图谱补全和链接预测任务的研究与评估。研究者可以利用训练集中的2134万条三元组训练各类知识图谱嵌入模型，包括基于平移距离的模型（TransE、TransH、TransR）、基于张量分解的模型（ComplEx、TuckER）、基于深度学习的模型（ConvE、ConvKB）以及基于图神经网络的模型（R-GCN、CompGCN）等。模型训练完成后，通过验证集和测试集对预测性能进行标准化评估，计算MRR（平均倒数排名）、Hits@K（前K命中率）等核心指标。该数据集包含828种不同类型的关系，覆盖了从简单的属性关系到复杂的语义关系，对模型的表达能力提出了全面考验。研究者可以通过对比不同模型在该数据集上的表现，深入分析各类模型的优缺点和适用场景，推动知识图谱嵌入理论的发展。

大规模知识表示学习

知识表示学习是自然语言处理和人工智能的基础性研究方向，其核心目标是将符号化的知识转化为低维稠密向量，便于计算机进行处理和推理。本数据集包含超过480万个实体和2100万个三元组，规模足以支撑大规模知识表示学习的研究工作。研究者可以在该数据集上训练大规模知识图谱嵌入，获得实体和关系的向量表示，并将这些预训练表示迁移到其他自然语言处理任务中，如关系抽取、实体链接、智能问答等。与传统的仅为特定领域设计的小规模知识图谱不同，本数据集的实体覆盖了Wikidata中的广泛概念，因此学习到的嵌入表示具有更强的通用性和迁移能力。此外，数据集中提供的parameter.frequencies.tsv频率统计信息还可以用于设计基于频率的负采样策略，提升模型训练效率和质量。

跨领域知识推理

由于本数据集包含的人物、地理、生物、体育、文化、科技、历史等多领域知识，特别适合用于跨领域知识推理的研究。传统知识图谱推理通常局限于单一领域内的关系预测，而跨领域推理要求模型能够理解不同领域知识之间的隐含联系。例如，模型需要能够推断出一个人的职业（P106）与其出生地（P19）之间的关联模式，或者一个物种的分类等级（P105）与其地理分布（P17）之间的关系。利用本数据集训练的知识图谱嵌入模型，可以在不同领域之间建立语义桥梁，实现跨领域的知识发现和推理，这对于构建通用人工智能系统具有重要的理论和实践意义。

可解释人工智能研究

随着人工智能系统在关键领域（如医疗诊断、金融风控、法律辅助等）的广泛应用，模型的可解释性成为亟待解决的重要问题。知识图谱天然具有可解释性的优势，因为其推理路径以显式的三元组形式呈现，每一步推理都可以追溯到具体的实体和关系。本数据集包含828种定义清晰的语义关系和481万个具有明确Wikidata标识的实体，为构建可解释的知识推理系统提供了理想的数据基础。研究者可以利用本数据集训练具有可解释性的知识图谱推理模型，如基于路径的推理方法和基于规则的知识图谱补全模型，通过对推理路径的可视化分析，揭示模型的决策依据，增强人工智能系统的透明度和可信度。

结尾

本数据集是一个基于Wikidata构建的大规模知识图谱嵌入标准化训练数据，涵盖481万个实体、828种关系和超过2134万条训练三元组，并附带了完整的验证集和测试集划分。数据集采用标准的三元组格式存储，提供实体与关系的完整QID/PID映射，并包含频率统计信息，可直接用于各类知识图谱嵌入算法的训练与评估。其数据来源权威可靠，覆盖领域广泛多样，关系类型丰富，是进行知识图谱补全、链接预测、知识表示学习以及跨领域知识推理研究的理想数据资源。数据集的规模适中，既能够满足深度学习模型对训练数据量的需求，又不会对计算资源造成过高的负担，非常适合作为知识图谱嵌入研究的基准数据集使用。

数据集包含完整的三元组原始文件（train.del、valid.del、test.del），以及完整的实体映射文件（entity_ids.del）和关系映射文件（relation_ids.del），用户可以直接获取全量数据进行模型训练和评估，无需额外进行数据预处理或格式转换。这一完整性极大地降低了研究者的数据准备成本，使得研究者可以专注于算法创新和模型优化本身。

有需要可私信获取更多信息或数据集文件。

典枢(https://dianshudata.com)

#典枢-数据集

Wikidata知识图谱嵌入数据集

https://zhyyao.cn/2026/05/19/dianshu/Wikidata知识图谱嵌入数据集/

作者

zhyyao

发布于

2026年5月19日

许可协议

SpeedrunCom速通数据集完整版深度解析上一篇

收录诗歌书籍与读者交互数据的综合诗歌图书数据集下一篇

Wikidata知识图谱嵌入数据集

数据基本信息

数据规模与构成

数据字段说明

关系类型分布

实体类型分布

主要实体频率分布

数据集划分分布

数据优势

数据样例

应用场景

知识图谱补全与链接预测研究

大规模知识表示学习

跨领域知识推理

推荐系统与信息检索增强

可解释人工智能研究

结尾