SpeedrunCom速通数据集完整版深度解析

一、引言与背景

速通(Speedrun)作为电子游戏领域一项兼具竞技性与观赏性的独特活动,近年来已发展成为全球范围内极具影响力的社区文化现象。Speedrun.com 作为全球最大的速通记录托管平台,汇聚了来自世界各地速通玩家的海量游戏通关数据,涵盖了从经典复古游戏到最新发布的现代作品,其数据规模之庞大、覆盖范围之广泛,在游戏研究领域具有不可替代的价值。

本数据集为 Speedrun.com 平台的全量数据采集结果,包含两个版本的数据内容。v1 版本由 15 张相互关联的数据表构成,涵盖游戏基本信息、速通记录、用户档案、游戏类别、关卡信息、排行榜数据、平台信息、游戏类型、开发者与发行商信息、游戏引擎、变量与取值等全方位数据维度。v2 版本则提供了游戏的聚合统计信息,包含每款游戏的速通次数和玩家数量。整个数据集以结构化 CSV 格式呈现,便于研究者直接进行数据分析与建模。

该数据集对于游戏学研究、速通行为分析、游戏难度量化评估、推荐系统开发以及自然语言处理等多个领域均具有重要的研究价值与应用潜力。通过对速通记录的时间分布、平台偏好、类别特征等多维度分析,研究者可以深入洞察游戏社区的行为模式与演变趋势,为游戏设计、用户体验优化和竞技生态研究提供坚实的数据基础。

二、数据基本信息

数据规模概览

本数据集包含两个版本,v1 版本为核心数据集合,由以下 15 张数据表组成:游戏信息表(games-data.csv,43,663 条记录)、速通记录表(runs-data.csv,4,881,038 条记录)、用户表(users-data.csv,459,769 条记录)、类别表(categories-data.csv,170,242 条记录)、排行榜表(leaderboards-data.csv,2,232,884 条记录)、关卡表(levels-data.csv,325,685 条记录)、变量表(variables-data.csv,73,472 条记录)、变量值表(values-data.csv,325,014 条记录)、平台表(platforms-data.csv,213 条记录)、类型表(genres-data.csv,2,380 条记录)、开发者表(developers-data.csv,9,742 条记录)、发行商表(publishers-data.csv,5,529 条记录)、引擎表(engines-data.csv,1,223 条记录)、游戏 ID 表(games-ids.csv,43,663 条记录)和用户 ID 表(users-ids.csv,460,757 条记录)。v2 版本为游戏聚合数据表(games-data.csv,44,122 条记录),累计记录速通次数约 445 万次,涉及玩家约 109 万人次。

数据字段说明

游戏信息表字段说明

字段名称 字段类型 字段含义 数据示例 完整性
gameId 字符串 游戏唯一标识 ID j1n8nj91 100%
gameName 字符串 游戏名称 Computer Space 100%
url 字符串 游戏在 Speedrun.com 的 URL 路径 computer_space 100%
releaseDate 日期 游戏发行日期 1971-11-01 100%
createdDate 日期时间 游戏条目创建时间 2022-10-11T15:53:28Z 98.20%
gameTypes 字符串 游戏类型 ID 列表(逗号分隔) 16.77%
platforms 字符串 支持平台 ID 列表(逗号分隔) vm9vn63k 93.53%
regions 字符串 区域 ID 列表(逗号分隔) 39.91%
genres 字符串 游戏类型 ID 列表(逗号分隔) x5e407n4 33.37%
engines 字符串 游戏引擎 ID 列表(逗号分隔) 13.63%
developers 字符串 开发者 ID 列表(逗号分隔) 33.98%
publishers 字符串 发行商 ID 列表(逗号分隔) 28.16%
runsRequireVerification 布尔值 是否需审核验证 true 100%
runsRequireVideo 布尔值 是否需要视频证据 true 100%
runTimingOptions 字符串 计时选项列表(逗号分隔) realtime,ingame 100%
runDefaultTimingOption 字符串 默认计时方式 realtime 100%
runsEmulatorsAllowed 布尔值 是否允许模拟器 true 100%
isRomhack 布尔值 是否为 Romhack 改造版 false 100%

速通记录表字段说明

字段名称 字段类型 字段含义 数据示例 完整性
runId 字符串 速通记录唯一标识 ID m3l059wm 100%
gameId 字符串 关联游戏 ID o6glq08d 100%
categoryId 字符串 关联类别 ID z27w61ok 100%
levelId 字符串 关联关卡 ID(仅 per-level 类别) 5d7k11ew 部分记录有值
date 日期 速通完成日期 2023-02-27 100%
primaryTime 浮点数 主要计时(秒) 4.708 100%
realTime 浮点数 真实时间(秒) 4.708 87.09%
realTimeNoLoads 浮点数 排除加载时间(秒) 0 5.17%
inGameTime 浮点数 游戏内计时(秒) 0 21.36%
platform 字符串 使用平台 ID 8gej2n93 100%
isEmulated 布尔值 是否使用模拟器 false 100%
players 字符串 玩家 ID j065v94j 100%
examiner 字符串 审核员 ID j42w9wdx 100%
variablesAndValues 字符串 变量与取值组合 yn2j74j8=5lmp784l 部分记录有值
verifiedDate 日期时间 审核通过时间 2023-04-21T11:21:30Z 部分记录有值
status 字符串 记录状态(verified/rejected/new) verified 100%
statusReason 字符串 审核拒绝原因 intentionally low effort 仅 rejected 记录有值

用户表字段说明

字段名称 字段类型 字段含义 数据示例 完整性
userId 字符串 用户唯一标识 ID j065v94j 100%
username 字符串 用户名 Hiro15xd 100%
signupDate 日期时间 注册时间 2023-02-24T05:37:03Z 100%
location 字符串 地理位置代码 us 84.29%

数据分布情况

游戏发行年份分布(Top 15)

发行年份 游戏数量 占比 累计占比
2020 2,034 4.66% 4.66%
2021 1,917 4.39% 9.05%
2022 1,893 4.34% 13.39%
2023 1,832 4.20% 17.59%
2019 1,754 4.02% 21.61%
2024 1,751 4.01% 25.62%
2018 1,680 3.85% 29.47%
2017 1,562 3.58% 33.05%
2016 1,434 3.28% 36.33%
2015 1,400 3.21% 39.54%
2014 1,304 2.99% 42.53%
2013 1,088 2.49% 45.02%
2012 908 2.08% 47.10%
2011 896 2.05% 49.15%
2010 826 1.89% 51.04%

游戏发行年份覆盖从 1971 年至 2025 年的广阔时间跨度,其中 2010 年之后发行的游戏占比超过半数,体现了速通社区对现代游戏的关注度持续上升。

速通记录年份分布

年份 记录数量 占比 累计占比
2020 613,462 12.58% 12.58%
2021 957,605 19.63% 32.21%
2022 785,024 16.09% 48.30%
2023 730,823 14.98% 63.28%
2024 783,851 16.07% 79.35%
2019 293,547 6.02% 85.37%
2018 265,920 5.45% 90.82%
2017 194,690 3.99% 94.81%
2016 108,283 2.22% 97.03%
2015 67,513 1.38% 98.41%
2014 18,527 0.38% 98.79%
其他 59,073 1.21% 100.00%

速通记录的年份分布显示,2020 年至 2024 年是速通社区最为活跃的五年,合计占比接近 80%。其中 2021 年以超过 95 万条记录达到峰值,反映出疫情期间游戏社区的显著活跃度提升。2024 年仍保持约 78 万条记录的高位水平,表明速通活动已形成稳定且持续的社区生态。

速通记录状态分布

记录状态 记录数量 占比
verified(已审核) 4,471,371 91.61%
rejected(已拒绝) 393,499 8.06%
new(待审核) 16,168 0.33%

超过 91% 的速通记录已通过审核验证,表明平台审核机制完善,数据质量可靠,为研究者提供了高置信度的分析基础。

速通平台分布(Top 15)

平台名称 记录数量 占比
PC 2,284,046 48.31%
Web(网页端) 347,643 7.35%
Android(安卓) 276,650 5.85%
Switch(任天堂 Switch) 232,534 4.92%
Nintendo 64 152,528 3.23%
iOS 147,071 3.11%
PlayStation 4 122,724 2.60%
Nintendo Entertainment System 103,329 2.19%
Super Nintendo 98,786 2.09%
PlayStation 2 94,550 2.00%
Wii 93,685 1.98%
GameCube 71,284 1.51%
Xbox One 61,538 1.30%
Wii U 58,298 1.23%
PlayStation 3 47,858 1.01%

PC 平台以绝对优势领先,占据近半数速通记录,这与 PC 平台录制视频便捷、模拟器支持广泛等因素密切相关。任天堂系列平台(Switch、N64、NES、SNES 等)合计占比较高,反映了任天堂游戏在速通社区的独特地位。

用户注册年份分布

注册年份 用户数量 占比
2020 76,557 16.65%
2021 106,478 23.16%
2022 71,882 15.63%
2023 60,152 13.08%
2024 52,078 11.33%
2019 25,132 5.47%
2018 24,012 5.22%
2017 20,516 4.46%
2016 10,557 2.30%
2015 8,903 1.94%

用户注册数量从 2019 年起出现爆发式增长,2021 年新增注册用户超过 10.6 万人,为平台历年最高。2020 年至 2024 年的五年间新增用户占平台总用户数的近 80%,说明 Speedrun.com 在该期间实现了快速扩张。

用户地理位置分布(Top 15)

国家/地区代码 用户数量 占比
us(美国) 135,460 34.95%
ca(加拿大) 20,201 5.21%
fr(法国) 18,204 4.70%
de(德国) 15,877 4.10%
br(巴西) 14,241 3.67%
gb/eng(英格兰) 13,982 3.61%
au(澳大利亚) 13,258 3.42%
ru(俄罗斯) 12,618 3.26%
gb(英国) 8,906 2.30%
pl(波兰) 8,780 2.27%
jp(日本) 8,546 2.21%
nl(荷兰) 6,122 1.58%
se(瑞典) 5,102 1.32%
ar(阿根廷) 4,638 1.20%
tr(土耳其) 4,129 1.07%

用户覆盖全球超过 200 个国家和地区,美国用户占比约 35%,具有显著的领先优势。欧洲国家(法国、德国、英国、波兰等)合计占比约 25%,是全球速通社区的重要组成部分。

游戏类别类型分布

类别类型 数量 占比
per-game(全游戏通关) 137,341 80.67%
per-level(按关卡通关) 32,901 19.33%

游戏类型分布(Top 15)

类型名称 关联游戏数量
Platformer(平台跳跃) 2,424
Action(动作) 1,776
Adventure(冒险) 1,332
Puzzle(解谜) 1,276
Racing(竞速) 1,010
Horror(恐怖) 886
RPG(角色扮演) 828
Indie(独立游戏) 722
Fighting(格斗) 422
Sports(体育) 378
Action-adventure(动作冒险) 378
FPS(第一人称射击) 373
Strategy(策略) 340
Shooter(射击) 315
Simulation(模拟) 314

速通计时方式分布

计时方式 游戏数量 占比
realtime(实时计时) 36,472 83.53%
realtime + ingame 4,995 11.44%
realtime + realtime_noloads 1,922 4.40%
realtime + realtime_noloads + ingame 274 0.63%

三、数据优势

优势特征 具体表现 应用价值
数据规模庞大 涵盖 43,663 款游戏、488 万条速通记录、46 万用户,15 张关联数据表构成完整数据生态 支持大规模机器学习模型训练,统计分析结果具有高度统计显著性
时间跨度广 游戏发行覆盖 1971 年至 2025 年,速通记录跨越 50 余年 支持纵向时间序列分析,可研究游戏速通行为的长期演变趋势
多维结构化信息 包含游戏元数据、速通记录、用户信息、平台信息、类型、开发商、发行商等多维度关联数据 支持多维度交叉分析,挖掘不同因素对速通行为的综合影响
记录审核机制完善 91.61% 的记录经过平台审核验证为有效记录 数据质量有保障,可用于高置信度的学术研究和商业分析
地理分布广泛 用户覆盖全球 200 多个国家/地区 支持区域对比分析和全球化研究视角
平台覆盖全面 涵盖 PC、主机、移动端等 213 个不同平台 支持跨平台速通行为对比分析
变量体系丰富 73,472 个自定义变量及 325,014 个取值,涵盖游戏内多种自定义规则 支持细粒度的游戏内条件分析与规则挖掘
双版本设计 v1 提供原始明细数据,v2 提供聚合统计数据 满足不同层次的数据分析需求,从微观记录到宏观趋势全覆盖

四、数据样例

由于数据集包含的原始 CSV 文件总量较大(速通记录表单表即包含 488 万条记录),无法在此完整展示全部数据。以下提供各主要数据表的代表性样例,涵盖不同游戏类型、时间阶段和平台特征,以帮助研究者快速了解数据结构和内容特点。

游戏信息样例(games-data.csv)

gameId gameName releaseDate genres platforms isRomhack
j1n8nj91 Computer Space 1971-11-01 x5e407n4 vm9vn63k false
369wv90d Baking 1975-01-01 false
ldejl7j1 The Dungeon 1975-12-21 d1npok27 true
3dx22ny1 Stunt Cycle 1976-01-01 o0644863,o7e2mx6w false
76r2qed8 Geometry Dash 2024-12-19 lq60nl94 false
o6glq08d Super Mario Bros. 1985-09-13 8gej2n93,… false
46wxo91r &meow; (Meow) 2016-05-27 false
m1zok2d0 The Legend of Zelda: Breath of the Wild 2017-03-03 7m6ylw9p false

速通记录样例(runs-data.csv)

runId gameId date primaryTime platform status
m3l059wm o6glq08d 2023-02-27 4.708 秒 PC verified
y6v6d46m o6glq08d 2024-03-21 36.2 秒 PC verified
y2k69l5y o6gxkxd2 2024-01-20 628.391 秒 PC rejected
y6qwlp6z o6gxkxd2 2024-01-20 68.791 秒 PC verified
mko28jxz 76r2qed8 2024-12-19 79.625 秒 Android verified
y235199m v1p9nz68 2017-06-21 28 秒 PC verified
zg26e6jy pdvz4v6w 2023-03-19 258 秒 Web verified
z5vwovem 4pd0n31e 2022-02-22 1055.17 秒 PC verified

用户信息样例(users-data.csv)

userId username signupDate location
j065v94j Hiro15xd 2023-02-24T05:37:03Z
8169963x Twinberry1 2021-02-09T21:23:56Z us
j5wr1pzj yenom_nico 2020-05-26T13:18:39Z cz
kjpy072j T-BoneSSB 2017-06-04T21:40:10Z us
xkovv668 McPeeWee 2020-08-29T10:37:17Z gb/eng
8q62k40j kokosek2137 2023-03-19T16:29:11Z
8dw02p5j Boopis 2020-04-13T18:29:20Z us
8l62zyv8 CheifBeef 2024-10-24T20:11:08Z de

五、应用场景

场景一:游戏速通行为分析与难度量化研究

基于本数据集包含的 488 万余条速通记录,研究者可以从多个维度对游戏速通行为进行深入分析。通过对不同游戏的速通完成时间分布进行统计建模,可以构建游戏通关难度的量化评估指标。例如,分析同一款游戏在不同年份的速通记录时间变化趋势,可以揭示玩家对该游戏熟练程度的整体提升过程,进而推断游戏的技巧深度和学习曲线特征。同时,结合游戏的发行年份、所属类型、支持平台等元数据信息,研究者可以建立多因素回归模型,探究哪些游戏特征与速通活跃度高度相关。对于游戏设计者而言,这类分析有助于理解怎样的游戏机制更能激发玩家的重复挑战意愿,从而为游戏关卡设计和难度曲线优化提供数据驱动的参考依据。此外,通过对比不同类别(全游戏通关 vs. 按关卡通关)的记录特征,还可以深入了解玩家在不同挑战模式下的行为差异。

场景二:游戏推荐系统与玩家社区画像构建

本数据集包含 46 万名用户的注册信息及地理位置数据,结合速通记录的玩家关联关系,可以构建精细化的玩家社区画像。基于用户参与的速通游戏种类、偏好平台、活跃时间段等多维特征,可以采用协同过滤或图神经网络等方法开发面向速通社区的游戏推荐系统。例如,分析发现某类平台跳跃游戏的速通玩家也倾向于参与动作冒险类游戏的速通活动,系统即可据此向目标用户推荐其可能感兴趣但尚未尝试的速通游戏。结合地理位置信息,还可以构建区域性速通热点图谱,识别不同国家/地区的游戏偏好差异。美国用户占比较高但覆盖广泛,日本用户虽然绝对数量不及美国但在特定游戏类型上可能呈现独特偏好,这类区域化分析对于全球化游戏发行策略具有重要参考价值。推荐系统的应用不仅限于游戏推荐,还可以延伸至速通视频推荐、社区活动推荐等场景,全面提升用户体验和社区活跃度。

场景三:速通记录审核自动化与异常检测

数据集显示,Speedrun.com 平台目前有 91.61% 的记录已通过审核,8.06% 被拒绝,另有 0.33% 处于待审核状态。随着平台用户量和速通记录数量的持续增长,人工审核的成本和压力将不断增大。利用本数据集中的已审核记录作为训练数据,可以构建基于机器学习的速通记录自动化审核模型。具体而言,可以将速通记录的计时数据(primaryTime、realTime、inGameTime)、平台类型、是否使用模拟器、所属游戏的历史记录分布等特征作为模型输入,通过学习已审核通过和已被拒绝记录的模式差异,实现对新增记录的自动审核评分。对于被判定为高度可疑的记录,系统可以自动标记并优先送交人工审核;对于置信度较高的记录,则可实现自动审核通过。这不仅能够大幅提升审核效率,还可以通过持续学习不断提高审核准确率。同时,基于速通完成时间的异常检测算法,可以有效识别利用游戏漏洞或作弊手段获取的不正常记录,维护速通社区的公平性和竞技环境的健康发展。

场景四:游戏产业趋势分析与市场研究

本数据集的游戏信息表覆盖了从 1971 年至 2025 年发行的 43,663 款游戏,结合平台信息(213 个平台)、游戏类型(2,380 种类型标签)、开发商(9,742 家)和发行商(5,529 家)等多维数据,为游戏产业趋势分析提供了丰富的数据支撑。研究者可以分析不同年代游戏类型的流行度变迁,例如平台跳跃类游戏在早期占据主导地位,而随着技术发展,动作、冒险、角色扮演等类型逐渐兴起。通过对各平台速通记录的时间分布分析,可以观察游戏硬件平台的兴衰周期,如 PlayStation 2、Nintendo 64 等经典平台在特定时期的速通活跃度高峰,以及 PC 平台长期保持的领先地位。这些分析对于游戏产业研究者、市场分析师以及游戏投资机构均具有重要的参考价值。此外,通过追踪开发商和发行商的速通热度变化,还可以评估不同游戏公司的产品在速通社区的受欢迎程度,为游戏产品的市场定位和发行策略提供数据支持。

场景五:自然语言处理与游戏规则理解

数据集中的类别表和关卡表包含了丰富的文本规则描述,涵盖各种游戏的速通规则、限制条件和特殊要求。这些规则文本内容多样、格式各异、语言风格丰富,是自然语言处理领域难得的垂直领域语料资源。以 Baking(烘焙游戏)的速通规则为例,规则详细说明了配方选择、材料用量、烤箱设置、成品标准等具体要求,文本长度和复杂度远超一般游戏规则。研究团队可以利用这些规则文本训练领域特定的文本理解模型,实现游戏规则的自动解析和结构化提取。更进一步,结合变量表(73,472 条)和取值表(325,014 条)中的结构化规则变量信息,可以构建游戏规则的知识图谱,支撑智能问答系统、规则合规性自动检查等应用。对于速通社区而言,自动化的规则理解和合规性检查将大幅降低新玩家的学习门槛,促进社区的健康持续发展。

六、总结

本数据集作为 Speedrun.com 平台的全量数据采集成果,以其超大规模的数据体量、广泛的时间覆盖范围和多维度的结构化信息,为游戏研究、行为分析、推荐系统、自动化审核和自然语言处理等多个领域提供了极具价值的数据资源。v1 版本包含 15 张关联数据表,涵盖 43,663 款游戏、4,881,038 条速通记录、459,769 名用户、170,242 个游戏类别、325,685 个关卡及 2,232,884 条排行榜记录,形成了一套完整且高度关联的速通生态数据库。v2 版本则提供了游戏的聚合统计数据,方便快速了解每款游戏的速通活跃度。

该数据集的核心优势在于其完整性和多样性。超过 91% 的速通记录经过平台审核验证,数据质量有扎实保障;游戏发行时间跨越 50 余年,从 1971 年的经典街机游戏到 2025 年的最新发布作品均有收录;平台覆盖从 PC、主机到移动端的 213 个不同平台,全面反映了全球速通社区的多元化生态。数据集中包含的完整原始记录文件和详细的标注信息(包括审核状态、平台信息、计时方式等),使得研究者可以直接用于算法训练、统计分析及模型评估,无需额外进行数据清洗和标注工作。

本数据集适合用于学术研究、算法竞赛、产业分析等多种用途。研究者可基于全量数据进行深入挖掘,探索速通行为的内在规律和演变趋势。有需要可私信获取更多信息。


SpeedrunCom速通数据集完整版深度解析
https://zhyyao.cn/2026/05/19/dianshu/SpeedrunCom速通数据集完整版深度解析/
作者
zhyyao
发布于
2026年5月19日
许可协议