收录诗歌书籍与读者交互数据的综合诗歌图书数据集

在自然语言处理、推荐系统、计算文学研究以及数字人文等前沿交叉学科领域,高质量的图书数据集始终是推动算法创新与学术突破的核心基础。然而,现有公开数据集中,专门聚焦于诗歌这一重要文学体裁的大规模、多维度数据资源极为稀缺。诗歌作为一种高度凝练的语言艺术形式,其独特的韵律结构、隐喻体系和情感表达方式,为文本分析、情感计算和风格迁移等任务提供了极具挑战性的研究场景。

本数据集正是为填补这一空白而构建,完整收录了来自 Goodreads 平台的 36,514 本诗歌类书籍 的详尽元数据,以及这些书籍对应的 250,000 条真实读者交互记录。数据集内容构成丰富而系统,包含两大核心模块:其一是 诗歌书籍元数据表(books_poetry.csv),涵盖书名、作者、出版社、出版年份、ISBN、装帧格式、页数、语言代码、国家代码、平均评分、评分总数、文本评论数、内容简介、丛书信息、相似书籍推荐、封面图片链接等近 30 个字段的完整结构化信息;其二是 读者交互记录表(interactions.csv),记录每位读者对书籍的评分(1-5 分制)、是否已读标记、评论内容、添加日期、更新日期、开始阅读日期和完成阅读日期等丰富的用户行为数据。

这一数据组合的价值在于,它不仅提供了诗歌书籍的静态特征描述,更通过大规模的读者行为数据,揭示了作品在真实阅读场景中的接受程度与传播规律。对于从事推荐系统研发的研究者而言,这是一个天然的协同过滤与内容推荐实验场;对于计算语言学和数字人文领域的学者,它提供了分析诗歌作品传播规律、流派演进和跨文化影响力的宝贵素材;而对于希望训练文学领域语言模型或情感分析算法的工程师来说,其中包含的大量书籍描述文本和用户评论内容,则是理想的无监督或弱监督训练语料。无论是基础科研探索,还是产业级算法开发,该数据集都具备不可替代的支撑作用。

数据基本信息

数据规模与构成

本数据集由两个相互关联的 CSV 文件组成,总数据量约 286,514 条记录,原始文件总大小约 146 MB(压缩包约 39 MB),具体规模如下:

  • 诗歌书籍元数据表(books_poetry.csv):36,514 条记录,30 个字段
  • 读者交互记录表(interactions.csv):250,000 条记录,11 个字段
  • 交互记录覆盖的书籍数量:22,926 本(占元数据中书籍总数的 62.8%)
  • 交互记录涉及的独立用户数量:25,846 位
  • 时间跨度:交互记录涵盖 2004 年至 2017 年共 14 年的读者行为数据

书籍元数据涵盖多种装帧格式,包括平装本(Paperback,55.01%)、精装本(Hardcover,18.44%)、电子书(eBook,2.48%)、Kindle 版(0.90%)、有声书(Audio CD/Audiobook,共 0.67%)等。语言覆盖方面,数据集收录了以英语(22.99%)为主体,兼有阿拉伯语(4.40%)、波斯语(2.53%)、西班牙语(2.29%)、葡萄牙语(1.27%)、意大利语(1.25%)、土耳其语(1.01%)等数十种语言的诗歌作品,展现出丰富的多语言文学景观。

数据字段说明

诗歌书籍元数据表字段说明:

字段名称 字段类型 字段含义 数据示例 完整性
book_id 整数 Goodreads 书籍唯一标识 16037549 100%
title 字符串 书名 Vision of Sir Launfal and Other Poems 99.99%
title_without_series 字符串 不含丛书信息的书名 Vision of Sir Launfal and Other Poems 100%
authors JSON 字符串 作者信息(含作者 ID、角色) [{“author_id”:”15585”,”role”:””}] 100%
publisher 字符串 出版社名称 Houghton, Mifflin and Company 83.48%
isbn 字符串 ISBN 编号 0811223981 72.67%
isbn13 字符串 ISBN-13 编号 9780811223980 部分
format 字符串 装帧/格式 Paperback 80.76%
num_pages 整数 页数 80 79.45%
publication_year 整数 出版年份 1887 84.07%
publication_month 整数 出版月份 11 部分
publication_day 整数 出版日期 1 部分
language_code 字符串 语言代码 eng 46.70%
country_code 字符串 国家代码 US 100%
average_rating 浮点数 平均评分(1-5 分制) 3.83 100%
ratings_count 整数 评分总数 3 100%
text_reviews_count 整数 文本评论数 1 100%
description 字符串 书籍内容简介 Number 30 in a series of literary pamphlets… 79.39%
series 字符串 所属丛书信息 [] 100%(含空值)
is_ebook 布尔值 是否为电子书 false 100%
asin 字符串 Amazon ASIN 编号 - 部分
kindle_asin 字符串 Kindle ASIN 编号 B00U2WY9U8 部分
similar_books JSON 字符串 相似书籍 ID 列表 [“25869488”,”23630890”] 部分
edition_information 字符串 版本信息 First 9.38%
image_url 字符串 封面图片链接 https://images.gr-assets.com/ 100%
url 字符串 Goodreads 页面链接 https://www.goodreads.com/book/show/ 100%
link 字符串 书籍链接 同 url 100%
work_id 整数 作品 ID 5212748 100%
popular_shelves JSON 字符串 用户书架标签统计 [{“count”:”8”,”name”:”to-read”}] 100%

读者交互记录表字段说明:

字段名称 字段类型 字段含义 数据示例 完整性
user_id 字符串 用户唯一标识(哈希值) 8842281e1d1347389f2ab93d60773d4d 100%
book_id 整数 书籍 ID 1384 100%
review_id 字符串 评论唯一标识 1bad0122cebb4aa9213f9fe1aa281f66 100%
is_read 布尔值 是否已读 True 100%
rating 整数 用户评分(0-5) 4 100%
review_text_incomplete 文本 评论内容(不完整版) (部分记录有内容) 5.99%
date_added 字符串 添加日期 Wed May 09 09:33:44 -0700 2007 100%
date_updated 字符串 更新日期 Wed May 09 09:33:44 -0700 2007 100%
read_at 字符串 阅读完成日期 Tue Mar 01 00:00:00 -0800 1983 部分
started_at 字符串 开始阅读日期 (部分为空) 部分

数据分布情况

评分分布(交互记录):

评分 记录数量 占比 累计占比
0(未评分) 133,583 53.43% 53.43%
1 分 1,658 0.66% 54.10%
2 分 5,790 2.32% 56.41%
3 分 22,467 8.99% 65.40%
4 分 39,320 15.73% 81.13%
5 分 47,182 18.87% 100.00%

其中包含有效评分(1-5 分)的记录为 116,417 条,占比 46.57%。在有效评分中,正面评分(4-5 分)占比约 74.29%,反映出诗歌类书籍读者的整体满意度较高。

是否已读分布(交互记录):

状态 记录数量 占比
已读(True) 123,283 49.31%
未读(False) 126,717 50.69%

年份分布(交互记录,基于添加日期):

年份 记录数量 占比 累计占比
2004 1 0.00% 0.00%
2005 1 0.00% 0.00%
2006 27 0.01% 0.01%
2007 3,365 1.35% 1.36%
2008 15,716 6.29% 7.64%
2009 6,601 2.64% 10.28%
2010 4,623 1.85% 12.13%
2011 4,494 1.80% 13.93%
2012 58,535 23.41% 37.35%
2013 42,902 17.16% 54.51%
2014 30,559 12.22% 66.73%
2015 29,405 11.76% 78.49%
2016 30,173 12.07% 90.56%
2017 23,598 9.44% 100.00%

交互数据在 2012 年至 2017 年间高度活跃,这六年贡献了总量的 86.07%,其中 2012 年以 23.41% 的占比为峰值年份。

出版年份分布(书籍元数据,按年代):

年代 记录数量 占比
1880 年代及以前 63 0.17%
1890-1900 年代 46 0.13%
1910-1920 年代 103 0.28%
1930-1940 年代 201 0.55%
1950-1960 年代 998 2.73%
1970-1980 年代 2,909 7.97%
1990 年代 4,631 12.68%
2000 年代 10,294 28.19%
2010 年代 11,404 31.23%
年份缺失 5,816 15.93%

书籍出版年代分布显示,2000 年以后出版的诗歌作品占已知出版年份书籍的 70.58%,其中 2010 年代的作品最多,体现出数据集对当代诗歌的覆盖优势。

装帧格式分布(书籍元数据):

格式 记录数量 占比
Paperback(平装本) 20,086 55.01%
Hardcover(精装本) 6,735 18.44%
格式未知 7,025 19.24%
ebook(电子书) 904 2.48%
Kindle Edition 329 0.90%
Unknown Binding 224 0.61%
Mass Market Paperback 179 0.49%
Audio CD 163 0.45%
Chapbook 93 0.25%
Audiobook 80 0.22%
其他格式 344 0.94%

页数分布(书籍元数据):

页数范围 记录数量 占比
未知 7,505 20.55%
0 页 40 0.11%
1-50 页 3,058 8.37%
51-100 页 8,925 24.44%
101-200 页 8,679 23.77%
201-500 页 6,519 17.85%
501-1000 页 1,487 4.07%
1000 页以上 301 0.82%

诗歌类书籍的页数分布呈现出集中在 200 页以内的特点(累计 56.58%),这与诗歌作品通常篇幅较短的特征相符。值得注意的是,仍有 4.89% 的书籍超过 500 页,可能为诗歌选集或全集类作品。

语言分布(书籍元数据,Top 15):

语言代码 语言 记录数量 占比
eng 英语 8,393 22.99%
ara 阿拉伯语 1,608 4.40%
per 波斯语 924 2.53%
en-US 美式英语 868 2.38%
spa 西班牙语 837 2.29%
por 葡萄牙语 462 1.27%
ita 意大利语 455 1.25%
tur 土耳其语 369 1.01%
en-GB 英式英语 360 0.99%
nl 荷兰语 228 0.62%
ind 印度尼西亚语 222 0.61%
bul 保加利亚语 205 0.56%
fre 法语 200 0.55%
ger 德语 193 0.53%
gre 希腊语 186 0.51%
其他语言 - 1,942 5.32%
语言代码未知 - 19,462 53.30%

平均评分分布(书籍元数据):

评分区间 记录数量 占比
0-1.99 25 0.07%
2.00-2.99 419 1.15%
3.00-3.99 13,127 35.95%
4.00-4.50 19,301 52.86%
4.51-5.00 3,642 9.97%

书籍的平均评分集中在 3.00 至 4.50 之间,合计占比 88.81%,其中 4.00-4.50 区间占比超过半数,表明该数据集中的诗歌书籍整体质量评价较高。

评分数量分布(书籍元数据):

评分数量范围 记录数量 占比
0 96 0.26%
1-10 10,723 29.37%
11-100 18,815 51.53%
101-1K 5,938 16.26%
1K-10K 856 2.34%
10K+ 86 0.24%

前 20 位出版社分布(书籍元数据):

出版社 记录数量 占比
W. W. Norton & Company 320 0.88%
Farrar, Straus and Giroux 305 0.84%
Penguin Classics 302 0.83%
Penguin Books 291 0.80%
New Directions 261 0.71%
Copper Canyon Press 240 0.66%
Oxford University Press, USA 240 0.66%
Knopf 227 0.62%
Graywolf Press 184 0.50%
W. W. Norton & Company 180 0.49%
Createspace Independent Publishing Platform 172 0.47%
Dover Publications 168 0.46%
Faber & Faber 165 0.45%
University of Pittsburgh Press 158 0.43%
Mariner Books 146 0.40%
Faber & Faber 146 0.40%
Oxford University Press 146 0.40%
Ecco 143 0.39%
University of California Press 134 0.37%
HMH Books for Young Readers 123 0.34%

数据优势

优势特征 具体表现 应用价值
海量多维度数据 包含 36,514 本诗歌书籍的元数据和 250,000 条真实读者交互记录,双重维度数据互补 支持大规模机器学习模型训练,同时覆盖内容特征与用户行为特征
完整的书籍元数据 每个书籍记录包含 30 个字段,覆盖书名、作者、出版社、ISBN、描述、评分、标签等全维度信息 可用于多特征融合的推荐系统、内容分类和知识图谱构建
真实的用户行为数据 行为数据包含评分、阅读状态、时间戳等多类型交互信息,时间跨度达 14 年 支持时序推荐模型、用户画像分析和阅读行为模式挖掘
丰富的多语言覆盖 收录数十种语言的诗歌作品,包括英语、阿拉伯语、波斯语、西班牙语等 适用于跨语言自然语言处理、多语种情感分析和比较文学研究
详细的文本描述 79.39% 的书籍包含内容简介/描述文本,总计超过 28,988 条 可用于文本分类、主题建模、文本生成和语义搜索
多样化的装帧格式 覆盖平装、精装、电子书、有声书等多种格式 支持出版业市场分析和数字阅读趋势研究
读者标签数据 包含用户定义的”流行书架”标签数据,反映读者对书籍的主题分类 可用于标签推荐、语义相似度计算和用户兴趣建模
结构化作者信息 作者信息以结构化 JSON 格式存储,含作者 ID 和角色信息 支持作者影响力分析、合作网络构建和文学谱系研究

数据样例

由于完整的书籍元数据 CSV 文件体积较大(约 104 MB),无法在文章中直接展示全部数据内容,但实际数据集中包含 全部 36,514 条记录的完整字段信息,包括详细的书籍描述文本、结构化作者信息和读者交互数据。以下展示的是从数据集中随机抽取的 15 条多样化样本,涵盖不同语言、国家、格式和出版时期的诗歌作品,以展示数据集的丰富性和多样性。

样例类型:书籍元数据样例

序号 书名 作者 ID 出版社 格式 出版年份 语言 平均评分 评分人数 页数 是否为电子书
1 Vision of Sir Launfal and Other Poems 15585 Houghton, Mifflin and Company Paperback 1887 eng 3.83 3 80
2 Fairy Tales: Dramolettes 16073 New Directions Paperback 2015 - 3.83 37 128
3 Growltiger’s Last Stand and Other Poems 18540 Farrar Straus Giroux Paperback 2008 - 4.38 7 -
4 Cardiopatías 13831363 Monte Avila Editores Latinoamericana Paperback 2016 spa 4.52 21 76
5 Gardening Secrets of the Dead 664649 Wordtech Communications Paperback 2012 - 4.23 13 88
6 رباعیات خیام بر اساس نسخه محمدعلی فروغی 2742325 - - - per 4.18 7 103
7 The Complete Nonsense And Other Verse 142 - - - - 4.17 11 -
8 В нощите лунни 887400 Damian Iakov Hardcover 2009 bul 4.18 11 248
9 Works of Edward Thomas 204916 Wordsworth Editions Paperback 1994 eng 4.12 25 256
10 El Sueño de Visnu 5620416 El Gaviero Ediciones - 2012 - 4.48 29 100
11 Iloinen tiede 1938 Otava Paperback 1989 fin 4.26 1 256
12 النهر والموت: مقتطفات 1428938 - Paperback 1999 ara 3.90 89 120
13 Peaceful Pieces: Poems and Quilts About Peace 168585 Henry Holt and Co. (BYR) Hardcover 2011 eng 4.03 249 32
14 Envelope Poems 7440 New Directions Hardcover 2016 - 4.22 353 96
15 Ματωμένος Γάμος 44150 Ikaros Paperback 1964 gre 3.81 66 122

以上样例清晰地展示了数据集的核心特征:时间跨度从 1887 年的经典作品到 2016 年的当代创作;语言覆盖英语、西班牙语、波斯语、保加利亚语、芬兰语、阿拉伯语、希腊语等;格式涵盖平装本和精装本;评分从 3.83 到 4.52 不等,反映了读者群体的多样性评价。值得注意的是,每条记录在原始 CSV 文件中均包含完整的描述文本、作者结构信息和优秀的封面图片链接,实际可用信息远较此样例表丰富。

应用场景

基于多模态内容的诗歌推荐系统

该数据集为构建高质量的诗歌推荐系统提供了理想的数据基础。传统推荐系统往往依赖于评分矩阵的协同过滤,但面对诗歌这一特殊文学体裁,内容的语义理解和风格匹配同样关键。利用本数据集中 36,514 条书籍元数据的描述文本、标签信息和封面图片,研究者可以构建多模态融合的推荐模型:一方面通过书籍描述文本的语义嵌入捕捉作品的主题倾向和情感基调,另一方面利用封面图像提取视觉风格特征。同时,250,000 条用户交互记录中包含了用户的评分偏好和阅读时间序列,可用于训练序列感知的深度学习推荐模型。例如,可以采用 Transformer 架构对用户的阅读历史进行建模,结合书籍的描述文本特征,预测用户对新作品的偏好程度。这一系统不仅可以应用在 Goodreads 等图书社交平台,也可扩展至数字图书馆、在线阅读平台和诗歌创作社区的个性化内容推荐场景。

计算文学研究与诗歌风格分析

对于数字人文和计算文学领域的研究者而言,本数据集提供了系统性地研究诗歌这一文学体裁的独特机会。传统文学研究依赖学者的人工阅读和主观判断,而本数据集的大规模结构化信息使得量化分析成为可能。研究者可以利用书籍的描述文本、出版年份、语言代码和用户标签等字段,分析不同时期、不同语言诗歌作品的风格演变规律。例如,可以通过主题建模技术提取 19 世纪与 21 世纪诗歌的典型主题差异,或通过情感分析算法比较不同文化背景下诗歌作品的情感表达模式。此外,数据集中包含的评分和评论信息还可以反映读者对不同风格诗歌的接受程度,有助于揭示艺术价值与大众偏好之间的关系。这种数据驱动的文学研究范式,有望为传统的文学批评提供新的视角和实证基础。

跨语言自然语言处理与机器翻译

由于数据集收录了涵盖英语、阿拉伯语、波斯语、西班牙语、葡萄牙语、意大利语、土耳其语、保加利亚语、希腊语、芬兰语等数十种语言的诗歌作品,它为跨语言自然语言处理研究提供了宝贵的数据资源。诗歌是一种高度依赖语言韵律和文化隐喻的文本形式,跨语言的诗歌理解与翻译一直是自然语言处理领域的难点。研究者可以利用数据集中同一诗歌作品在不同语言版本中的描述文本,构建平行语料库用于训练诗歌领域的机器翻译模型。同时,书籍的描述文本和用户标签可作为多语言文本分类和跨语言信息检索的训练数据。例如,可以训练一个多语言诗歌主题分类器,实现不同语言诗歌作品的自动主题标注和跨语言检索。这些研究对于促进全球文学资源的互联互通和跨文化理解具有重要的应用价值。

用户阅读行为模式挖掘与用户画像构建

250,000 条交互记录的时序信息为研究数字时代读者的阅读行为模式提供了丰富的数据支持。每条交互记录包含书籍添加日期、更新日期、阅读开始时间和完成时间等时序字段,结合用户的评分行为和书籍特征,研究者可以深入分析读者的阅读偏好演化轨迹、阅读节奏和评分习惯。例如,可以构建一个时间感知的潜在因子模型,分析用户评分偏好在时间维度上的漂移现象,或是利用序列模式挖掘算法识别典型读者的阅读路径和兴趣迁移规律。在产业应用层面,基于这些行为模式构建的用户画像可为诗歌出版商的精准营销、图书馆的馆藏建设和在线平台的个性化运营提供数据驱动的决策支持。

情感分析与诗歌情感计算

诗歌作为情感表达最为密集的文学形式之一,是情感计算研究的理想试验场。数据集中 28,988 条书籍描述文本包含了丰富的文学评论和内容简介,这些文本在语言风格上兼具文学性和情感浓度,为训练面向文学文本的情感分析模型提供了高质量的语料。研究者可以基于这些描述文本训练细粒度的情感分类器,不仅识别正面和负面情感,还可以捕捉更为微妙的情感维度,如忧郁、宁静、激昂、哀婉等诗歌中常见的情感基调。此外,数据集中每本书的平均评分和评分分布可以作为情感标注的弱监督信号,辅助训练无需人工标注的情感分析模型。这项研究的成果可以应用于文学研究的自动化情感分析、诗歌治疗辅助工具的开发以及创意写作教学中的情感表达评估等多个领域。

结尾

本数据集以 36,514 本诗歌书籍的详尽元数据和 250,000 条真实读者交互记录为核心,构建了一个规模宏大、维度丰富、结构清晰的专业诗歌数据资源。无论是从书籍数量、交互记录规模、字段完整性,还是从语言多样性、时间跨度和内容深度来看,该数据集在当前公开的诗歌领域数据资源中都具备显著的竞争优势。

其核心价值体现在三个层面:第一,数据规模与完整性的有机结合,不仅包含丰富的书籍描述文本、结构化作者信息和出版信息等完整的原始元数据文件,还涵盖大规模的读者行为数据,为从内容特征到用户行为的全链路研究提供了可能;第二,多维度的数据覆盖,从时间维度横跨 14 年的读者交互到跨越百年的出版历史,从语言维度覆盖数十种语言到格式维度包含平装、精装、电子书、有声书等多种形态,为各类研究任务提供了充足的数据选择空间;第三,即用型数据质量,所有数据经过结构化整理,可直接用于机器学习模型的训练和科学实验的开展,大幅降低了数据清洗和准备的工程成本。

有需要可私信获取更多信息或数据定制服务,我们将持续为科研工作者和产业开发者提供高质量的数据支持。


收录诗歌书籍与读者交互数据的综合诗歌图书数据集
https://zhyyao.cn/2026/05/18/dianshu/收录诗歌书籍与读者交互数据的综合诗歌图书数据集/
作者
zhyyao
发布于
2026年5月18日
许可协议