收录诗歌书籍与读者交互数据的综合诗歌图书数据集

在自然语言处理、推荐系统、计算文学研究以及数字人文等前沿交叉学科领域，高质量的图书数据集始终是推动算法创新与学术突破的核心基础。然而，现有公开数据集中，专门聚焦于诗歌这一重要文学体裁的大规模、多维度数据资源极为稀缺。诗歌作为一种高度凝练的语言艺术形式，其独特的韵律结构、隐喻体系和情感表达方式，为文本分析、情感计算和风格迁移等任务提供了极具挑战性的研究场景。

本数据集正是为填补这一空白而构建，完整收录了来自 Goodreads 平台的 36,514 本诗歌类书籍 的详尽元数据，以及这些书籍对应的 250,000 条真实读者交互记录。数据集内容构成丰富而系统，包含两大核心模块：其一是 诗歌书籍元数据表（books_poetry.csv），涵盖书名、作者、出版社、出版年份、ISBN、装帧格式、页数、语言代码、国家代码、平均评分、评分总数、文本评论数、内容简介、丛书信息、相似书籍推荐、封面图片链接等近 30 个字段的完整结构化信息；其二是 读者交互记录表（interactions.csv），记录每位读者对书籍的评分（1-5 分制）、是否已读标记、评论内容、添加日期、更新日期、开始阅读日期和完成阅读日期等丰富的用户行为数据。

这一数据组合的价值在于，它不仅提供了诗歌书籍的静态特征描述，更通过大规模的读者行为数据，揭示了作品在真实阅读场景中的接受程度与传播规律。对于从事推荐系统研发的研究者而言，这是一个天然的协同过滤与内容推荐实验场；对于计算语言学和数字人文领域的学者，它提供了分析诗歌作品传播规律、流派演进和跨文化影响力的宝贵素材；而对于希望训练文学领域语言模型或情感分析算法的工程师来说，其中包含的大量书籍描述文本和用户评论内容，则是理想的无监督或弱监督训练语料。无论是基础科研探索，还是产业级算法开发，该数据集都具备不可替代的支撑作用。

数据基本信息

数据规模与构成

本数据集由两个相互关联的 CSV 文件组成，总数据量约 286,514 条记录，原始文件总大小约 146 MB（压缩包约 39 MB），具体规模如下：

诗歌书籍元数据表（books_poetry.csv）：36,514 条记录，30 个字段
读者交互记录表（interactions.csv）：250,000 条记录，11 个字段
交互记录覆盖的书籍数量：22,926 本（占元数据中书籍总数的 62.8%）
交互记录涉及的独立用户数量：25,846 位
时间跨度：交互记录涵盖 2004 年至 2017 年共 14 年的读者行为数据

书籍元数据涵盖多种装帧格式，包括平装本（Paperback，55.01%）、精装本（Hardcover，18.44%）、电子书（eBook，2.48%）、Kindle 版（0.90%）、有声书（Audio CD/Audiobook，共 0.67%）等。语言覆盖方面，数据集收录了以英语（22.99%）为主体，兼有阿拉伯语（4.40%）、波斯语（2.53%）、西班牙语（2.29%）、葡萄牙语（1.27%）、意大利语（1.25%）、土耳其语（1.01%）等数十种语言的诗歌作品，展现出丰富的多语言文学景观。

数据字段说明

诗歌书籍元数据表字段说明：

字段名称	字段类型	字段含义	数据示例	完整性
book_id	整数	Goodreads 书籍唯一标识	16037549	100%
title	字符串	书名	Vision of Sir Launfal and Other Poems	99.99%
title_without_series	字符串	不含丛书信息的书名	Vision of Sir Launfal and Other Poems	100%
authors	JSON 字符串	作者信息（含作者 ID、角色）	[{“author_id”:”15585”,”role”:””}]	100%
publisher	字符串	出版社名称	Houghton, Mifflin and Company	83.48%
isbn	字符串	ISBN 编号	0811223981	72.67%
isbn13	字符串	ISBN-13 编号	9780811223980	部分
format	字符串	装帧/格式	Paperback	80.76%
num_pages	整数	页数	80	79.45%
publication_year	整数	出版年份	1887	84.07%
publication_month	整数	出版月份	11	部分
publication_day	整数	出版日期	1	部分
language_code	字符串	语言代码	eng	46.70%
country_code	字符串	国家代码	US	100%
average_rating	浮点数	平均评分（1-5 分制）	3.83	100%
ratings_count	整数	评分总数	3	100%
text_reviews_count	整数	文本评论数	1	100%
description	字符串	书籍内容简介	Number 30 in a series of literary pamphlets…	79.39%
series	字符串	所属丛书信息	[]	100%（含空值）
is_ebook	布尔值	是否为电子书	false	100%
asin	字符串	Amazon ASIN 编号	-	部分
kindle_asin	字符串	Kindle ASIN 编号	B00U2WY9U8	部分
similar_books	JSON 字符串	相似书籍 ID 列表	[“25869488”,”23630890”]	部分
edition_information	字符串	版本信息	First	9.38%
image_url	字符串	封面图片链接	https://images.gr-assets.com/…	100%
url	字符串	Goodreads 页面链接	https://www.goodreads.com/book/show/…	100%
link	字符串	书籍链接	同 url	100%
work_id	整数	作品 ID	5212748	100%
popular_shelves	JSON 字符串	用户书架标签统计	[{“count”:”8”,”name”:”to-read”}]	100%

读者交互记录表字段说明：

字段名称	字段类型	字段含义	数据示例	完整性
user_id	字符串	用户唯一标识（哈希值）	8842281e1d1347389f2ab93d60773d4d	100%
book_id	整数	书籍 ID	1384	100%
review_id	字符串	评论唯一标识	1bad0122cebb4aa9213f9fe1aa281f66	100%
is_read	布尔值	是否已读	True	100%
rating	整数	用户评分（0-5）	4	100%
review_text_incomplete	文本	评论内容（不完整版）	（部分记录有内容）	5.99%
date_added	字符串	添加日期	Wed May 09 09:33:44 -0700 2007	100%
date_updated	字符串	更新日期	Wed May 09 09:33:44 -0700 2007	100%
read_at	字符串	阅读完成日期	Tue Mar 01 00:00:00 -0800 1983	部分
started_at	字符串	开始阅读日期	（部分为空）	部分

数据分布情况

评分分布（交互记录）：

评分	记录数量	占比	累计占比
0（未评分）	133,583	53.43%	53.43%
1 分	1,658	0.66%	54.10%
2 分	5,790	2.32%	56.41%
3 分	22,467	8.99%	65.40%
4 分	39,320	15.73%	81.13%
5 分	47,182	18.87%	100.00%

其中包含有效评分（1-5 分）的记录为 116,417 条，占比 46.57%。在有效评分中，正面评分（4-5 分）占比约 74.29%，反映出诗歌类书籍读者的整体满意度较高。

是否已读分布（交互记录）：

状态	记录数量	占比
已读（True）	123,283	49.31%
未读（False）	126,717	50.69%

年份分布（交互记录，基于添加日期）：

年份	记录数量	占比	累计占比
2004	1	0.00%	0.00%
2005	1	0.00%	0.00%
2006	27	0.01%	0.01%
2007	3,365	1.35%	1.36%
2008	15,716	6.29%	7.64%
2009	6,601	2.64%	10.28%
2010	4,623	1.85%	12.13%
2011	4,494	1.80%	13.93%
2012	58,535	23.41%	37.35%
2013	42,902	17.16%	54.51%
2014	30,559	12.22%	66.73%
2015	29,405	11.76%	78.49%
2016	30,173	12.07%	90.56%
2017	23,598	9.44%	100.00%

交互数据在 2012 年至 2017 年间高度活跃，这六年贡献了总量的 86.07%，其中 2012 年以 23.41% 的占比为峰值年份。

出版年份分布（书籍元数据，按年代）：

年代	记录数量	占比
1880 年代及以前	63	0.17%
1890-1900 年代	46	0.13%
1910-1920 年代	103	0.28%
1930-1940 年代	201	0.55%
1950-1960 年代	998	2.73%
1970-1980 年代	2,909	7.97%
1990 年代	4,631	12.68%
2000 年代	10,294	28.19%
2010 年代	11,404	31.23%
年份缺失	5,816	15.93%

书籍出版年代分布显示，2000 年以后出版的诗歌作品占已知出版年份书籍的 70.58%，其中 2010 年代的作品最多，体现出数据集对当代诗歌的覆盖优势。

装帧格式分布（书籍元数据）：

格式	记录数量	占比
Paperback（平装本）	20,086	55.01%
Hardcover（精装本）	6,735	18.44%
格式未知	7,025	19.24%
ebook（电子书）	904	2.48%
Kindle Edition	329	0.90%
Unknown Binding	224	0.61%
Mass Market Paperback	179	0.49%
Audio CD	163	0.45%
Chapbook	93	0.25%
Audiobook	80	0.22%
其他格式	344	0.94%

页数分布（书籍元数据）：

页数范围	记录数量	占比
未知	7,505	20.55%
0 页	40	0.11%
1-50 页	3,058	8.37%
51-100 页	8,925	24.44%
101-200 页	8,679	23.77%
201-500 页	6,519	17.85%
501-1000 页	1,487	4.07%
1000 页以上	301	0.82%

诗歌类书籍的页数分布呈现出集中在 200 页以内的特点（累计 56.58%），这与诗歌作品通常篇幅较短的特征相符。值得注意的是，仍有 4.89% 的书籍超过 500 页，可能为诗歌选集或全集类作品。

语言分布（书籍元数据，Top 15）：

语言代码	语言	记录数量	占比
eng	英语	8,393	22.99%
ara	阿拉伯语	1,608	4.40%
per	波斯语	924	2.53%
en-US	美式英语	868	2.38%
spa	西班牙语	837	2.29%
por	葡萄牙语	462	1.27%
ita	意大利语	455	1.25%
tur	土耳其语	369	1.01%
en-GB	英式英语	360	0.99%
nl	荷兰语	228	0.62%
ind	印度尼西亚语	222	0.61%
bul	保加利亚语	205	0.56%
fre	法语	200	0.55%
ger	德语	193	0.53%
gre	希腊语	186	0.51%
其他语言	-	1,942	5.32%
语言代码未知	-	19,462	53.30%

平均评分分布（书籍元数据）：

评分区间	记录数量	占比
0-1.99	25	0.07%
2.00-2.99	419	1.15%
3.00-3.99	13,127	35.95%
4.00-4.50	19,301	52.86%
4.51-5.00	3,642	9.97%

书籍的平均评分集中在 3.00 至 4.50 之间，合计占比 88.81%，其中 4.00-4.50 区间占比超过半数，表明该数据集中的诗歌书籍整体质量评价较高。

评分数量分布（书籍元数据）：

评分数量范围	记录数量	占比
0	96	0.26%
1-10	10,723	29.37%
11-100	18,815	51.53%
101-1K	5,938	16.26%
1K-10K	856	2.34%
10K+	86	0.24%

前 20 位出版社分布（书籍元数据）：

出版社	记录数量	占比
W. W. Norton & Company	320	0.88%
Farrar, Straus and Giroux	305	0.84%
Penguin Classics	302	0.83%
Penguin Books	291	0.80%
New Directions	261	0.71%
Copper Canyon Press	240	0.66%
Oxford University Press, USA	240	0.66%
Knopf	227	0.62%
Graywolf Press	184	0.50%
W. W. Norton & Company	180	0.49%
Createspace Independent Publishing Platform	172	0.47%
Dover Publications	168	0.46%
Faber & Faber	165	0.45%
University of Pittsburgh Press	158	0.43%
Mariner Books	146	0.40%
Faber & Faber	146	0.40%
Oxford University Press	146	0.40%
Ecco	143	0.39%
University of California Press	134	0.37%
HMH Books for Young Readers	123	0.34%

数据优势

优势特征	具体表现	应用价值
海量多维度数据	包含 36,514 本诗歌书籍的元数据和 250,000 条真实读者交互记录，双重维度数据互补	支持大规模机器学习模型训练，同时覆盖内容特征与用户行为特征
完整的书籍元数据	每个书籍记录包含 30 个字段，覆盖书名、作者、出版社、ISBN、描述、评分、标签等全维度信息	可用于多特征融合的推荐系统、内容分类和知识图谱构建
真实的用户行为数据	行为数据包含评分、阅读状态、时间戳等多类型交互信息，时间跨度达 14 年	支持时序推荐模型、用户画像分析和阅读行为模式挖掘
丰富的多语言覆盖	收录数十种语言的诗歌作品，包括英语、阿拉伯语、波斯语、西班牙语等	适用于跨语言自然语言处理、多语种情感分析和比较文学研究
详细的文本描述	79.39% 的书籍包含内容简介/描述文本，总计超过 28,988 条	可用于文本分类、主题建模、文本生成和语义搜索
多样化的装帧格式	覆盖平装、精装、电子书、有声书等多种格式	支持出版业市场分析和数字阅读趋势研究
读者标签数据	包含用户定义的”流行书架”标签数据，反映读者对书籍的主题分类	可用于标签推荐、语义相似度计算和用户兴趣建模
结构化作者信息	作者信息以结构化 JSON 格式存储，含作者 ID 和角色信息	支持作者影响力分析、合作网络构建和文学谱系研究

数据样例

由于完整的书籍元数据 CSV 文件体积较大（约 104 MB），无法在文章中直接展示全部数据内容，但实际数据集中包含 全部 36,514 条记录的完整字段信息，包括详细的书籍描述文本、结构化作者信息和读者交互数据。以下展示的是从数据集中随机抽取的 15 条多样化样本，涵盖不同语言、国家、格式和出版时期的诗歌作品，以展示数据集的丰富性和多样性。

样例类型：书籍元数据样例

序号	书名	作者 ID	出版社	格式	出版年份	语言	平均评分	评分人数	页数	是否为电子书
1	Vision of Sir Launfal and Other Poems	15585	Houghton, Mifflin and Company	Paperback	1887	eng	3.83	3	80	否
2	Fairy Tales: Dramolettes	16073	New Directions	Paperback	2015	-	3.83	37	128	否
3	Growltiger’s Last Stand and Other Poems	18540	Farrar Straus Giroux	Paperback	2008	-	4.38	7	-	否
4	Cardiopatías	13831363	Monte Avila Editores Latinoamericana	Paperback	2016	spa	4.52	21	76	否
5	Gardening Secrets of the Dead	664649	Wordtech Communications	Paperback	2012	-	4.23	13	88	否
6	رباعیات خیام بر اساس نسخه محمدعلی فروغی	2742325	-	-	-	per	4.18	7	103	否
7	The Complete Nonsense And Other Verse	142	-	-	-	-	4.17	11	-	否
8	В нощите лунни	887400	Damian Iakov	Hardcover	2009	bul	4.18	11	248	否
9	Works of Edward Thomas	204916	Wordsworth Editions	Paperback	1994	eng	4.12	25	256	否
10	El Sueño de Visnu	5620416	El Gaviero Ediciones	-	2012	-	4.48	29	100	否
11	Iloinen tiede	1938	Otava	Paperback	1989	fin	4.26	1	256	否
12	النهر والموت: مقتطفات	1428938	-	Paperback	1999	ara	3.90	89	120	否
13	Peaceful Pieces: Poems and Quilts About Peace	168585	Henry Holt and Co. (BYR)	Hardcover	2011	eng	4.03	249	32	否
14	Envelope Poems	7440	New Directions	Hardcover	2016	-	4.22	353	96	否
15	Ματωμένος Γάμος	44150	Ikaros	Paperback	1964	gre	3.81	66	122	否

以上样例清晰地展示了数据集的核心特征：时间跨度从 1887 年的经典作品到 2016 年的当代创作；语言覆盖英语、西班牙语、波斯语、保加利亚语、芬兰语、阿拉伯语、希腊语等；格式涵盖平装本和精装本；评分从 3.83 到 4.52 不等，反映了读者群体的多样性评价。值得注意的是，每条记录在原始 CSV 文件中均包含完整的描述文本、作者结构信息和优秀的封面图片链接，实际可用信息远较此样例表丰富。

应用场景

基于多模态内容的诗歌推荐系统

该数据集为构建高质量的诗歌推荐系统提供了理想的数据基础。传统推荐系统往往依赖于评分矩阵的协同过滤，但面对诗歌这一特殊文学体裁，内容的语义理解和风格匹配同样关键。利用本数据集中 36,514 条书籍元数据的描述文本、标签信息和封面图片，研究者可以构建多模态融合的推荐模型：一方面通过书籍描述文本的语义嵌入捕捉作品的主题倾向和情感基调，另一方面利用封面图像提取视觉风格特征。同时，250,000 条用户交互记录中包含了用户的评分偏好和阅读时间序列，可用于训练序列感知的深度学习推荐模型。例如，可以采用 Transformer 架构对用户的阅读历史进行建模，结合书籍的描述文本特征，预测用户对新作品的偏好程度。这一系统不仅可以应用在 Goodreads 等图书社交平台，也可扩展至数字图书馆、在线阅读平台和诗歌创作社区的个性化内容推荐场景。

计算文学研究与诗歌风格分析

对于数字人文和计算文学领域的研究者而言，本数据集提供了系统性地研究诗歌这一文学体裁的独特机会。传统文学研究依赖学者的人工阅读和主观判断，而本数据集的大规模结构化信息使得量化分析成为可能。研究者可以利用书籍的描述文本、出版年份、语言代码和用户标签等字段，分析不同时期、不同语言诗歌作品的风格演变规律。例如，可以通过主题建模技术提取 19 世纪与 21 世纪诗歌的典型主题差异，或通过情感分析算法比较不同文化背景下诗歌作品的情感表达模式。此外，数据集中包含的评分和评论信息还可以反映读者对不同风格诗歌的接受程度，有助于揭示艺术价值与大众偏好之间的关系。这种数据驱动的文学研究范式，有望为传统的文学批评提供新的视角和实证基础。

跨语言自然语言处理与机器翻译

由于数据集收录了涵盖英语、阿拉伯语、波斯语、西班牙语、葡萄牙语、意大利语、土耳其语、保加利亚语、希腊语、芬兰语等数十种语言的诗歌作品，它为跨语言自然语言处理研究提供了宝贵的数据资源。诗歌是一种高度依赖语言韵律和文化隐喻的文本形式，跨语言的诗歌理解与翻译一直是自然语言处理领域的难点。研究者可以利用数据集中同一诗歌作品在不同语言版本中的描述文本，构建平行语料库用于训练诗歌领域的机器翻译模型。同时，书籍的描述文本和用户标签可作为多语言文本分类和跨语言信息检索的训练数据。例如，可以训练一个多语言诗歌主题分类器，实现不同语言诗歌作品的自动主题标注和跨语言检索。这些研究对于促进全球文学资源的互联互通和跨文化理解具有重要的应用价值。

用户阅读行为模式挖掘与用户画像构建

250,000 条交互记录的时序信息为研究数字时代读者的阅读行为模式提供了丰富的数据支持。每条交互记录包含书籍添加日期、更新日期、阅读开始时间和完成时间等时序字段，结合用户的评分行为和书籍特征，研究者可以深入分析读者的阅读偏好演化轨迹、阅读节奏和评分习惯。例如，可以构建一个时间感知的潜在因子模型，分析用户评分偏好在时间维度上的漂移现象，或是利用序列模式挖掘算法识别典型读者的阅读路径和兴趣迁移规律。在产业应用层面，基于这些行为模式构建的用户画像可为诗歌出版商的精准营销、图书馆的馆藏建设和在线平台的个性化运营提供数据驱动的决策支持。

情感分析与诗歌情感计算

诗歌作为情感表达最为密集的文学形式之一，是情感计算研究的理想试验场。数据集中 28,988 条书籍描述文本包含了丰富的文学评论和内容简介，这些文本在语言风格上兼具文学性和情感浓度，为训练面向文学文本的情感分析模型提供了高质量的语料。研究者可以基于这些描述文本训练细粒度的情感分类器，不仅识别正面和负面情感，还可以捕捉更为微妙的情感维度，如忧郁、宁静、激昂、哀婉等诗歌中常见的情感基调。此外，数据集中每本书的平均评分和评分分布可以作为情感标注的弱监督信号，辅助训练无需人工标注的情感分析模型。这项研究的成果可以应用于文学研究的自动化情感分析、诗歌治疗辅助工具的开发以及创意写作教学中的情感表达评估等多个领域。

结尾

本数据集以 36,514 本诗歌书籍的详尽元数据和 250,000 条真实读者交互记录为核心，构建了一个规模宏大、维度丰富、结构清晰的专业诗歌数据资源。无论是从书籍数量、交互记录规模、字段完整性，还是从语言多样性、时间跨度和内容深度来看，该数据集在当前公开的诗歌领域数据资源中都具备显著的竞争优势。

其核心价值体现在三个层面：第一，数据规模与完整性的有机结合，不仅包含丰富的书籍描述文本、结构化作者信息和出版信息等完整的原始元数据文件，还涵盖大规模的读者行为数据，为从内容特征到用户行为的全链路研究提供了可能；第二，多维度的数据覆盖，从时间维度横跨 14 年的读者交互到跨越百年的出版历史，从语言维度覆盖数十种语言到格式维度包含平装、精装、电子书、有声书等多种形态，为各类研究任务提供了充足的数据选择空间；第三，即用型数据质量，所有数据经过结构化整理，可直接用于机器学习模型的训练和科学实验的开展，大幅降低了数据清洗和准备的工程成本。

有需要可私信获取更多信息或数据定制服务，我们将持续为科研工作者和产业开发者提供高质量的数据支持。

典枢(https://dianshudata.com)

#典枢-数据集

收录诗歌书籍与读者交互数据的综合诗歌图书数据集

https://zhyyao.cn/2026/05/18/dianshu/收录诗歌书籍与读者交互数据的综合诗歌图书数据集/

作者

zhyyao

发布于

2026年5月18日

许可协议

Wikidata知识图谱嵌入数据集上一篇

5000张大规模多模态图像数据集全解析下一篇