YouTube摔跤手抗议评论数据集分析报告2

2023年印度摔跤手抗议事件是印度体育史上具有重大影响力的社会事件,引发了广泛的社会关注和公众讨论。本数据集收录了YouTube平台上与该事件相关的超过111万条用户评论,为研究社交媒体上的公众舆论、社会运动传播、网络话语分析提供了宝贵的数据资源。

该数据集包含完整的评论元数据信息,包括评论内容、作者信息、发布时间、点赞数等字段,覆盖了抗议事件的关键时间段(2023年1月至7月)。这些数据对于理解公众对该事件的态度、情绪变化、信息传播模式具有重要的研究价值,可为社会科学研究、舆情分析、自然语言处理模型训练提供高质量的数据支持。

数据基本信息

数据字段说明

字段名称 字段类型 字段含义 数据示例 完整性
videoId 字符串 YouTube视频ID EBOKYsWUhvI 100%
textDisplay 字符串 评论显示文本(含格式) Dub maro jaato 😢😢. 100%
textOriginal 字符串 评论原始文本(无格式) Dub maro jaato 😢😢. 100%
authorDisplayName 字符串 作者显示名称 HECTOR OF TROY 100%
authorProfileImageUrl 字符串 作者头像URL https://yt3.ggpht.com/ 100%
authorChannelUrl 字符串 作者频道URL http://www.youtube.com/channel/ 100%
authorChannelId 字符串 作者频道ID {‘value’: ‘UC5G8fjqoiFIqHpKyVeOTsFg’} 100%
canRate 布尔值 是否可评分 True 100%
viewerRating 字符串 观看者评分 none 100%
likeCount 整数 点赞数量 0 100%
publishedAt 字符串 发布时间 2023-07-06T07:04:02Z 100%
updatedAt 字符串 更新时间 2023-07-06T07:04:02Z 100%
parentId 字符串 父评论ID(回复时存在) UgwDzAbEUY4yv7HPlax4AaABAg 76.94%
commentId 字符串 评论唯一ID UgwbyvIkkAhUdaCFpcp4AaABAg 100%

数据规模概览

  • 总评论数: 1,119,948 条
  • 涉及视频数: 188 个
  • 独特作者数: 55,169 位
  • 总点赞数: 670,515 次
  • 数据时间范围: 2023年1月至2023年7月

时间分布

月度分布

月份 记录数量 占比 累计占比
2023-05 672,084 59.99% 59.99%
2023-06 197,036 17.60% 77.59%
2023-04 113,511 10.13% 87.72%
2023-01 9,940 0.89% 88.61%
2023-07 3,739 0.33% 88.94%
2023-02 79 0.01% 88.95%
2023-03 30 0.00% 88.95%

小时分布(UTC时间)

时段 记录数量 占比
16:00-17:00 65,340 5.83%
15:00-16:00 65,065 5.81%
10:00-11:00 60,201 5.38%
11:00-12:00 60,201 5.38%
17:00-18:00 60,859 5.44%

评论类型分布

类型 记录数量 占比
原创评论 861,719 76.94%
回复评论 258,229 23.06%

主要作者分布

作者名称 评论数量 占比
Nightmare Reality 955 0.09%
HansteRaho 894 0.08%
Amit Kumar 812 0.07%
Anil Kumar 715 0.06%
Suriyha Prakhas 665 0.06%
Manoj Kumar 654 0.06%
Manish Kumar 652 0.06%
Be Human First 624 0.06%
Jayant kumar Mishra 588 0.05%

热门视频分布

视频ID 评论数量 占比
tiFN4L9SQDY 106,020 9.47%
rlKvtJlQc8U 99,040 8.84%
OUqqWRfCE0w 93,920 8.39%
yE5c23LEhZw 64,584 5.77%
MSy5ZF05PQQ 59,657 5.33%

数据优势

优势特征 具体表现 应用价值
数据规模庞大 超过111万条评论,覆盖5.5万+独特作者 支持大规模舆情分析和机器学习模型训练
时间跨度完整 覆盖抗议事件全过程(2023年1-7月) 可追踪舆论演变和情绪变化趋势
多维度信息 包含作者信息、时间戳、互动数据等14个字段 支持多维度交叉分析和用户画像构建
真实社交数据 原始YouTube评论数据,包含真实用户表达 适用于社交媒体行为研究和情感分析
高时效性 数据集中在抗议高峰期(2023年5月) 可用于突发事件舆情响应研究
多元语言内容 包含印地语、英语等多种语言评论 支持多语言NLP研究和跨文化分析

数据样例

元数据样例

以下为数据集的代表性样例,涵盖不同类型的评论内容:

  1. 视频ID: EBOKYsWUhvI | 作者: HECTOR OF TROY | 内容: “Dub maro jaato 😢😢. Tumse tumare ladkiya nhi bchaii gyi.” | 点赞数: 0 | 时间: 2023-07-06T07:04:02Z

  2. 视频ID: EBOKYsWUhvI | 作者: Geeta Saini | 内容: “Haar gye bechare” | 点赞数: 0 | 时间: 2023-07-03T22:21:37Z

  3. 视频ID: EBOKYsWUhvI | 作者: Ayaan Chouhan | 内容: “Dhamki mili pahalwano ko aur sab manage kr liya gaya.” | 点赞数: 0 | 时间: 2023-07-03T05:06:33Z

  4. 视频ID: EBOKYsWUhvI | 作者: Kamal | 内容: “Jaato pr ye boj rhega ki vo apni hi vyavstha se nyay nhi le paaye…” | 点赞数: 1 | 时间: 2023-07-02T03:39:50Z

  5. 视频ID: EBOKYsWUhvI | 作者: महेंद्र बाहुबलि | 内容: “Logo ko ullu bana ke ye sab mahanubhav chal diye apne kaam pr” | 点赞数: 3 | 时间: 2023-06-28T12:41:54Z

  6. 视频ID: EBOKYsWUhvI | 作者: Arvind Kumar Sharma | 内容: “इनके विरुद्ध तो सख्त एक्शन लेना चाहिए था।” | 点赞数: 0 | 时间: 2023-06-28T04:19:21Z

  7. 视频ID: EBOKYsWUhvI | 作者: HKS | 内容: “Ye sb drama kr rahe the, inko bs chhut chahiye tha qualifying round se” | 点赞数: 5 | 时间: 2023-06-27T03:34:26Z

  8. 视频ID: EBOKYsWUhvI | 作者: Abhishek Dubey | 内容: “Mujhe cricket khelna hai chalo jantar mantar” | 点赞数: 2 | 时间: 2023-06-26T16:53:54Z

  9. 视频ID: EBOKYsWUhvI | 作者: Rajveer Singh Janwaar | 内容: “Inko bas trial se chhut chahiye thi mil gayi dharna khatm” | 点赞数: 6 | 时间: 2023-06-26T08:19:29Z

  10. 视频ID: EBOKYsWUhvI | 作者: Mayu R | 内容: “Amit shah se meeting ke baad kuch to hua hai🧐” | 点赞数: 3 | 时间: 2023-06-26T07:11:21Z

回复评论样例

  1. 视频ID: EBOKYsWUhvI | 作者: Ajay Kumar | 内容: “Saale Teri aukaat kya hai,,, unhone olympic mai medal Jeeta hai…” | 点赞数: 0 | 父评论ID: UgwDzAbEUY4yv7HPlax4AaABAg

  2. 视频ID: EBOKYsWUhvI | 作者: Kamal | 内容: “Doshi to sarkar dwara bachaye jaa rhe h to kaise doshi bn skte h…” | 点赞数: 1 | 父评论ID: UgwH4dqhq0alebGdyVJ4AaABAg

应用场景

舆情分析与社会运动研究

该数据集可用于分析社交媒体上关于社会运动的舆论动态。研究人员可以追踪不同阶段公众情绪的变化,识别关键意见领袖,分析信息传播路径。通过对评论内容的情感分析,可以了解公众对摔跤手抗议事件的态度演变,以及不同群体之间的观点差异。这对于理解社会运动如何在数字空间中形成和传播具有重要价值。

自然语言处理模型训练

数据集包含大量真实的用户生成内容,涵盖印地语、英语等多种语言,是训练多语言情感分析、主题建模、文本分类等NLP模型的优质资源。研究人员可以利用这些数据训练针对社交媒体文本的特定模型,提高在非正式文本处理任务上的性能。

社交媒体行为分析

通过分析评论的时间分布、互动模式和用户行为,可以深入了解用户在社交媒体平台上的参与习惯。例如,小时分布数据显示评论活动在印度时间下午达到高峰,这反映了用户的在线行为规律。这些洞察对于社交媒体平台优化内容推荐、广告投放策略具有重要参考价值。

跨文化传播研究

数据集中包含多种语言和文化背景的评论,为跨文化传播研究提供了丰富素材。研究人员可以分析不同语言群体在讨论同一事件时的表达方式、话题焦点和情感倾向差异,增进对跨文化交流模式的理解。

结尾

本数据集是研究2023年印度摔跤手抗议事件公众舆论的宝贵资源。超过111万条评论、5.5万+独特作者、188个相关视频构成了一个规模庞大、维度丰富的社交媒体数据集。其核心价值在于能够支持从舆情分析、NLP模型训练到社会科学研究的多种应用场景。

数据集的时间分布特征尤为突出,2023年5月的评论量占总数的60%,准确捕捉了抗议事件的高峰期。完整的元数据字段支持多维度交叉分析,为深入研究提供了可能性。

如需获取完整数据集或进一步的分析支持,欢迎联系获取更多信息。


数据集规模: 1,119,948 条评论
时间范围: 2023年1月 - 2023年7月
文件格式: CSV
编码格式: UTF-8


YouTube摔跤手抗议评论数据集分析报告2
https://zhyyao.cn/2026/05/08/dianshu/YouTube摔跤手抗议评论数据集分析报告2/
作者
zhyyao
发布于
2026年5月8日
许可协议