ModelCube数据集 | TED演讲数据集

文摘   2024-09-25 08:17   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

介绍

该数据集包含了在2017年9月21日之前上传到TED.com官方网站的所有TED演讲的音频视频记录的信息。TED主数据集包含所有演讲的信息,包括观看次数、评论次数、描述、演讲者和标题。TED成绩单数据集包含TED.com上所有演讲的成绩单。

字段说明

1. "ted_main.csv":包含实际TED演讲元数据和TED演讲者的数据。

字段名称字段说明
comments在演讲上发表的第一级评论数量
description关于演讲内容的简短介绍
duration演讲的持续时间,以秒为单位
eventTED/TEDx演讲发生的活动
film_date拍摄时的Unix时间戳
languages演讲可用的语言数量
main_speaker演讲的第一个发言人
nameTED演讲的官方名称。包括标题和发言人
num_speaker演讲中的发言人数量
published_date演讲在TED.com上发表的Unix时间戳
ratings包含对演讲的各种评级(鼓舞人心、引人入胜、令人瞠目结舌等)
related_talks推荐接下来观看的演讲列表
speaker_occupation主讲人的职业
tags与演讲相关的主题
title演讲的标题
url演讲网址
views演讲的观看次数

2. "transcripts.csv":包含TED演讲的文字记录和URL信息。

字段名称字段说明
transcript演讲的官方英文转录
url演讲的URL地址

数据来源

这些数据是从TED官方网站上截取的,并根据知识共享许可证提供。

数据集的用途

  1. 研究每一次TED演讲与其他TED演讲有何关联?

  2. 研究哪些是有史以来观看次数最多、最受欢迎的会谈?它们基本上是一样的吗?这告诉我们什么?

  3. 研究什么样的话题吸引了最大限度的讨论和辩论(以评论的形式)?

  4. 研究在TED和TED的分会中,哪几个月最受欢迎?

  5. 研究哪些主题在TED学生中最受欢迎?

数据文件


下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10136

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章