ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。
介绍
该数据集包含了在2017年9月21日之前上传到TED.com官方网站的所有TED演讲的音频视频记录的信息。TED主数据集包含所有演讲的信息,包括观看次数、评论次数、描述、演讲者和标题。TED成绩单数据集包含TED.com上所有演讲的成绩单。
字段说明
1. "ted_main.csv":包含实际TED演讲元数据和TED演讲者的数据。
字段名称 | 字段说明 |
---|---|
comments | 在演讲上发表的第一级评论数量 |
description | 关于演讲内容的简短介绍 |
duration | 演讲的持续时间,以秒为单位 |
event | TED/TEDx演讲发生的活动 |
film_date | 拍摄时的Unix时间戳 |
languages | 演讲可用的语言数量 |
main_speaker | 演讲的第一个发言人 |
name | TED演讲的官方名称。包括标题和发言人 |
num_speaker | 演讲中的发言人数量 |
published_date | 演讲在TED.com上发表的Unix时间戳 |
ratings | 包含对演讲的各种评级(鼓舞人心、引人入胜、令人瞠目结舌等) |
related_talks | 推荐接下来观看的演讲列表 |
speaker_occupation | 主讲人的职业 |
tags | 与演讲相关的主题 |
title | 演讲的标题 |
url | 演讲网址 |
views | 演讲的观看次数 |
2. "transcripts.csv":包含TED演讲的文字记录和URL信息。
字段名称 | 字段说明 |
---|---|
transcript | 演讲的官方英文转录 |
url | 演讲的URL地址 |
数据来源
这些数据是从TED官方网站上截取的,并根据知识共享许可证提供。
数据集的用途
研究每一次TED演讲与其他TED演讲有何关联?
研究哪些是有史以来观看次数最多、最受欢迎的会谈?它们基本上是一样的吗?这告诉我们什么?
研究什么样的话题吸引了最大限度的讨论和辩论(以评论的形式)?
研究在TED和TED的分会中,哪几个月最受欢迎?
研究哪些主题在TED学生中最受欢迎?
数据文件
下载数据集请登录ModelCube
http://modelcube.cn/dataset/dataset-detail/10136