ModelCube数据集 | 虚假新闻数据集

文摘   2024-11-07 08:10   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

新闻中最新的热门话题是假新闻,许多人想知道科学家能用什么数据来检测它并阻止它的病毒传播。这个数据集只是理解和解决这个问题的第一步。它包含从244个网站上抓取的文本和元数据,这些网站被Daniel Sieradski的BS DetectorChrome Extension标记为"胡说八道"。

警告:我没有修改BS Detector的新闻来源列表,以免引入我的(无用的)偏见层;我不是假新闻的权威。你可能不同意某些来源的观点。这取决于你决定如何处理数据,以及你如何为"改进它"做出贡献。"bs"和"junksci"等标签并不构成大写的"t"真理。如果你想包括其他来源,请开始讨论。如果有你认为不应该包括的来源,开始讨论或编写一个分析数据的内核。或者拿着数据做一些其他有成效的事情。Kaggle选择托管这个数据集并不是为了表达任何特定的政治派别或意图。

数据集介绍

该数据集包含244个网站的文本和元数据,代表了过去30天内总共12999条帖子。使用webhose.ioAPI提取数据;因为它来自他们的爬网程序,所以并非所有由BS Detector识别的网站都存在于该数据集中。每个网站都根据此处记录的BS检测器进行了标记。缺少标签的数据源被简单地分配了一个"bs"标签。这个数据集中(到目前为止)没有(表面上)真实、可靠或值得信赖的新闻来源,所以不要相信你读到的任何东西。

新闻中的假新闻

为了获得灵感,我在新闻中加入了一些(可能不是假的)最近报道假新闻的故事。这是一个敏感而微妙的话题,如果你想在这里看到其他资源,请留下建议。从最初定义虚假、有偏见和误导性的新闻,到决定如何采取行动(黑名单不是一个好答案),除了CSV文件中可以整齐排列的信息之外,还有很多信息需要考虑。

  • 假新闻如何传播(纽约时报)

  • 我们在郊区追踪到一名假新闻创作者。以下是我们所学到的(NPR)

  • 脸书一半以上的收入来自假新闻吗?(福布斯)

  • 假新闻不是唯一的问题(点数-中等)

  • 《华盛顿邮报》不体面地从一个新的、隐藏的、非常肮脏的团体中提拔麦卡锡派黑名单(The Intercept)

数据文件


下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10199

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章