数据别愁!14个机器学习电影数据集

情感   2024-11-14 18:00   湖北  


大家好,我是Peter


今天给大家分享14个适用于机器学习项目的电影数据集

电影数据集机器学习



已编辑了14个电影数据集的列表。从统计学习的角度来看,此列表上的数据可能很有用,因为可以使用它们来掌握基本的机器学习概念,而不必依赖干燥而深奥的数据集。

此列表上的许多数据集都包含数据点,例如演员和工作人员,脚本,运行时间和评论。可以将这些电影数据集用于自然语言处理,情感分析等机器学习项目。


用于机器学习的电影数据集




IMDB电影评论数据集:


此数据集包含50,000个电影评论,并且已经平均分为机器学习模型的训练和测试集。它还为无监督学习算法提供了未注释的文档。

http://ai.stanford.edu/~amaas/data/sentiment/


IMDB评论:

这是5,000个电影评论的数据集,用于CSV格式的情感分析任务。

https://www.kaggle.com/columbine/imdb-dataset-sentiment-analysis-in-csv-format


OMDb API:

OMDb API是用于获取电影信息的Web服务。这是一个众包的电影数据库,其中包含最新电影。

http://www.omdbapi.com/


MovieLens 20M数据集:

此数据集包括2000万个分级和465,000个标签应用程序,由138,000个用户应用于27,000部电影。

https://grouplens.org/datasets/movielens/


康奈尔电影评论数据:

电影评论文件均标有总体情感极性(正面或负面)或主观等级(例如“两颗半星”),以及标有其主观状态(主观或客观)或极性的句子。

http://www.cs.cornell.edu/people/pabo/movie-review-data/


来自UCI的电影数据集:

此数据集包含超过10,000部电影的列表,包括许多历史,次要和崇拜的电影,以及有关演员,演员,导演,制片人和制片厂的信息。

https://archive.ics.uci.edu/ml/datasets/Movie


康奈尔电影对话语料库:

该语料库包含10,292对电影角色之间的220,579个对话交换。

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html


Kaggle上的完整MovieLens数据集:

2017年7月或之前发行的45,000部电影的元数据。数据点包括演员,剧组,剧情关键字,预算,收入,海报,发行日期,语言,制作公司,国家/地区,TMDB投票计数和平均投票。

https://www.kaggle.com/rounakbanik/the-movies-dataset


具有IMBDb的32k电影字幕的语言数据元数据:

32,000多部电影的元数据。元数据与字幕文件中的单词计数类别匹配。

https://data.world/robertjoellewis/film-subtitles


法国国家电影中心数据集:

与法国电影相关的数据集,包括票房数据。

https://www.data.gouv.fr/fr/organizations/centre-national-du-cinema-et-de-l-image-animee/


电影业:


此存储库包含6820部电影(1986年至2016年每年220部电影)。每部电影都有以下数据点:预算,公司,国家/地区,导演,类型,总收入,评级,发行日期,播放时间,IMDb用户评级,主要演员。

https://www.kaggle.com/danielgrijalvas/movies


电影中的猫:

此数据集跟踪电影中所有猫。您可以按导演,监制和发行日期搜索电影。

https://data.opendatasoft.com/explore/dataset/cats-in-movies%40public/table/


电影尸体计数:

此数据集统计屏幕上杀死,死亡和动作,科幻和战争电影中的尸体的数量。

http://www.moviebodycounts.com/


印度电影院:

此数据集包含每个电影院的屏幕尺寸,剧院容量,平均票价和位置坐标。

https://github.com/HarshaDevulapalli/indian-movie-theatres

希望发现此列表中的电影数据集对项目有帮助。

尤而小屋
尤而小屋,一个温馨且有爱的小屋🏡 小屋主人,一手代码谋求生存,一手掌勺享受生活,欢迎你的光临~
 最新文章