大家好,我是Peter
今天给大家分享14个适用于机器学习项目的电影数据集
电影数据集机器学习
已编辑了14个电影数据集的列表。从统计学习的角度来看,此列表上的数据可能很有用,因为可以使用它们来掌握基本的机器学习概念,而不必依赖干燥而深奥的数据集。
此列表上的许多数据集都包含数据点,例如演员和工作人员,脚本,运行时间和评论。可以将这些电影数据集用于自然语言处理,情感分析等机器学习项目。
用于机器学习的电影数据集
IMDB电影评论数据集:
此数据集包含50,000个电影评论,并且已经平均分为机器学习模型的训练和测试集。它还为无监督学习算法提供了未注释的文档。
http://ai.stanford.edu/~amaas/data/sentiment/
IMDB评论:
这是5,000个电影评论的数据集,用于CSV格式的情感分析任务。
https://www.kaggle.com/columbine/imdb-dataset-sentiment-analysis-in-csv-format
OMDb API:
OMDb API是用于获取电影信息的Web服务。这是一个众包的电影数据库,其中包含最新电影。
http://www.omdbapi.com/
MovieLens 20M数据集:
此数据集包括2000万个分级和465,000个标签应用程序,由138,000个用户应用于27,000部电影。
https://grouplens.org/datasets/movielens/
康奈尔电影评论数据:
电影评论文件均标有总体情感极性(正面或负面)或主观等级(例如“两颗半星”),以及标有其主观状态(主观或客观)或极性的句子。
http://www.cs.cornell.edu/people/pabo/movie-review-data/
来自UCI的电影数据集:
此数据集包含超过10,000部电影的列表,包括许多历史,次要和崇拜的电影,以及有关演员,演员,导演,制片人和制片厂的信息。
https://archive.ics.uci.edu/ml/datasets/Movie
康奈尔电影对话语料库:
该语料库包含10,292对电影角色之间的220,579个对话交换。
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
Kaggle上的完整MovieLens数据集:
2017年7月或之前发行的45,000部电影的元数据。数据点包括演员,剧组,剧情关键字,预算,收入,海报,发行日期,语言,制作公司,国家/地区,TMDB投票计数和平均投票。
https://www.kaggle.com/rounakbanik/the-movies-dataset
具有IMBDb的32k电影字幕的语言数据元数据:
32,000多部电影的元数据。元数据与字幕文件中的单词计数类别匹配。
https://data.world/robertjoellewis/film-subtitles
法国国家电影中心数据集:
与法国电影相关的数据集,包括票房数据。
https://www.data.gouv.fr/fr/organizations/centre-national-du-cinema-et-de-l-image-animee/
电影业:
此存储库包含6820部电影(1986年至2016年每年220部电影)。每部电影都有以下数据点:预算,公司,国家/地区,导演,类型,总收入,评级,发行日期,播放时间,IMDb用户评级,主要演员。
https://www.kaggle.com/danielgrijalvas/movies
电影中的猫:
此数据集跟踪电影中所有猫。您可以按导演,监制和发行日期搜索电影。
https://data.opendatasoft.com/explore/dataset/cats-in-movies%40public/table/
电影尸体计数:
此数据集统计屏幕上杀死,死亡和动作,科幻和战争电影中的尸体的数量。
http://www.moviebodycounts.com/
印度电影院:
此数据集包含每个电影院的屏幕尺寸,剧院容量,平均票价和位置坐标。
https://github.com/HarshaDevulapalli/indian-movie-theatres
希望发现此列表中的电影数据集对项目有帮助。