首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

数据别愁！14个机器学习电影数据集

情感 2024-11-14 18:00 湖北

大家好，我是Peter

今天给大家分享14个适用于机器学习项目的电影数据集

电影数据集机器学习

已编辑了14个电影数据集的列表。从统计学习的角度来看，此列表上的数据可能很有用，因为可以使用它们来掌握基本的机器学习概念，而不必依赖干燥而深奥的数据集。

此列表上的许多数据集都包含数据点，例如演员和工作人员，脚本，运行时间和评论。可以将这些电影数据集用于自然语言处理，情感分析等机器学习项目。

用于机器学习的电影数据集

IMDB电影评论数据集：

此数据集包含50,000个电影评论，并且已经平均分为机器学习模型的训练和测试集。它还为无监督学习算法提供了未注释的文档。

http://ai.stanford.edu/~amaas/data/sentiment/

IMDB评论：

这是5,000个电影评论的数据集，用于CSV格式的情感分析任务。

https://www.kaggle.com/columbine/imdb-dataset-sentiment-analysis-in-csv-format

OMDb API：

OMDb API是用于获取电影信息的Web服务。这是一个众包的电影数据库，其中包含最新电影。

http://www.omdbapi.com/

MovieLens 20M数据集：

此数据集包括2000万个分级和465,000个标签应用程序，由138,000个用户应用于27,000部电影。

https://grouplens.org/datasets/movielens/

康奈尔电影评论数据：

电影评论文件均标有总体情感极性（正面或负面）或主观等级（例如“两颗半星”），以及标有其主观状态（主观或客观）或极性的句子。

http://www.cs.cornell.edu/people/pabo/movie-review-data/

来自UCI的电影数据集：

此数据集包含超过10,000部电影的列表，包括许多历史，次要和崇拜的电影，以及有关演员，演员，导演，制片人和制片厂的信息。

https://archive.ics.uci.edu/ml/datasets/Movie

康奈尔电影对话语料库：

该语料库包含10,292对电影角色之间的220,579个对话交换。

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

Kaggle上的完整MovieLens数据集：

2017年7月或之前发行的45,000部电影的元数据。数据点包括演员，剧组，剧情关键字，预算，收入，海报，发行日期，语言，制作公司，国家/地区，TMDB投票计数和平均投票。

https://www.kaggle.com/rounakbanik/the-movies-dataset

具有IMBDb的32k电影字幕的语言数据元数据：

32,000多部电影的元数据。元数据与字幕文件中的单词计数类别匹配。

https://data.world/robertjoellewis/film-subtitles

法国国家电影中心数据集：

与法国电影相关的数据集，包括票房数据。

https://www.data.gouv.fr/fr/organizations/centre-national-du-cinema-et-de-l-image-animee/

电影业：

此存储库包含6820部电影（1986年至2016年每年220部电影）。每部电影都有以下数据点：预算，公司，国家/地区，导演，类型，总收入，评级，发行日期，播放时间，IMDb用户评级，主要演员。

https://www.kaggle.com/danielgrijalvas/movies

电影中的猫：

此数据集跟踪电影中所有猫。您可以按导演，监制和发行日期搜索电影。

https://data.opendatasoft.com/explore/dataset/cats-in-movies%40public/table/

电影尸体计数：

此数据集统计屏幕上杀死，死亡和动作，科幻和战争电影中的尸体的数量。

http://www.moviebodycounts.com/

印度电影院：

此数据集包含每个电影院的屏幕尺寸，剧院容量，平均票价和位置坐标。

https://github.com/HarshaDevulapalli/indian-movie-theatres

希望发现此列表中的电影数据集对项目有帮助。

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2MDAyMQ==&mid=2247561297&idx=1&sn=d00b0c209f2539520deae8cdd4bbd092

尤而小屋，一个温馨且有爱的小屋🏡 小屋主人，一手代码谋求生存，一手掌勺享受生活，欢迎你的光临~

最新文章

时间序列预测神器Prophet【教程3】：突变点预测

酷炫！10张BI可视化大屏模板，拿来即用！

机器学习：欧式距离、曼哈顿距离、切比雪夫距离

Neo4j，图算法最强总结！

畅销19万册！MySQL入门经典书重磅升级

机器学习集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

最强图解微型神经网络：多层感知器MLP

李飞飞：一位备受尊敬的女性AI学者

基于深度学习的工业异常检测

具身智能，下一波AI浪潮！

数据别愁！14个机器学习电影数据集

总结7大数据分析方法

Python实现10种顶流聚类算法（附代码）

由浅入深！100个pandas数据处理技巧

超强图解Transformer

豆瓣9.6，多语言版本全球发行，AWS经典再升级！

刚刚！阿里巴巴公布“姜萍时间”调查结果公布

大模型&推荐系统，强强联手！

从小白到Kaggle Grandmaster的比赛技巧

基于支持向量机和SVM的人脸识别案例

热销17万册，《算法图解》第二版终于来了！

8种高级特征工程技术

jupyter notebook进阶使用：nbextensions

中国高校面积Top10

大模型应用开发：RAG入门与实战（文末赠书）

2024年诺贝尔物理学奖，颁给了搞AI的！

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

上海交大ACM班总教头俞勇教授团队第4本重磅新作出版啦！

后悔没早看！985研究生必备论文配图法

突发！高通准备收购英特尔？

《李宏毅：深度学习详解》终于出版了！

pandas处理时间序列数据：基础知识点

IBM中国裁员赔偿N+3！千人被裁，中国研发部彻底关闭！

基于长短期记忆模型LSTM的股价预测实战

机器学习神器Scikit-Learn超强图解

豆瓣评分9.3，畅销29年，深受哈佛、剑桥、清华等名校青睐

时间序列预测神器Prophet【教程2】：饱和预测

吴恩达，YYDS!

吴恩达团队最新成果: ManyICL

销量超10万+，这3本书凭什么能得到Python之父推荐？

数据预处理10大必备技巧

时间序列预测神器Prophet【教程1】：极简入门案例

Python实现10种概率分布（附代码）

文末赠书|AI for science：人工智能驱动科学创新

深度学习10种优化算法原理及实现（附代码）

2024最值得关注的10个深度学习算法

国产大模型之光-Kimi AI

机器学习：基于scikit-learn进行特征工程

彻底弄懂Python单星号、双星号的使用

超强Pandas图解教程

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉