数据报告分享|SPSS基于多元回归模型的电影票房预测

科技科技 2024-09-13 21:54 浙江

全文链接：https://tecdat.cn/?p=33190

本文通过利用回归模型对电影的票房（以及放映场数，观影人数）进行了研究，确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的发展和探讨，深度剖析了电影票房预测这个研究课题（点击文末“阅读原文”获取完整代码数据）。

相关视频

一、电影票房预测发展简介

（一）西方电影票房的研究

美国电影的票房研究起始于上个世纪80年代，由李特曼（B. R. Litman）在1989年以1981到1986年在美国播出的697部电影作为研究样本，通过多元回归分析，初步建立了电影票房的预测模型。

我们收集了中国电影发行放映协会统计的过千万票房的国产电影的相关统计指标，共涉及275部影片（查看文末了解数据免费获取方式）。

因变量为：

放映场数（千场）：累积量。

观影人数（万人）：累积量。

票房（万元）：累积量。票房均值在一亿人民币左右，其中《人在囧途之泰囧》票房达到了12.7亿，位列第一。

自变量为：

•影片部分

genre 影片类别：分类变量，共有15个类型。为了获得大量的观众群体，大多数影片都兼具许多种影片类型，因此我们仅选取了该片最主要的类型。15个类型分别是：喜剧，魔幻，动作，爱情，灾难，历史剧情，励志，主旋律，警匪，悬疑，动画，儿童，惊悚，家庭伦理。

Year 上映年份：2010-2013四年

month 上映月份：1-12

week 上映周数：1-53，从当年1月1号起记为第一周

distribute 电影分级：C/G/L/S

runtime 时常：分钟。过长或过短的电影都会对票房产生影响，找到合理的时长，从而能够有效的控制电影的剪辑。

Story 作品是否改编：该指标是电影产品的核心元素，在内容为王的当下，好的剧本往往能够吸引受众，对于国产影片，观众更看重的是好的故事，他们往往对国产影片的技术并不抱太大希望。因此，该指标主要包括两个水平，一是畅销小说改编成剧本1，另一个则是非改编剧本也就是原创剧本0。（N=改编，S=原创

reality 作品是否真人真事：1=真实，0=虚构

remake 作品是否翻拍：1=翻拍，0=非翻拍

sequel 作品是否续集：好莱坞的一大宗旨是誓将续集进行到底，真可谓天长地久有时尽，大片续集无绝期！因为第一，好拍；第二，票房好。那么，在中国市场，这招是否仍然管用？

•导演演员部分

导演姓名

导演年代

第几部作品：该片是该导演的第几部作品。冠军《人在囧途之泰囧》是导演徐峥的处女作，拿到了12亿的票房，而喜剧《财神客栈》已经是导演王晶的第110部影片。老导演or新导演，哪一种更吸引人？是久炼成钢，姜越老越辣？还是廉颇老矣，洗洗回家睡吧？

导演得奖情况：1=得奖，0=没得奖

导演是否转型：导演是一门确实能够自学成才的工种，就像久病成医，演的多了，拍的多了，自然也能成为优秀的导演。在中国电影市场中，演员转型当导演的赵薇、徐峥；作家转型的郭敬明、韩寒，我们希望看到已经在自己的领域取得成就的这些名人，随着工种的转变是否会对票房有影响。

Baidu index 主演的百度指数：影片的主演在分析中是一个字符变量，为了更好的使用这一指标，同时优化工作效率，我们决定在相同的时间段，选择所有演员百度指数的平均值作为衡量主演的标准。因为大多数电影不会仅有一个主演，所以我们选取了两个主演。百度指数越高，代表该演员知名度越高。

查看数据该数据集有以下一些变量：

从上表可以看到不同变量的缺失数据均值中值最大最小值等情况和分布情况。

点击标题查阅往期内容

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

左右滑动查看更多

模型建立

主要思路为了准确的估计票房,了解电影票房的一般规律,更好为电影投资方提供参考意见,本文从电影票房和电影相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了电影票房变动的影响因素. 具体分析步骤

1.描述性统计，初步查看每个变量的均数中值等数据.

2.选择多项式回归模型

2.1变量选取通过回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果。

4.分析得出结论得出各个自变量之间的关系，以及它们对因变量的影响及其意义。

转换数据，拟合多元线性模型

将所有数据转化成数值类型

建立多元线性：票房

尝试通过最直观的解释建立模型

进行多元线性模型并进行分析

从全变量模型可以看出大部分变量无法估计出其参数，说明部分变量不适合用来预测票房，因此对其中的部分变量进行删减后。得到筛选后的回归模型。

筛选变量
显示回归结果

回归结果分析

从输出结果的变量sig值可以看出，导演的情况和是否有续集以及电影的时长对电影的票房有巨大的影响。从变量的coefficient回归系数来看，导演的情况和是否有续集有正向关关系。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验，同时还可以找出离群点。显示结果如下:

左图是残差直方图，从图上可以发现，所有点基本上是随机地分散在0周围，密度曲线近似为正态分布。

点击标题查阅往期内容

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化

左右滑动查看更多

进行多元线性模型并进行分析——放映场数

回归结果分析

从输出结果的变量sig值可以看出，和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验，同时还可以找出离群点。显示结果如下:

左图是残差直方图，从图上可以发现，所有点基本上是随机地分散在0周围，密度曲线近似为正态分布。

进行多元线性模型并进行分析——观影人数

回归结果分析

从输出结果的变量sig值可以看出，和票房的回归结果类似。导演的情况和是否有续集以及电影的时长对电影的演出场数有巨大的影响。

回归结果

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验，同时还可以找出离群点。显示结果如下:

左图是残差直方图，从图上可以发现，所有点基本上是随机地分散在0周围，密度曲线近似为正态分布。

最后我们得到了文件结果：

代码：

GET DATA   /TYPE=TXT   /FILE='E:\电影票房\电影票房数据.csv'   /DELCASE=LINE   /DELIMITERS=" ,"   /ARRANGEMENT=DELIMITED   /FIRSTCASE=2   /IMPORTCASE=ALL   /VARIABLES=   片名 A30   放映场数 A8   人数 A10   boxoffice F9.2   genre A8   year A7   month A4   week F4.0   distribute A2   runtime A3   story A3   reality A2   remake A1   sequel F1.0   导演 A22   导演年代 A6   第几部作品 A6   导演得奖情况

数据获取

在公众号后台回复“电影数据”，可免费获取完整数据。

本文中分析的数据和报告分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《数据报告分享|SPSS基于多元回归模型的电影票房预测》。

点击标题查阅往期内容

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

逻辑回归(对数几率回归,Logistic)分析研究生录取数据实例

R语言使用Metropolis- Hasting抽样算法进行逻辑回归

R语言逻辑回归Logistic回归分析预测股票涨跌

R语言在逻辑回归中求R square R方

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言进行支持向量机回归SVR和网格搜索超参数优化

R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

在R语言中实现Logistic逻辑回归

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247546290&idx=8&sn=2ee1896896f9e8c8eba462d1bdf6750b

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

【专题】2024年先进数据存力白皮书报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

【专题】2023年中国数字金融调查报告PDF合集分享（附原数据表）

【专题】2024年中国低空经济报告——蓄势待飞，展翅万亿新赛道报告合集PDF分享（附原数据表）

【专题】下一代计算机超能云终端白皮书报告PDF合集分享（附原数据表）

数据分享|用户消费行为分析预测模型、重庆市的政策数据分析

【专题】中国游戏产业AIGC发展前景报告合集PDF分享（附原数据表）

R语言贝叶斯分层、层次（Hierarchical Bayesian）模型房价数据空间分析

【专题】2024年金融数字化转型白皮书报告汇总PDF洞察（附原数据表）

Python随机波动性SV模型：贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享

【专题】中国游戏产业AIGC发展前景报告合集PDF分享（附原数据表）

Python贝叶斯回归分析住房负担能力数据集

数据分享|R语言聚类、文本挖掘分析虚假电商评论数据：K-MEANS(K-均值)、层次聚类、词云可视化

R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究

数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例

Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化

【专题】2023-2024中国保险数字化营销调研报告汇总PDF洞察（附原数据表）

用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

R语言用线性混合效应（多水平/层次/嵌套）模型分析声调高低与礼貌态度的关系

R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

R语言空气污染数据的地理空间可视化和分析：颗粒物2.5（PM2.5）和空气质量指数（AQI）

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言使用限制平均生存时间RMST比较两条生存曲线分析肝硬化患者

明星人脸识别基于VGG、MTCNN、RESNET深度学习卷积神经网络应用|附数据代码

【专题】2024中国B2B市场营销现况白皮书报告汇总PDF洞察（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

【视频】Copula算法原理和R语言股市收益率相依性可视化分析

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

通过SAS网络分析对人口迁移进行可视化分析

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

银行信贷风控专题：Python、R 语言机器学习数据挖掘应用实例合集：xgboost、决策树、随机森林、贝叶斯等

【专题】AI市场趋势洞察（2024年）报告汇总PDF洞察（附原数据表）

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

【专题】2024年AIGC应用层趋势报告合集PDF分享（附原数据表）

【专题】2023-2024跨境旅游消费趋势研究报告合集PDF分享（附原数据表）

【专题】2023年中国数字金融调查报告PDF合集分享（附原数据表）

POT超阈值模型和极值理论EVT分析

R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

【专题】2024中国数智社媒电商市场洞察报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言中的copula GARCH模型拟合时间序列并模拟分析

R语言用灰色模型 GM (1,1)、神经网络预测房价数据和可视化

R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集

PYTHON用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型分析经济时间序列

【专题】2024年促进汽车消费与用户洞察白皮书报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

数据报告分享|SPSS基于多元回归模型的电影票房预测

全文链接：https://tecdat.cn/?p=33190

查看数据 该数据集有以下一些变量：

模型建立

转换数据，拟合多元线性模型

建立多元线性：票房

进行多元线性模型并进行分析

回归结果分析

回归结果

进行多元线性模型并进行分析——放映场数

回归结果分析

回归结果

进行多元线性模型并进行分析——观影人数

回归结果分析

回归结果

本文中分析的数据和报告分享到会员群，扫描下面二维码即可加群！

查看数据该数据集有以下一些变量：