Python分析5000部电影票房,发现赚钱电影的特征

一般电影公司制作一部新电影推向市场时，要想获得成功，通常要了解电影市场趋势，观众喜好的电影类型，电影的发行情况，改编电影和原创电影的收益情况，以及观众喜欢什么样的内容。

一、提出问题

本案例来源于kaggle上的TMDB 5000 Movie Dataset数据集，为了探讨电影数据可视化，为电影的制作提供数据支持，主要研究以下几个问题：

电影类型如何随着时间的推移发生变化的？
电影类型与利润的关系？
Universal和Paramount两家影视公司的对比情况如何？
改编电影和原创电影的对比情况如何？
电影时长与电影票房及评分的关系？
分析电影关键字

二、理解数据

1、采集数据

从kaggle上的TMDB 5000 Movie Dataset下载数据集

2、导入数据

import json
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from datetime import datetime
import warnings
warnings.filterwarnings('ignore') # 忽略python运行过程中的警告错误

# 数据可视化
import matplotlib.pyplot as plt
import seaborn as sns             # 使用Seaborn库
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator  # 导入词云包
from scipy.misc import imread
get_ipython().magic('matplotlib inline')

# 导入电影数据
credits_file = 'tmdb-movie-metadata/tmdb_5000_credits.csv'
movies_file = 'tmdb-movie-metadata/tmdb_5000_movies.csv'
credits = pd.read_csv(credits_file)
movies = pd.read_csv(movies_file)

3、查看数据集信息

下面是moviedf数据集中部分字段的含义介绍：

id：标识号

imdb id:IMDB标识号

popularity：在Movie Database上的相对页面查看次数

budget：预算（美元）

revenue：收入（美元）

original_title：电影名称

cast：演员列表，按|分隔，最多5名演员

homepage：电影首页的URL

director：导演列表，按|分隔，最多5名导演

tagline：电影的标语

keywords：与电影相关的关键字，按|分隔，最多5个关键字

overview：剧情摘要

runtime：电影时长

genres：风格列表，按|分隔，最多5种风格

production_companies：制作公司列表，按|分隔，最多5家公司

release_date：首次上映日期

vote_count：评分次数

vote_average：平均评分

release year：发行年份

三、数据清洗

1、先将credits数据集和moviedf数据集中的数据合并在一起，再查看合并后的数据集信息：

fulldf = pd.concat([credits,movies],axis=1)

2、选取子集

由于数据集中包含的信息过多，其中部分数据并不是我们研究的重点，所以从中选取我们需要的数据：

moviesdf = fulldf[['original_title','crew','release_date','genres','keywords','production_companies','production_countries','revenue','budget','runtime','vote_average']]

由于后面的数据分析涉及到电影类型的利润计算，先求出每部电影的利润，并在数据集moviesdf中增加profit数据列：

# 增加profit列
moviesdf['profit'] = moviesdf['revenue'] - moviesdf['budget']

3、缺失值处理

通过上面的数据集信息可以知道：整个数据集缺失的数据比较少
其中release_date（首次上映日期）缺失1个数据，runtime（电影时长）缺失2个数据，可以通过网上查询补齐这个数据。

填补release_date（首次上映日期）数据：

release_date_null = moviesdf['release_date'].isnull()
moviesdf.loc[release_date_null,:]

# 填充指定日期，从网上查到这部电影上映日期为2014年6月1日
moviesdf['release_date'] = movies['release_date'].fillna('2014-06-01')

# 修改日期格式
moviesdf['release_date'] = pd.to_datetime(moviesdf['release_date'],format='%Y-%m-%d')

找出runtime（电影时长）缺失的数据：

# 找出runtime（电影时长）缺失的数据
runtime_date_null = moviesdf['runtime'].isnull()
moviesdf.loc[runtime_date_null,:]

填充runtime缺失值：

'''
网上查询结果：
电影《Chiamatemi Francesco - Il Papa della gente》的时长为98分钟；
电影《To Be Frank, Sinatra at 100》的时长为81分钟
'''
values1 = {'runtime':98.0}
values2 = {'runtime':81.0}
moviesdf.fillna(value=values1,limit = 1,inplace = True)
moviesdf.fillna(value=values2,limit = 1,inplace = True)

moviesdf.loc[runtime_date_null,:]

4、数据格式转换

genres列数据处理:

# genres列格式化，建立包含所有genre类型的列表
moviesdf['genres'] = moviesdf['genres'].apply(json.loads)
# 自定义函数解码json数据
def decode(column):
    z = []
    for i in column:
        z.append(i['name'])
    return ' '.join(z)

moviesdf['genres'] = moviesdf['genres'].apply(decode)

# 建立genres列表，提取电影的类型
genres_list = set()
for i in moviesdf['genres'].str.split(' '):
    genres_list = set().union(i,genres_list)
    genres_list = list(genres_list)
    genres_list

genres_list.remove('')

release_date列数据处理：

# 保留日期中的年份
moviesdf['release_date'] = pd.to_datetime(moviesdf['release_date']).dt.year
columns = {'release_date':'year'}
moviesdf.rename(columns=columns,inplace=True)
moviesdf['year'].apply(int).head()

四、数据分析及可视化

问题一：电影类型如何随着时间的推移发生变化的？

1、建立包含年份与电影类型数量的关系数据框：

for genre in genres_list:
    moviesdf[genre] = moviesdf['genres'].str.contains(genre).apply(lambda x:1 if x else 0)

genre_year = moviesdf.loc[:,genres_list]

# 把年份作为索引标签
genre_year.index = moviesdf['year']
# 将数据集按年份分组并求和，得出每个年份，各电影类型的电影总数
genresdf = genre_year.groupby('year').sum()
# 查看数据集,tail默认查看后5行的数据
genresdf.tail()

# 汇总电影类型的数量
genresdfSum = genresdf.sum(axis=0).sort_values(ascending=False)
genresdfSum

2、数据可视化

绘制各种电影类型的数量柱状图：

plt.rcParams['font.sans-serif'] = ['SimHei']  # windows 用来正常显示中文标签
# 设置画板大小
fig=plt.figure(figsize=(12,8))
# 创建画纸，这里只使用1张画纸绘图，图形直接输出在整张画纸上
ax1 = plt.subplot(111)
# 在画纸上绘图
# 电影类型的数量按降序排序
rects = genresdfSum.sort_values(ascending=True).plot(kind='barh',label='genres')
plt.title('各种电影类型的数量统计图')
plt.xlabel('电影数量（部）',fontsize=15)
plt.ylabel('电影类型',fontsize=15)
plt.show()

绘制各种电影类型占比的饼状图：

genres_pie = genresdfSum / genresdfSum.sum()

# 设置other类，当电影类型所占比例小于%1时，全部归到other类中
others = 0.01
genres_pie_otr = genres_pie[genres_pie >= others]
genres_pie_otr['Other'] = genres_pie[genres_pie < others].sum()

# 所占比例小于或等于%2时，对应的饼状图往外长高一截
explode = (genres_pie_otr <= 0.02) / 20 + 0.05 

# 设置饼状图的参数
genres_pie_otr.plot(kind='pie',label='',startangle=50,shadow=False,
                   figsize=(10,10),autopct='%1.1f%%',explode=explode)

plt.title('各种电影类型所占的比例')

分析结论：

从上面的结果可以看出，在所有的电影类型中，Drama(戏剧)类型电影最多，占所有电影类型的18.9%，其次为Comedy(喜剧)，占所有电影类型的14.2%。

在所有电影类型中，电影数量排名前5的电影类型分别为：
Drama(戏剧)、Comedy(喜剧)、Thriller(惊悚)、Action（动作）、Romance（冒险）。

3、电影类型随时间变化的趋势分析：

plt.figure(figsize=(12,8))
plt.plot(genresdf,label=genresdf.columns)
plt.xticks(range(1910,2018,5))
plt.legend(genresdf)
plt.title('电影类型随时间的变化趋势',fontsize=15)
plt.xlabel('年份',fontsize=15)
plt.ylabel('数量（部）',fontsize=15)
plt.grid(True)
plt.show()

分析结论：

从图中观察到，随着时间的推移，所有电影类型都呈现出增长趋势，尤其是1992年以后各个类型的电影均增长迅速，其中Drama(戏剧)和Comedy(喜剧)增长最快，目前仍是最热门的电影类型。

问题二：电影类型与利润的关系？

先求出各种电影类型的平均利润：

# 把电影类型作为索引
mean_genre_profit = pd.DataFrame(index=genres_list)

# 求出每种电影类型的平均利润
newarray = []
for genre in genres_list:
    newarray.append(moviesdf.groupby(genre,as_index=True)['profit'].mean())
newarray2 = []
for i in range(len(genres_list)):
    newarray2.append(newarray[i][1])
mean_genre_profit['mean_profit'] = newarray2
mean_genre_profit.head()

电影类型平均利润数据可视化：

# 数据可视化
plt.figure(figsize=(12,8))

# 对于mean_profit列数据按值大小进行降序排序
mean_genre_profit.sort_values(by='mean_profit',ascending=True).plot(kind='barh')

plt.title('各种电影类型的平均利润')
plt.xlabel('平均利润（美元）')
plt.ylabel('电影类型')
plt.grid(True)
plt.show()

分析结论：

从图中观察到，拍摄Animation、Adventure、Fantasy这三类电影盈利最好，而拍摄Foreign、TV、Movie这三类电影会存在亏本的风险。

问题三：Universal Pictures和Paramount Pictures两家影视公司发行电影的对比情况如何？

Universal Pictures(环球影业)和Paramount Pictures(派拉蒙影业)是美国两家电影巨头公司。

1、查看 Universal Pictures和Paramount Pictures两家影视公司电影发行的数量

先对production_companies列数据进行处理：

# production_companies列数据格式化
moviesdf['production_companies'] = moviesdf['production_companies'].apply(json.loads)
# 调用自定义函数decode处理production_companies列数据
moviesdf['production_companies'] = moviesdf['production_companies'].apply(decode)

查询production_companies数据列并统计Universal Pictures和Paramount Pictures的数据：

# 查询production_companies数据列中是否含有Universal Pictures、Paramount Pictures，有则标记为1
moviesdf['Universal Pictures'] = moviesdf['production_companies'].str.contains('Universal Pictures').apply(lambda x:1 if x else 0)
moviesdf['Paramount Pictures'] = moviesdf['production_companies'].str.contains('Paramount Pictures').apply(lambda x:1 if x else 0)

# 统计Universal Pictures和Paramount Pictures的数据
a = moviesdf['Universal Pictures'].sum()
b = moviesdf['Paramount Pictures'].sum()
dict_company = {'Universal':a,'Paramount':b}
company_vs = pd.Series(dict_company)
company_vs

使用饼状图比较两家公司发行的电影占比：

# 使用饼状图显示两家公司发行电影所占的比例
company_vs.plot(kind='pie',label='',startangle=50,shadow=False,
                autopct='%1.1f%%')
plt.title('Universal Pictures和Paramount Pictures两家公司电影发行数量对比',fontsize=13)

2、分析Universal Pictures和Paramount Pictures两家影视公司电影发行的走势

抽取相关数据列进行处理：

# 抽取相关数据列，以release_year作为索引
companydf = moviesdf[['Universal Pictures','Paramount Pictures']]
companydf.index = moviesdf['year']

# 对Universal和Paramount公司的发行数量按年分组求和
companydf = companydf.groupby('year').sum()

两家影视公司电影发行的折线图：

# 数据可视化
plt.figure(figsize=(12,8))
plt.plot(companydf,label=companydf.columns)
plt.xticks(range(1910,2018,5))
plt.legend(companydf)
plt.title('Universal Pictures和Paramount Pictures公司的电影发行量时间走势',fontsize=15)
plt.xlabel('年份',fontsize=15)
plt.ylabel('数量（部）',fontsize=15)
plt.grid(True)
plt.show()

分析结论：

从图中观察到，随着时间的推移，Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势，尤其是在1995年后增长迅速，其中Universal Pictures公司比Paramount Pictures公司发行的电影数量更多。

问题四：改编电影和原创电影的对比情况如何？

对keywords列数据处理：

# keywords列数据格式化
moviesdf['keywords'] = moviesdf['keywords'].apply(json.loads)
# 调用自定义函数decode处理keywords列数据
moviesdf['keywords'] = moviesdf['keywords'].apply(decode)

# 提取关键字
a = 'based on novel'
moviesdf['if_original'] = moviesdf['keywords'].str.contains(a).apply(lambda x: 'no original' if x else 'original')
moviesdf['if_original'].value_counts()

original_profit = moviesdf[['if_original','budget','revenue','profit']]
original_profit = original_profit.groupby(by='if_original').mean()
original_profit

描绘柱状图，对改编电影与原创电影在预算、收入及利润三方面进行比较：

# 数据可视化
plt.figure(figsize=(12,8))
original_profit.plot(kind='bar')
plt.title('改编电影与原创电影在预算、收入和利润的比较')
plt.xlabel('改编电影和原创电影')
plt.ylabel('金额（美元）')
plt.show()

分析结论：

从图上可以看出，改编电影的预算略高于原创电影，但改编电影的票房收入和利润远远高于原创电影，这可能是改编电影拥有一定的影迷基础。

问题五：电影时长与电影票房及评分的关系

电影时长与电影票房的关系：

# 电影时长与电影票房的关系
moviesdf.plot(kind='scatter', x='runtime', y='revenue', figsize=(8, 6))
plt.title('电影时长与电影票房的关系',fontsize=15)
plt.xlabel('电影时长（分钟）',fontsize=15)
plt.ylabel('电影票房（美元）',fontsize=15)
plt.grid(True)
plt.show()

电影时长与电影平均评分的关系：

# 电影时长与评分的关系
moviesdf.plot(kind='scatter', x='runtime', y='vote_average', figsize=(8, 6))
plt.title('电影时长与电影平均评分的关系',fontsize=15)
plt.xlabel('电影时长（分钟）',fontsize=15)
plt.ylabel('电影平均评分',fontsize=15)
plt.grid(True)
plt.show()

分析结论：

从图上可以看出，电影要想获得较高的票房及良好的口碑，电影的时长应保持在90~150分钟内。

问题六：分析电影关键字

先提取电影关键字：

# 利用电影关键字制作词云图
# 建立keywords_list列表
keywords_list = []
for i in moviesdf['keywords']:
    keywords_list.append(i)
    keywords_list = list(keywords_list)
    keywords_list

# 把字符串列表连接成一个长字符串
lis = ''.join(keywords_list)
# 使用空格替换中间多余的字符串'\'s'
lis.replace('\'s','')

通过词云包WordCloud生成词云图：

# 生成词云
wc = WordCloud( background_color="black", # 背景颜色  
                max_words=2000,           # 词云显示的最大词数  
                max_font_size=100,        # 字体最大值  
                random_state=12,          # 设置一个随机种子，用于随机着色
                )  

# 根据字符串生成词云
wc.generate(lis)

plt.figure(figsize=(16, 8))
# 以下代码显示图片  
plt.imshow(wc)  
plt.axis("off")  
plt.show()

分析结论：

通过对电影关键字的分析，电影中经常被提及的词语是女性（woman）、独立（independent）,其次是谋杀（murder）、爱情（love）、警察（police）、暴力（violence），可见观众对女性和独立方面题材的电影最感兴趣，其次是是犯罪类和爱情类电影。

学习来源

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,961评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,444评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,009评论 0赞 333
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,082评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,101评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,271评论 1赞 278
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,738评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,395评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,539评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,434评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,481评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,160评论 3赞 317
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,749评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,816评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,038评论 1赞 256
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,548评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,140评论 2赞 341

Python分析5000部电影票房,发现赚钱电影的特征

一、提出问题

二、理解数据

三、数据清洗

四、数据分析及可视化

学习来源

推荐阅读更多精彩内容