豆瓣排行榜,豆瓣电影TOP250分析报告

1报价

中国电影产业发展迅速,线上大数据对电影的影响也越来越大。豆瓣平台是一种更方便快捷的传播方式,更贴近现代生活节奏,逐渐成为电影批评文化的主流。豆瓣电影提供最新的电影介绍和评论,包括已上映电影的视频信息查询和购票服务。可以把自己想看的电影电视剧录下来,边看边看,顺便评分写影评,大大方便了人们的生活。豆瓣电影这样自我介绍:“国内最权威的电影评分和精彩的影评,百万粉丝的真实观影体验,为你的观影做决定。”它确实做到了。然而,前几天,朋友圈又沸腾了。03010 2010年12月27日,一篇名为《豆瓣电影评级,面临信用危机》的文章发表。后来,人民日报客户端转发了这篇文章,并将其标题改为“豆瓣电影评级,猫眼电影评级,面临信用危机,差评伤害电影行业”。在这个互联网将渗透到整个电影产业链的时代,网络数据对电影的影响越来越大。2010年国产电影票房首次突破百亿,中国电影进入百亿时代。2015年,中国电影票房突破440亿元,电影市场的大踏步前进吸引了全世界的目光。国产电影中,好评如潮、票房高的电影很多,但面对巨大的市场,中国电影的发展方向仍不明朗,部分电影的好评率与票房关系并不成正比。在这种情况下,分析国产电影的数据,指出其发展方向就显得尤为重要。

2个数据源

数据来自豆瓣电影TOP250。我们通过python对网站数据进行抓取,共获得了250条关于豆瓣电影的电影信息,包括收视率、收视率、导演、编剧、主演角色、类型、制作国家/地区、语言、上映日期、片长、剧情简介、热门影评以及豆瓣成员的热门标签。同时,我们抓取前三部电影的热评进行文本分析。

3豆瓣电影数据

主要分析Python收购的豆瓣电影TOP 250 (https://movie .豆瓣.com/top250)的相关电影。技术分析过程分为以下三个步骤:网络数据采集、数据读取和数据清洗、数据可视化分析。通过网站爬虫,我们整理出了7个字段,分别是评分、评分数、导演、编剧、主演角色、类型、制作国家/地区、语言、上映日期、片长、故事梗概、热门影评、豆瓣成员常用标签。

3.1发布年份分析

图1豆瓣电影TOP250各时代电影数量

好评电影多集中在90后。在1990年之前和1990年之后,受欢迎的电影数量几乎没有波动。电影会随着时代的变化而变化,如今的观影者对现代电影艺术的接受度会更高,在豆瓣Top250中,时间跨度为1931年到2017年,其中大部分电影集中在1990年以后,入围电影数量最多的年份为1994年、2004年和2010年,占比14.4%。1994年被称为电影年,那一年诞生了很多优秀的电影,比如豆瓣评分常年最高的电影《中国电影报》,当年奥斯卡最佳影片《肖申克的救赎》,也是1994年上映的《阿甘正传》。不仅仅是外国电影,1994年也是国产电影的巅峰时期,5部中国电影入围豆瓣Top250。030101《这个杀手不太冷》10101010101《红玫瑰与白玫瑰》等电影也在1994年上映。进入21世纪后,出现了大量好评如潮的电影。最受欢迎的电影出现在2000年到2009年之间。

3.2生产国/地区分布分析

图2豆瓣电影全国20强电影数量

高口碑电影的生产国以美国为首,占比接近50%。从图中可以看出,上榜的美国大片较多,其次是日本、英国和中国。榜单上的中外电影还是有差距的。美国电影产业相对成熟,引领着这个时代的电影艺术潮流。

图3豆瓣电影前20名国片数量

中国的电影长度普遍比国外短。国外片长100-150分,平均125分,国内100-120分,有

图4豆瓣电影十大导演电影数量

在广受好评的电影中,有多位导演的不止一部电影上榜,其中上榜电影数量最多的两位导演是克里斯托弗诺兰和宫崎骏其人。后来有很多中国导演。导演对一部电影有很大的影响。可以说,一个好的导演可以决定一部电影的成功与否。电影的主题、创作风格和视听语言,以及导演的地位和价值,也可以在相应电影中演员的表演和后期制作中看到。

图5豆瓣电影十大主演电影数量

演员在电影创作过程中扮演着另一个重要的角色,导演认可的演员在电影中扮演着角色。张国荣、梁朝伟、周星驰等香港演员出演了榜单上的多部电影,其他基本都是外国影星,这说明国内的影星还是有待提高的,也说明演员在电影中的表现也决定了电影是否受欢迎。

的重要因素,明星引起的“粉丝效应”也是不容忽视的,影片获得高票房或高评分,演员起了重要作用。

3.4 影片类型分布分析

图6豆瓣电影排名前20的国家电影数量 图7标签分布

在好评电影中,剧情类型电影一骑绝尘,有高达186部电影带有“剧情”标签。其后,爱情、喜剧、冒险等类型也有多部电影。电影类型决定了电影的基调和主旨,是决定电影内容的重要因素之一。随着电影产业的不断发展,电影类型也越来越多样。2010 年之后,中国电影市场主要由爱情片、喜剧片及动作片三大类型组成,但是警匪、谍战、歌舞及传记等类型片的市场反响也非常好,电影市场形成了以武侠、动作、爱情、喜剧、剧情为主打,以警匪、战争、历史为中等梯度,以魔幻、传记、歌舞等为新兴品种的稳定性结构。在众多高分电影中喜剧电影占比19%,犯罪片、悬疑电影分别占17%、15%,与喜剧电影共同作为占比最高的前三种电影类型,观众对于喜剧片、犯罪片以及悬疑片的关注程度要略高于其他类型的电影。观众爱看剧情,喜剧和爱情片,而这些也恰恰评分高,说明在未来国产电影的发展过程中,在新的电影产业格局的影响下电影类型将越来越丰富,传统喜剧片、爱情片等类型影片将携手悬疑、犯罪等新兴类型共同走上银幕。一部电影的类型也将难以用一种或两种类型概括,多类型同时存在的电影将越来越多,其结构和手法将会更加成熟,单部影片类型多样化将成为电影类型发展的必然趋势。

3.5评分/评分人数分析

图8评分分布

结合图8看,可以看到我们采集到的电影数据评分主要集中在8.0-10.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:8.25-8.55为口碑极差,8.55-8.85为口碑较差,8.85-9.15为口碑尚可,9.15-9.45为口碑较好,9.45-9.75为口碑极佳。

图9评分比例

再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多,进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:1.幸存者偏差,1990-2000年的劣质作品少有人关注,数据保存困难,豆瓣数据库仅采集到了相对而言较为优质的作品。2.近年来有较多的低质量影视作品,拉低了均分。

图10豆瓣电影排名和评分人数

评分人数越多,往往排名越高。图中颜色越深表示评分越低。我们发现排名靠后的评分人数少,评分低。排名靠前的评分人数多,评分越靠前。豆瓣电影可以说是中国最大的电影分享与评论社区,汇聚了数以千万热爱电影的人,2012年月度覆盖用户超过一亿。观众可以在这个平台上对电影进行打分,对电影做出相关评价。如今豆瓣评分的高低俨然已经成为衡量一部电影是否“可看”的重要因素,无论是在网络购票或是在网络平台上搜索电影,其评分结果都会显示在显眼的位置,许多观众会根据评分结果选择是否点击了解或观看这部影片,点击率与评分结果成正比关系。

4 豆瓣文本数据

本文中,豆瓣文本数据分两类,1类是剧情简介、影片类型(标签),1类是热门影评。每一个电影都会有这样的文本数据,当我们获取到电影介绍的网址时,就比如说《肖申克的救赎》(https://movie.douban.com/subject/1292052/),剧情简介如下图;

图11

相应的源码:<span class="short"><span class="all hidden">一场谋杀案使银行家安迪(蒂姆•罗宾斯TimRobbins饰)蒙冤入狱,谋杀妻子及其情人的指控将囚禁他终生。在肖申克监狱的首次现身就让监狱“大哥”瑞德(摩根•弗里曼MorganFreeman饰)对他另眼相看。瑞德帮助他搞到一把石锤和一幅女明星海报,两人渐成患难之交。很快,安迪在监狱里大显其才,担当监狱图书管理员,并利用自己的金融知识帮助监狱官避税,引起了典狱长的注意,被招致麾下帮助典狱长洗黑钱。偶然一次,他得知一名新入狱的小偷能够作证帮他洗脱谋杀罪。燃起一丝希望的安迪找到了典狱长,希望他能帮自己翻案。阴险伪善的狱长假装答应安迪,背后却派人杀死小偷,让他唯一能合法出狱的希望泯灭。沮丧的安迪并没有绝望,在一个电闪雷鸣的风雨夜,一场暗藏几十年的越狱计划让他自我救赎,重获自由!老朋友瑞德在他的鼓舞和帮助下,也勇敢地奔向自由。

<br>本片获得1995年奥斯卡10项提名,以及金球奖、土星奖等多项提名</span>

热门影评在标签link-report,如下图:

图12

当我们用for循环使用requests+bs4爬取如上信息。

图13

4.1对热门影评的探索分析

表1

排名

电影

导演

类型

国家

标签

1

肖申克的救赎

弗兰克·德拉邦特

剧情,犯罪

美国

经典,励志,信念,自由,人性,人生,美国,希望

2

霸王别姬

陈凯歌

剧情,爱情,同性

中国

经典,人性,文艺,爱情,人生,文革,剧情,同志

3

阿甘正传

罗伯特·泽米吉斯

剧情,爱情

美国

励志,经典,人生,成长,美国,信念,剧情,人性

1)肖申克的救赎

图14

该电影主要讲述了银行家安迪被冤枉杀了他的妻子和其情人,身陷囹圄,一名小偷因盗窃入狱,知道安迪妻子和她情人的死亡真相,狱长不愿帮他翻案。安迪知道真相后,决定通过自己的救赎去获得自由,最后成功逃出监狱。影片中涵盖全片的主题是“希望”,全片透过监狱这一强制剥夺自由、高度强调纪律的特殊背景来展现作为个体的人对“时间流逝、环境改造”的恐惧。影片的结局有《基督山伯爵》式的复仇宣泄。《肖申克的救赎》是一部不可多得的优秀励志型影片。我个人把它作为保留影片的原因就是因为它的深远主题。它给人一种无形的力量,它让我知道人的一生中所应该拥有的最宝贵的东西。从而珍惜你现在还拥有它的机会。

2)霸王别姬

图15

主演:张国荣(霸王,被称为‘哥哥’)、程蝶衣(虞姬),导演:陈凯歌。这是一部让观众震撼感动的经典华语历史电影,讲述的是霸王项羽和虞姬的感情故事。

3)阿甘正传

图16

阿甘和珍妮是青梅竹马的好朋友,阿甘喜欢珍妮。两个人在成年后走向不同的道路,阿甘天生智商低,做事耿直专一,毕业后服兵役去了,珍妮叛逆喜欢冒险,到处流浪。经过生活中各种磨难,阿甘保持着本心,一直深爱着珍妮,并且傻人有傻福,事业一直在走上坡。珍妮在生活中陷入迷茫,失去方向,曾想过自杀。阿甘一直没有放弃珍妮,珍妮最终想明白了,放弃放荡的生活,回到阿甘的身边。

4.2常用标签分析

图17

下表是PMI最高的前15组标签:

表2

1

默片

卓别林

6.965784285

2

清新

美食

6.965784285

3

情感

旅行

6.965784285

4

英雄

诺兰

5.965784285

5

回忆

国产

5.965784285

6

种族

非洲

5.965784285

7

自然

清新/美食

5.965784285

8

大片

新西兰

5.795859283

9

张国荣

梁朝伟

5.64385619

10

生活

清新/美食

5.64385619

11

信念

钢琴

5.380821784

12

文革

姜文

5.380821784

13

灾难

大片

5.380821784

14

温暖

环保

5.380821784

15

推理

法律

5.380821784

本节用KMeans进行聚类,k-中心点(k-medoids)聚类不将所在类对象的平均值作为中心点。中心点对象是数据集中的一个实际对象,而k-均值聚类中的类中心对象是通过求所在类各对象均值而获得的虚拟对象。对中小数据集有效,不宜用于大型数据集的聚类。构建词袋模型后生成文档词矩阵cv_fit,对它进行聚类;然后对聚类结果画散点图,如下图所示。

图18

4.3分类模型与预测电影类别

k-最近邻分类算法(kNN)是一种“由邻居来确定类别”的分类算法,该算法属于一种基于实例匹配的算法。本节将用分类或有监督机器学习方法(Knn算法)来分类文档,预测《送你一朵小红花》的所属类别,预测出它属于剧情,准确率0.7572,召回率100%。

过程:

1.对训练数据进行文本规范化处理(jieba分词)

2.使用CountVectorizer类构建词袋模型,从数据(豆瓣Top250的剧情简介)中提取特征或属性,对于每个数据点,我们将拥有特征集(剧情简介的文档词矩阵DTM)和对应的类型(电影是否属于‘剧情’的逻辑值(1,0))。

3.算法从训练数据中学习每个分类的不同模式。学习完成后,我们得到一个训练好的模型KNN。

学习步骤:计算距离:给定测试对象,计算它与训练集中的每个对象的距离。寻找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻。决定类别:根据这k个近邻归属的主要类别,对测试对象分类。简单投票方法:少数服从多数,近邻中那个类别的点最多就分为该类。

3. 未来将测试数据样本的特征(《送你一朵小红花》的剧情简介)送入模型KNN,模型就可以预测它是否属于‘剧情’。

4. 制作混淆矩阵,评价分类模型。过程:训练,从训练集中统计两类概率∶各类标记的文档数量和各词项在各类中出现的频次。分类∶计算类标记的先验概率和类条件概率。

概念公式:

召回率(Recall) =系统检索到的相关文件 / 系统所有相关的文件总数

准确率(Precision) =系统检索到的相关文件 / 系统所有检索到的文件总数

F1=2PR/(P+R)

KNN算法预测的混淆矩阵图示表示如下:

图19

准确率=184/(184+59)=75.72%

召回率=184/(184+0)=100%

5 结 论

本文通过探究豆瓣电影Top250各项指标,对其榜单内的数据进行分析,得到以下结论。

电影艺术是随着时代而转变的,大部分观影者更加接受于此时相近年代的电影,21世纪第一个十年内的电影是好评最多的时期。电影制作方可以选择10年前到20年前区间内的影片重制推出,用口碑吸引观影者。观影者也可以选择这期间的电影在休息时观看。电影艺术会随着时代的变化而变化,如今的观影者会更加接受现代的电影艺术。导演是一部影片好坏的关键因素之一,一个好的导演可以成就一部电影。电影制作方在选择导演时可以选择榜上作品多的导演。观影者可以选择克里斯托弗·诺兰和宫崎骏两位导演的影片观看。导演对于一部影片的影响巨大,可以说好的导演能决定一部电影的成功与否。好的电影一般出自好的电影氛围,制作国家可以对影片造成影响。好评电影中,美国电影占到近一半。电影制作方或可借鉴学习美国电影的流行趋势,观影者可以选择美国电影来观看。电影的主题、创作风格和视听语言,相对应的电影中演员的表演和后期制作中也可以看出导演的地位和价值。电影类型是观影者选择是否观看此影片的重要因素之一。“剧情”、“爱情”、“喜剧”是受众主流,电影制作方可以将其作为口碑的保守选择,观影者可以选择这些类型观看。一部电影的类型也将难以用一种或两种类型概括,多类型同时存在的电影将越来越多,其结构和手法将会更加成熟,单部影片类型多样化将成为电影类型发展的必然趋势。

为您推荐

联系我们

联系我们

2309239569

在线咨询: QQ交谈

邮箱: 2309239569@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部