创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
文爱 胸 小熊饼干 基于文本挖掘的豆瓣电影评论的LDA主题模子分析 Analysis of LDA Theme Model for Douban Movie Reviews Based on Text Mining - U系大作战2

U系大作战2

你的位置:U系大作战2 > 深爱五月 >

文爱 胸 小熊饼干 基于文本挖掘的豆瓣电影评论的LDA主题模子分析 Analysis of LDA Theme Model for Douban Movie Reviews Based on Text Mining

唐诗文爱 胸 小熊饼干

重庆师范大学新闻与传媒学院,重庆

收稿日历:2023年12月8日;委派日历:2024年1月26日;发布日历:2024年2月2日

摘录

收集评论的兴起,让普罗巨匠都能参与到对电影的解读和评价中来,撰写影评不再是专科影评东谈主所独到的一项行动。电影收集评论行动对电影作品的评价,既是不雅众对电影利弊的直不雅反应,亦然其不雅影体验的班师体现。对收集影评的分析有助于班师了解不雅众对电影的不雅感和评价,进而加深对经典电影大火基因的理解,并为电影制作提供相应模仿。电影《让枪弹飞》上映十三年后仍被奉为经典与神作,片中的经典桥段和台词一直被东谈主们所津津乐谈。本文通过对该部影片豆瓣影评的文本挖掘和LDA主题模子分析,探究不雅众评价中对影片的存眷点和评论视角,基于高频主题词,挖掘深层主题,有助于客不雅全体评价电影和反应不雅众的的确感受,寻找该片继续大火的传播基因与密码。

关节词

豆瓣电影评论,文本挖掘,LDA主题模子,《让枪弹飞》

Analysis of LDA Theme Model for Douban Movie Reviews Based on Text Mining

在线ps

—Taking the Movie “Let the Bullets Fly” as an Example

Shi Tang

School of Journalism and Media, Chongqing Normal University, Chongqing

Received: Dec. 8th, 2023; accepted: Jan. 26th, 2024; published: Feb. 2nd, 2024

ABSTRACT

The rise of online reviews has enabled the general public to participate in the interpretation and evaluation of movies, and writing reviews is no longer a unique activity for professional film critics. Film online reviews, as an evaluation of film work, are not only an intuitive reflection of the quality of the movie by the audience, but also a direct reflection of their viewing experience. The analysis of online film reviews helps to directly understand the audience’s perception and evaluation of movies, deepen their understanding of the genes of classic movies, and provide corresponding references for film production. The movie “Let the Bullets Fly” is still regarded as a classic and masterpiece thirteen years after its release, and the classic scenes and lines in the film have always been talked about by people. This article explores the focus and perspective of audience evaluation on the film through text mining and LDA theme model analysis of Douban film reviews. Based on high-frequency theme words, it explores deep themes, which helps to objectively evaluate the film as a whole and reflect the audience's true feelings, and to find the spreading genes and codes of the film’s sustained popularity.

Keywords:Douban Movie Review, Text Mining, LDA Theme Model, “Let the Bullets Fly”

Copyright © 2024 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

1. 小序

跟着社会和工夫的发展,互联网时间的电影收集评论也随之发展壮大。豆瓣电影、微博电影榜、猫眼、淘票票等多样电影打分、点评的平台的兴起,契合了用户在公众平台上抒发我方的意见、格调、宗旨和时势的倾向,让不少不雅众养成了在不雅看电影的前后都去收集平台上稽察有关电影的评分与评论,并留住我方的评分和评论的习尚。

豆瓣网是一个以书影音起家,提供对于竹素、电影、音乐等作品的UGC信息的社区网站 [1] 。其中的豆瓣电影,包含了最新的电影先容、影讯查询、发布影评及购票办事。用户不错记载念念看、在看和看过的电影电视剧,并打分、写影评。此外,还左证用户偏好,进行个性化的电影推选。伴跟着收集影评的异军突起,豆瓣网自2005年开辟以来依然发展为电影口碑共享的伏击平台 [2] 。在豆瓣电影的影评中,用户自觉参与评价打分,豆瓣据此进行排序,从而给其他受众作念参考,培养了受众在不雅看电影之前就来看豆瓣评分评价的一种行动习尚。豆瓣电影的评分、评论也频繁成为媒体报谈以至专科影评的援用对象、参考对象。因此,采用豆瓣电影的评论文本,是因为这一平台更能“复原世俗巨匠的平均宗旨” [3] ,具有一定的代表性和参考价值。

通盘效户都不错我方发布书评、影评,把我方的喜好展示给别东谈主看。豆瓣的评价和评分能够班师影响用户对作品的感受和给与度,以至不错班师决定不雅看意愿和购买有联想。能直不雅反应其他用户总体认可度的打分评价,这是豆瓣的本性,也因此眩惑了许多新用户的注册。

电影《让枪弹飞》是一部2010年上映,由姜文执导,姜文、周润发、葛优等主演的剧情片。该片呈报了麻匪张牧之云谲波诡,假扮新官“马邦德”上任鹅城县长,并与坐镇鹅城的恶霸黄四郎伸开强烈争斗的故事。该片在极富文娱性之余,也蕴含着丰富的细节和对白,使得不雅众对它的解读林林总总,对其评价亦然辩驳不一。全片充满段子和隐喻,其中的“让枪弹飞顷刻间”“剖腹验粉”“站着挣钱”“翻译翻译,什么叫惊喜”“体面”“公谈”等经典梗广为流传,直到十三年后的今天,这些段子和隐喻仍然具有弘大的相宜性和人命力。网友们往往在别的热门事件下借用《让枪弹飞》里的经典桥段或台词进行评论,以至于网友直呼“让枪弹飞怎样还不申遗?”“请全文背诵!”。尽管让该片申遗亦然一种戏谑的说法,但网友们照旧把对《让枪弹飞》的细节和对白考虑戏称为了“让学”,足可见不雅众对该片的高度细则与赞赏。

网友们对于电影《让枪弹飞》的评价究竟如何,这些评价约莫可分为什么主题,体现了不雅众对该部影片何种关顾惜角?厘清不雅众对该部影片的不同评论主题,约略也能成为进一步深入考虑经典的电影过火对白和隐喻,并探究其传播密码、为电影制作提供相应模仿。

2. 考虑联想

本考虑通过Python方法言语编写爬虫方法,从豆瓣电影网站爬取电影《让枪弹飞》的影评,再对爬取到的数据内容进行文本预惩处——数据清洗、文分内词、去除停用词等,将有价值的数据进行TF-IDF分析,计算影评中的高频词汇,反应其评论热门,并使用LDA主题模子分析工夫将主题词展现出来,试图找到有参考价值的评论信息。

2.1. 数据获取

由于豆瓣网的电影评论常被用户参考,且进行评论打分的用户在互联网中占比拟大,该网站的评论数据具有一定代表意旨。因此本文中式豆瓣电影网站(https://movie.douban.com/)中电影《让枪弹飞》的影评行动考虑对象,按“最受接待的”排布的评论数据进行了文本挖掘。但由于豆瓣电影对数据爬虫的IP鸿沟,无法班师握取电影的一皆评论数据,因此本文只握取了前十页的评论数据,包含了评论用户的称号、评级(永别是1到5星,对应的评级用词是很差、较差、还行、推选、力荐)、发布时期、评论内容以及有效数和没用数等有关信息,合计191条数据。本文将主要中式这191条数据中评论内容行动考虑的对象和文本数据。

2.2. 数据预惩处

LDA主题模子分析不会班师分析文本文档,而是分析基于这些文档酿成文档词语矩阵(document-term matrix),这个矩阵结合了每个词出目下文档的频率。因此文本预惩处是文本挖掘必不可少的才气,标的是删除原始文本数据中的无须信息 [4] 。本文的数据预惩处主要包括数据清洗、中语分词和去除停用词。领先是对爬取到的数据进行清洗,去除了时势、吞并、意外旨的标记或乱码以及一些空格和空行等。然后对文本进行中语分词,选择jieba中语分词,将评论语句分为单独词汇。随后对中语分词后的文本去除停用词,停用词主若是指那些在文本中出现的介词、代词、虚词等字符,以及嗯、啊、吧这之类的口吻词,它们在评论中出现频率很高,但莫得本色意旨,因此需要对此类词语进行过滤。

3. 数据分析

3.1. 文本向量化

由于文本是东谈主类言语而非计算机言语,因此还需要将非结构化的文本革新成结构化的数据。本文华取TF-IDF算法,来统计评论文本中的高频词,这里用到了用TfidfVectorizer()函数完成向量化与TF-IDF预惩处。在去除文档内出现几率过大或过小的词汇时,将参数max_df建树为了0.99,将参数min_df建树为了0.01。

3.2. 构建LDA主题模子分析

本文华取基于LDA (Latent Dirichlet Allocation,潜狄利克雷散布)算法的主题模子(topic model)方法 [5] 。主题模子是对笔墨隐含主题进行建模的方法,能够在海量互联网数据中自动寻找出笔墨间的语义主题。LDA概率主题模子是基于贝叶斯收集模子的主题模子,挖掘文本间所隐含的主题信息,使用户快速了解文档的信息。主题对应的关节词是主题含义的折射,左证关节词不错空洞出电影评论的主题内容。

3.3. 文本聚类收尾

在作念LDA主题模子分析前,先通过绘图主题数–困惑度弧线计算困惑度来阐明主题个数。如图1所示。一般而言,困惑度越低,模子越好。左证图1的变化情况,将主题个数建树为3。

图1. 主题数–困惑度变化情况

在LDA可视化部分,使用了python中的LDAvis模块对LDA模子收尾进行可视化。本考虑将主题数建树为3,暂定每个主题输出前20个关节词,所得收尾如表1所示。

表1. 不同话题的主题特征词

从主题聚类后果表的关节词来看,豆瓣电影《让枪弹飞》评论文本对该部影片的评论不错拆分为三个主题,主题1中高频词,即姜文、电影、枪弹、火车、中国、伏击、导演、道理、不雅众、故事、葛优、片子、影片等,主要反应了对中国电影作品和行业评价的评论内容,以及对导演和主演的存眷。主题2中高频词,即权力、东谈主民、蔡锷、日本、铁门、年老、1920、隐喻、问号、怯怯、手枪、伴随、权柄、举义、影评东谈主等,这类评论更存眷电影中的隐喻,反应出对电影的隐喻猜念念和履行发散。主题3中高频词,即麻子、黄四郎、师爷、县长、四爷、姜文、挣钱、昆仲、改进、辛亥改进、问题、帽子、张牧、老三、葛优等,多数为电影脚色和电影情节,这类评论更存眷影片叙事和情节等,呈现出对电影自身的内容解读。

从主题聚类收尾来看,针对不同主题的评论照旧存在较为较着的各别。可视化分析收尾深切,不雅众较多地在主题1,即对电影作月旦价、电影行业评价和对导演的存眷这方面发表我方的宗旨,而对于主题2,即对电影的隐喻猜念念和履行发散,和主题3,即对电影自身的内容解读的评论数目则相对要少些。如图2所示,左侧圆圈示意主题,右侧示意各个词语对主题的孝敬度。

图2. LDA主题模子可视化

在主题1,即对电影作品和行业评价以及对导演的存眷中不错看出,不少不雅众是冲着导演和主演来的。姜文,行动一个备受争议又独树一帜的导演,受到了不少不雅众的存眷和醉心。在一部电影上映前,能否眩惑到不雅众不雅看,除了作品自身的剧情内容,对导演的信任和营救也占有一隅之地。举例评论者“溪流”的评论“姜文细则给咱们带来惊喜”,就导演姜文自身的才华和过往作品伸开了评论,为此,在豆瓣电影评论中的热度高居第一位并获取了36,440次的“有效”和1444次的“没用”以及3059次的互动“回话”。又如评论者“鱼非鱼”的评论“三年以后,咱们又等来了姜文”,这条影评干系了导演姜文之前的作品,找出《让枪弹飞》和过往作品中的一些共同点和他一贯的拍摄偏好,以及几部作品之间的不同之处,在豆瓣电影评论中的热度高居第二位并获取了11,302次的“有效”和515次的“没用”以及601次的互动“回话”。

在主题2,即对电影的隐喻猜念念和履行发散中不错看出,对电影的暗线挖掘和隐喻猜念念亦然不少不雅众的一个陆续和评价热门。在他们看来,这部影片不是一部纯纯的幽默的生意片,而是用诙谐的方式反应社会履行,充满了奇幻的荒诞履行主见色调。全片蕴含了无数隐喻和暗线,也有许多留白,恰是这些隐喻和留白,将不雅众的念念象力大地面调换了起来,给不雅众留住了充足的接洽空间,让他们对片中的细节和暗线深度挖掘,并作出我方的解读。如评论者“朽木”的评论“让枪弹飞结局大揭秘”,评论中一共列举了15条对影片中的暗线解读,获取了985次的“有效”和85次的“没用”以及159次的“回话”互动。可见不管是赞同其解读照旧另有不雅点,该部影片都有许多细节值得不雅众细细回味和陆续的空间。

在主题3,即对电影自身的内容解读中,不雅众主若是针对影片中的东谈主物、台词和剧情进行评价。略过对导演和主演的履行存眷、对暗线和留白的隐喻猜念念,这部分的评论存眷到了电影作品自身。一部作品好不好,能不行成为经典,其中的东谈主物塑造、台词打磨和剧情编排必不可少。不少中外经典电影作品之是以有着永久的人命力,恰是因为其东谈主物形象塑造得丰润,把一个个笔下、片中的东谈主物演绎得生气勃勃、有灵有性,举例《让枪弹飞》剧中的张麻子、师爷、黄四郎、花姐等东谈主物,每一个东谈主都有我方的成长布景和东谈主物态度,也有我方的故事发展,都不是单方面单一的形象,而是丰润的、极具张力的。此外有不少评论都在复述评论者我方所以为的剧中经典台词和经典桥段,举例评论者“仰山雪”的评论“台词整理”,记载了该位用户以为剧中最经典的六句台词;评论者“小杨树”的评论“麻将、师爷、六子”,解读了麻将这个剧中元素以及师爷和六子这两位剧中东谈主物脚色。

4. 结语

工夫带来的雷同简单性和全球交流平台的扩大化促使不雅众和用户在收集平台上对电影作品进行收集评价时,不错各抒所见,也不错和他东谈主互动交流。本文基于文本挖掘,考虑了豆瓣网中电影《让枪弹飞》的收集影评。考虑选择了计算机提拔内容分析的方法——LDA主题模子来进行电影评论的主题聚类,从无数的评论文本中索要出框架和主题,进而探寻不雅众评价中对影片的存眷点和评论视角,试图找到有参考价值的评论信息。

计算传播学中使用的文本挖掘方法和LDA主题模子分析不错以数据启动的体式好意思满海量文分内析,从无数的新闻文本中索要出框架和主题,冲破了以往濒临海量影评内容“莫可奈何”而只可对有限样本进行分析的局限。本考虑基于计算传播学视角,借助文本挖掘和LDA主题模子分析,考虑了电影《让枪弹飞》的豆瓣影评,有助于对经典电影继续走红的传播密码进行分析。

著述援用

唐 诗. 基于文本挖掘的豆瓣电影评论的LDA主题模子分析 Analysis of LDA Theme Model for Douban Movie Reviews Based on Text Mining[J]. 新闻传播科学, 2024, 12(01): 23-28. https://doi.org/10.12677/JC.2024.121004

参考文件文爱 胸 小熊饼干




创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False