摘要:本文通过采集互联网数据,运用文本分析软件ROST Content Mining 6.0对数据内容进行词频分析、长尾分析和社会语义网络分析,告诉你当新机发布时,大部分数码博主都会关注哪些内容,同时预测这些博主会忽视哪些部分。

一、引言

2022年2月9日,三星召开发布会发布新品S22系列,发布会后,关于S22的各种测评、分析等文章相继出现在多家媒体平台,由于各家数码博主聚焦的重点不同所以撰写文章的内容也存在差异,那么这些数码博主和大V们具体关注的是什么?这里用简单的学术方法告诉你。

二、研究方法

本文采集的数据来自于百度网站中的“咨询”栏目,在该栏目中键入“三星S22”然后进行检索,检索时间为2022年2月12日,选择的文章范围为手机发布当天9日至检索日12日,共检索出文章138篇。在此基础上进行人工阅读筛选,发现所有数据中包含单纯广告宣传文章27篇,重复的篇章14篇(这种文章指的是作者在多家自媒体平台发布相同的内容),另有2篇文章字数少于50字,为简单的新闻报道类介绍,删除广告、重复和字少的文章最终获得有效文章95篇,文字103210字。

文本方面,将所有文字复制粘贴并保存格式为“.txt”文件。考虑文本中内各手机品牌名称、型号名称以及相关参数、指标名称在进行分词处理时可能会被拆解成无意义词,影响最终统计结果,如“S-pen”会被分成“S”和“pen”两个词,因此在运行ROST Content Mining 6.0软件分析前首先建立了一个自定义表。表中内容包含特有的名称,如“S22 ”、“S22ultra”、“120HZ”以及合并一些相同名称的不同表述方式,如“S22 ”和“S22加”、“三星”和“Samsung”等。接下来将文本中的介词、冠词等对分析内容没有帮助的虚词放入词频统计过滤词表中,进行初步词过滤,反复多次运行该程序后,最终利用ROST Content Mining 6.0软件对网络文本内容进行词频分析和社会语义网络分析,输出相关图像和数据。在此基础上,运用Excel2016软件,以词频排序和高频词的数量为变量进行曲线拟合,输出幂函数分布图,通过抓住网络文本中的“长尾”,对文本内容进行长尾分析。

三、研究结果

1.图片分析

由于本文主要的研究对象是各篇文章中的文本,并未对文章附带的图片进行分析,但通过整体阅读可以发现,95篇文章中包含的图片主要可以分为四种类别:(1)三星S22系列各款手机的照片。(2)S22系列手机拍摄的样张。(3)S22系列手机与其他品牌手机的对比图。(4)S22系列手机的参数列表。尽管图片数量众多,但类别相对集中,从这些类别可以看出,各数码博主主要利用图片对手机的外观、性能、参数进行展示,而这几个方面也能够通过最简单的方式展现出相对全面的手机内容。

2.高频词分析

借助“微词云”平台对文本内容进行分析并生成词云图(图1),

50g的机械设计干货资料(利用学术方法分析数码图文)(1)

图1:基于“微词云”平台的文本词云图

词云图可以形象地看出文本的主要组成词汇,但改平台在进行分词时无法达到ROST Content Mining 6.0的专业程度,因此利用ROST Content Mining 6.0对内容进行词频分析,在排序前50位的高频词中(图2),可以更细致地解读出采集到数据的内容。

50g的机械设计干货资料(利用学术方法分析数码图文)(2)

图2:词频分析结果

结合两幅图可以看出,数码博主对三星S22系列的关注和描写集中于以下几个方面:

(1)手机型号。通过自建立词汇表,手机型号被多次提取出,几种型号的名词排名靠前表明这些文章的主题和描述对象,这些排名靠前的名词在一定程度上也证明采集数据的准确性。

(2)手机外观和功能

对排名前50的名词进行整理发现,各数码博主描写的内容主要围绕手机的外观和功能展开,细节方面设计屏幕、相机、电池、充电等各个方面,基本上将三星S22系列整体介绍全面。

(3)对标苹果

尽管研究对象是三星手机,但苹果一词在词频统计中排名靠前,而前20排名的词汇中并未出现其他手机品牌的名称,在一定程度上表明大多数博主仍将苹果手机与三星S22系列进行对比研究,苹果手机依旧是评测一款新发布手机好坏最重要的标准。

3.社会语义网络分析

语义网络是通过概念及其语义关系来表达知识的一种网络图,它由一组节点和一组连接节点的弧所构成,其中节点用来表示事物、属性、状态、动作、概念等,弧用来表示所连接的节点与节点之间的语义联系,用来指明所连接节点间的某种关系。在语义网络中,每个节点可以带有多个属性,一般用框架或元组表示。此外,节点还可以是一个语义子网络,进而形成一个多层次的嵌套结构。由于ROST Content Mining 6.0是一款中文词汇分析软件,在进行社会语义网络时无法对英文单词进行准确整理,因此我将文章中出现的所有英文单词统一用“三星”一词进行代替,通过软件处理,最后绘制社会语义网络图(图3)。

50g的机械设计干货资料(利用学术方法分析数码图文)(3)

图3:基于采集数据的社会语义网络图

通过社会语义网络图可以看出,总体而言,文章的关键词汇可以划分为三个层次。第一层为中心层,由“三星”和“手机”组成,它们概括了文章的主要内容,与其他的词汇形成了密切的联结关系。第二层为次核心层,主要由“设计”“性能”“屏幕”“电池”和“充电”组成,这些词汇相比其他词汇有着更多连接关系,是文章内容的主要表述,也是概括三星S22系列文章的主要关键词汇。而其他的词汇共同组成第三层,即外围层,这些词汇与主题词建立了连接关系,但与其他词汇间的连接较少。

4.长尾分析

长尾效应来自于统计学,在营销中遵循着“二八原则”,说人话就是20%的品牌占据了80%的市场,20%的内容相当于“头部”,而剩下80%的内容相当于长长的尾部,人们总是关注头部而忽视尾部,而在现实中未来的热点可能出现在尾部。

本文运用Excel2016软件,将排名前50的高频词以频数和排序作为变量方式进行曲线拟合(图4),拟合发现文本的高频词符合幂指分布。

50g的机械设计干货资料(利用学术方法分析数码图文)(4)

图4:长尾分析图

而根据二八原则,长尾也应是数码博主关注的重点内容,特别是排名第5名开始,频数出现断崖式下跌,屏幕是三星手机最大的亮点,但其他方面的内容是否也值得讨论?撰写这些内容也会避免与其他博主的文章内容高度重合。

四、研究结论

通过图片、词频、社会语义网络与长尾分析,本文主要得出以下结论。

1.就图片而言,关于三星S22系列的图片相对单一,集中于手机外观、样张、技术参数图等内容,这些图片主要为互联网下载,缺乏数码博主自身绘制的图片。

2.就三星S22系列文章而言,数码博主撰写的内容主要集中于手机的外观和功能。这种现象可能会同样出现在其他新发布的手机文章中。

3.苹果始终是以三星为代表的手机厂商的对标产品,而在三星的文章中并未将国产手机厂商做为对标或竞品。

4.三星S22系列的屏幕、电池、充电是这款手机最为关键的参数指标,不仅在词频中被广泛提及,并且与其他细节和指标有着密切的联系。

5.除屏幕、电池等关于手机的细节描述外,数码博主也可以关注其他的一些长尾内容,例如“市场”“消费者”等内容,分析三星手机是否能重新占领中国市场,依靠三星S22系列能否征服消费者。

,