葛亮 林莉贤 张志学雄安新区建设工程质量安全检测服务中心 交通运输部规划研究院 雄安新区规划研究中心

摘 要:在非常态交通状态下,及时准确地挖掘居民出行过程中的关注点,满足居民出行需求是提高客运服务质量的关键,更是对客运服务系统的一种考验。以“疫情”期间与公路客运相关的舆情数据为基础,进行居民出行需求及其关注点挖掘分析。首先,利用深度学习Doc2Vec算法将文本数据进行向量化处理;其次,对一个时段内所获得的向量化处理后的数据进行聚类分析,基于文本主题模型(LDA)对聚类结果的每一簇进行深度分析,提取旅客出行需求;最后,通过对实际数据处理结果的分析,验证了所提方法可准确地挖掘出非常态下旅客出行过程中的关注点,其结果可以作为交通运营服务评价和交通管理决策的重要依据。

关键词:交通工程;非常态交通;居民出行需求;舆情数据;文本主题模型;数据挖掘;

在非常态交通状态下准确挖掘居民出行的关注热点问题,满足居民出行需求是提高客运服务质量的关键,同时也是对客运服务系统的一种考验。对居民出行关注点有效的分析手段是采集海量舆情数据,并建立相关的文本主体模型算法对数据进行分析。

近年来对文本主题模型的研究和应用一直是学者们研究的热门课题,余东瑾[1]提出改进的LDA模型,提高了文本中话题的预测准确率,并应用于分析用户偏好和挖掘用户行为。张丹[2]提出了改进的LDA模型-BTM主题模型对新浪交通微博舆情进行话题分析,并以此结果作为文本聚类的基础,在发现网民对于与交通相关的话题上取得了较好的效果。王龙飞[3]以LDA模型为核心构建了汽车行业领域专利主题挖掘框架。汪进祥[4]提出把LDA模型和中文词性标注结合的新的改进技术,研究结果发现该方法提高了话题提取的准确性。徐康[5]提出了改进的LDA模型-维基百科知识主题模型(WCM-LDA)。艾楚涵等[6]提出将LDA模型与关联规则相结合的专利文本数据挖掘方法。谢晓东[7]提出结合TF-IDF向量空间和LDA模型的方法来优化文本聚类质量。张明生等[8]应用LDA模型对天猫小米旗舰店的顾客评论进行挖掘,提取了买家关注的产品特征。李锐等[9]提出应用结合TF-IDF信息的LDA模型对电力客户的抱怨点进行挖掘,结果表明,客户抱怨点主要集中在维修服务、电费咨询服务和个人信息咨询服务3个方面,对电力企业改进服务质量提供了依据。Fernanda de 等[10]应用LDA模型和其他的文本分析技术,结合社交媒体数据,给美国的各个城市打上特色的地理文化标签。Sharan Srinivas等[11]应用LDA模型和情感分析等技术通过学生的在线评论来挖掘高等院校的舆论现状,为提升高等院校的竞争力提供了改善依据。Wenxin Wang等[12]对相互具有竞争力的两种商品的客户评论应用LDA模型进行挖掘,发现两种商品各自的优缺点。Kyle Porter[13]应用LDA模型对一个社交站点的话题演化进行了分析,发现了话题与政策法律法规之间的关联性。Lu-Tao Zhao等[14]应用LDA模型对石油市场的风险因素进行了挖掘,如OPEC机构的政策、市场供需等,最后对各个因素之间的关系进行了深入的分析。Sung-Woo LEE等[15]应用LDA模型对机场建设和运营相关的研究文献进行挖掘,并分析了不同时期研究的主题和趋势。Alexandra Amado等[16]应用LDA模型对大数据与产业市场化主题相关的研究文献进行挖掘,分析结果提出目前的大数据产业还处在萌芽阶段。Jungyeol Hong等[17]应用LDA模型对物流领域相关的研究文献进行挖掘,并分析了不同时期的研究主题和方法,结果提出大数据技术、物联网和高新信息通讯技术是目前物流领域的主要研究和应用的方向。Amy J.C.Trappey等[18]和Hee Jay Kang等[19]分别应用LDA模型对太阳能技术领域的专利和生物化学领域的研究资料进行了挖掘,并分析了研究趋势。D.R.Kumar Raja1等[20]提出应用了LDA模型挖掘用户APP Store浏览数据,结合K-Means聚类算法对APP Store推荐系统进行优化的一种方法。Xuehua Han等[21]针对2018年寿光洪灾的微博舆情数据,应用LDA模型,结合随机森林算法建立了民众情感分类模型。

综上所述,LDA模型研究的方向主要分为两类:一类是对LDA模型的改进理论方法的研究;另一类是对LDA模型的应用研究,但目前尚未发现其在非常态交通下对居民出行相关需求的挖掘应用案例。本文借鉴上述文献的研究思路,将LDA模型和相关文本分析技术相结合,应用于挖掘非常态交通下居民出行的关注点和需求。

1 文本表示

与交通行业生产活动相关的文本数据是一种非结构化数据,文本数据背后隐藏着需求、动机、目的、规律和问题等信息,这些信息能为管理和决策的制定提供有力支撑,也可循环利用和移植。文本挖掘能够从文本数据中抽取有效、新颖、有用、可理解的、有价值的知识,并且利用这些知识能够更好地组织信息,文本挖掘首先要将文本数据表示成计算机能够理解的数据[22,23,24,25],把字符串转化为向量,即文本表示。

目前文本表示的方法主要分为四类:即基于词袋模型、向量空间模型的方法、基于主题模型的方法和基于神经网络的方法[25]。基于神经网络的方法受到广泛关注,各种各样的模型被相继提出,在以词向量为基础的模型中。Bengio等[26]开始使用神经网络来做语言模型的工作,尝试得到词的低维、稠密的向量表示。Mikolov等[27]提出简化的模型,即著名的Word2Vec, 包含CBOW和Skip-gram两个模型。前者通过窗口语境预测目标词出现的概率,后者使用目标词预测窗口中的每个语境词出现的概率。语义上相似或相关的词,得到的表示向量也相近,这样的特性使得Word2Vec获得巨大成功。后来,Mikolov等[28]又延续Word2Vec的思想,提出Doc2Vec, 核心思想是将文档向量当作“语境”,用来预测文档中的词。Doc2Vec算法可以得到词向量和文档向量。

本文利用Doc2Vec算法对文本进行表示。Doc2Vec算法与Word2Vec算法的区别只在于Doc2Vec算法加入了段落向量,如图1所示。

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(1)

图1 Doc2Vec算法框架

Doc2Vec算法首先随机初始化文档向量矩阵PRh×e和词向量矩阵WRm×e,其中P=[p1,p2,…,ph],W=[w1,w2,…,wt],piRe代表第i条评论或文档的向量,wiRe代表语料库里第i个词的向量。在神经网络训练开始时,选定滑动窗口大小,如图1所示,选定的窗口大小为5,然后Doc2Vec算法优化的目标是根据段落向量和窗口内的词向量来预测窗口中心的词,算法以最大化窗口中心词的预测生成概率为目标。因此,优化目标函数为:

1tΣj=ct−clgp(wj|wj−c,⋯,wj−1,wj 1,⋯,wj c,pi)1tΣj=ct-clgp(wj|wj-c,⋯,wj-1,wj 1,⋯,wj c,pi)

其中,2×c 1代表滑动窗口大小,wjpiRe,预测生成概率计算公式为:

p(wj|wj−c,⋯,wj−1,wj 1,⋯,wj c,pi)=eywjΣkeykp(wj|wj-c,⋯,wj-1,wj 1,⋯,wj c,pi)=eywjΣkeyk

其中,在神经网络输入为段落向量和窗口内的词向量的平均向量的情况下,ywj代表词wj属于窗口中心的词的非归一化的对数预测概率,其值计算如下:

ywj=b UA(wj-c,…,wj-1,wj 1,…,wj c;W,P)

式中:Ub为softmax分类器的网络参数;A(wj-c,…,wj-1,wj 1,…,wj c;W,P)代表段落向量和窗口内的词向量的平均向量。最后利用梯度下降法不断优化目标函数来更新随机初始化的文档向量矩阵PRh×e和词向量矩阵WRm×e,也就获得了每个文档和词的向量表示。

2 聚类分析2.1数据预处理和分析

为了研究非常态下居民对相关出行政策的关注点,本文采用从新浪微博上搜集得到的与“疫情”期间公路客运政策下的评论舆情数据,数据集时间范围为2020年1月~2月。在文本分词中,构建了客运领域停用词表和专用词表,避免在后续的计算中忽略运输领域的关键词,经过预处理之后,有效文本数据一共50 385条。数据长度分布图如图2所示,在所有数据中使用频率最高的词如图3所示。

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(2)

图2 数据长度分布

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(3)

图3 前20的高频词汇

由图2可以看出,在预处理后,评论的长度呈现偏态分布,以25个单位长度为区间,评论长度出现在0~25区间内的概率比较大,从图3可以看出居民对于“疫情”期间公路客运的舆情主要集中于上班复工、政府决策和执法人员等。

2.2t-SNE数据降维

数据降维是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间。维度降低便于计算和可视化,其更深层次的意义在于数据里有效信息的提取综合和无效信息的摒弃。数据降维方法主要包括线性映射降维和非线性映射降维,常见的线性降维算法包括主成分分析(PCA)、线性判别分析(Linear Discriminant Analysis, 简称LDA),线性降维算法的一个主要问题是他们集中将不相似的数据点放置在较低维度区域时,数据点之间距离很大。t-SNE算法能弥补线性降维算法的局限性,其降维的结果能够同时保留高维数据的局部和全局结构,它是在对称SNE算法上的改进版本,是通过仿射变换将数据点映射到相应概率分布上,主要包括下面两个步骤:首先通过在高维空间中构建数据点之间的概率分布∞,使得相似的数据点有更高的概率被选择,而不相似的数据点有较低的概率被选择;然后在低维空间里重构这些点的概率分布,使得这两个概率分布尽可能相似。具体算法描述如下。

令输入空间XRn,输出空间YRt(tn)。假设有m个样本数据{x(1),x(2),…,x(m)},其中x(i)⊂X,XRn降维后的数据为{y(1),y(2),…,y(m)},其中y(i)⊂Y,YRt(tn)。t-SNE首先将点之间的欧几里得距离转化为联合概率来表达点之间的相似度,假设PQ分别代表高低维空间里各个点的联合概率分布,两个点之间的相似度表示如下公式[29]所示:

pij=pj|i pi|j2npij=pj|i pi|j2n

qij=(1 ∥yi−yj∥2)−1Σk≠l(1 ∥yk−yl∥2)−1qij=(1 ∥yi-yj∥2)-1Σk≠l(1 ∥yk-yl∥2)-1

算法优化的目标是拉近两个空间的概率分布PQ,因此算法以KL散度(Kullback-Leibler divergences)作为优化目标函数:

C=KL(P∥Q)=ΣiΣjpi,jlgpijqijC=ΚL(Ρ∥Q)=ΣiΣjpi,jlgpijqij

计算损失函数C(y(i))对y(i)的梯度:

δCδyi=4Σj(pij−qij)(1 ∥yi−yj∥2)−1(yi−yj)δCδyi=4Σj(pij-qij)(1 ∥yi-yj∥2)-1(yi-yj)

更新低维空间的数据表示{y(1),y(2),…,y(m)}:

Y(t)=Y(t−1) ηδC(Y)δ(Y) α(t)(Y(t−1)−Y(t−2))Y(t)=Y(t-1) ηδC(Y)δ(Y) α(t)(Y(t-1)-Y(t-2))

式中:Y(t)为第t次迭代完成时低维空间的等价数据;η为梯度下降算法的学习率;α(t)为下降动量。重复迭代直到算法收敛或到达一定迭代次数。

本文根据数据聚类效果来寻找降维算法的最优相关参数,t-SNE降维算法相关参数如表1所示,聚类算法相关参数包括聚类类别个数(K)。其测试结果如表1所示。

由表1数据可看出,每一个困惑度出现最大值时的聚类类别都为2,聚类评价指标的最大值呈上升趋势,在困惑度大于350以后,聚类评价指标增长减慢,因此,本文选定t-SNE降维算法里降维目标特征数为2,迭代次数为500,困惑度为350。

表1 测试结果

项目

t-SNE(n_components)

t-SNE(n_iter)

t-SNE(perplexity)

K-Means(n_clusters)

K-Means(max_Silhouette)

中文释义

降维目标特征数量

梯度下降迭代次数

困惑度

聚类类别数

聚类评价指标SilhouetteCoefficient平均最大值

参数值

2

500

50

[2,3,4,5]

0.417

2

500

100

[2,3,4,5]

0.437

2

500

150

[2,3,4,5]

0.456

2

500

200

[2,3,4,5]

0.469

2

500

250

[2,3,4,5]

0.483

2

500

300

[2,3,4,5]

0.492

2

500

350

[2,3,4,5]

0.500

2

500

400

[2,3,4,5]

0.510

2

500

450

[2,3,4,5]

0.516

2

500

500

[2,3,4,5]

0.521

2

500

550

[2,3,4,5]

0.524

2

500

600

[2,3,4,5]

0.527

2

500

650

[2,3,4,5]

0.529

2

500

700

[2,3,4,5]

0.534

2

500

750

[2,3,4,5]

0.538

2

500

800

[2,3,4,5]

0.539

2

500

850

[2,3,4,5]

0.544

2

500

900

[2,3,4,5]

0.543

2

500

950

[2,3,4,5]

0.545

2

500

1 000

[2,3,4,5]

0.546

2

500

1 050

[2,3,4,5]

0.548

2.3K-Means聚类分析(Clustering analysis of K-Means)

采用以上小节的最优降维算法参数对数据进行降维处理,基于降维数据进一步确认最优聚类类别数量并聚类,聚类结果见图4~图7。

最终,根据以上图中所示的聚类评价指标,确定聚类类别数为2。

2.4聚类类别内的数据分析

采用phi相关系数对每个聚类类别里的数据进行关键词词对相关性分析,phi相关系数以两个词在单个句子中的共现次数为基础,能够通过词对之间的联系强度从一定程度上折射出事件之间的关联关系,见图8和图9。

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(4)

图4 类别数为2时Silhouette分析

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(5)

图5 类别数为3时Silhouette分析

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(6)

图6 类别数为4时Silhouette分析

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(7)

图7 类别数为5时Silhouette分析

在图8里,取词对相关性大于等于0.5的词对进行可视化,可以大致推测聚类类别1里涉及的讨论包括医务和病人治疗相关的话题(“医务人员”,“医护”,“护人”)、交通管制相关的话题(“服务区”,“客运站”,“延长假期”,“检查站”,“测体温”)等。在图9里,取词对相关性大于等于0.4的词对进行可视化,可以大致推测聚类类别2里涉及的讨论包括赞扬一线交通工作者的相关话题(“工作者”,“一线”,“作者”,“致敬”,“践行”,“使命”)、客运恢复时间和客运站“疫情”防控相关的话题(“客运”,“客运站”,“恢复”,“防控”,“疫情”)等。

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(8)

图8 聚类类别1热点词对关系

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(9)

图9 聚类类别2热点词对关系

3 主题模型3.1算法描述

本文应用文本主题模型(Latent Dirichlet Allocation)进一步提取挖掘和确认每一个聚类类别内的核心话题,主题模型假设每一个文档或评论含有多个话题,文档里每一个词都有一定的概率属于每一个话题且同一个词在不同的话题里的概率不同,在本文中主题模型的目标是找到属于每个主题内的词和定义每个主题涉及的核心事件。以M×V的共现矩阵表示所有评论数据的语料,M代表评论条数,V代表语料词典的大小,共现矩阵里的每一个元素n(wi,dj)代表单词wi在评论dj里出现的次数。主题模型假设在语料中含有K个话题(z1,z2,…,zk),且每一条文档或评论都由这K个话题随机组合构成。给定超参数α,K个话题里每个话题被选择的概率为:

p(θ|α)=Γ(∑i=1Kαi)∏i=1KΓ(αi)θαi−11⋯θαK−1Kp(θ|α)=Γ(∑i=1Καi)∏i=1ΚΓ(αi)θ1αi-1⋯θΚαΚ-1

式中:Γ(.)为gamma函数;θ为话题向量。在给定超参数αβ的条件下,话题θ、选定的K个话题z和一篇文档或评论里的词的联合概率分布为:

p(θ,z,w|α,β)=p(θ|α)∏k=1Kp(zk|θ)p(wk|zk,β)p(θ,z,w|α,β)=p(θ|α)∏k=1Κp(zk|θ)p(wk|zk,β)

然后计算在给定超参数αβ的条件下,一篇文档的边缘概率分布为:

p(w|α,β)=∫p(θ|α)(∏k=1K∑zkp(zk|θ)p(wk|zk,β))dθp(w|α,β)=∫p(θ|α)(∏k=1Κ∑zkp(zk|θ)p(wk|zk,β))dθ

最后根据贝叶斯原理预测在给定文档下的话题分布为:

p(θ,z|w,α,β)=p(θ,z,w|α,β)p(w|α,β)p(θ,z|w,α,β)=p(θ,z,w|α,β)p(w|α,β)

3.2实例应用

采用LDA对每一聚类标签下的数据进行分析,话题数采用1,分析结果见图10。

从图10中可以看出,有些词同时出现在两个话题里,但属于每个话题的概率都不相同,这是模型正常的结果。进一步分析可以发现,第一个话题涉及的词语包括“封城”,“上班”,“封路”,“隔离”,“希望”,“不让”等,第二个话题涉及的词语包括“交通”,“政府”,“高铁”,“铁路”,“地方”,“全国”,“体温”等,由此可以折射出第一个话题反映的居民出行需求点或关注点为上班复工时对路况信息,包括交通管制的路段、信息等,第二个话题反映的居民需求点或关注点为公路与高铁衔接联程联运状况,以及出行过程中对“疫情”防控状态,包括是否量体温等。该小节的分析结果与2.4节的分析结果是相呼应的。

4 结语

本文通过应用文本主题模型和相关的文本处理技术,对2020年1月~2月的与公路客运相关的舆情数据进行挖掘。首先对清洗后的数据进行聚类,同时对聚类标签内的数据进行了词对相关性分析,提出了居民出行可能关注的需求点;在此基础上应用LDA主题模型对聚类的类别数据进行挖掘,进一步确认居民出行的关注点,结果显示,本文应用的模型方法能够准确挖掘出居民出行的需求,以此为基础能够为交通客运相关部门提供服务和决策依据。由于在本文中研究中,数据时间跨度较大,导致难以获取比较细微的居民出行需求,在未来的研究中将进一步细化和完善。

交通拥堵分析(非常态交通状态下居民出行关注点挖掘分析)(10)

图10 话题分析

参考文献

[1] 余东瑾.基于文本分类与主题模型的用户偏好分析[D].青岛科技大学,2017.

[2] 张丹.基于主题模型的话题聚类算法的研究[D].北京邮电大学,2017.

[3] 王龙飞.基于主题模型的汽车专利文本主题挖掘与应用研究[D].合肥工业大学,2018.

[4] 汪进祥.基于主题模型的微博话题挖掘[D].北京邮电大学,2015.

[5] 徐康.基于主题模型的文本情感和话题建模的研究[D].东南大学,2017.

[6] 艾楚涵,姜迪,吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报:自然科学版,2019,40(6):524-530.

[7] 谢晓东.基于LDA融合模型和多层聚类的新闻话题检测[D].天津大学,2017.

[8] 张明生,邓少灵.基于LDA主题模型的文本信息挖掘应用研究---以天猫小米官方旗舰店为例[J].现代商业,2019,(7):29-30.

[9] 李锐,张伟彬.基于TF-IDF算法和LDA主题模型数据挖掘技术在电力客户抱怨文本中的应用[J].自动化技术与应用,2018,37(11):46-50.

[10] Fernanda de Oliveira Capela,Jose Emmanuel RamirezMarquez.Detecting urban identity perception via newspaper topic modeling[J].Cities,2019,93:72-83.

[11] Sharan Srinivas,Suchithra Rajendran.Topic-based knowledge mining of online student reviews for strategic planning in universities[J].Computers&Industrial Engineering,2019,128:974-984.

[12] Wenxin Wang,Yi Feng,Wenqiang Dai.Topic analysis of online reviews for two competitive products using latent Dirichlet allocation[J].Electronic Commerce Research and Applications,2018,29:142-156.

[13] Kyle Porter.Analyzing the DarkNetMarkets subreddit for evolutions of tools and trends using LDA topic modeling[J].Digital Investigation,2018,26:87-97.

[14] Zhao LT,Guo SQ,Wang Y.Oil market risk factor identification based on text mining technology[J].Energy Procedia,2019,158:3589-3595.

[15] Sung-Woo Lee,Sung-Ho Shin.A Review of Port Research using Computational Text Analysis:A Comparison of Korean and International Journals[J].The Asian Journal of Shipping and Logistics,2019,35:138-146.

[16] Alexandra Amado,Paulo Cortez,Paulo Rita,Sérgio Moro.Research trends on Big Data in Marketing:Atext mining and topic modeling based literature analysis[J].European Research on Management and Business Economics,2018,24:1-7.

[17] Jungyeol Hong,Reuben Tamakloe,Gunwoo Lee,Dongjoo Park.Insight from Scientific Study in Logistics using Text Mining[J].Transportation Research Record,2019,2673:97-107.

[18] Trappey A J,Chen P P,Trappey C V,Ma L.A Machine Learning Approach for Solar Power Technology Review and Patent Evolution Analysis[J].Appl.Sci,2019,9.

[19] Kang H J,Kim C,Kang K.Analysis of the Trends in Biochemical Research Using Latent Dirichlet Allocation(LDA)[J].Processes,2019,7.

[20] D R Kumar,Raja S.Pushpa Diversifying personalized mobile multimedia application recommendations through the Latent Dirichlet Allocation and clustering optimization[J].Multimed Tools Appl,2019,78.

[21] Han X,Wang J.Using Social Media to Mine and Analyze Public Sentiment during a Disaster:A Case Study of the 2018Shouguang City Flood in China[J].ISPRS Int.J.Geo-Inf.,2019,8.

[22] Debole F,Sebastiani F.Supervised Term Weighting for Automated Text Categorization.In:Sirmakessis S.(eds)Text Mining and its Applications[J].Studies in Fuzziness and Soft Computing,2004,138.

[23] Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Comput.2002,34.

[24] 聂维,刘小豫.深度学习视域下的文本表示方法研究[J].科技资讯,2019,17(18):30 32.

[25] 闫琰.基于深度学习的文本表示与分类方法研究[D].北京科技大学,2016.

[26] Bengio Y,Ducharme Réjean,Vincent Pascal.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2000,3:932-938.

[27] Mikolov Tomas,Corrado G s,Chen,Kai,Dean Jeffrey.Efficient Estimation of Word Representations in Vector Space[M].2013.

[28] Quoc Le,Tomas Mikolov.Distributed representations of sentences and documents[C]//In Proceedings of the 31st International Conference on International Conference on Machine Learning-Volume 32(ICML’14).JMLR.org,II-1188-II-1196.2014.

[29] Van der Maaten L,Hinton G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research,2008,1:1-48.

,