摘 要
本文介绍了目前国内外科技资源学科交叉信息检索查询的研究进展,重点对科技资源跨媒体信息挖掘与演进规律,以及科技资源跨媒体信息检索查询与可视化进行了梳理和分析,并对未来工作进行了展望。
关键字
科技大数据;学科交叉;检索查询
0 引 言
科技资源信息检索是科研工作者了解不同研究领域学术进展的重要途径之一。科学技术的不断发展促使科技资源信息检索系统日臻完善,目前已经搭建了各种类型的科技资源库,如中国知网、万方、维普等,但科研工作者在检索查询时,还是需要自己判断资源类型,再做对应查询,而多个平台的查询结果时常出现冗余的情况,这需要用户进一步分析判断,在一定程度上消耗了精力,降低了效率。科技资源信息有着不同于其他大数据的特征,例如从论文数据、基金项目数据和资讯数据可以发现关键词和学科之间的对应关系,也可以发现论文和基金项目对应的关系。越来越多的科研工作不再只局限于单一的学科,科研工作呈现出交叉融合的趋势,不同学科的交叉延伸出更多的研究热点和研究方向,这些研究热点从出现到发展成熟,再到延伸出新的研究主题,整个生命周期对于科研工作者进行学术研究有很大的参考价值,这也是体现科技资源特性的一种方式。
对于一个系统平台来说,数据存储和高效检索是必要的能力,科技资源信息的存储和搜索不同于传统的存储和搜索,多源异构的学者数据可能存在局部稀疏性、数据冗余、歧义等问题。目前在结构化科技文本数据的检索查询方面取得了较为成熟的结果,这是因为结构化文本数据的特征抽取相对来说比较便利,而通过爬虫获取的半结构化数据,例如论文中的摘要信息、学者主页的个人简介等,则需要运用一些信息抽取方法来获得特征,这类文本一般会使用向量空间模型、文档主题生成模型,或是基于深度学习的表示方法。在真实场景中,面对大规模文本数据,尤其是在学科交叉等复杂的背景下,还需要优化模型进行语义分析或趋势分析。此外,爬虫获取的数据既有结构化数据也有非结构化数据,这就对数据库有所要求。常见的NoSQL数据库MongoDB、Elasticsearch和CassandraDB 等, 其中Elasticsearch可以提供分布式搜索的能力。此外,科技资源中还包含着科研工作者的研究热点,这也代表着学科及研究主题的热点。目前大多数的研究都是关于用户兴趣挖掘。用户兴趣挖掘和科研工作者研究兴趣有相似之处,都是尝试从用户相关文档中构建画像信息。目前的工作提取研究兴趣的方法是从学者本人发表的论文著作中提取信息,采用概略话题模型获得结果。近年来的研究拓展了许多方向,例如,Twitter中有一些信息可以用来发现用户兴趣,基于上下文特征和行为特征,可以分析政党候选人在社交媒体的信息,建立模型之后再去预测用户的政治偏好。
1 科技资源跨媒体信息挖掘与演进规律分析对科技资源跨媒体大数据的信息挖掘是基于科技大数据已经提取到的特征进行的,而在分析特征过程中,可以明显发现关键词、学科、研究主题之间复杂且较为紧密的关系,对于发现科技资源之间的学科交叉关系具有重要参考意义。在爬取到的科技资源信息中,许多属性信息可见。例如,论文数据包含了论文标题、论文作者、论文发表的机构、关键词、摘要、论文发表的会议或期刊、论文发表的时间、基金信息、论文所属的学科类别和论文被引量等;基金项目数据包含了基金项目编号、标题、基金项目负责人、机构、基金项目获得的资助金额、基金项目类型、基金项目开始时间和结束时间等;科技资讯数据包含了标题、资讯编辑者、发布时间、资讯的原文链接、正文、资讯图片、关键词等。因此一条科技资源在理论上可以对应到各个学科下的多个研究主题,当然,数据集合中存在某些专注于单一领域或研究主题的文献,在传统的搜索查询系统中,对于这部分的文献检索服务已能够较好实现,因而可以研究多领域或研究主题的文献查询,即交叉学科下资源的查询和分析。
1.1 科技资源信息中学科交叉关系的发现
针对获取的数据,利用分词和特征提取等技术获得权重较高的关键词,通过观察关键词和学科之间的对应关系,可以发现某一关键词可能对应多个学科,学科又包含研究主题,这些学科下的研究主题之间存在某种交叉关系,以此作为查询检索的出发点,可以进一步研究基于学科交叉关系的检索查询。在数据处理阶段,对于文本数据分别获得了论文、基金项目、资讯的信息,因为需要了解完整的学科和研究主题的关系,需要对结果进行融合,达到从不同的资源维度评估学科和研究主题的目的。对于学科类别的判断,主要参考现有知识库的学科分类方法,以及中国图书馆分类法中的图书分类号,将学科分类号作为学科的唯一标识。系统数据库中学科分类号的存储标识示例,如表1所示。
表1 数据库中学科分类号示例
1.2 科技资源学科及研究主题的演进预测
为了研究交叉学科及研究主题的演进规律,可以针对科技资源的学科及研究主题演进预测(TPTF),利用LSTM网络处理时序数据的优势,引入卷积神经网络的卷积层和池化层提取研究领域成果相关数据的信息,将冗余数据更少的特征信息作为LSTM网络的输入数据,获得研究主题下数据序列的关系,进而得到研究主题演进的预测结果。
对于卷积层,在处理图像数据时,卷积层一般会用二维卷积核;而对于时序数据来说,卷积层可以利用一维卷积核学习序列中的特征,这个卷积核就是起到训练中滤波器的作用。在很多用到卷积神经网络的架构中,层级深度大,也就是滤波器很多,这样每个卷积之后都会以池化层来减少序列长度。在一维卷积核中,通过设置卷积核的大小和其在序列上移动的步长来完成在时序数据上的卷积运算。池化层完成降采样,实现减小特征尺寸的目的,然后将特征转化为接下来网络的输入。TPTF模型的网络结构图如图1所示。
图1 TPTF模型的网络结构图
通过构建上述针对科技资源的学科及研究主题演进预测算法网络结构,结合 LSTM网络,引入卷积层,每个LSTM层的前一个LSTM层需返回序列。这里需要将return_sequences调整为True。为提高准确率,加入Dropout损失,卷积池化,搭建更为复杂的神经网络。经过这几个步骤,最终得到输出结果。该预测结果,将作为学科及研究主题在检索排序时的因子,影响系统最终返回的结果。
2 科技资源跨媒体信息检索查询与可视化科技资源跨媒体信息检索查询系统通常具备以下4个功能。
(1)数据采集功能。实现对论文、基金项目和资讯等多源异构数据的抓取,对于采集到的数据,应进行预处理,做去重等操作,解析出有价值的字段,保存至数据库中。这些数据是其他模块所提供服务的基础。
(2)学科关系分析功能。实现对科技大数据文本信息和图像信息的特征提取,通过构建学科和研究主题的整体体系,实现分析和判断学科交叉关系的功能。
(3)演进规律分析功能。结合科技大数据中各学科、科研主题的成果热度,计算各项指标,推演近几年的变化情况,帮助科研工作者了解交叉学科的热点和发展方向。
(4)检索与可视化功能。实现对已经获取的科技大数据进行展示的功能。展示内容除了文本数据,还有图像数据;除了对于既有信息的展示,还有归纳汇总的信息。通过友好的可视化界面,让用户高效获取信息。
如图2所示,科技资源跨媒体信息检索查询系统主要包括科技资源跨媒体信息特征提取模块、科技资源跨媒体信息挖掘与演进规律分析模块、科技资源跨媒体信息检索查询与可视化模块三个功能模块。
图2 科技资源跨媒体信息的分布式检索查询系统架构
为了实现对文本数据和图像数据等科技资源跨媒体信息的检索查询,可以利用分布式索引技术,结合Elasticsearch提供的持久化存储、统计和实时搜索等特性,设计并实现面向服务的分布式检索系统框架。各功能模块松耦合,有效地拆分各个场景下的应用功能,实现敏捷开发和部署。这样的设计可以将各子模块更为内聚,即它们的依赖耦合减弱;同时将科技资源之间与学科分类和研究主题相关的关联关系应用到数据检索服务中,实现海量数据的快速搜索。在查询结果可视化方面,梳理各个场景下用户的使用逻辑,有针对性地设计系统界面,考虑异常情况,为用户提供清晰友好的可视化界面。
2.1 基于学科关系及影响力的科技资源跨媒体信息检索查询
为了实现有效查询交叉学科成果的目的,在查询论文、基金、资讯等科技资源信息的过程中,系统根据输入的关键词,判断其可能所属的学科。由于交叉学科成果的查询需要选择两个学科,即还需要再选择一次想要的交叉学科。因此,可以通过引入研究主题影响力指数的概念,为影响力指数赋予权重,并作为查询的依据,从而根据趋势预测结果和影响力指数返回得分排名前五位的学科。基于学科关系及影响力的检索查询流程,如图3所示。
图3 基于学科关系及影响力的检索查询
研究主题影响力指数的创新思想来自于赫芬达尔· 赫希曼指数(简称为赫芬达尔指数),该指数通常用于计算产业集中度,是一种政府管理部门使用比较多的综合指数。它的计算方式是计算在某一个行业中,各竞争主体在市场中所占资产百分比的平方和,用来查看市场份额的变化。一般来说,如果某个市场中企业数过多,则赫芬达尔指数计算方式是选取这一行业前50家企业,对每家企业的市场占有率作平方,再全部加和。赫芬达尔指数的计算步骤分为三步,首先取得各主体的市场占有率;然后将这些数值做平方计算;最后将这些平方值汇总。科技资源跨媒体信息数据量庞大,传统的数据库虽然可以自定义索引等,但在系统投入使用时,仍会给用户带来速度较慢的感觉。为了提高查询检索的效率,采用Elasticsearch进行分布式检索。在分布式方面,Elasticsearch避免了分布式的复杂性,文档在不同的分片中储存,这些分片被分到一个或多个节点,并且分片是按照集群中的节点均衡地分配的,因此系统在检索过程中可以达到负载均衡。系统充分考虑数据丢失问题,复制分片产生副本分片,在不造成过度数据冗余的前提下,尽量避免数据丢失,并且系统还可以实现扩容。
在Elasticsearch集群中,当客户端发起请求后,这个请求可以被发送至集群的任何一个节点,并且每个节点都知道任意文档所在的位置,因此收到请求的节点可以转发该请求,在对应的位置收集到数据,然后将数据返回给客户端,这个处理客户端发来请求的节点成为协调节点。传统的结构化数据库,例如Mysql,在查询数据库中的数据是否匹配时,只能返回是或否的结果,Elasticsearch全文搜索引擎不仅能够匹配数据,还能实现相关度的排序,这个排序的实现方式就是评分,每个文档都有对应的评分,分数越高代表相关度越高。Elasticsearch查询后返回的评分是_score,它是一个正浮点数,用于衡量数据和查询的匹配程度。
2.2 科技资源跨媒体信息检索查询结果可视化
可视化组件是科技资源检索查询系统的重要组成部分,有效合理的交互可以使用户更好地使用系统,一般来说,通常采用可视化技术将检索查询返回的科技资源数据转化为直观的图形图像信息。对查询结果的可视化操作包含交叉学科分析和演进规律的可视化,在展示学科和研究主题的趋势时,以时间为衡量单位呈现给用户,使用户能够直接进行观察和分析。在某些场景下,静态的界面不足以展示信息,交互性不强也会给用户带来系统刻板的印象,因此在开发科技资源检索查询系统时需要充分考虑交互性。
交叉学科是科技资源信息数据的重要组成部分,现在的研究领域越来越看重不同学科领域的融合,在这个融合过程中,新的研究主题也会不断出现。针对某一学科来说,与其交叉的学科可能有数十个,如果只对学科下的信息做列表式展示会显得单调,同时无法提取重点,因此增加动态可交互的学科交叉占比组件,进行信息的展示。在分析交叉学科占比的可视化组件中,当用户通过鼠标点击某一学科时,该学科在饼图中的部分将突出显示,示意用户当前查看的是哪一个学科,以直观的方法呈现其占比情况,可视化组件的展示效果如图4所示。在不同的应用场景下,用户的使用逻辑有差异,需要细化各流程,针对某些出现频率较高的情况做出细节处理。例如,在分析交叉学科趋势的可视化组件中,当鼠标在图中滑动时,系统会根据鼠标停留的时间区间以量化的方式展示各个交叉学科下的资源。对于学科交叉趋势分析,需要同时实现学科交叉趋势图和研究主题趋势图的联动。
图4 交叉学科占比交互示意图
针对交叉学科的可视化问题,不仅考虑学科交叉关系,还加入影响力指数和趋势预测结果作为因子,最终得到能够有效表达科技资源学科发展情况的结果。因此,在实现过程中需要把握前端设计的诸多细节,增强界面的交互性,使系统不仅能够快速检索,还能通过友好的交互生动形象地为用户展示清晰的结果。
3 结束语随着科技资源呈现出交叉融合的趋势,学科交叉成为一个热点,不同学科的交叉延伸出更多的研究热点和研究方向,科技资源学科交叉信息的检索查询也成为了系统开发关注的重要方向。目前虽然已经初步形成了学科交叉技术检索查询系统的架构,但是仍需要迭代优化,细分异常场景,补全异常情况时的逻辑或增加交互以提升用户体验。此外,在可视化方面,一些交互的逻辑有待优化,在界面的细节处理方面还可以进行优化。
(参考文献略)
选自《中国人工智能学会通讯》
2021年第11卷第4期
科技大数据理论和技术专辑
,