一、信息检索机制及其发展

信息检索Information Retrieval(IR)是一门致力于如何对大容量信息进行有效地存储与获取的科学。广义的IR通常是指在一定的技术设备环境条件下,对以某种方式组织的信息资源按其表达方式,依据特定用户的需求,制订构造策略,构造检索表达方式以实现检索目标过程的总称。而Information Retrieval System(IRS)则是借助计算机技术手段来存储信息以满足日后信息查询需要的一种检索工具。这里的信息可以是文本的、视频或音频的,但现行的大多数的信息检索系统仍只能以存储与检索文本的信息和文献为主。虽然IR 技术日新月异,但IR的本质自始自终都没有变,变动的只是信息媒体形式、信息检索系统IRS的吞吐能力以及IRS存储与匹配的方法而已。

二、人工智能

近30年来因特网规模呈几何级数飞速发展,人们迫切需要适合于网络时代的先进的信息检索技术。适应快速、准确地检索有关信息,并且能够从大量的网上数据中发现隐含的、有价值的信息,各种智能检索技术、尤其是人工智能技术浮出水面。人工智能学科是涉及数学、计算机科学、控制论、心理学、哲学等学科的交叉学科和边缘学科,其应用领域包括问题求解、专家系统、机器学习、模式识别、自动定理证明、自然语言理解、人工神经网络和智能检索等。人工智能用于信息检索主要有基于本体论、神经网络、遗传算法、自然语言理解和ID3算法等的智能检索方法。

信息检索是什么工作(信息检索是什么)(1)

三、人工智能技术在信息检索中的应用

人工智能研究机器模拟人脑所从事的感觉、认知、记忆、学习、联想、计算、推理、判断、决策、抽象、概括等思维活动,解决人类专家才能处理的复杂问题。它的研究和应用领域包括问题求解、逻辑推理与定理证明、自然语言理解、自动程序设计、专家系统、机器学习、模式识别、机器视觉、智能控制、智能检索,以及智能调度与指挥等。

(一)信息过滤技术

过滤包括两方面的含义:一是信息检索技术中的过滤,一般称为信息过滤,如搜索引擎过滤,数据挖掘等。二是网络安全方面的过滤。传统的过滤主要有基于包的过滤、基于应用的过滤和基于文本的过滤等几种。基于文本的过滤实现简单,但缺少灵活性,只能对达到匹配的文本一刀切,无法对文章的语义进行分析。引入了人工智能技术的智能过滤技术能够识别文档内容实现智能化的过滤,同时能减少网络管理员维护过滤系统的负担。神经网络是人工智能范畴中机器学习的一种应用,在许多技术中都有应用。

(二)异构信息整合与全息检索

异构信息检索技术发展的特点包括支持各种格式化文件,如TBXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

四、应用人工智能算法的视频图像检索系统

目前存在一个新的实现视频图像检索系统的方法。在这个系统中,成熟的人工智能算法将被应用到视频图像的分类、索引与检索中。在本系统中,视频图像的特征选取包括了颜色直方图的计算、纹理的分析及应用运动跟踪算法KLT对局部视频数据进行运动跟踪,这些特征构成了图像特征向量。人工智能算法,包括反馈式人工智能神经网及自适应匹配算法,将会根据这些特征向量对视频片断进行分类和检索。系统的工作区域是一个二维平面,各种视频片断将会根据特征向量的不同,被人工智能系统聚类到不同的区域, 从而实现视频片断的分类和聚集。用户在查询的时候,只要在特定的区域进行放大操作,就可以把视频检索限定在一个较小的区域,从而快速的实现视频片断的检索查询。具体的工作流程可以分为五个阶段:

(一)系统训练阶段

在这个阶段中,系统的人工神经系统将被初始化,并且在系统与用户的交互操作中进行训练,使之适应具体的图像特征向量,更好地实现视频片断的分类与聚集。

(二)视频片断的聚集操作

经过训练的人工神经系统将被应用到视频片断的聚集分类操作中,具有相似的特征向量的视频片断将会被聚集到相近的区域中,不同的片断将会被区域的远近程度来区分开来。

(三)视频片断的检索操作

因为视频片断在上一阶段已经进行了分类和聚集,用户只要在局部区域进行放大检索操作就可以查询到所需的视频片断。从以上的工作流程可以得知,系统对视频的分类与检索有两个核心的环节:第一是特征的提取,即如何选取合适的特征用于表征视频图像;第二是分类使用的人工智能算法,即根据提取的视频特征快速准确地对视频图像进行分类和检索。

(四)特征提取算法

本系统应用的特征提取算法包括颜色直方图,用于分析图像的基本颜色信息,获得图像的颜色分布状况;纹理分析算法,用于图像模式的分析; 然后对于局部聚集的图像应用运动跟踪算法KLT,进一步提高图像的分类准确率。

(五)用于分类和检索的人工智能算法

本系统采用了两种成熟的人工智能算法:反馈式人工神经网,利用分类结果的准确程度对系统的参数进行反馈式调节;自适应匹配算法,利用输入向量对最相似的系统向量进行调节。实验表明自适应匹配算法具有高速准确的效用。

五、人工智能在网络信息检索中的应用

人工智能在网络信息检索中的应用,主要表现在:如何利用计算机软硬件系统模仿、延伸与扩展人类智能的理论、方法和技术。目前,人工智能在网络信息检索领域的应用主要是在以下两个方面:

(一)网络智能知识服务系统

网络智能知识服务系统的设计开发是专门为了解决目前网络信息资源浩瀚而获取难的矛盾。网络智能知识服务系统可分为知识采集系统、智能知识处理系统、智能知识服务系统和知识库四部分。

1、知识采集系统。知识采集系统的主要任务是完成资源的加工整理,完成信息到知识之间的转换功能。

2、智能知识处理系统。该系统是将采集来的知识与知识库中已有的知识进行智能的分类和匹配操作,然后将符合入库条件的知识传入库中。

3、智能知识库存储系统。这是知识库建设的最主要组成部分,同时也关系到知识服务的效果和质量。

(二)智能代理技术

智能代理(Intelligent Agent,IA)技术,起始于20世纪80年代,是人工智能技术的一个重要研究领域目前,国外从事智能代理技术研究的不仅有大学、研究机构和诸多信息技术公司。并且有些智能代理产品或嵌入智能代理技术的产品已经投入使用,这些情况表明发展智能代理技术是一个趋势,它将是克服现有网络检索问题的有效手段。

1、定义。智能代理是一种软件程序,它使用户通过代理通信协议进行信息交换,以实现问题的自动解决。一般来说,智能代理具有如下特点:智能性、代理性、自治性、主动性、移动性、协作性。

2、智能代理的作用。智能代理有着强大的功能,用途也是十分广泛的,通常可分为网络管理、信息管理和优化用户界面。

(三)智能搜索代理的原理

智能搜索代理是智能代理在信息检索中的一种应用,它以用户需求为先导来进行信息搜集和信息加工,根据用户特定的需求以及在一段时期内的偏好为衡量标准来筛选信息。用户界面提供友好的自然语言查询,当用户的查询请求不明确时,智能搜索代理会利用知识库中的推理机制推断用户的潜在要求,选择与用户习惯最相近的需求进行检索。

人工智能技术的发展是时代对社会智能化需求的体现,而人工智能与信息检索的结合则是人们对信息获取智能化的有益尝试。在信息检索系统中纳入人工智能技术将使传统的信息检索系统具有更好的用户界面、更高的检索效率和更丰富的检索手段。人工智能技术的引入正在使传统的信息检索系统发生了巨大的变化。以两者作为结合点的智能信息检索系统,也将随着这两方面研究的不断发展而更加完善、强大。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的入门知识和资讯信息,让我们一起携手,引领人工智能的未来

,