搜索引擎主要由四部分组成,即信息采集器(Robot/Spider/Crawler),今天小编就来说说关于常用的五种搜索引擎?下面更多详细答案一起来看看吧!

常用的五种搜索引擎(干货带你真正)

常用的五种搜索引擎

搜索引擎工作方式

搜索引擎主要由四部分组成,即

信息采集器(Robot/Spider/Crawler)

分析索引器(Indexer)

检索器(Searcher)

查询接口(Query Interface)

当前主流搜索引擎的组成中一般还包含挖掘器,进行Web挖掘和用户信息挖掘。


搜索引擎的工作原理, 简要来说可分为4 步:

从互联网上抓取网页;

建立索引数据库;

在索引数据库中搜索排序;

对搜索结果进行处理和排序。

以下为笔者利用SmartArt呈现的搜索引擎之工作原理。


搜索引擎类型

1.按信息采集方式划分

2.按内容组织方式划分

3.按范围划分

4.按功能划分

5.按适用对象划分

例:safe search kids


信息检索的基本方法

1.布尔逻辑检索

布尔逻辑检索主要有三种运算,分别为:

逻辑与 AND,*

逻辑或 OR,

逻辑非 NOT,AND NOT,-

三者的优先级为NOT-AND-OR。

通常,我们使用逻辑与缩小检索范围,以在浩如烟海的信息中快速准确地找到我们所需要的信息;使用逻辑或扩大检索范围,往往用于连接同义词,以避免对同一概念的不同表述导致的信息检索遗漏;使用逻辑非排除我们所不需要的信息,减少信息污染。


2.邻近检索(又名位置限制的检索)

不同系统具有不同表示符,我们仅取一种为例:

PRE/0 P/0 符号前后两个词不能颠倒,且两词间不得加入其它词(允许插入空格、符号);

PRE/# P# 符号前后两个词不能颠倒,两词间允许加入其他词;

PRE/1 P/1 符号前后两个词不能颠倒,且两词间最多允许加入一个词;

NEAR/0 N/0 符号前后两词可以颠倒,两词间不得加入其他词;

NEAR/# N/# 符号前后两词可以颠倒,两词间允许加入其他词;

NEAR/1 N/1 符号前后两词可以颠倒,且两词间最多允许加入一个词;


3.短语检索(精确检索)

使用引号将短语作为一个整体进行检索,避免被分词。短语检索常用于人名、地名、机构名等专有名称的检索。


4.截词检索

如想查询所有以-ology结尾的词,我们可以采用截词检索,即在检索中保留相同的部分“ology”,变化的部分则用一个符号代替,如用*代替0~∞个字符,用?代替1字符。例如:

前截词 *ology

中间截词 wom?n

后截词 econom*

截词符也可出现多次,如*toxic*


5.字段限制检索

URL(统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

利用字段限制检索,我们可在检索式中加入 url:gov.cn 。其检索效果为,检索结果的网页网址都含有“gov.cn”,即检索结果全部为中国政府网中的页面。

我们还可在检索式中加入以下字段限制以缩小检索范围:

title:Zhejiang University //标题含Zhejiang University

py>=2010 //出版年在2010年及以后

la=english //语言为英语

link:whitehouse.gov //链接到该网站的所有网址

site:www.zju.edu.cn //只能在该网站上查询

au=Tao Lili //作者为陶黎黎老师

cs=Zhejiang University //机构为浙江大学

例如,我们想在哈佛官网查入学相关,即可构造检索式:admission site=www.harvard.edu,实际检索效果如下:


6.其他

信息检索还有许多其他方法,如区分大小写的检索等,囿于篇幅限制就不在此展开。感兴趣的读者课参见黄如花教授《信息检索》慕课。

视频地址:

http://www.icourse163.org/learn/WHU-29001?tid=1002302018#/learn/content?type=detail&id=1003099582&cid=1003665157&replay=true


中国搜索引擎的现状与未来

1.中国市场搜索引擎份额与现状分析

中国市场基本呈现百度一家独大,360好搜搜狗搜索神马搜索等百家齐放,国外搜索引擎基本销声匿迹的情形。

我们特别注意到,好搜PC端市占率排名第二(27.05%),这可能是基于好搜为360浏览器的默认搜索引擎。神马搜索手机端市占率排名第二(12.48%),这可能是基于神马搜索为UC浏览器的默认搜索引擎。而上述提到的搜狗搜索,则是基于QQ浏览器与搜狗浏览器。因此我们可以大胆猜想,中国目前除百度外的搜索引擎,主要依托于浏览器所带来的流量。各家市占率详情见下图:

2018年1月中国市场搜索引擎市占率

2018年1月中国市场PC端搜索引擎市占率

2018年1月中国市场手机端搜索引擎市占率

从另一个角度看搜索引擎之争,百度靠搜索引擎起家,此为其立身之本,其营收也主要依赖搜索引擎广告。搜狗第一大股东为腾讯,持股比例约45%,神马搜索背后的UC浏览器则被阿里巴巴收购,组建阿里UC移动事业群,因此,腾讯阿里之觊觎搜索亦可见一番。


2.搜索引擎之未来

搜索引擎未来必与人工智能结合。以搜狗为例,其CEO王小川说过,“人工智能是建立在大数据、云计算和机器学习的基础之上。搜索引擎天生就是在这三个领域里面最核心的技术载体。”他提出,搜狗人工智能未来的方向为自然交互识运算。自然交互指的不仅是语音而且是语义,是自然的沟通;知识运算则是将搜索引擎变得更智能,使搜索引擎从今天的关键词系统变为问答系统。换句话说,未来的搜索不再是输入关键词,搜索引擎给出一系列相关网页,由用户进行筛选,而是由搜索引擎“理解”用户所提之问并直接给出用户所需答案。


小结

当今的搜索引擎仍不够智能,因此我们有必要学习搜索引擎相关知识和信息检索相关原理。在谷歌阿尔法狗与Master狂虐人类和百度“All in AI”的口号下,我们相信,和人工智能结合后的搜索引擎将更懂用户的心,为用户节省选取网络资源的时间,让搜索更方便、准确!