嘻嘻,这是本宝宝的第一篇新媒体文章,有点小激动~ 下面是阅读吴军大佬《数学之美》 的一些读书笔记~

好玩的数学读书笔记(数学之美读书笔记)(1)

阿拉(我)读本书的目的是了解:如何通过计算机来实现你每天都在用的搜索、信息流阅读推荐等功能。

计算机大神请走开,我等小白要开始班门弄斧了~

下面开始我的表演~

Ready ?

go !!

一、 功能应用场景

搜索、翻译、语音识别、手写体识别、印刷体识别

二、 用户场景分析

以搜索为例

1.用户输入搜索词搜索,希望得到相关性强的并且高质量的内容。

体育中心有什么好吃的?

体育中心(5) 有什么(0) 好吃的(4)

体育中心(主题词) 有什么(无意义词) 好吃的(主题词)

2.如何获得相关性强,高质量的内容?

(1) 相关性:关键词是啥、关键词的频率(非数量)、

(2) 高质量:网站投票(类似论文引用的道理,被引用的越多的文章被认为质量越高)

3.机器如何识别关键词?以及区分关键词的权重?(TF/IDF)

体育中心(主题词) 有什么(无意义词) 好吃的(主题词)

(1) 关键词识别:分词。后一个词在前一个词后面的可能性。全体词库的统计,出现概率高则认为这个是一个词语。(统计学、概率)

(2) 关键词获得:主题词,频率会出现低。无意义词,出现频率高。通过全体词汇统计获得。

(3) 或者垂直行业里面的词汇,会有相应的词汇表。(可通过对大批同类文章库进行词汇统计得出关键词)

4.不同的权重的关键词权重得分如何计算?

(1)关键词出现频率

链接唯一随机数 链接(包含上百字) 关键词1 权重1,权重得分5 关键词2 权重2,权重得分2 外链权重

通过关键词权重及外来权重加权得出网站排名。

三、机器实现步骤

1. 蜘蛛爬取,通过链接获得链接。就像城市道路连接。图形过桥。

2. 网页建立索引:关键词提取(相关性),分析文章质量(排名)。

3. 用户搜索,展现。

四、机器如何对文章进行分类

1.例如对新闻词,已有新闻的关键词库(概率统计获得),将文章的关键词抽取,然后计算文章所含的词库的向量计算。

2.结合余弦定理,如果夹角相近。则可认为文章为同类文章。

3.不仅对该类词库进行计算,可能也要对非该类词库进行计算以排除与该类相似。

五、 事物中的两面性

某些用户通过搜索引擎的算法漏洞,来获得更好的排名,谋取利益。

1.关键词堆砌,用隐藏的方法添加关键词,提升词频。

2.外链买卖等方法谋取利益。提升外链数量。

百度见招拆招,算法不断改进。

六、搜索中的一些方法

1.文容那么长,计算机如何快速查找?

例如:一条链接,如何去匹配库中的200亿条链接(100位的链接)?搜索时间非常长将会非常长。如何缩短搜索时间?

方法:减少位数。像密码一样,将连接对应成唯一的16位随机数,只要将用户输入的这个词,转换为16位的随机数后,再去查找,这样大大降低查询难度。(密码学)

2.如何获得从北京到广州最近的距离?

最笨方法:将每一条线路都计算一次。

人的思考方式:直线最短,然后,在这条最短的路线上,临近的曲折路。

方法:动态规划: 在纵向的一条路上的10个城市进行分割。去掉最不可能的结果。

原来计算方法:10的15次方 变成10x15大大降低计算量。

七、语音识别

如何让正在汽车发动时的人能清晰的接听电话?

1. 降噪:汽车的噪音频率是稳定不的,所以可以快速获得频率,然后加入一个反向的信号进行消除。

以上便是本宝宝浅浅的阅读笔记。继续拿起出本装一装。

好玩的数学读书笔记(数学之美读书笔记)(2)

,