嘻嘻,这是本宝宝的第一篇新媒体文章,有点小激动~ 下面是阅读吴军大佬《数学之美》 的一些读书笔记~
阿拉(我)读本书的目的是了解:如何通过计算机来实现你每天都在用的搜索、信息流阅读推荐等功能。
计算机大神请走开,我等小白要开始班门弄斧了~
下面开始我的表演~
Ready ?
go !!
一、 功能应用场景
搜索、翻译、语音识别、手写体识别、印刷体识别
二、 用户场景分析
以搜索为例
1.用户输入搜索词搜索,希望得到相关性强的并且高质量的内容。
体育中心有什么好吃的?
体育中心(5) 有什么(0) 好吃的(4)
体育中心(主题词) 有什么(无意义词) 好吃的(主题词)
2.如何获得相关性强,高质量的内容?
(1) 相关性:关键词是啥、关键词的频率(非数量)、
(2) 高质量:网站投票(类似论文引用的道理,被引用的越多的文章被认为质量越高)
3.机器如何识别关键词?以及区分关键词的权重?(TF/IDF)
体育中心(主题词) 有什么(无意义词) 好吃的(主题词)
(1) 关键词识别:分词。后一个词在前一个词后面的可能性。全体词库的统计,出现概率高则认为这个是一个词语。(统计学、概率)
(2) 关键词获得:主题词,频率会出现低。无意义词,出现频率高。通过全体词汇统计获得。
(3) 或者垂直行业里面的词汇,会有相应的词汇表。(可通过对大批同类文章库进行词汇统计得出关键词)
4.不同的权重的关键词权重得分如何计算?
(1)关键词出现频率
链接唯一随机数 链接(包含上百字) 关键词1 权重1,权重得分5 关键词2 权重2,权重得分2 外链权重
通过关键词权重及外来权重加权得出网站排名。
三、机器实现步骤
1. 蜘蛛爬取,通过链接获得链接。就像城市道路连接。图形过桥。
2. 网页建立索引:关键词提取(相关性),分析文章质量(排名)。
3. 用户搜索,展现。
四、机器如何对文章进行分类
1.例如对新闻词,已有新闻的关键词库(概率统计获得),将文章的关键词抽取,然后计算文章所含的词库的向量计算。
2.结合余弦定理,如果夹角相近。则可认为文章为同类文章。
3.不仅对该类词库进行计算,可能也要对非该类词库进行计算以排除与该类相似。
五、 事物中的两面性
某些用户通过搜索引擎的算法漏洞,来获得更好的排名,谋取利益。
1.关键词堆砌,用隐藏的方法添加关键词,提升词频。
2.外链买卖等方法谋取利益。提升外链数量。
百度见招拆招,算法不断改进。
六、搜索中的一些方法
1.文容那么长,计算机如何快速查找?
例如:一条链接,如何去匹配库中的200亿条链接(100位的链接)?搜索时间非常长将会非常长。如何缩短搜索时间?
方法:减少位数。像密码一样,将连接对应成唯一的16位随机数,只要将用户输入的这个词,转换为16位的随机数后,再去查找,这样大大降低查询难度。(密码学)
2.如何获得从北京到广州最近的距离?
最笨方法:将每一条线路都计算一次。
人的思考方式:直线最短,然后,在这条最短的路线上,临近的曲折路。
方法:动态规划: 在纵向的一条路上的10个城市进行分割。去掉最不可能的结果。
原来计算方法:10的15次方 变成10x15大大降低计算量。
七、语音识别
如何让正在汽车发动时的人能清晰的接听电话?
1. 降噪:汽车的噪音频率是稳定不的,所以可以快速获得频率,然后加入一个反向的信号进行消除。
以上便是本宝宝浅浅的阅读笔记。继续拿起出本装一装。
,