就自己的经验总结一些准备机器学习算法岗位求职的粗浅经验,简要地分享一下一个完整的机器学习工程师的面试过程主要有以下这些环节:自我介绍、项目介绍、算法推导和解释、数据结构与算法题(写代码),今天小编就来聊一聊关于机器学习算法工程师要求?接下来我们就一起去研究一下吧!

机器学习算法工程师要求(机器学习超全的机器学习算法岗面试与提问总结)

机器学习算法工程师要求

就自己的经验总结一些准备机器学习算法岗位求职的粗浅经验,简要地分享一下。一个完整的机器学习工程师的面试过程主要有以下这些环节:自我介绍、项目介绍、算法推导和解释、数据结构与算法题(写代码)。

关于自我介绍,主要就是简单介绍下自己的教育背景,在校期间的研究方向和所做的项目以及在项目中所充当的角色等等,为之后的面试做个铺垫,让面试官从中捕捉点来问。

项目介绍是最为重要的,这也是体现你综合实力的地方,对项目背景、项目实现的方案,项目所实现的东西都要了如指掌,做机器学习的,必然需要准备一到两个重点的机器学习项目,可以是比赛,也可以是实验室项目,关键是项目中间的技术细节都要了如指掌,比如你用了树模型,就得知道所有树模型相关的推导和原理,决不能含糊,一旦你说不太清楚,面试官就会对项目的真实性存疑。参加比赛应该是没有实验室项目的同学最佳的积累经验的途径,比较好的比赛平台有Kaggle、天池大数据、datacastle等

接下来就是机器学习算法原理和推导,这也是要重点去准备的,在面试前得达到,给你一张白纸,你可以把推导的每一步写的清清楚楚的,推导的话面试常考逻辑回归和SVM的推导,关于原理面试官常会问你几个树模型之间的对比等等等,其他的算法比如LR、SVM、EM、Adaboost、PageRank、 FFM、决策树,随机森林, GBDT , XGBoost 、推荐算法、聚类、CNN、RNN、LSTM、Word2Vec等等,以及他们的适用场景,再如一些机器学习的理论,非平衡问题、过拟合问题,交叉验证问题,模型选择问题,模型融合问题。这一部分我会在文末贴出一个问题集锦,大家按照这个去准备就行。还有必看的书李航的《统计学习方法》、周志华的《机器学习》、项亮的《推荐系统实践》

最后就是写代码了,很多非计算机出身的大都会栽在这个地方,代码写得少,训练不到位,就会导致当场思路不清晰,不知从哪写起,但目前市面上已经有很多专门为这块总结的一些书籍,推荐使用《剑指offer》、《王道程序员求职宝典》等等,有时间的话再刷一下leetcode。排序算法、查找算法、二叉树遍历这些最基本的一定要很顺溜的写下来,其他的就看自己去拓展了。

至于进入互联网公司之后,算法工程师或者数据挖掘工程师的工作内容有哪些呢?大部分的同学就是在跑数据,各种MapReduce,Hive SQL,数据仓库搬砖,然后进行很耗费时间的数据清洗,对业务进行分析,对案例进行分析,不断的找特征,再丢到模型里面。大部分的与业务结合紧密的模型的算法优化都是有足够业务经验的数据科学家在做,而没有经验的应届生需要慢慢培养对业务的敏感度和对数据的认知,这也是称为数据科学家必需的技能。

以下是我总结出来的在算法岗面试过程中可能会遇到的问题,都分门别类的按照算法排列好了,大家可以在系统地梳理了一遍算法之后对问题进行排查,争取每个问题都可以答得上来,当然针对自己项目里的遇到的算法,就更需要熟悉掌握了。

此外,在准备面试的过程中,我自己总结了几个系列的笔记,【机器学习系列】【数据结构与算法】【自然语言处理】【深度学习】【数据分析】等,大家可以直接访问个人博客:http://plushunter.github.io

1. 百度IDL:无给定条件,预测蔬菜价格。提几个特征做预测模型:肉的价格、土壤健康指标、天气情况、国民收入、货币汇率等等。。

2. 网易游戏互娱:给三天时间,获取全世界有多少人玩过德州扑克,只要玩过就算。直接爬虫德州扑克的app。(感觉这个答的好蠢。。)

3. . 腾讯MIG:获取聊天表情的标签,比如喜怒哀乐。对腾讯系产品的聊天记录中,表情的上下文聊天文字做情感分析,然后给表情贴标签。

4. 腾讯广点通:给定某人的腾讯系产品信息,判断此人是否有车。我说先做一部分数据标注来判断一部分人是否已经有车,然后提一些消费水平的特征做预测模型

5. 我回答地都很不好,一直觉得场景题不知道怎么回答,直到广点通的面试官很nice地指出了我的问题:我的方法成本高而且过于模糊,要求的是低成本、直接、精度高的方法,也就是人工规则。

6. 类似大众点评的网站有正常用户访问流量,也有同类竞争商家的spider,怎样区分spider和正常访问,我想了下,他说简单说说就行,我就从两者的访问特点分析了一下,对于这个二分类问题选用哪些特征,然后他希望再从http的角度分析一下,然而并不懂,然后照例问有什么问题,然后详细介绍了一下上海这边主要负责滴滴租车业务,业务框架,说的很仔细,

7. 拼车软件是如何定价的以及如何优化;

8. 怎么预测降雨量;

9. 预测平台每日外卖或到店客流量时,节假日往往会被作为噪音处理,但是美团点评算法团队需要给店家提供节假日的客流量预测,如何去预测这个异常值或者说噪音。

10. 遇到极端情况比如天气或者其他因素,平台内会挤压大量订单等待处理,同时客户等待时间会变长,如何设计调度系统使用算法去协调运力或者控制溢价,在不影响用户体验的同时尽快处理挤压订单尽可能缩短外卖小哥的ETA。

11. 目前对于客流量预测精度为天很准确,如何设计online learning的model去对未来某一个特定时间点进行客流量预估。自己感觉这应该都是美团点评在真是业务场景中遇到的问题,自己也根据自己的想法与面试官做了讨论,突然在说的一瞬间觉得这才是machine learning在工业界真实运用的场景,突然觉得自己天天看的书推的公式好渺小...

12. 开放问题:在车和乘客的匹配场景中(一个车匹配一个乘客,不考虑拼车),如何让司机的接单率更高?

14. 给你公司内部群组的聊天记录,怎样区分出主管和员工?如何评估网站内容的真实性(针对代刷、作弊类)?路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?采集数据中的异常值如何处理?如何根据语料计算两个词词义的相似度?在百度贴吧里发布 APP 广告,问推荐策略?100亿数字,怎么统计前100大的?

15. 问了一个预估的题目,让你估计早餐市场的规模。

16. 系统设计题,给一个query,如何快速从10亿个query中找出和它最相似的 (面试官说可以对每个query找1000个最相似的,存起来,每天离线更新)

17. 设计一个合理的电梯调度策略,调度两个电梯 ,考虑满足基本的接送需求,满足能耗最小,满足用户等待时间最短 (难到我了,我想的方法不好,面试告诉我了他的想法,类似于一个进程调度问题,每一时刻只可能有一个用户按按钮,把这条指令接收,判断当前电梯能否满足,能满足就执行,不能满足则放入一个队列里,实际情况还要细化)

18. 在互联网分析中,通常会关注用户的【第N日激活率】来衡量用户质量。用户的第N日激活指的是用户在注册的第N天登录网站或App,即算为该用户的第N日激活。第N日激活率指的是某日注册用户在第N天激活的数量除以该日所有注册用户数量。

19. “赤兔”是领英中国针对中国职场人士推出的一款本土化的社交应用。如果你是领英中国的数据分析师,你会从哪些方面和维度来设计各项指标,给产品的设计和运营提供数据上的支持?请给出具体的维度和指标,并说明原因。

20. 比如你现在知道了一个用户访问网站的历史记录,比如时间,流量,高峰期或没有访问之类的数据,让你来分析一下这个用户。我:这个中间和面试官探讨了半天,没有回答好。。

21. 做广告点击率预测,用哪些数据什么算法

22. 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)

23. 一个游戏的设计过程中该收集什么数据

24. 如何从登陆日志中挖掘尽可能多的信息

25. 如何做一个新闻推荐

26. 开放性问题:每个实体有不同属性,现在有很多实体的各种属性数据,如何判断两个实体是否是同一种东西

27. 如何从登陆日志中挖掘尽可能多的信息http://www.docin.com/p-118297971.html

27. 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)http://www.docin.com/p-1204742211.html

87. 一个游戏的设计过程中该收集什么数据

88. 做广告点击率预测,用哪些数据什么算法http://bbs.pinggu.org/thread-3182029-1-1.html

89. 场景题一般是面试官工作中遇到的问题,问题一般会比较细,比如说获取某些item的属性标签。

90. 如果问题里没有明确出现“预测”等字眼,最好不要用模型角度去回答问题。因为实际工作中,可能不会为了某个小问题,去动用集群来跑模型,这些小问题可能是用来给跑集群的模型加特征的,应该优先以人工规则来解决。

91. 人工规则可能有隐藏先验条件,就是可以用到这个公司其他产品数据。

87. 解决方案类题目为今日头条设计一个热门评论系统,支持实时更新给定淘宝上同类目同价格范围的两个商品A和B,如何利用淘宝已有的用户、商品数据、搜索数据、评论数据、用户行为数据等所有能拿到的数据进行建模,判断A和B统计平均性价比高低。统计平均性价比的衡量标准是大量曝光,购买者多则高。有n个elements和1个Compare(A, B)函数,用Compare函数作为排序算法中的比较算子给elements排序。Compare函数有p的可能比较错。排序完取Top m个元素,本来就在Top m并被正确分在Top m的元素个数是x。问x的数学期望。如何预测双十一支付宝的负载峰值。

88. 给你1000w篇文档或html,如何判断是否为体育类的新闻,需要给出系统的方法;答:分词+人工判定+词库+SVM训练。

89. 设计一个系统可以实时统计任意 ip 在过去一个小时的访问量;

来源|狗皮膏药@知乎

本文仅作学术分享,著作权归作者所有,如有侵权,请联系后台作删文处理。

,