这是“创·人”的第二十六期文章。“创”是华创资本的“创”,“人”是牛人的“人”,我们关注做着不同而有趣事情的牛人。本期“创·人”是大数据与互联网商业变现专家刘鹏,以下是他的故事。

阐述大数据如何影响广告业(也要依靠大数据)(1)

刘鹏

大数据与互联网商业变现专家

网名“北冥乘海生”,人工智能与大数据领域资深从业者,清华大学博士毕业后曾任微软研究院研究员,从事人工智能技术的研究,有多项成果应用于Windows产品中;后参与创建雅虎北京研究院,负责全球多个广告产品的收入优化;后历任MediaV首席科学家、360商业产品首席架构师等。同时刘鹏也是中国数据产业与广告技术最早的实践者之一,所著《计算广告》为互联网数据变现与营销领域的第一部综合性专著。

阐述大数据如何影响广告业(也要依靠大数据)(2)

刘鹏有三个名字,本名反而很少用。用他自己的话说“由于这个名字泛滥到一抬脚踩死一片的程度”(仅百度百科上叫刘鹏的名人就有70个),因此他在很多公开场合使用自己从高中沿用至今的名字 “北冥乘海生”,语出《庄子·逍遥游》。

刘鹏说自己是一个有“40后”生活习惯的人:每天早睡早起、不开车、不穿西服和皮鞋,几乎没看过好莱坞电影、没听过流行歌曲。他最大的爱好是听几十年前的经典戏曲录音,当然,这些录音都是自己当年在ftp时代整理的——他被誉为“中国民间戏曲曲艺文件整理工作第一人”

同时,他的另一个身份是人工智能与大数据领域的资深从业者、国内在广告技术领域最早的实践者之一。他所著的《计算广告》一书是互联网数据变现与营销领域的第一部综合性专著,在许多互联网公司的数据与商业化部门中是人手一册的教材。

随着在业界的影响力不断提高,一些朋友给他起了个 “匪号”——“大数据仁波切”,他觉得很有趣,于是在行走江湖时就又有了第三个名字。不管用哪个名字出现,他都笃信一点,用计算的力量改变世界是每一个程序员的梦想,而用计算将数据和流量变成财富,是他希望带给业界的价值。

ftp大神

刘鹏中学时可以称作学霸级的人物,他是1992年北京市的中考状元,600分的满分他考了593分,更加难得的是他是初二才从一所部队子弟学校转到北京郊区的一所中学。

高中他就读于著名的北京四中,这三年他养成了开放与自由、解放与宽容的思维模式,还无意中有了自己最大的兴趣——戏曲,这个兴趣一直陪伴他至今。在1995年考入清华大学电子系后,刘鹏加入了学校的京昆协会,学唱京剧里的老生,虽然他表示自己只是水平不高的票友而已。

作为戏迷,刘鹏经常会到北京甚至天津各大戏园子听戏曲,也包括相声、鼓曲等曲艺形式。读研期间,刘鹏萌生了一个想法:能不能把所有能找到的戏曲段落转成mp3格式,放在互联网上供大家下载欣赏?于是,他在学校实验室的电脑上建立了一个ftp,把自己收集来的资料放上去。

于是,这个非常经典的ftp(ftp://166.111.67.33) 就诞生了,那一年是2000年。

当时为了不断的更新资源,刘鹏四处搜罗,也有很多网友为他贡献。由于大部分的录音都要通过磁带翻录,所以在整个研究生阶段,刘鹏经常是用随身听连一根音频线到电脑上,一盘一盘地翻录。除了磁带,还有些珍贵的录音是老唱片的介质,刘鹏只好从朋友家借来老式的唱机来一点点的翻录,很像传统相声《学电台》里所表演的场景那样。

刘鹏在清华从本科一直读到了博士,他的这项录音整理工作也一直持续到他博士毕业,几年时间下来,他的ftp收集了几千段戏曲音频,千余段相声、评书、鼓曲等音频。这个著名的ftp在戏曲曲艺圈影响巨大,很多爱好者和业内人士提到“北冥乘海生”都非常尊敬。

博士毕业后,刘鹏把ftp交给了北大的一位朋友姜骏,请他来继续维护,后来这个ftp又补充了很多视频资料,容量也越来越大。2005年夏天,刘鹏、姜骏与另外两个朋友还作为嘉宾参加录制过一期《小崔说事》,讨论了年轻人对传统艺术关注的话题。

这些年来,ftp已经不再流行,刘鹏当年创建的那个ftp也已经关闭了,现在他更多会选择“喜马拉雅”这样的音频平台听戏。

虽然网络上有海量的音频资料可以听,但刘鹏认为整理和分类工作做的很不好。他很看好音频的渗透空间,他希望自己有时间能做一个App能把这些音频集合起来,再加上一些新的功能,让更多的人便捷智能地听到。毕竟,他博士的专业方向就是语音识别。

阐述大数据如何影响广告业(也要依靠大数据)(3)

刘鹏和相声演员王声(左)在一起

神奇的“人工智能”和更神奇的“人”

2004年刘鹏博士毕业,离开了陪伴他9年的清华校园,加入了微软亚洲研究院。刘鹏那时从事的是语音识别和手写识别工作,包括Windows Phone的手写识别系统,还有Vista的语音识别系统,这些模型都是刘鹏和同事参与完成的。

刘鹏在微软亚洲研究院待了四年,在微软期间,刘鹏跟许多著名的科学家一起学习和共事,那种良好的研究环境和严谨的科学训练在工业界使他受益颇多。

离开微软后,刘鹏加入了正在筹建中的雅虎研究院北京分院,他是最早的员工之一,现任京东CTO张晨、一点资讯创始人郑朝晖都曾经是他的老板。

雅虎当时还是全球最顶级的互联网公司,它的产品线非常全,包括新闻、门户、搜索、邮箱等等,在全球范围内比较领先。而雅虎变现的形式比其他互联网公司都要丰富,刘鹏也就是在那个时候接触到了很多有意思的产品,比如搜索广告。

和在微软更偏重研究的工作不同,搜索广告与实际产品线的业务目标连接度更高,比如日本雅虎的搜索广告。“那个时候上线一个模式后能实时看到广告收入的增长,这种感觉很有意思。”在雅虎刘鹏工作了将近三年,期间他把雅虎主要广告的产品差不多都做了一遍。

离开雅虎后,刘鹏分别在互联网门户、广告技术公司和平台公司任职,还有过先后在被收购方和收购方工作的经历,但他始终在互联网广告行业的一线。

但是在进入互联网圈后,刘鹏逐渐发现遇到的很多问题跟他过去接触的人工智能问题并不一样,而这些问题到现在也没有在本质上得到解决。首先互联网的博弈性特别强,它是动态而不是静态的,这在广告里体现的更加明显。此外,互联网的数据量要比语音和图像大的多,但是这种大数据的状态很模糊,实际数据反而更稀疏,这应该如何解读?

“每天有上千万次的广告点击,建模时候你觉得数据充分,但要具体到某一个广告、某一个页面、某一个人,再去看那个数据稀疏的不得了,人工智能应对这种挑战其实难度很大。”

刘鹏观察过自己的两个孩子,他们看到动物一眼就能认出来,而之前孩子的经验只是从图画书上看到已经变形的动物图片,而机器需要用海量的有效数据“喂”出来才能实现图像识别。

“那么,人到底是怎么做到的?”刘鹏问道。

阐述大数据如何影响广告业(也要依靠大数据)(4)

刘鹏在行业论坛上做大数据价值及数据交易的分享

“大数据仁波切”的一本书

诱发刘鹏撰写《计算广告》这本书源于在雅虎工作时期两位科学家的影响,其中Andrei Broder是美国工程院院士,他希望把广告里面有意思的事情系统的整理成一门学科,他跟另一位经济学家Preston McAfee在斯坦福开了一门研究生的计算广告课程,广受欢迎,对刘鹏的启发也很大。

2012年,刘鹏在清华大学做了一个很长的讲座,后来他发现,这个行业里对计算广告并没有什么阅读材料,从业者更多是被一些公关稿件所影响,于是从那个时候开始,他就想写一本书。“写书写的很困难,我觉得自己的能力还是不太够,所以前前后后写了有三年”

阐述大数据如何影响广告业(也要依靠大数据)(5)

刘鹏在第二次程序化广告分享大会做分享

之所以写了三年,是因为行业的变化很大。“互联网领域变化太快了,不要想有一个模特让你对着画一天,她老在动。就像广告行业这几年发生的变化一样,新产品、新技术层出不穷。”

在《计算广告》出版后,有不少公司邀请刘鹏去做讲座分享,他还开通了一个同名的微信公众号“计算广告”(Comp_Ad),不定期发布一些跟计算广告、人工智能相关的有趣话题,比如《21天混入数据科学家队伍》、《人工智能接管世界,拢共分几步?》等等,风趣幽默而又入木三分的剖析了这个行业种种热点现象。

随着移动互联网和深度学习在广告行业里深度应用,刘鹏认为传统广告业的很多东西都是要被颠覆的,而且这个颠覆的程度比想象中还要更彻底。

“很多传统4A广告公司认为创意是不可替代的东西,现在看来是不对的。已经有越来越多的案例采用程序化的方式做创意或者优化创意,因为人类有很多东西靠直觉是摸不准的,比如某个图片往上或往下放五个像素就可以获得出奇的效果,这些只能靠数字和算法去调整。”

在这位“大数据仁波切”看来,数据流要取代经验流的趋势不可逆转,“经验远没有你想象的那么靠谱。”

阐述大数据如何影响广告业(也要依靠大数据)(6)

来源:华创资本

文中部分配图由刘鹏提供

感谢您关注华创资本

chinagrowthcapital

,