写在前面

喜欢写点文字,但生活内容居多,可能资质愚钝,专业沉淀不足。工作以来,一直埋头苦干,到了2013年,工作生活上的良师益友伏骥老师对我说,“你在这个领域的积累可以出书!”,半信半疑,后来参加了几次大数据峰会,了解到业界一些进展,意识到自己团队的实践、认识并不落伍。

2014年被公司派往汕尾呆了一个月,暂时离开日常的工作,晚上没什么娱乐,于是常常独自去到海边,发呆沉思:十年来的往事翻滚,想起自己不同阶段的那首不押韵的小诗“京师挥红叶,鹏城斩秋山;独揽白云色,…….”,现实离诗中意境还相差甚远,然心中从未放弃!

几经思考,定下“忘掉大数据”这个题目,开始酝酿框架及骨干观点,偶尔在朋友圈发些感悟,但迟迟没有系统的形诸文字,直到最近,应众多朋友要求终于动笔,整整推迟了两年!

“忘掉大数据”系列将分为“道”、“法”、“术”三篇,“道”篇就是之前发布的“万物皆数据,数据藏大道”,主要介绍我对数据的认识;“法”篇也即本篇,将讲大数据实战的原则性问题及实操法则;而“术”篇将介绍各个细分领域的具体方法、技巧、案例!

“道”篇发布后,先是中国统计网联系转载,后被众多网站、公众号转发,朋友们也纷纷要求加快推出,既受鼓舞,也感压力!

数据太多,数据的观点太多,令我们无所适从。我想,写“忘掉大数据”,不仅仅是面向数据专业人士,当然希望数据技术人员能够正确理解数据,跳出技术的框框,从应用出发,掌握数据与商业连接的方法;而更大的愿望是让更多的非数据专业人士能够认识到数据并不神秘,它有一定的技术特性,但本质上是事实的表征、抽样,学会善用数据方法解决业务问题。大数据不只是数据技术人员的事情,人人都有意识的去用数据更加重要。人人都懂得运用数据影响“行动”,大数据应用才能真正繁荣!

接触过数据的类型不同及深入程度、开展的场景不同往往会带来不同的大数据观点,笔者试图摆脱局限,超越实战经验,用道家思想抽象出一个更具普适性的框架。“忘掉大数据”的“道”、“法”、“术”三篇,对比着看效果会更好,如想第一时间阅读,可关注个人公众号:忘掉大数据(KnowData)。

万物皆有道,何为数据道;一切皆有法,何为数据法?

在“道”篇里面,笔者认为数据是人类对世界的观测,人们运用数据通过模型产生新的数据,影响人或者人工智能体的行动,继而观测,源源不断产生数据,循环往复,生生不息,推动人类社会进步。

高端大数据思维训练(忘掉大数据之法)(1)

上述的整个过程,是数据的抽象,也就是数据的“道”,而这个过程要遵循什么法则?各个关键元素如“观测”、“数据”、”模型“、“行动”又有哪些诀窍?

笔者十年实战所思,觉得可归之为五“讲”四“美”:效益原则、应用原则、前瞻原则、开放原则、道德原则这五个原则,不能违背,而要做出实效,“观测”、“数据”、”模型“、“行动”四个环节缺一不可,都要做“美”。

大数据修炼必须“讲”的五个原则

大数据需要昂贵的成本,作为商业行为,不能像搞学术研究那样不考虑回报。大到数据体系、中到数据产品、小到具体的模型算法,值不值得做的标准一看ROI,二看效益规模!ROI不高,相信没几个企业愿意投入;而一个模型转化率再高,如果数据量很小,业务提升不明显。除非讲故事,做市场的话就一定得讲规模,“啤酒与尿布”故事很好,但不具备规模效益,超市也就没有必要大费周章把它们摆在一起。

量化别人,也要量化自己。不少数据团队很苦恼,干得很累,但得不到认可。我们要学会利用自己的优势量化数据的贡献,盘点一下,哪些事情缺乏数据就一定做不成?哪些事情没有数据也能做,但在数据的驱动下能有大幅度的提升?大数据获取的用户质量是不是更好?…….以效益为导向,给自己设置KPI,推动各项工作,将团队的价值显性化,得到认可,才能实现可持续发展。

一切从应用出发,大数据的结果最终都是要落实到”行动”中,没有相配套的生产流程承接,那就是学术研究。有明确的应用场景,才能确定要找的数据。很多企业都有这种情况,IT部门按自己的理解做了一堆的标签,开发了一系列功能,但是业务部门一看,标签很多,真正可用的很少,主要原因就是这些数据没与业务很好的结合。

建立数据供应链,实现数据与商业的连接。数据供应链的关键要素归根到底是两个东西,一个是能力,包括数据获取的能力、数据治理的能力、平台的能力、数据产生新的数据的能力、数据解读的能力等等,运用这些能力,构建数据生产体系,把源数据经过一系列处理流程供应到商业侧;第二个是产品,能力的具备,只能解决单个的场景,解决少数人用数据的问题,只有将这些能力沉淀为产品,实现系统化、自动化、工程化,才能更有规模的解决商业问题,解决更多人的用数据问题。

高端大数据思维训练(忘掉大数据之法)(2)

前瞻的收集数据。“数”到用时方恨少,等到要用的时候才意识到去收集已经晚了。数据培育需要具备孕育孩子一般的耐心,数据收集进来不是马上能够产生效益的,要累积到一定程度,在多种数据的综合作用下,经特定的应用场景催化,才能产生意想不到的效果。养好数据,则事半功倍。

前瞻的做模型。从最原始的数据出发建模,时间周期还是挺长的,但业务不能等!因而有必要提前规划应用场景,根据需要做一些半成品,譬如我们提前历时三个月储备了快递员的识别模型,后来大促的时候,基于快递员的细分挖掘在一天内就搞定出数!

既要看“数”吃饭,也要前瞻布局!

数据建设往往会经历这样的过程,一开始还没出现企业级的数据中心,一些部门对自己的数据进行了汇聚开发了一些应用;接着发现自己的数据不够用于是接入了其他部门的数据;然后一看这么多部门接入的数据及应用类似,于是企业统一建设数据平台,统一汇聚,统一管理数据资产,统一整合一些应用;统一之后各部门又会根据自己新的业务环境产生独特的数据创新的应用;当这些独特的数据创新的应用被更多的部门需要之后,又要进入企业级的架构里面……

如果平台集中、数据汇聚之后数据就管死了,那就没法满足业务的个性化需求,创新也就中止。数据用起来才能产生价值,让用数据的部门方便的拿到数据,而且是要包含一定细节的数据,如果只能凭空设想去获取或者只能看一些统计数据,用数据的思路将严重受限,而能够直接接触相对底层的数据,将极大地激发他们的想象力。数据应用创新的最大来源,一定是用数据的这些人员。

因而,平台集中之后,一定要把数据开放出去,把数据能力开放出去,阿里巴巴把数据挖掘部门拆掉,将挖掘分析人员前置到各业务线,正是基于这样的原则。

近年来政府、运营商等已开始推进数据对外部的开放,此举必将促进数据应用的创新繁荣,带动公共服务、各行业的提升。

为了维护个人信息安全,国家制定了信息数据采集的标准正在报批中。美国FCC认为Verizon在用户的流量里植入追踪码鉴别用户消费行径的行为侵犯了用户隐私。隐私保护越来越受到关注。

虽然相关法规还不健全,但作为数据从业者,笔者把“数据道德”看作一个基本准则:

不对单个用户进行研究,阿里巴巴甚至设置了分析用户的最小集;

要继承数据表征的事实所属领域的“道德”。譬如相片数据,背后是肖像权等法律法规,最近Facebook也遇到类似的麻烦,用户指控“脸纹”识别侵犯隐私权。

大数据出成效?做到四个“美”!

数据源于观测,应用的效果也要通过观测收集数据来评价。做“美”观测,是大数据成功的第一步。首先我们要重新审视生产过程的每一个环节,尤其是与客户接触的界面,发现遗漏的维度,优化采集程序,把数据留存下来;其次是善于运用他人的观测结果,收集外部的数据,补充自有维度的不足;第三要注意不同环节观测结果之间的可拼接,实现全流程监控。

大小数据的争论很多,数据量不大,有人会说你这是小数据不是大数据,在他们眼里,大数据=数据量大、hadoop等技术、非结构化等,不符合就斥之为小数据。而笔者认为哪些都是技术特性,而技术在发展,今天的“大”数据都是明天的“小”数据。数据就是数据,不分什么大小,数据一直在,而技术手段会不断进步。

GDP这个数据大不大?没错,它只是一个数字,在大小数据论者眼中小到不能再小,可是它的背后是960万平方公里国土、14亿人口的生活、消费、劳动……你能说它不大?

又譬如基于身份证号码推测性别是不是很简单,不是大数据?可是当你没有这些信息的时候,只能通过海量的用户网页浏览、搜索等杂七杂八的“大”数据通过很复杂的算法来推测,这个大数据模型能比前面的准确?它大在哪里?

数据无所谓大小,有效才是硬道理。大数据的4V特点更多的是技术特性,对实战并没帮助。有效的数据应具备如下四个特征:

精准(precise):数据应具备一定的精度,或者说准确度,当然并不是精准度越高越好,要兼顾规模,能满足ROI要求即可。

规模(scale):数据应具备一定的规模,要么可持续,要么横向能扩展。

温度(hot):温度包含两层含义,第一层是数据距离事实的距离,越接近说明温度越高,譬如用户变换城市7天内就可能变换号码,7天后这个数据就算找出来已经冷了;第二层是用户与我们的关系,很多的时候用户并不是不需要,而是与我们没有交情,做数据营销,不要想着一下子就泡上人家,要像谈恋爱那样持续加热升温,直至成交。

连接(connect):找出数据,能不能与fit的场景关联?能不能有效接触客户?譬如公交卡数据很好,可是公交卡是匿名的,找出来也接触不了。

有效的数据,那就是精准有规模(体现效益原则),温度高则容易转化,而连接特性提醒我们要做好数据应用的临门一脚。

模型之“美”,在于“迭代”,因为“迭代”,模型显得生动灵性,引无数人员为之痴迷。

在互联网里面,如果不能快速的对消费者需求做出反应,产品很快就会被淘汰。做大数据也一样,过时的数据没有温度更没价值,如果我们采用传统的数据挖掘流程,从商业理解、数据理解、数据准备到建模、评估、部署等,如软件工程的瀑布模型一样周期很长,一步一步做下来恐怕活动早就结束了。另一方面,营销场景往往涉及新的商品,没有训练集,如何解决冷启动问题?数据时效很重要,做大数据也要讲互联网思维,小步快跑,先用简单的算法快速输出数据,后续在实战中不断检验、修正、迭代优化,不断提升数据的精准性。

如何快速建模?还原用户的生活场景,把丰富的经验知识输入到模型中,加快模型的进化。要懂得用户,从身份属性、状态变化、行为表达、兴趣偏好、关系推测等方面寻找蛛丝马迹,再想方设法找到能关联的数据。

模型并不是越复杂越好,不同的场景对精准的要求不一样,根据ROI原则,算法要取舍。

都在说大数据,但真正有效的成果凤毛麟角,数据团队要想获得认可不容易。很多时候,并不是数据不好,而是没有有效的应用场景相配套。目标清单精准,可是打电话过去转化不了几个,用户普遍对此很反感,而它挂掉电话,接着就可能去实体门店购买你推介的产品。

一个好的应用场景,可能能激发那些原来看起来没有需求的用户的购买欲望。因而挖掘数据,不仅仅要考虑命中用户需求,还可以考虑命中某些营销特性,针对这些特性的策划场景,吸引这类用户的注意,通过精心设计的文案引起用户的共鸣,实现转化。

互联网产生大量数据,也是大数据应用落地的主要阵地,这也是大数据应用率先在互联网行业繁荣的原因。传统行业发力大数据,也应从电子渠道开始!

结语:数据本无“法”,实战出真理

一口气写了这么多,但限于篇幅,没法详细描述,先推出简约版,里面很多观点皆可扩充独立成文,后面的“术”篇将聚焦更细的领域结合具体的案例来写。

水无常形,法无定法。坚定心中的道,顺应变化变换不同的“法”。笔者所认识的“道”与“法”,也仅供参考!

特别鸣谢:本篇的很多思想源于和我的大数据指导老师e店长之间的碰撞,一些观点由e店长提出。

来源:忘掉大数据

作者:吴显洋(云中白杨,也称小白杨):从小爱数学,毕业于清华大学计算机系,曾是系统架构师,后回归数据,10年大数据实战经验,擅长数据化思考、系统性设计。爱徒步、爱历史、爱思考宇宙!信奉道家思想,坚信万物皆数据,数据藏大道。

高端大数据思维训练(忘掉大数据之法)(3)

数据分析网(www.afenxi.com),国内领先的大数据门户,旨在帮助大数据从业人士、爱好者提供大数据新闻资讯、前沿技术、业界观点的信息平台。

,