互联网和数字经济飞速发展的这几年来,人类社会群体行为和个体行为的标准化和标签化的过程已经完成,到今天,谁能真正找到能够让这些数据发挥价值的方式,谁就可以享受到产业红利。从这个角度来看,我们不难发现当前人工智能应用较好的领域大多是信息化程度更高、数据密集的产业,如:互联网、智慧城市、医疗健康、金融等。人工智能时代的数据常常被类比为工业时代的石油,但数据又与石油具有完全不同的再生属性,行业不断产生和积累的数据蕴含着巨大的应用价值,这就需运用云计算、算法、平台等先进的技术工具来挖掘数据潜力。

云端智能解析(云端智能加速释放数据潜能)(1)

9月25日,阿里云栖大会在杭州开幕。在Intel数据驱动专场上,由阿里巴巴集团副总裁、阿里云智能计算平台总裁、高级研究员贾扬清(花名扬青);汇医慧影联合创始人兼首席运营官郭娜;北高峰资本创始人、人工智能科学家闵万里(花名山景);Intel高级首席工程师、大数据分析和人工智能创新院院长戴金权(Jason)等几位行业嘉宾就“云端智能加速释放数据潜能”做了主题探讨。以下是圆桌实录:

主持人:非常荣幸和各位探讨云端智能加速释放数据潜能这个主题。2019年,中国的人工智能已跻身世界前沿。扬清在人工智能算法和开源框架领域,大家认为您是带路者,现在也在阿里从事AI的前沿研究,请您解析一下中国在人工智能的竟技场上走到了什么阶段,还面对什么机遇和挑战?

贾扬清:我应该算是阿里新人吧,刚加入6个月时间,之前有幸在开源(框架)方面做过比较有意思的工作。从AI之前的发展来说,它是和开放的科研、工程紧密结合起来的,中国的工程师和科研人员在AI发展当中起到了非常重要的作用,像TensorFlow、PyTorch背后都有中国工程师强大的身影,MXNet也是咱们中国的研究生创造的。所以我觉得在算法、工程能力上,咱们非常和世界接轨,甚至站在前列。就2019年看,算法的能力在增长,或者说变得相对稳定。我们说两步走,算法、应用各往前一步时,我们今天最大的机遇在于怎么样让AI算法应用当中落地。我们在科研领域训练深度学习算法单枪匹马就可以了,但在实际应用当中却需要让算法和数据、业务逻辑需要非常紧密地结合起来,这是当前的大趋势,也是AI可以来进一步创造价值的一个点。

主持人:非常感谢扬清,其实和今天的主题相呼应了,人工智能进入了产业落地的关键期。李克强总理在政府报告里提出了“智能 ”,着重强调促进人工智能和实体经济相结合,来为行业赋能。想问一下山景(闵万里),您离开阿里从事相关行业的投资,在投资过程当中对于”智能 ”在各行各业的应用有更加深刻的了解,您分享一下。

闵万里:智能化是大势所趋,前面经过了IT建设之后,到今天的信息化,人类社会的群体行为、个体行为的标准化、标签化已经完成了。谁可以从(数据)中找到智能,找到价值创造的方式,谁就可以享受到产业的红利。按照这个方向去看的话,会发现许多数据密集的产业、行业,比如:天然数据密集的互联网、智慧城市(这么多摄象头)、医疗健康(各种各样的传感器、CT扫描)等,这些都是数据密集产业。基本上可以说数据密集的行业和产业今天都是待开垦的金矿。在智能化手段的大潮下,用云计算的计算力,用算法平台等作为工具成为新时代的掘油,我们钻出来的是行业中更深层次的价值。所以我说智能化刚刚开始,而且潜在的空间非常大。更重要的是智能化所用的原材料是数据 计算力,而数据恰恰处在一个源源不断被创造的数据通货膨胀的年代,这跟石油天然不同。今天上午我们主论坛上在说数据是石油,但数据不同于石油,石油是不可再生,是有限蕴藏的资源,而数据却每分每秒都在产生。在数据通货膨胀的年代,智能的释放需要眼明手快的技术手段。十年前只有想法没有云计算搞不定,没有AI也搞不定,今天有了云计算、AI算法、caffe这些平台,又有源源不断产生新的数据作为原材料,所以价值创造几乎没有代价。这跟原来的工业革命靠重资本的方式完全不同,所有的行动都在产生数据。然后计算力,今天有了云之后计算力又唾手可得,而且老百姓都可以用得起超级计算,这个时候比拼的就是不是资本而是IQ了。谁有创造力,谁有产业经验,谁有胆识,谁就有可能第一个把产业更深层次的价值淘出来,所以我说人工智能刚刚开始。

主持人:我看过一部纪录片《你好 AI》,这里边有汇医慧影在心脏病手术中,用英特尔的产品去做数据切片的工作。汇医慧影也是云端智能释放数据潜能特别成功的案例。请郭总分享一下在医疗领域,汇医慧影是如何用AI来挖掘出巨大大数据潜力的?

郭娜:汇医慧影目前在AI医疗医疗影像公司当中,影像数据AI在阿里云上应用方面是阿里云全球最大的客户,这是和阿里的关系。第二就是汇医慧影也是Intel capital 投资的全球唯一 一家医疗影像AI公司。刚刚扬清谈到算法逐渐走向成熟的时候,今年是应用开发和商业落地特别好的时机。我们和英特尔拍了全球首部《你好 AI》的人工智能的纪录片,当中就谈到了主动脉必行主动脉夹层和辅主动脉瘤这两个大病,我们通过AI算法能够将原来两三天的手术规划在两分钟时间内计算好。所以大家可以看到,一边我们在谈算法,一边我们在谈算力,到应用行业的时候,我们所有的医疗数据潜力得到了最大程度的释放和潜能的激发。所以医疗不是传统行业,我们看到不管是肿瘤药、癌症药,医疗一直走在最前沿,因为我们对生命是不断探索的。

特别要谈一下,我自己就AI数据、医疗如何结合的有一个特别深的感慨。我们在去年和英特尔共同发布了关于乳腺癌AI诊断的产品,当时英特尔历史上第一次把logo换成粉红色,就是来支持这个项目。我觉得它有一个特别好的公益性质,因为乳腺癌这是女性的第一大癌症。此外,让我们万万没想到的是这个事情不光在算法、我们的市场宣传、公益方面取得了非常好的效果,同时就在今年上半年,美国的NCCN关于乳腺癌肿瘤临床治疗指南当中就写到关于AI对新辅助化疗的决策。我们看到算法在快速演进,同时垂直行业应用当中的突破作为一种新的范式对于原来行业的改变也是在与时俱进的。

主持人:请Jason(戴金权)介绍一下Intel还有什么战略布局?

戴金权:我们和汇医慧影有非常紧密的合作,不光是Intel Capital的投资,在技术上也有很多合作,包括演讲当中也提到了英特尔最新处理器通过算力来加速AI的计算。同时在阿里云平台上,Intel最新的至强处理器上最新的推理加速都在阿里平台上有非常好的支持,所以他们(汇医慧影)可以在阿里云上高效地进行计算。

主持人:郭总,能不能分享一下。

郭娜:英特尔是一家伟大的公司,所以被Intel投资之后我们也要让自己成为非常好的技术公司。得益于英特尔非常多,我刚刚谈到不光是marketing,英特尔最新的技术,无论是云上还是边缘计算,所有最新的东西其实是美国和中国技术一起来让我们的算法跑得更加好,更适应。

可能天池这样的比赛对开发者有很大的激励作用,像我们刚刚谈到《你好 AI》里边这个主动脉的产品,我们和英特尔一起还入选了2019年的国家科协的前沿创新奖。这个又在更大社会意义上来做这件事情。汇医慧影也愿意在技术潮流中一方面技术更加落地,另一方面努力跟最先进平台和算法保持一致,让我们最好的技术应用到垂直行业当中。所以其实合作很多,从市场、销售、技术支持,再到整个对社会影响力上,大家共同的推进吧。

主持人:刚才听到阿里云相当一部分客户就是医疗方面的,是吗?

郭娜:其实云栖大会不是第一次来了,但是这个组合更加亲切。每年云栖大会上汇医慧影都会作为医疗影象AI公司和阿里共同发布一个新的算法。比如今年3月份,我们和阿里共同发布的是肺结核人工智能诊断的新算法。我们看到在新疆、西藏包括整个一带一路很多地区肺结核感染率还是很高的,我们现在基本做到一秒一张肺结核X光片就可以筛出来,并且准确率达到96%以上,其实这块儿落地的效益还是蛮明显的。

主持人:云端智能现在确实成为一个核武器了,在挖掘数据巨大的潜力。像山景(闵万里)刚才说的,阿里和英特尔在数据智能方面给行业解决了不少的痛点,请扬清和Jason来分享一下阿里和英特尔在挖掘数据潜力方面到底你们的威力在哪里?

贾扬清:我觉得山景老师(闵万里)提到非常好的一点,今天大家越来越多地用到数据的力量,从无限当中来挖掘价值。山景老师(闵万里)作为我们数据平台非常重要的用户,对我们一直在提出越来越高的要求。这个让我想起来以前在软硬件领域说的一个定理,叫安迪比尔定理。What Andy gives, Bill takes ,Andy是Intel的CEO,Bill是微软的CEO。基本上硬件的能力或者我们提供的系统能力永远不够,因为软件永远能够提出更高的要求。像刚才说阿里云最大用户,从所有的行业合起来的情况来看,阿里云最大的用户是阿里巴巴自己。我们自己一直以来数据呈指数级增长,我们的应用呈指数级增长,但是对于基础架构和系统来说有这样的问题,我们不能光烧钱,所以有许多系统优化相关的问题,这时候就非常需要软硬件协同设计的能力。在构建一个大数据、人工智能系统时候,利用我们所观察到的计算模式的不同,比如有些对于存储有比较高的要求,有些对于计算有更高的要求。通过我们说叫performance guider of optimization来进行更加深入的调优。我们跟Intel有非常多的合作, 从我们的工作场景出发来非常深入地做端到端的优化。最近我们推出TPCx-BB这样的benchmark,我们一起合作获得了比第二名快一倍,便宜一半的效果,这在一定程度上体现出来软硬件协同的价值。

戴金权:我们和阿里云这边有非常多的软硬件优化的合作。硬件每提高一个数量级上的性能,软件可以达到另一个数量级性能。我们在TPCx-BB大数据处理分析端到端的benchmark上的世界记录,包括我们和阿里在Flink新一代的实施计算方面,特别是和大数据以及人工智能相结合方面,我们有非常多一起优化,一起来合作的工作。刚才提到英特尔很多的硬件产品,比如第二代的至强处理器等等,都已经在阿里云上有非常好的销售表现。我们通过软硬件合作可以大大提高效率,从而从计算上、能力上,通过大数据和AI来给大家带来更多价值。

主持人:山景(闵万里)您也是阿里云的用户?

闵万里:应该说城市大脑是阿里云的用户吧。因为基本上城市当中交通信号的实施控制、交通信号都是通过多源异构的实时数据流的融合,再把它映射到空间上不同的路段上。这种计算量是海量的,尤其是有高德每位用户都贡献数据时候,没有云是很难做的。十多年前做智慧城市时候,那时候搞一些报表做每周分析、事后分析,今天我们讲的是实时分析和提前介入,所以眼明手快是越来越快了,没有滞后。

主持人:城市大脑也是一个超算集群?

闵万里:不只是一个,有可能是多个,有可能城市大脑收到的的某一组信号是来自于另外一个超算集群算出来的。比如:天气预报我们知道是巨大计算量的事。天气预报说杭州5点钟开始下暴雨,这对城市大脑来说只是一条信息,但是这条信息需要城市大脑迅速地蔓延开计算出来交通应该怎么组织。这只是一条信息,但它背后中国气象局用了很大的算力去计算,它就像接力赛,一个集群一个集群在不断接力。如果溯源的话,城市大脑所用到集群可能远远地超出了今天所讲的狭义大脑的计算平台,包括其他领域的数据处理、分析、采集所用到的集群,可能不在城市大脑的范畴,但是有强硬关联。

主持人:想请各位大佬给我们画一下重点,2019年我们应该关注什么,实践的方向是什么,应该怎么做?从山景(闵万里)开始。

闵万里:我先讲技术趋势然后再讲非技术的趋势。最值得关注的技术趋势,我觉得在流式计算和批计算的混合上可能会是越来越强烈的需求。有很多的业务场景,尤其是工业控制当中,有相当多的场景有流式计算和批计算的混合。因为在过去,工业控制大家认为是非常传统的领域,而且门槛很高,不敢去碰,所以基本上被遗忘。但是今天,当工业互联网的浪潮开始第二波、第三波蔓延到那里的时候,会发现这个领域当中还是有很多应用催生的技术问题。我们知道机器生产线上每年产生的GDP是多少,稍微做一做就可以产生巨大的价值。所以我觉得这是大家值得关注的一个趋势,就是流计算与批计算的混合。

第二,还有一个趋势,技术领域的投资或研发进度越来越多地被非技术因素左右。这句话怎么解释呢,前几年我们见过很多创业团队写个创业计划书加几个CNN深度学习的神经网络就可以融到很多钱。因为那时候投资人都不懂,都觉得高大上,投人嘛,斯坦福的博士也投了。但是今天呢,这几年投下来的效果基本上水落石出的时候大家才知道有谁真正在裸泳。回过来,当资本市场和产业变得冷静和理性的时候,大家会回归到思考任何一个技术最终创造价值的闭环在哪?如果在座的在做未来规划的时候,要问一个根本性的问题,这个规划出来的技术是否具备行业落地的可能性和场景,你解决问题的目标是什么?还是说跟我过去三年的版本相比要提升20%,提升30%,这个规划是什么?我经常比喻是看着汽车的后视镜在开车,因为看着过去在规划未来,今天需要有人看着未来,告诉我车应该怎么开。所以做战略策划的时候,更需要的是脱离技术的范畴,在更广的行业空间当中去寻找未来的航向,这样才可能在下一波浪潮的时候在浪头上,而不是波谷里面。这一点尤其是资本市场全球越来越理性时候,做技术的人需要特别关注的。而且资本越来越理性,已经被伤害过之后就会吃一堑长一智,所以以后的商务计划书当中,少用一些CNN,多用技术价值创造最基础的逻辑来讲清楚一件事,用白话、非技术的语言去讲清楚技术的逻辑和业务的逻辑闭环。有这样能力、意识的时候,我觉得从人工智能、云计算往产业的结合才会加速,才会全面升级我们行业的数字化转型。

贾扬清:我想说两个趋势,一个趋势是对外的,一个趋势是对内。我们今天说GitHub能够给我们创造什么样的能力,GitHub做的是三件事:找得到代码、用得上代码、管得住代码。今天我们在想数据这一块,很多时候在考虑怎么样找得到数据、怎么用得到数据,但是怎么样管得住数据的问题,这是一个综合治理的问题。我们今天说数据丢了,明天说上次训练用得哪一个版本的数据来着,这一系列的问题,其实我们在考虑管理数据处理流程的时候是没有像管理代码那样管起来。管代码,只要做个版本控制,一切都有记录。做数据的时候,很多时候没有把数据当成代码、知识产权来管理。所以我们阿里有很多精力用在怎么样做数据综合治理上,以前我们说数据湖,怎么样从湖里来寻找价值,这一块是非常需要像做代码的版本控制一样来做数据综合治理的这样一种能力。这是对外的一种趋势。

另外,对内的趋势,我们说人工智能在解决各种各样的问题,它能够从数据当挖掘出规律和决策来。在计算机系统当中,系统本身的运行会产生非常多的数据。人工智能是不是能够在这个地方起到对系统进一步发展的能力。今天我们很多的系统设计的时候都是基于规则来做 。比如有大量数据存储的时候,需要考虑到哪些数据存储在冷存里,哪些存储在SSD里。我们可能会设计一个比较简单的规则,如果是昨天的数据,就放在热存里,这是我们通过自己的人脑的观察简单数据统计量做出的决策。如果我们相信人工智能的话,就应该相信在大量统计背后,可以有一个更加智能的算法驱动的决策过程。我们非常相信,今天的计算机系统当中,人为决策的编程或者是设计方式在5年之后都会变成数据所驱动的智能决策过程,我觉得这是一个特别需要关注的趋势。

主持人:AutoML呢?

贾扬清:AutoML开始有不同的诠释,一个诠释是比如说通过神经网络结构搜索来寻找出更加灵活、有效的神经网络。这块儿是一个相对预言的发展方向,为什么?我们发现AutoML所学习出来的网络有时候不太好解释,但是可以从大规模搜索当中寻找出来一些规律性东西,反过头来指导我们做网络结构设计。今天实际应用的网络设计更多的是手工设计,但是背后通过AutoML大量计算提炼出来人可以进一步发挥的规律,我觉得这是AutoML的解释。

主持人:我觉得英特尔是一个特别强大的桥梁。Jason也来介绍一下2019年应该怎么走?

戴金权:刚才谈了些趋势,我也谈两点吧。从技术上来看,第一点就是软硬件的结合带来算力的提升。将来的计算来说,我觉得肯定是一个异构或者超异构的架构,包括Intel也是一样,在标量、矢量、矩阵、空间等等各种不同的计算架构上通过软硬件协作,软件层优化来提升算力。

第二点就是,刚刚提到的,我们今天说要在实验室里开发一个AI模型,其实门槛没有那么高,可以做到。但是如何将AI模型、深度学习模型运用到生产环境里,跟现有的软硬件架构、大数据处理架构相结合,将人工智能大数据分析统一在一个架构下,把端到端的价值体现出来,其实和些科研界在实验室里做的事情不一样。不管是阿里,还是英特尔,包括和Fink的合作也一样,要批流合一。Flink本身就是新的实时计算,它希望做的就是批流合一,实时处理数据。Intel和阿里、Flink合作,包括天池大赛,实际上在想怎样和下一代的大数据实时处理、人工智能算法结合起来,也都是在这些方面做的一些努力和尝试,包括像英特尔、阿里,“汇医慧影”也都意识到我们需要把人工智能和现实的生产环境相结合起来。

主持人:请汇医慧影的郭娜总给我们做一个总结。

郭娜:今天的论坛我一直在仔细听,之所以觉得在AI方面是干货满满,是因为我认为我们几家在AI领域都是真正在实践当中,不断地优化模型和产品,在这个过程当中发现自我的边界,发现合作伙伴的边界。其实我觉得AI在过去三年我们谈的算法过多、概念过多,其实我觉得未来就在你今天的脚下。你会发现说“汇医慧影”是不是应该更加专注于自己在Domain Knowledge里边的投入。因为很早期的时候,我们不得不也要去提供算法,搞数据,甚至每天配合让数据的能力发挥出来。今天我觉得特别高兴的是,大家都在成熟,而且都在这个过程中将自己的竞争优势和擅长的东西变得更加商业化、产品化,更加的高效快速,这样自然生态就出来了。我相信如果明年还有机会,还是三家四家大家一起坐在这里的时候,大家可以看到AI应用全面爆发。所以我一直相信,技术是在不断地解锁新的需求,我更相信当人感受不到技术的时候,就是技术真正成熟的时候。如果我们一个影像公司每天讨论框架、算法的问题,公允地来说,其实是没有把我们最大的注意力放到客户端。所以我觉得,最起码今年我们能看到所有的业务中台在向数据中台过渡,因为原来都是在解决流程效率,现在都是在解决以病人、以病种为核心的数据重构和重组。另外,就是我们看到云计算和边缘计算的结合,因为我们和英特尔、阿里合作,其实有很大的场景诉求。就是你不可能每个大三甲的数据都上云,私有化部署这个时候表现出安全性、重要性和大医院对自身数据的保密性,这个全球都是这样,越顶级的医疗机构越是这样。但是我们也做了大量基层项目,比如说400家基层医院就想做胸片、骨折、肺结核筛查,这个时候云计算又体现出它成本低、部署快,可以普惠医疗辐射到更广远的地方。所以云和边缘的结合,算法能够在两端快速地更新,数据能够持续回来进行迭代。我觉得任何一家公司在未来都是AI公司,因为就“汇医慧影”来说,我们虽然是AI公司,刚才说的几块还是人工在做。所以明年这部分大量的数据替代、算法替代,减少人工成本,这都是非常值得期待的事情。

主持人:人工智能以数据为本,普惠的AI应该以人为本。中国是大数据的大国,如何利用好数据优势,释放出数据的潜在价值需要一起去努力。

感谢几位嘉宾的精彩分享,感谢英特尔、阿里、“汇医慧影”以及山景(闵万里)为行业发展做出的努力。让我们一起用好云端智能,做数据时代的赢家,也淘到金。

谢谢各位。

,