从无序中寻找踪迹,从眼前事探索未来。

正值 IT 黄金十年新开端, CSDN 欲以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,现在推出年度重磅企划栏目——「拟合」,通过对话企业高管大咖,跟踪报道企业前沿技术资讯,分享真知灼见,以点到面折射出中国 IT 技术最新动态,传播技术影响力,帮助开发者与企业捋清思路,共创数字经济新未来。

技术变革机遇和挑战并存,当下安全漏洞、攻击事故频出,如何保障企业的信息安全?

本期「拟合」将聚焦安全话题,追踪行业安全知名企业,打响“隐秘的角落”安全之战。

作者 | Just

出品 | AI科技大本营(ID:rgznai100)

可以肯定的是,赚钱不是他再次创业的首要原因。“从一个穷孩子成为高盛全球合伙人,够了。”从高盛退出时,他还不到50岁,名利双收。

然而,在享受了四年自由的退休生活后,他却感受到了不再被社会需要的恐惧,想从这种“社会性死亡”的状态中挣脱出来。

姚期智做了一个大胆的决定(听完姚期智的一句)(1)

创业是其中一个选择,他已经有过一次创业经历。1999到2005年间,正是互联网泡沫破灭之时,彼时,他创办了安家网和做二手房按揭服务的安家集团。但最终,由于国家房地产宏观调控政策和商业模式的问题,公司没做下去。十多年前的一次创业挫折,还让他心有不甘。

2017年,通过清华大学交叉信息研究院教授徐葳引荐,他认识了图灵奖获得者姚期智。在一次三人的见面会上,他向姚请教人工智能,问了三个问题:第一,人工智能有没有超越回归?姚很认真地说还没有,正在超越;第二,人工智能有没有超越数据?姚说,那要看对数据的定义;第三,计算原则会不会被突破?姚回答,不会。

这番话让他更确信了自己对人工智能的已有认识:人工智能的根本是数据,而算法是数据智能的开发工具。当时,他对人工智能的发展不以为然,“我觉得人工智能没戏,就像每人手里一杯水,折个小纸船放到自己的杯子里‘跑人工智能’。如果这杯水不能汇聚成大湖大江大海,人工智能的船就跑不远。”

此时,姚看了一眼徐葳,“嘟囔”了一句:其实,既分享数据,又不给出原始数据这件事,理论上早就解决了。” 这个“理论”就是姚发明的多方计算理论。

正是姚的这句话,促成了华控清交这家公司,目前担任公司董事长、CEO的张旭东对AI科技大本营回忆道。

姚期智做了一个大胆的决定(听完姚期智的一句)(2)

“数据可用不可见,使用可控可计量”

早在2014年,徐葳带领姚班学生开始探索把多方计算理论技术化和实用化,这在当时已有技术原型。2018年,清华大学通过转化姚期智和徐葳的科研成果发起成立了华控清交,而后者担任首席科学家一职,通过商业化运作解决业界数据流通这一难题。

众所周知,出于数据隐私和数据安全的要求,数据孤岛成为数字经济发展的一大障碍,业界对促进数据流通、释放数据价值的呼吁由来已久。张旭东分析,数据流通的作用主要表现在三个方面:

第一,数据要素化,其实就是对数据的货币化和市场化。通过市场进行货币化,通过货币化来激励市场化。

第二,政府部门间数据打通,并向社会共享开放,可以使数据更好地为数字经济服务。企业也需要把数据货币化,让数据成为资产。智能化社会和数字经济需要数据流通起来。这些都需要管控数据用途,防止数据滥用。

第三,打破数据垄断。大量数据的聚集和不流通导致应用要跟数据走,所以有数据的企业可以做各种应用,而如果数据可以流通,就可以跟着应用走,这是打破数据垄断的根本手段。

问题是,既然数据流通的价值无可争辩,那为什么以前数据就没有大规模流通起来?

张旭东解释,从信息学的角度来看,明文数据的特点是能被人和机器“看见”,一旦被“看见”,就暴露信息,就可被复制,复制成本极低,传播速度极快,就无法控制用途和用量;数据价值在于它所承载的信息不对称性,明文数据传递的过程,恰恰是数据价值灭失的过程。而从经济学角度来看,明文数据的供需是无限供应和无限需求,无法定价。这两个因素使得明文数据流通在理论上是个伪命题。

在大数据和人工智能时代,机器已经取代人成为数据的最主要使用方。华控清交运用多方计算和其他密码学理论把数据可见的信息部分和用不着看见就可以进行计算的使用价值区分开, 做到“数据可用可不见。”

同时,把数据使用方法限制在规定的算法上,颗粒度精确到一个基础运算符号的差别。这样就把数据的特定使用权从数据的所有权中分离出来,使得真正流通的不是数据本身,也不是明文数据,而是数据的特定使用权,做到“使用可控可计量”。

解决了基础的技术问题,数据流通却并不意味着像在“菜场”那样卖数据的使用权。张旭东指出,数据流通的本质并不是数据使用价值的直接传递或转手,而是整合和配置数据资源(包括多方数据、算法和参数),通过算力和带宽进行加工,把计算结果交给结果获得方的过程。这个过程就是为了杜绝数据使用方“把原材料拿回家”进行加工滥用的风险。所以他认为,数据流通更像是在“餐厅”完成的。

姚期智做了一个大胆的决定(听完姚期智的一句)(3)

始于多方计算,要建设数据流通基础设施

数据流通的基础设施构建离不开底层的隐私计算技术。该技术主要有基于密码学理论的多方计算、基于明文的隐私保护技术(数据脱敏、差分隐私和联邦学习)和基于对硬件信任的可信计算三大部分组成。

张旭东对这三个技术做了简单比较:基于明文数据隐私保护技术的优点是非常容易上手,但问题在于它的安全性尚缺乏理论证明,其中联邦学习一对一第形成的数据闭环无法监管,不能有效控制用途。可信计算的优点是计算效率高,缺点是必须信任芯片生产厂商。多方计算的安全性有密码学的数学证明,但它的技术门槛高,算力耗费高。

华控清交主要以基于密码学的多方计算技术为主,包括同态加密、秘密分享、混淆电路、零知识证明、不经意传输等。相较其他两大分支技术,他认为多方计算更准确通用,可以做联合查询、联合统计、联合建模、数据跨境融合等,运用的是代理计算架构。该架构有效地融合了中心化的管理机制和去中心化的信任的设置。

当然,构建基于多方计算的“餐厅”同样存在需要解决的难题。

首先,需要持续降低计算耗费。相对于明文计算,密文计算的算力成本比明文高出约5~6个数量级。华控清交通过对密码学应用、安全协议、分布式计算、系统、算法、数据库、编译和芯片的全方位的系统性的优化、发明明密文混合计算等,把多方计算算力耗费降到了1-2个数量级。

其次,降低多方计算平台的技术门槛。他们把底层的芯片、指令集和中间层的密码学、安全协议、以及跟各种函数库和数据库,和最上面上层的应用都进行了层层解耦;从编译器和指令集层面用密文替代明文的基础运算操作(加法、乘法和比较),并改写相应的衍生运算的算法库,形成了密文计算体系。普通的开发者只要知道怎么写Python、SQL和Java,就能像在明文环境中一样去开发“数据可用不可见”的具体应用。

为了进一步降低开发者上手门槛,他们还打算逐步将平台开源。张旭东称,开源的最大目的是在开发者群体中普及,并且开源软件往往是最安全的。目前,他们现在已经完成了相应的SDK和API,今年会把基础版开放给渠道和集成商。

围绕多方计算技术,华控清交团队从0到1完成了技术工程化;进行产业化升级后,已开始着手基础设施化。现在,他们已开始着手建立数据流通节点,最终要让数据能够像水电煤一样无感流通。

张旭东用电话交换机的运作方式进行类比:一个大型的数据节点就是一个“总机”,同时能连通很多“分机”(小的数据节点),节点之间通过代理计算架构联系;然后把“总机”相互连通起来,就形成了一张数据流通网;所有数据节点都可以在这个体系内通过跳转,与任何其他数据节点进行协同计算。

比如大型国有银行可以通过人脸特征值的密文比为小银行提供人脸识别能力等。他认为,这样的能力输出其实就是数据智能的输出,正如百度地图把数据智能输出给用户进行导航一样。去年,华控清交已经具备实现连通不同城市、企业间 “总机”的连通能力。

姚期智做了一个大胆的决定(听完姚期智的一句)(4)

改变数据生态,从怀疑到满怀激情的创业路

起初,张旭东也曾对“既分享数据,又不给出原始数据”的说法存疑,因为这种说法听上去似乎是矛盾的。

在那次三人会谈后,徐葳让他去看姚期智在1982年发表的那边关于“百万富翁问题”的论文,他看懂了。1986年,姚又证明了凡是可以在明文计算的结果都可以进行密文计算,他没看懂这篇论文。

直到华控清交成立半年内,在与港交所的一次合作中完全验证了“数据可用不可见”的技术体系,这次彻底打消他的疑虑。

对“数据可用不可见”的质疑不只张旭东有过。他还记得,华控清交的第一个销售是2019年3月13日开始上班的,然后他们开始去见政府、金融、电信等客户,那时客户大多对这一技术理念表示怀疑。好在,他们能搬出姚期智这块招牌。

现在,随着标杆应用和标杆客户的落地,以及政府层面相关技术标准的出台,已经很少有人再和华控清交讨论密码学技术对不对的问题。他们的目标也已经不再局限于隐私计算,而是要成为国家数据流通基础设施的建设者。

在张旭东看来,数据流通会催生想象不到的新商业模式和价值实现方式,而基于数据流通的新的数字经济生态,都将建立在数据流通的基础设施之上。

对改变数据生态这件事,他的兴奋溢于言表,“赚钱的事先不说,这是为国家真正的做点事,而且再次创业又让我活过来了,你看我活过来了没?活过来了是不是?激情!”

姚期智做了一个大胆的决定(听完姚期智的一句)(5)

姚期智做了一个大胆的决定(听完姚期智的一句)(6)

,