机器之心报道

机器之心编辑部

9 月 2 日,“WAIC2022· 金融科技与数据要素论坛”如期举行,论坛由世界人工智能大会组委会办公室指导,华东师范大学长三角金融科技研究院、上海市人工智能行业协会、机器之心主办。上海市经信委人工智能发展处副处长孙跃出席会议并致辞。在论坛的圆桌讨论环节,嘉宾们普遍表示,目前隐私计算的整个发展形势非常蓬勃向上,但对于可用性来说,稍微有些不及预期。我们需要提高可用性,在解决这一挑战过程中,有几个特别值得我们关注和倾注全力的问题。

继去年在世界人工智能大会上大放异彩后,隐私计算再度成为今年世界人工智能大会的关键热词。

所谓隐私计算,是一套包含人工智能、密码学、数据科学等众多领域的跨学科技术体系。它能够在数据不可见的前提下,对生产要素进行加工、分析、挖掘、建模和验证等,实现“可用不可见”。在 2021、2022 连续两年的未来科技趋势报告中,隐私计算都被列为未来一个重大的科技发展方向。

金融领域之所以成为隐私计算落地最为肥沃、也最为活跃的领域,主要原因在于随着这几年数据法规的陆续出台逐渐淘汰掉过往野蛮无序的数据交换使用方式,隐私计算凭借得数据 “可用不可见” 的技术特性,确实解决了极度渴望数据的银行业务痛点。

以此次论坛上大家普遍提及的普惠金融为例。银行手里的小微企业数据非常有限,很难有效评估被受信方资质的情况,这给小微贷款带来很大阻碍。隐私计算可以帮助银行在合规前提下,获得更多数据,比如,运营商掌握的用户轨迹信息,电商手里的消费信息。这样做联合建模和数据分析,银行对被受信方的受信额度和评价就能更加完整。

这两年,隐私计算技术在各金融机构、科技公司的推动下,在金融行业快速应用落地。除了落地客户营销、风险控制等领域。另一方面,作为社会经济活动的基础,金融机构也肩负着社会责任与使命,例如,监管、普惠金融等也成为金融数字化转型的重要落点。

不过,技术快速发展的同时,安全合规监管、数据、标准、人才、技术等制约因素也日益凸显。9 月 2 日,在 “WAIC2022· 金融科技与数据要素论坛” 活动的圆桌讨论环节,主持人和嘉宾以《隐私计算在金融产业的应用与挑战》为题就此展开了深入对话。

嘉宾们坦言规模落地的挑战之一在于互联互通的标准。既然我们将隐私计算视为一种基础设施,就要有统一标准,大家都讲同一套语言才能互联互通。隐私计算和传统技术最大的差别在于,它涉及多方参与,涉及多方数据评定。没有标准,合作方就会担心对方是否留有后门等问题。

再比如,就像 ISO 质量认证体系一样,希望有权威机构解决平台资质认定问题。现实中,让使用方去判断平台技术本身是不是符合安全要求,成本非常高。他们希望有权威机构可以进行相应认证或者对现有隐私计算平台进行评级认定。

还有数据确权问题。流通过程当中数据如何确权?参与各方如何分享价值和收益?这些设计也是技术蓬勃发展的关键因素。

以下是本次论坛圆桌对话环节的实录,机器之心做了不变更原意的编辑。

隐私计算技术(为什么当下隐私计算可用性不及预期)(1)

从左到右分别为:主持人钱卫宁、郭林海、陆培尔、王湾湾

主持人钱卫宁(华东师范大学数据学院院长):与传统所使用的数据管理技术、数据分析技术、数据挖掘技术相比,隐私计算在当前金融行业里最亮点、最成功的应用是什么?

郭林海(上海浦东发展银行股份有限公司信息科技部创新实验室人工智能团队负责人):在数据成为生产要素后,隐私计算为什么在金融行业特别重要?大家知道,金融行业是强监管行业,不管是对于数据的安全、数据存放、数据流通、数据使用都是非常严格的。我们希望把金融服务融入到各种场景生态中就要面临数据怎么区分和引进来的问题。

我认为,不能说哪项技术特别成功,现在来看,大家都讲了隐私计算最关键的是多项技术的融合。每项技术都有自己的特点,比如 MPC(多方安全计算)强调的是数学可证明,安全性最高;联邦学习起步于分布式计算,在效率上比 MPC 高;TEE(可信执行环境)借助硬件的方式提供安全防护,通用性最强。在金融强监管的条件下,要实现计算可追踪还面临一个监管因素,所以,我们常常把这几个技术和区块链技术做融合,充分发挥区块链信息难于篡改、穿透监管的能力。金融行业面对隐私计算以及数据要素流通环节,需要多种技术融合,并没有说哪些技术特别强。

第二,现在最主要的应用场景还是营销和风控。金融本身就有经营风险,存在很多信息不对称。风控、营销都需要大量外部数据。我们具备客户完整的交易数据,但还需要了解客户其他的一些行为数据,包括消费习惯(当然是在客户授权的情况下)等,才能针对客户画像做精准营销。风控领域也是的如此,对一个人了解越多就能越好地进行定位。

隐私计算技术(为什么当下隐私计算可用性不及预期)(2)

主持人钱卫宁,华东师范大学数据学院院长

隐私计算技术(为什么当下隐私计算可用性不及预期)(3)

郭林海,上海浦东发展银行股份有限公司信息科技部创新实验室人工智能团队负责人

陆培尔(中国银行上海市分行信息科技部高级技术经理、云原生转型实验室负责人 ):隐私计算是这两年大热的技术,从 2021 年一直到现在,我们也一直关注它,为什么这么热?今年人工智能大会的主题是元宇宙和隐私计算,隐私计算为什么这么火爆?它确实解决了金融行业的痛点,我们金融行业对数据极度渴望。

我们能获取的数据基本上都获取到了,然后进入了瓶颈期,我们希望获取更多数据,希望从泛金融领域,希望获取其他机构客户交易金融数据以及场景化非金融数据,考虑到现在的强监管、个人信息保护、隐私保护政策,这其实比较困难。隐私计算从技术角度有助于解决这个问题。

从技术发展趋势来讲,我们认为,它已经是属于基本可用的技术,能够给我们实际业务场景落地带来实际收益的技术?所以,现在包括银行、外部第三方的创业公司以及数据消费方、数据提供方大家都在这个赛道,它解决了大家的痛点——如何保护数据隐私的前提下做联合建模和数据分析。如果没有联邦学习技术、区块链、多方安全计算等技术,我们是做不到的。

就应用场景而言,从金融行业来讲,有非常多的场景可以和隐私计算联合起来。比如,数据要素的流通过程当中,我们可以去获取运营商的数据,包括银联的大数据以及监管的数据,保证隐私安全的前提下都可以获取这些数据。再比如泛金融、多方借贷、反洗钱、反欺诈包括黑名单共享,都是非常关心的问题,这都是隐私计算的场景。

我也简单分享一下我们中国银行在隐私计算方面的探索。第一,中小企业融资场景。响应政府号召,也是为了贯彻我们行的普惠金融战略,需要解决中小企业融资难、融资贵的问题。我们前期推出了不少普惠金融信贷产品,近期也和上海市政府机构合作,依托政府综合信用贷款平台来进行数据共享,这里面会用到自己行内的数据,也可以用到政府公共信息数据,基于这些信息数据共享和建模,为中小企业设计风险管理。

第二,监管层面非常关注的电信诈骗问题。大数据时代,不法分子很容易利用泄露的信息进行短信、邮件的诈骗活动。我们联合人民银行、公安做了点对点对接,也取得了效果。不过,由于个人信息保护限制,没有办法做到平台级别的互联互通,所以,我们很难去做多方联合反诈,效果也相对有限。现在基于隐私计算平台技术,我们也进行了一些探索,比如和运营商、公安数据进行对接,利用多方安全计算和联邦学习提升反电诈模型精准度。

第三,关于智能营销这一块,对于营销来讲,要分析客户行为,拿到的数据越多越好。长期来看,这些数据都是在广告平台,它可能会拿到客户在平台上的点击、展现、到达访问的数据,我们银行有些客户后端转化数据,由于隐私信息保护限制,我们也担心在数据传输当中会有些泄露,所以,传统上双方不太倾向于数据分享。现在,有联邦学习、多方安全计算等技术,可以做联合建模,提升整个智能营销的精准度。

隐私计算技术(为什么当下隐私计算可用性不及预期)(4)

陆培尔,中国银行上海市分行信息科技部高级技术经理、云原生转型实验室负责人

主持人:陆总再次介绍了非常丰富的金融场景,通过一系列隐私计算技术的融合,可以有很多更大的想象空间,真正服务实体金融,降低每个人的风险。王女士来自于科技企业,你如何看待技术在金融场景的应用?

王湾湾(洞见科技数据科学家):人工智能、区块链、大数据等技术在金融领域应用也给金融带来一些优势,比如,风险管理智能化、整个业务流程自动化水平都有很大提升。但隐私计算为什么这一两年受到这么多的关注呢?一个是政策层面鼓励数据流通,但法规又做了制度上的约束,我们只能利用技术手段进行突破,发挥隐私计算在整个数据流通中的价值。整个隐私计算本身能发展得好,也代表说从技术层面它真的有用。

在隐私计算应用过程当中,我们有一次在实际应用真去对比了传统模式和现在模式,看看当中有什么样的提升。以前,我们做模型,比如说三方去一起做模型,是为了数据安全和我们的效果,一般采用先建立子模型,然后通过子模型融合的方式构建模型。如果用隐私计算去用这三方数据一起做的建模,结果发现它的效果比原来传统方式子模型 总模型的方式有所提升。这说明,这个技术对于我们来说是真的有用的,而且会给业务效果带来质的提升。

就应用场景来说,具体应用场景也有对应的技术。比如,PSI(隐私集合求交)就是求交的技术,可以应用在不同的场景当中。比如,建模时采用它做对齐,可以做精准人群的圈定。另外,在高质量获客方面也通过 PSI 完成。

在联合风控营销建模、反洗钱建模以及反欺诈建模当中,都可以利用联邦学习引入更多方数据,提升整个业务决策精准度和效率。

MPC 可以被用来做联合统计。另外,利用多方数据做一个特征衍生来提升整个模型效果时,MPC 也可以提供一些价值。

最后就是匿踪查询,除了传统标签查询应用来保护银行主体信息之外,还可以做黑名单场景、风险信息共享的场景、三要素合验场景,这些方式都存在银行客户信息泄露的风险,我们通过这个行为可以避免风险发生。像 PSI、MPC、匿踪查询可以形成数据在整个业务当中应用闭环,也是隐私计算给我们带来的技术价值。

隐私计算技术(为什么当下隐私计算可用性不及预期)(5)

王湾湾,洞见科技数据科学家

主持人:无论是金融机构还是企业都讲到自己要做隐私计算平台。不过,与拥有标准形态、标准形式以及成熟的厂商和产品的大数据分析平台相比,现在显然还没有成熟的隐私计算平台,大家都还在做一些探索。

接下来的问题是,在建设隐私计算这样的基础设施中,大家遇到最大问题是什么?在有这么多金融机构,有这么多发展很快的创新型企业,还有政府的主导,有监管意见和法规,我们怎么样共同来做这些事?未来我们隐私计算平台会变成什么样子?在这个过程中,我们怎么克服这些问题?

郭林海:本质上,它是一个体系问题。比如,要解决数据要素流通,第一个问题就是数据要能流通,这就要解决安全性问题。如何解释我的技术是安全的?我们从 2017 年、2018 年开始接触隐私计算时,当初问对方(的技术)怎么安全,对方只能提供论文,但你如何证明从论文中的理论到实现的逻辑是严密的?这中间我们需要有相关的标准。

现在,包括银行和科技公司大家都在参与标准的制定,但标准还没有到具体落地或者具像化的阶段。隐私计算这个行业标准制订非常重要,因为它和传统技术(不管是数据库、数据中台)最大的差别在于——多方参与,涉及到多方的数据评定、标准不统一。所以,最好是中立方,比如国家层面或者中立的研究机构、标准牵头方等。大家都往标准靠,这就避免了每次担心对方有没有后门,对方也担心我们有没有后门。

第二,除了标准层面的问题,这些技术都还有很多需要攻坚的地方。我们和高校的老师做了很多的交流,实际上,大家很看好这个方向,还是那句话前途是光明的,道路是曲折的,我们要遵循科技发展的规律。

比如,多方计算本身还有性能的问题需要大家去研究,包括算法的安全可信等问题。联邦学习要解决它的效率和通用性、梯度保护各方面的问题。可信方面,现在考虑到国产化,大家考虑用海光、鲲鹏等信创解决方案去补齐,但我们国内的解决方案还在起步的阶段,在一些效能和各方还在不断做验证。大家都认为,同态加密是密码学圣杯,解决终极通用型的问题。现在,很多隐私计算的场景都能只能够按照这个场景做定制,很难做通用化的东西,没有通用化很难带来量产,这些方面能否有技术上的突破?

第三,有了这些基础,数据也安全了,那么,流通过程当中数据如何确权?参与当中的各方如何分享价值和收益?数据和别的产品不一样,一旦被看见就没有价值了,所以才需要特别的保护机制。我们现在有《个人信息保护法》《数据安全法》,金融行业有金融交易的数据,运营商有用户轨迹信息,电商有你的消费信息。这些信息是我从用户收集过来的,我做了脱敏保证它可以应用,其实,在整个生态里有很多参与方,除了有数据提供方之外还有算法提供方、纯技术平台提供方,这些平台之间如何形成好的激励模式?

当然还有数据如何定价,这都是需要进一步研究的。我们和高校及科研单位也有理论层面的研讨和学习,包括诸如数据估值计量体系、市场供需机制等研究。解决这些问题是隐私计算技术蓬勃发展的关键因素。

主持人:郭总讲的特别好,有理论的问题,也有技术的问题,其实还有机制的问题,对于数据本质认识的问题。如果抛开数据的本质去讨论技术,市场很可能没有动力去用这样的产品。不知道陆总怎么看?

陆培尔:现在这个赛道上参与者非常多,有一些是原来做人工智能的公司,有些区块链公司,还有做云计算包括互联网巨头、初创公司,各种各样玩家都在这个行业里。这个行业的健康发展还需要解决几点比较值得关注的问题。

第一,刚才平安银行包括洞见科技都谈到了数据互联互通的问题。我们现在也引入了一些平台,在做一些对接,实施当中整个生态里有几方参与者,而且是多对多关系,比如数据上游提供方和下游消费方以及平台方。对我们来说,由于具体实施中会接入多个平台方,无论是采购成本还是后续运维成本都会比较高。这也是因为现在标准不统一,很难建设统一的基础设施底座,导致目前工作比较困难,成本也比较高。

前面的主题演讲中谈到,隐私计算被视为一种基础设施,这就要有统一的标准,大家都讲同一套语言才能做互联互通。比如,Web1.0 时代是基于 HTML,跑在小型机上甚至 X86 以及 ARM 服务器上,再通过标准化浏览器都可以访问这些网站的,只有解决这些问题这个行业才能更加健康进行后续发展。

我们现在作为人工智能协会也是隐私计算成员单位,我们也参与了这方面建设工作。但我们觉得这个路还是比较漫长的,我们希望有政府机构出面牵头或者行业协会牵头,大家坐下来把标准梳理一致,这对今后健康发展是非常重要的。

第二,整个隐私计算平台进一步发展,除了解决行业标准的问题,还要解决认证或者说资质的问题。现在平台实在是太多了,我们更多关注场景端或者消费端,解决我们实际的痛点,至于这个平台技术本身是不是符合安全的要求?我们也很难去判断,也没有这个能力去判断,如果从底层往上溯源,做一套完整的分析和梳理,这个成本是很高的。我们希望有些权威的机构可以进行相应的认证或者对现在的隐私计算平台进行评级,对里面的数据安全性做分类审核。借助这样一个类似具体行业标准的东西,我们就能很方便地进行识别和使用。

第三,如果一段时间之内,互联互通的标准无法建立的话,可能再过几年,这个行业就会像当初互联网一样会变成剩下少量寡头,赢者通吃的局面,这对后来的竞争者来说压力比较大,市场空间比较小。所以,我们希望尽快出台一套标准互联互通的规范,对整个行业健康发展也是非常重要的。

主持人:您刚才讲的寡头通吃很有可能会出现。整套体系建立其实依赖于所说的标准,这个标准或者由行业内部慢慢推广或者由政府重要的行业学会、协会来引领进行定制的,俩位都来自金融机构,意见非常统一。接下来,我们听听科创企业对这件事情的看法。

王湾湾:在实际落地当中会遇到一些问题,洞见科技也正在努力攻克这些问题。在性能上,不同的技术路线遇到的挑战还有所差异,如联邦学习面对大规模数据,比如亿级甚至百亿级的数据,在训练和预测的耗时上不论是在算法原理层面还是工程优化层面仍有很大的提升空间。

再比如,MPC技术性能瓶颈呈现在通信量方面,要想大幅度提升其性能,除了在算法层面优化之外,需要着力于提升通信效率和压缩通信内容。针对技术上不同问题,需要攻克给出不同的解决方案。

在安全性方面,因为隐私计算是多学科交叉的技术体系,因其原理层和实现层的复杂性,如何理解它的安全性存在非常高的认知成本,现在更多的是通过测评的方式来证明其安全性,但从推广使用上来说,还是存在较高的技术成本。如何自证隐私计算软件的安全性,仍有探索空间;另外在应用层面上来说,结果是否会暴露隐私和数据安全性,目前大多是通过审核代码的方式,做到什么场景计算什么样的结果是合适的、安全的,仍需在落地过程中不断规范。洞见科技目前在这些方面也在尝试通过技术手段解决这些问题。

最后,是互联互通的问题,如果不实践是否会导致寡头的问题?洞见科技也在IEEE倡导互联互通标准的建立,今年6月牵头了IEEE全球首个“隐私计算互联互通”国际标准,目前各家厂商在数据生态中部署诸多节点,通过“以点连线”的方式融合输出更多数据价值,但从“布点”到“连线”再到“结网”,这个过程需要借助互联互通的建设,只有完成互联互通才能实现全局数据价值真正地释放。

主持人:谢谢王女士刚才的观点。虽然我们现在讲隐私计算非常热烈,当中间很多关键技术用起来时,还有很多技术问题需要讨论。和技术相匹配的生态如何建立?这样才能够在金融行业以及要素的市场上把整个环境给建立起来。

隐私计算也好或者说更大一点,金融科技或者数据要素发挥作用这件事情,它本身不会随着我们今天论坛结束而结束,我想,我们在未来人工智能大会上会有更多讨论。

,