我读了《麻省理工学院连接科学与工程》一书中的"可信数据"。 这是对其革命性的可信数据Internet框架的简要概述。

数据科学和大数据技术的市场需求(34可信数据-身份和数据共享的新框架)(1)

> Source: SP, 2020, "Trusted Data — A New Framework for Identity and Data Sharing" Cover

可信数据-由Thomas Hardjono,David L. Shrier和Alex Pentland编辑的一种新的身份和数据共享框架引入了一种革命性的体系结构和框架来构建可信数据Internet。 该框架的目的是在保护数据隐私的同时实现有效的实时数据和见解共享-随着数据需求的增加和国际数据保护法规对数据使用方式的新限制,当今人们对此挑战进行了广泛讨论。

这是核心概念的摘要,但仅在非常高的层次上涉及框架。 我承认这380页的理论,研究和分析并不能让您彻夜难眠,但是这个项目非常有趣。 此外,Shrier是我参加的赛义德商学院和牛津大学区块链战略计划的主要讲师。 Shrier在区块链,数字ID和数据共享领域做了很多工作,这也是我热衷于阅读更多有关这项工作的原因。

谁应该读?

对于那些想学习和阅读更多有关数据共享和数字ID替代框架的人来说,这本书很有趣。 您应该至少对数据框架以及区块链技术有基本的了解,否则本书的第一部分将讨论框架的技术执行,因此可能很难理解。

手头有什么问题?

数据在很大程度上被称为世界上最有价值的资源。 没有人否认在数字时代,数据就是力量,由数据驱动的决策将改变我们所知道的生活。 但是,我们当前的数据共享生态系统存在缺陷,过时且不适合目标。 该书解决了以下问题:

网上缺乏身份证明

由于我们一直保持联系,因此仍然没有安全可靠的方式在网上标识自己,就像书中描述的那样:"在互联网上,没人知道你是否是狗"。 在日益数字化的世界中,我们现有的识别系统仍然是模拟的。 这使您很难核实您的身份,而且还很容易成为身份盗用的案例,并且现在经常在新闻中成为头条新闻。

现有的基础架构无法解决数据隐私问题

多年以来,我们现有的基础架构旨在满足不断增长的数据需求,而无需考虑维护数据隐私方面的许多问题。 尽管国际上已经引入了数据保护法规来解决此问题,但如果没有以"设计中的隐私"原则为核心的技术架构,则几乎不可能在线获得可靠的数据隐私。

数据主要存储在筒仓中

每分钟收集大量有价值的数据。 但是,该数据基本上不可访问。 传统上,IT系统是建立在孤岛中的,并且彼此不兼容。 这非常低效,原因有两个:

· 合并后可以解锁数据的真实价值。 例如。 将医疗数据与位置数据结合起来,可以从根本上检测出可能的大流行的威胁(想像我们从一开始就可以检测到并追踪到Corona病毒),

· 它消耗大量容量。 相同的数据在不同的数据存储中存储了很多次。 只需考虑一下您共享住家地址的频率即可。 最重要的是,数据经常过时且不准确,并且没有适当的系统或记录来跟踪和跟踪所做的任何更改。

解决办法是什么?

该框架和体系结构称为可信数据Internet。 它可以实现高效,准确的数据共享,同时保留数据隐私。 本质上提出一个适合并值得处理"现代社会之油"的框架。

该书深入讨论了软件体系结构的工作原理。 部署计划,安全性,技术要求,治理以及它如何适应当今社会。 该摘要涉及OPAL框架的要点和特征:

1.个人数据存储或PDS

框架的关键部分是数据存储库,也称为"个人数据存储"(PDS)。 并非将您的数据到处复制,复制,而是将所有原始数据存储在指定的PDS中。 PDS具有一些独特的特征:

a)数据永远不会离开存储库

乍看起来,这是违反直觉的,因为该框架的目标是允许更多和准确的数据共享-我们将做到这一点。 现在,思考的过程是您知道数据的存储位置,只有一个副本,并且除非您想将其移动到其他地方,否则数据永远不会离开它的位置。

b)PDS是为您提供的服务

这些存储库可以由现有的公司和机构(例如银行)管理,也可以是向您提供PDS服务的新型服务提供商。 您可能有几个带有不同提供程序的PDS,这些提供程序存储了数据的属性(健康数据,财务数据等)。 想法是一样的,存储库提供商代表您存储数据,甚至他们也无权访问。

c)数据已加密,存储已分配

将这些宝贵的数据存储在一个地方会对黑客攻击构成高度威胁。 为了保护您的数据,该框架采取了多种措施。 最重要的两个:加密和分布式存储。

在拆分存储库并将其分发到包含加密数据片段的许多不同位置时,数据将一直加密,并且始终保持加密状态。 这是一种安全的机制,可以保护您的数据,并使恶意黑客几乎无法访问它。 这是如何运作的? 想象一下,所有数据都被锁定在一个保险箱中。 黑客只需要"解锁"一个保险箱即可访问所有内容。 相反,想象一下您的数据被切成碎片,并分布在未知位置的许多不同的保险箱中。 如果恶意玩家访问一个保险箱,那么他只会得到对他没有价值的无法读取的数据片段。 他需要同时破解所有这些文件并解密数据才能访问。

只有您才具有授予第三方访问数据权限的密钥。

2.通过审查算法的数据见解

还记得我们说过您的原始数据永远不会离开您的PDS吗? 因此,问题是有人在需要时如何访问它。 要管理的软件架构称为OPAL或"开放算法"。 服务提供商通常需要数据来为您提供服务,例如 人寿保险公司需要有关您的某些数据才能给您报价。 目前,他们正在收集数据(希望数据正确无误),并在其本地系统上进行分析以得出报价。

使用OPAL,保险公司可以使用算法将洞察查询发送到您的PDS,而不必复制数据并将其存储在其他位置。 这些算法进入您的数据存储,在防火墙后面运行分析,然后返回请求的结果或对数据查询器的洞察力。 因此,存储库需要具有根据可用数据接收,执行和评估接收到的查询的能力。 保险公司不需要知道您的健康史,他们只需要在某些方面了解是或否,就可以为您提供报价。 同样,政府可以实时查询数百万人每日通勤数据的见解,以评估流量并改善基础设施,而无需知道您是谁或无法找到您。 查询者不是共享可识别的信息,而是接收匿名见解。

此外,每个(数据洞察)事务都有唯一的标识符,并且使用时间戳不可逆地记录在分布式分类帐中,从而使每个数据事务都可追溯和透明,从而为给定数据集的真实性和历史记录提供了唯一的真实来源。

您可能想知道这些算法的来源。 从本质上讲,可以在加密数据上运行以提供洞察力的算法必须由官方机构(本领域的主题专家)针对由受信任框架的参与者决定的一组特定规则和标准进行审查。 例如。 这可能是医疗保健系统中参与者(例如医院和医疗信息系统运营商)值得信赖的框架。 当保险公司要求提供洞察力时,该算法将针对您与任何提供者拥有的所有PDS一起运行。 可以将算法本身想象为酷儿可以选择的已批准命令。

为此,它需要组织,企业和机构进行协作。 想法是将数据存储在指定的位置,并且数据查询器可以使用经过审查的算法来发出数据请求。 您可以确保您的数据是安全的,并且查询者可以确保实时获得经过身份验证的见解。

3.同意访问数据

该体系结构的另一个重要方面是,尽管存储库运营商将PDS作为服务提供,但他们无权决定数据的处理方式。 数据属于数据所有者,由他决定如何处理数据。 在我们当前的数据经济中,您的数据正在共享并出售给第三方,而您却并不知道。 在OPAL框架中,数据所有者同意查询者。

4.数字身份证

可信数据框架为数字身份提供了一种潜在的解决方案,该解决方案可在安全的同时进行验证。首先,有一个人的核心身份。此核心身份类似于数字格式的身份证或护照。核心身份可由受信任的实体(例如政府)发布。此外,该身份仅对所有者具有唯一性,并且绝不与任何人共享。所有者可以从那里创建所谓的"角色"或笔名身份。角色是一个人的独特属性,您可以拥有一个人独特的"工作"角色,"政府"角色和"健康"角色,但不会泄漏任何敏感信息。例如。当您在线申请工作时,您不得分享有关您的婚姻状况,出生日期,宗教信仰和性别的信息。相反,您与公司共享"工作"角色。由于这些属性与您的核心身份相关联,因此与您的工作角色共享的任何信息都将得到验证并且可以信任。您的文凭,工作证明等可以与该角色相关联,公司将确保共享的信息真实,而不受性别,宗教信仰,年龄等数据影响其决策的制定,从而提供更大的平等性和防止偏见。申请例如抵押您可以共享"财务"角色,从而给经纪人有关您的财务稳定性,支出行为等的见解,但没有有关您花钱的时间,年龄和性别(即使不应该)会影响决策的数据消极的。

为了实现这样的系统,它需要全球范围内的身份和访问管理,并且必须在许多受信任的参与者之间分配权限,否则系统安全可能会受到威胁。

Trusted Data更深入地研究了该架构的管理方式,其测试和研究工作以及该架构的技术设置(主要基于区块链技术)。 但是,这使您对概念有了很好的了解。

总结和主要好处

身份和数据共享框架是一种革命性的解决方案,可以在保留和保护隐私的同时极大地改变我们访问和处理数据的方式。 麻省理工学院和所有相关方正在引领进入"可信数据互联网"的道路。 这种架构的好处可以产生巨大的影响:

数据所有者处于控制之中,隐私受到保护

显然,这并不是一成不变的,数据所有权也不总是那么简单,哪些数据属于个人,哪些数据属于公司? 尽管这是一个定义问题,但该框架允许将数据控制给拥有它的人。 此外,由于数据永远不会离开其存储库,并且始终被加密,因此可以确保隐私。

大规模实时,验证,洞察和分析

这种模式为机会开辟了一个全新的世界。 研究人员,新兴技术(如AI)和政府机构可以实时获取经过验证的综合见解,并确保信息来自单一事实来源。 政府,例如 通过准确地了解市民每天在该地区的活动和互动方式,可以在不侵犯隐私的情况下改善整体福祉。 随着新数据洞察力的出现,将促进网络创新,并且研究机构无需进行冗长的研究和调查即可获得真实的洞察力。

安全透明

该框架基于区块链技术原理,在很大程度上是分散的。 没有一个实体(或功能强大的少数实体)可以控制基础结构,而是将其分布在提供计算资源并就地执行共识机制的许多节点之间。 它提供了针对攻击的最高保护。 此外,它允许追溯各种数据,算法和过程的来源,支持"来源链"进行审计,同时保证透明度。

网络可扩展性和互操作性

使用PDS(单一的数据真相来源和分散的架构),该框架不会遇到与我们当前系统相同的挑战,解决了有关互操作性和可扩展性的问题。

批判

随着我们以光速进入主要依靠数据工作和运行的数字社会,迫切需要一种新的基础架构来支持数据并满足目标。 现有系统是根据需要随时间推移而构建的,而没有在效率和安全性方面考虑过多。 恶意播放器太容易了,因为当前的体系结构从来没有建立或设计来保护其核心数据。 因此,迁移到"可信数据互联网"不仅令人钦佩,而且是可取的。

我批评的重点是执行力。 尽管给出了各种示例,说明了如何在所谓的"生活实验室"(参与实时实验以测试OPAL框架的可行性的城市和环境)中试用软件体系结构,但是实现方面的挑战是巨大的。 该方法非常具有战略性,并且自上而下。 麻省理工学院与包括政府,大学和研究机构在内的合作伙伴紧密合作,并且要公平起见,要取得如此巨大的成就,您需要拥有这些联系。 但是,您还需要人们的集体支持。

事实是,即使实施了数据保护法规,围绕数据泄露和身份盗用的丑闻(如果以人们的日常行为来衡量),大多数人也不是很担心。 无论是在英国还是在欧盟,无数的研究都发现了这一矛盾。 人们在调查中声明的关于隐私的担忧并不能反映他们每天的实际行为。 从共享数据中获得的便利被认为比围绕数据隐私的问题还重要。 因此,似乎对于保护隐私的框架的需求并不是公众的普遍关注。

如果数据所有者真的不在乎或拥有了解问题的工具,那么大多数政府将不会投资于一个革命性的框架,该框架只有在信息生态系统的所有部分都参与其中时才能发挥作用,最重要的是,数据所有者才是中心 它的。 此外,该书多次强调,要使该框架(特别是数字ID)起作用,就需要全球协作,认可和共识。 不幸的是,围绕集体购买的挑战和大规模调整的需求通常是未能实施基于区块链的解决方案的主要原因之一。 解决方案通常具有突破性的差异,但需要整个生态系统参与才能真正展示其优势和价值。

Shrier确实谈到了这些挑战,还提到许多初创公司正在太空领域进行创新。 然而,就目前而言,执行计划缺乏个人的参与。

我认为,使人们能够通过一个单一的接触点了解其完整的数字足迹,并允许企业和个人之间就数据使用许可进行直接交互的解决方案,将是树立所需意识并获得公众支持的第一步。 实现可信数据互联网。

(本文翻译自Sabrina Palme的文章《A summary of "Trusted Data — A New Framework for Identity and Data Sharing"》,参考:https://medium.com/datadriveninvestor/a-summary-of-trusted-data-a-new-framework-for-identity-and-data-sharing-94ada762b3fe)

,