熠智科技专注工业级隐私计算解决方案,自主研发DataVault可控计算、Fidelius机密计算、YeeZChain区块链、大模型推理一体机和联邦学习平台。提供TB级数据、大模型、智算中心的无侵入性隐私保护产品。

logo

隐私保护与区块链


什么是隐私保护?


隐私保护是一个十分庞杂的概念,通常是指使个人或集体等实体不愿意被外人知道的信息得到应有的保护。对于个人来说,一类重要的隐私是个人的身份信息,即利用该信息可以直接或者间接地通过连接查询追溯到某个人在某个时间的某个地点干了某个事情; 对于集体来说,隐私一般是指代表一个团体各种行为的敏感信息,也就是某个团体在某个时间的某个地点干了某个事情[1]。 隐私保护的技术有很多,比如关于身份的隐私保护技术就有混淆、群签名、盲签名、k匿名、差分隐私、多方安全计算等技术,甚至洋葱路由器tor也属于一种身份保护的技术。不同的隐私保护技术解决不同场景下的隐私保护问题,有时候这些技术也搭配在一起使用。 


个人隐私与企业隐私


隐私保护在产品化方面显得十分的薄弱,迄今为止,似乎最直接相关的产品也只看到Apple的Differential Privacy差分隐私以及Google的联邦学习(实际上这两个产品我们普通人也很少听说过)。一方面这是由于大众对于隐私保护的意识薄弱;更重要的原因是,隐私保护和企业实现商业价值是冲突的,一定程度上使得大多数的企业在隐私保护的问题上动力不足。

对于很多互联网公司,获取用户的个人数据涉及到公司的核心利益,从Google、Facebook,到阿里巴巴、百度、腾讯,在一定程度上都是通过收集大量的个人数据实现了用极低的边际效应实现新的产品,例如在这些公司的收益中占比极高的广告投放,这也是为什么虽然Web3,Solid等项目一直在提倡数据个人化,但是少有大的企业响应的原因。 也许你已经注意到了,我们说的用户隐私基本上都是指“个人用户的隐私”,然而个人用户的隐私和企业的隐私是不同的。举个例子,对于个人来说,双十一当天花了19.9元在淘宝某店家买了个打蛋器就属于个人隐私;而对于企业,双十一当天和另一个企业签署了一个金额为100万的关于XXX的合同,就属于企业隐私。两类隐私在形式上虽然类似,但是产生的影响不同,面临的法律也不同,企业的动机也不同。

个人用户的隐私有着非常多的法律限制,国内相关的法律就有《民法典》、 《个人信息保护法》 、《刑法修正案七》、《刑法修正案九》、《网络安全法》、《电信和互联网用户个人信息保护规定》、《儿童个人信息网络保护规定》等,国外相关的法律有《通用数据保护条例》(GDPR)等[2]。这就要求技术上必须能够满足这些法律的要求,从而帮助企业规避可能的法律惩罚,因此,企业对于个人用户数据的隐私保护是“不得不做,但以最小的代价来做”。目前,大多数的互联网公司在收集个人数据时,只是尽到了告知的责任,规避法律法规的风险,而不是真正的保护用户的隐私。总之,对于个人用户数据如何保护隐私的问题,需要我们每个人加强对隐私的重视、法律法规的健全、监管的落实以及企业的配合,这是个十分复杂的问题我们在这里就不详细展开讨论了。

而对于企业自身数据(例如经营和销售数据),企业却需要主动引入隐私保护,这倒不难好理解,因为这些数据的泄露会对企业造成严重的损失,因而企业本身有足够的动机(或者说压力)投入大量资金和精力到企业数据隐私保护中。

近年来企业数据的隐私保护也越来越被重视,这主要归因于产业互联网的发展。

产业互联网不同于传统的To C的消费互联网(例如前面提到的Google,Facebook,阿里巴巴,腾讯、百度等),产业互联网上的数据将和个人无关,而是和企业相关,例如企业的财务数据、合同数据、采购、销售、检测等数据,这些数据量并不能与消费互联网的数据量相提并论,然而,5G的到来却改变了这一切,大量的传感器、物联网设备的数据接入,将使产业互联网上的数据规模远远超过消费互联网。例如智慧路灯上将实时收集周围环境的数据:温度、湿度、空气指数、人流的图像检测、车流的图像检测、电力数据等;地铁线路上将布满传感器,用于检测列车的运行情况、轨道的震动情况等。可以预见,随着大量物联网设备、传感器以5G的方式接入产业互联网,产业互联网上的数据增长和数据规模将是十分惊人的。企业在收集到这些数据之后,有着十分强的动机去保护这些数据的隐私,因为这些数据不但影响到社会的安全与稳定,更是关系到企业的竞争力。例如,生产线上传感器的数据,很可能可以分析出企业的生产状况,并进一步了解企业的经营状况。因此,虽然关于企业数据隐私相关的法律法规并不多,但是我们依然认为在企业数据的隐私保护方面,将会有着爆发性的增长。 对于产业互联网上的企业数据,另一个显著的特征是数据合作的需求更加巨大,这也给隐私保护带来了新的挑战。

然而解决这些挑战的工具之一,就是区块链。 


什么是区块链?


这个问题看起来老生常谈,但其实又不好回答,这里也ctr c+v一些“官方”定义,感兴趣的朋友也可以看看我们之前的一篇文章。


《区块链到底能干什么?》

https://zhuanlan.zhihu.com/p/96604495


区块链 (Blockchain) 是一种由多方共同维护,使用密码学保证传输和访问安全,能够实现数据一致存储、难以篡改、防止抵赖的记账技术,在某些领域也被称为分布式账本(Distributed Ledger)。值得注意的是,区块链并不是一种单一的技术,而是多种技术整合的结果,包括但不限于分布式存储、共识机制、智能合约、对称/不对 称加密等等。这些技术以新的结构组合在一起,形成了一种新的数据记录、存储和表达的方式。    

区块链开创了一种在不可信的竞争环境中低成本建立信任的新型计算范式和协作模式,凭借其独有的信任建立机制,实现了穿透式监管和信任逐级传递[3]。区块链源于加密数字货币,目前正在向垂直领域延伸,蕴含着巨大的变革潜力,有望成为数字经济信息基础设施的重要组件,正在改变诸多行业的发展图景。     


为什么隐私保护需要区块链?


在很多关于隐私保护的技术方案中,并没有提到区块链。但我们发现,区块链为隐私保护提供了至少两方面的重要支持:可信第三方以及抵抗作弊,这两点使得区块链在隐私保护中是必不可少的。 首先,做为可信第三方,区块链提供了可靠的传输通道以及可靠的验证方。在不使用区块链的情况下,可靠的数据传输可以通过搭建专用网络(成本极高),也可以通过HTTPS的方式进行,然而这需要依赖于HTTPS的证书服务,在企业只有内网的情况下,这需要自建证书服务器,更进一步的,当多个只有内网的企业之间进行可靠传输的时候,就需要跨域的证书服务器,服务器本身的搭建、维护成本尚可以接受,然而,证书的发放、撤销权限意味着权力的集中,如何在对等的多个主体之间建立这样一个中心化的证书服务机构,有着极高的行政成本以及社会成本;可靠的验证是指在隐私保护中所必须的密码验证环节,例如对于签名的验证,零知识证明中的验证等等,同样的,这些验证服务如果在中心化机构或节点上验证,也会有极高的行政成本及社会成本。区块链作为一个可信的第三方,通过共识的方式,参与共识的节点通过区块链共同进行证书的发放、授权、签名验证、零知识证明验证等,以极低的成本,在多个对等的主体之间建立“可信第三方”。 其次,区块链作为一个在共识节点之间共同维护的账本,有着极强的抗作弊性,这在有某种信用体系的数据合作中显得尤为重要。假设存在一个不使用区块链的中心化数据交易平台,该平台使用了多方安全计算、同态加密等技术,保证了数据隐私,也保证了数据分析结果的正确性、合法性,在这样一个平台上,购买数据的行为会被数据的交易记录所影响,也就是说一个被购买更多的数据会被更多的人购买(这和淘宝等电商平台类似)。因此,类似于淘宝上的刷单行为,这样一个数据交易平台上极有可能出现通过“左手倒右手”的刷单行为来提高自身信用的情况,因为是在一个中心化的数据交易平台上,因此这种作弊行为的处理很大程度上依赖于该交易平台本身,交易平台可以通过“付费推荐”或“作弊惩罚”等机制影响这一信用系统,这都依赖于交易平台本身的意愿。而在使用区块链的数据合作平台上,数据合作的记录是“有迹可循”的,一方面,共识节点可以使用相应的抗作弊策略,另一方面,区块链上的不可篡改的记录也为后续的信用评价提供了“永久”的数据。 


为什么区块链需要隐私保护?


反过来思考,区块链需要隐私保护吗?

答案也是肯定的。

首先区块链的始祖比特币本身就是一个匿名交易的电子货币,用户的身份用十六进制字符串(也叫公钥)来表示,这就是一种身份隐藏。随后的ZCash,Monero等数字货币,运用密码学技术将链上交易的隐私保护做到了极致。

那么没有货币交易的区块链系统呢?比如很多联盟链,本身并没有发币,是否也需要隐私保护?

我们知道,区块链是一个公开的账本,这意味着任何接入区块链的节点都可以看到所有的数据,对于有接入门槛的联盟链而言,这意味着所有接入该联盟链的单位都是可以看到所有的数据的。由于接入联盟链的单位的强相关性,这本身就意味着极大的隐私泄露。

目前,联盟链在数据隐私方面常见的做法是划分不同的“域”或“名字空间”,同一个“域”内的区块链数据是共享的,“域”外的节点不能访问这部分数据,Fabric以及趣链正是采用了类似的技术。

但是,这仍然存在很大的不足:


1.虽然外部的节点无法访问这部分数据,然而在网络层,外部的节点依然可以访问这部分数据(例如Fabric的Ordering服务);

2.“域”内的节点仍然可以访问所有的数据,因此隐私保护的粒度还是比较粗;

3.为了保护任意多方之间的隐私,需要构建大量(O(n^2))的“域”,构建、并且维护这种数量级的“域”的开销很重;

4.在区块链中,可信的重要假设是51%或2/3*n +1个诚实节点的存在,然而,基于“域”或“名字空间”的数据安全则是假设“域”或“名字空间”内的的任意一个节点都是诚实的,且不会泄露隐私数据,这大大削弱了区块链的假设,使得其可信度大大降低。

几乎可以认为,当一个“域”或“名字空间”中的节点足够多时,其中几乎必然存在一个或多个不诚实的节点从而泄露隐私数据。


因此,基本而言,现有的联盟链的隐私保护技术还处于一片空白的状态。


那么在区块链上进行隐私计算需要什么样的技术呢?

我们下篇文章继续聊。 

(原文链接:https://zhuanlan.zhihu.com/p/164727345)


参考:

1.隐私保护 智库百科

https://wiki.mbalib.com/wiki/%E9%9A%90%E7%A7%81%E4%BF%9D%E6%8A%A4

2.《腾讯隐私保护白皮书》

https://baijiahao.baidu.com/s?id=1621013589333380911&wfr=spider&for=pc

3.中国信息通信研究院发布《区块链白皮书(2019)》