数据共享背景
数据要素是指以电子形式存在的、通过计算的方式参与到生产经营活动并发挥重要价值的数据资源。 在数字经济中,数据要素的角色可与传统的生产要素(如劳动力、资本和土地)相提并论。 数据要素是推动数字经济发展的核心引擎,是赋能行业数字化转型和智能化升级的重要支撑,也是国家基础性战略资源。
近年来,中国出台多项政策文件,明确提出要加快培育数据要素市场、促进数据要素市场流通。总体上看,我国对于数据安全、数据流通的政策、法律法规、标准全套体系日趋完善。
传统数据共享方式
数据流通或者共享技术目前没有统一的认知,而广义上的数据共享技术包括了数据传输、存储和计算所使用的技术。从数据共享的方式来看,一种被认可的划分方式将其分为明文、明文脱敏以及结合隐私计算的数据服务模式。
传统的明文方式通常采用物理介质传输或者网络传输方式,会导致原始数据出域,存在泄露或者被缓存的风险。
明文脱敏的方式会将原始数据进行清洗、处理,确保消除原始数据中的敏感信息,具体来说可以采用一些去标识化技术例如:假名化技术、泛化技术、随机化技术、差分隐私技术等等,目前大量数据共享方式仍然采用此类手段,但上述技术可能会产生副作用例如可能降低数据可用性,也无法满足需求方的定制化需求,同时并未从根本上解决数据泄露风险。
可信数据空间
根据《数据要素安全流通白皮书(2022年)》定义,数据可信流通是指通过多方安全计算、同态加密、联邦学习、安全沙箱计算、可信执行环境等技术,达成使用细粒度的访问控制保证数据“最小可用原则”、将行业数据分级分类与隐私计算的技术手段相结合等方式,实现高规格安全保护和数据“可用而不可见”。
在引入隐私计算技术后,可从技术层面保证数据在共享过程中实现“可用不可见”,这种模式本质上是在确保原始数据不出域或者明文不出域的基础上,仅共享可信的数据计算结果,具体来说几种隐私计算技术实现原理有所不同:
- 在联合建模场景下,联邦学习技术可以实现参与者仅仅交换模型信息(例如梯度等参数),不涉及训练数据集的共享,从而确保在保护数据隐私的前提下,完成算法模型训练的目的;
- 以同态加密为代表的密码学技术,可以使得原始数据在密文状态完成计算,而安全多方计算技术则可以在多个参与方之间仅通过部分密文片段的交互共同完成计算;
- 以可信执行环境为代表的机密计算技术,通过构建隔离的执行环境,来实现数据计算不被外界访问或篡改。
同时,区块链可以极大的降低信用成本,实现数据索引、权属和交易流程的安全存证,基于区块链技术的数据共享平台,不仅可以保障数据的真实、可信,还提供了可追溯途径。
熠智科技推出了天问隐私计算平台,从隐匿查询到联合建模,支持多种可信数据空间场景,可视化便捷操作,零代码低成本接入,让用户更聚焦原有业务。