DataVault

隐私计算方案落地痛点

作为创新技术，隐私计算在应用落地时面临诸多困难。一般而言，安全性，通用性和性能是隐私计算方案首要考虑的三大要素。

传统隐私计算方案可划分为纯密码学方案和软硬件结合方案，两类方案在通用性以及计算性能上都存在缺陷。具体而言：

性能损失：纯密码学方案的计算耗时相比于不用隐私计算的耗时通常增加 100 倍以上，即便是引入硬件加速技术也会降低数倍性能。
通用性降低：纯密码学方案通常需要修改算法源码以接入算子库，而硬件方案则需要增加额外的硬件成本，同时分析程序需要改变指令集以及对内存的使用也有限制。

另一个重要的事实是，安全性也并不是一个二元的概念，很多时候根据场景的不同，客户所要求的安全性保证也是可不断变化的，过度追求安全性而忽视性能和通用性就会导致应用落地停滞不前。

可控计算方案

我们从另一角度出发，在满足通用性和性能基础上提供最核心的安全性保证：数据可控可计算，我们称之为可控计算。

考虑一个典型场景：数据以某种安全的方式迁移到在数据使用方的设备上，使用方可以用数据在本地进行任意的计算，不需要修改任何程序源码，同时可以使用 GPU 在内的任何加速设备。但使用方无法将数据或数据执行的结果文件拷出或者其他 I/O 方式获取。

在此场景中，通用性和性能得以保证，并且提供了灵活的安全性约束。根据场景的不同，数据提供方可以选择性的对数据使用方的分析结果文件进行授权，只有经数据提供方授权的文件才能被导出数据使用方的设备，实现数据可用。

DataVault 可控计算

我们提出了一种可控计算解决方案，DataVault。DataVault 被安装在数据使用方的设备上，其保证数据使用方在数据提供方定义的安全域中对数据进行加工、处理。其中，安全域是一个逻辑上的概念，指由相应密钥和加密算法保护的存储、计算单元。在多数情况下，安全域由数据提供方定义和约束，但相应的存储、计算资源并不由数据提供方提供。需要注意的是，加工、处理后的中间数据和结果数据也应在相同的安全域中。

安全域不会修改应用。用户在已挂载的安全域中使用数据是对安全域是无感知的，满足了理想场景中的通用性和性能。而安全域中的数据在磁盘等存储设备上是加密存储的，这意味着用户通过物理方式直接从存储设备获取的数据无法使用。通过将Datavault和内存加密技术结合，能够防止用户绕过安全域直接从内存中获取数据，进一步提高安全性。

具体而言 DataVault 有如下特性：

零侵入性：DataVault 提供了二进制兼容，基于 DataVault 的应用无需修改代码，这也包括了现有的主流 AI 模型训练框架
通用性：DataVault 支持多种 CPU 架构(x86 & ARM)以及基于 PCI-e 的计算设备(GPU、FPGA、各种加速卡等)
高性能：相比于不用隐私计算的性能损失不到5%，仅多一次数据加解密的运算
安全性：可信基仅为 TPM（Trusted Platform Module,可信赖平台模块）。数据仅能在安全域内使用，文件导出需数据提供方授权。能抵抗窃取内存攻击。

可以发现，DataVault 在 AI 尤其是大模型领域下有广泛的应用场景，由于大模型训练和推理都需要庞大的计算量，传统方案难以实现上述任何场景

大模型训练：算力方服务器上安装 DataVault，数据提供方将海量原始导入对应安全域中，算力方执行大模型训练程序后，将训练出的大模型参数导出给数据提供方，保证了原始数据的隐私性。
大模型推理：具有模型推理能力的服务器上安装 DataVault，大模型厂商将训练好的大模型参数导入用户安全域中，用户可以使用大模型进行各种推理操作，但无法导出大模型参数，保证了大模型参数的隐私性。

点此了解更多 DataVault 的落地案例。

了解更多案例

熠智科技专注工业级隐私计算解决方案，自主研发DataVault可控计算、Fidelius机密计算、YeeZChain区块链、大模型推理一体机和联邦学习平台。提供TB级数据、大模型、智算中心的无侵入性隐私保护产品。

DataVault

隐私计算方案落地痛点

可控计算方案

DataVault 可控计算