金数据登录官方网站（TICS端到端实践）|快速备案

摘要：本次TICS端到端体验，将以一个“小微企业信用评分”的场景为例。本文分享自华为云社区《基于华为隐私计算产品TICS实现端到端的企业积分查询作业【玩转华为云】-云社区-华为云》，作者：breakDawn 。本次TICS端到端体验，将以一个“小微企业信用评分”的场景为例。社保、水电气和资助金等数据统一存储在某某政务云，由不同的局进行管理，机构想单独申请进行企业相关评分的计算会非常困难。因此可以由某市政数局出面，统一制定隐私规则，审批数据提供方的数据使用申请，并通过华为Tics可信智能计算平台进行安全计算。数据准备企业税收和资助金情况表tax（partner_gov，属于政府信息提供方，部署在用户计算节点agent_gov上）列名含义字段分类Id企业id唯一标识tax_bal税收敏感Industry行业类型不敏感企业政府资助金数据表support（partner_gov，属于政府信息提供方，部署在用户计算节点agent_gov上）列名含义字段分类Id企业id唯一标识supp_bal资助金金额敏感Industry行业类型不敏感企业水电情况表power（partner_power，能源信息提供方，部署在用户计算节点agent_pow上）列名含义字段分类Id企业id唯一标识electric_bal电费敏感water_bal水费敏感注意以上数据和表结构是根据场景进行模拟的数据，并非真实数据。从业务角度考虑，我安排了五个阶段，来对TICS系统进行验证和测试。阶段一：数据发布首先第一步，肯定是要做好数据准备工作。我们通过新建连接器，让计算节点和数据源进行连通。接着进入数据管理，进行数据集发布。字段分类作用如下：然后我们以同样的方式，发布了 support资助金数据表和power_data能源表。这个过程并不会直接从数据源中导出用户数据，仅仅是从数据源处获取了数据集相关的元数据信息，用于任务的解析、验证等。阶段二：隐私规则防护数据集发布后，作为数据提供方，肯定会担心数据是否可能被随意使用。因此第一步应该先确认tics的隐私规则能力是如何保护大家的数据安全的。假设有人试图直接查询敏感数据：
select

tax_bal, id

from

league_creator.tax则可以看到被提示不支持进行敏感数据的SELECT操作。如果有人试图拿敏感数据加上自己的数据，从结果倒推敏感数据，如下所示：
Select

tax_bal + electric_bal

from

LEAGUE_CREATOR.tax a

join ZZZZZZ.power_data b on a.id = b.id这个操作等同于求原数据，这个操作也会被tics识别并提示出来。阶段三：审批防护上述隐私规则，都是tics系统提供的默认规则。但规则的完善总是有一个过程的，在规则未完全完善之前，作为用户，可能更愿意支持开启审批功能，来进行更“灵活”的作业合法性确认。如下图所示，当有人直接查询我的敏感数据时，我可以在审批详情中，看到对方试图让敏感字段在结果可见，那就可以由该提供方进行识别，并进行拒绝操作。对于两个字段相加的情况，也可以在审批中看到相加的情况，也能看到id是用来做join碰撞的用途。通过查看字段是否可见，以及字段用途，能够确认该字段的应用是否符合自己的安全预期。阶段四：基本计算能力验证下面场景是计算各企业在2021年的价值评分，以用于评估信贷能力，其中的公式并非真实公式，仅仅是一个简单的参考计算式。其目的是为了确认Tics的基础计算能力、
select

c.id as `企业id`,

0.5 * a.tax_bal + 0.8 * b.supp_bal + (0.05 * c.electric_bal + 0.05 * c.water_bal) * 0.1 as `企业评分`

from

Partner1.TAX a,

Partner1SUPPORT b,

Partner2.POWER_DATA c

where

b.id = c.id

and a.id = b.id审批时可以看到如下的情况，涉及关联字段较多，其使用方式都能够在审批界面中展示出来。执行结果如下：可以看到基础的sql语法都能够支持。并且从作业执行页面的提示上来看，已经支持了相当多的常用语法和sql函数。阶段五：基于MPC算法的高安全级别计算如果我度过了前期的demo验证阶段，准备接入更高安全级别的数据，就可能会希望提升数据保护级别，以纯密文的状态做计算，则我可以通过让开启高隐私级别开关,将联盟安全级别默认提升一个等级。再次点击刚才的作业，审批时可以看到敏感数据被进行了同态加密。从DAG图上可以看到 psi + 同态的全过程流向, 基本符合业界已公开的PSI算法流程和同态加密流程。阶段六：统计型作业的差分隐私保护假设有以下作业，试图统计各行业的企业税收总和和用电量总和，进行统计分析
Select

industry,

sum(tax_bal),

sum(electric_bal)

from

LEAGUE_CREATOR.tax a join

dayu002.power_data b

on a.id = b.id

group by

industry但是这种统计分析型的作业，有可能被作业执行方通过增删某个碰撞的id，得到两次作业之间的差值，从而推算出实际taxpay和water_fee此时我可以通过开启差分隐私开关来保护自己的敏感数据，这类作业则都会自动应用差分隐私算法进行加噪保护计算结果，在一定误差范围内保证数据无法被恶意偷取。以下是第一次执行作业时得到的结果：可以从DAG图看到，我们在返回最终统计结果前，增加了一个差分隐私计算的任务节点。接着再执行一个sql，这个sql中过滤掉了某个企业，试图用差值去计算这个企业的税收值。
Select

industry,

sum(tax_bal),

sum(electric_bal)

from

LEAGUE_CREATOR.tax a join

dayu002.power_data b

on a.id = b.id

where a.id <> '123400558'

group by

industry这个企业的实际tax为274：得到新的结果如下：经过计算，66539.583321490225131 – 66078.857559963717677 = -461可以看到并不会像使用者预期的那样直接得到实际的274差值，因此通过差分隐私算法保护了聚合操作的安全性。点击下方，第一时间了解华为云新鲜技术~华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

相关文章