前言
着眼未来,芯华章成立研究院,持续探索下一代EDA 2.0的技术路径和发展方向,也因此与许多前沿技术领域的顶尖专家、学者有交流和协作,为创造积蓄更多知识与能量。
本期基于翼方健数首席科学家张霖涛在芯华章生态及产品发布会上的精彩分享进行整理,以期透过分享,让数据创造更多的价值。
嘉宾介绍
张霖涛目前担任翼方健数首席科学家,负责公司技术战略和产品研发。翼方健数是一家深耕隐私计算技术和应用的高科技创业公司。张霖涛博士在加入翼方健数之前曾任微软亚洲研究院 (MSRA)首席研究员和全球合伙人,在人工智能、云计算、形式验证等很多研究领域做出过重要贡献。他的研究工作获得过包括IEEE A. Richard Newton Technical Impact Award in Electronic Design Automation在内的多个最佳论文及研究成就奖。张霖涛本科毕业于北京大学,在普林斯顿大学获计算机工程博士,他是电子工程师学会会士(IEEE Fellow),国际计算机学会杰出会员(ACM Distinguished Member)。
在智能时代,数据是社会和经济发展最重要的驱动力。但数据本身作为一种特殊的生产要素,有很多与传统生产要素不同的属性。如何在安全,合规,保护隐私的前提下让数据流通并最大化创造价值,是一个重要问题。近期被统称为隐私计算的一系列技术手段得到了快速的发展,是促进数据流通的一个最有希望的技术方案。
分享要点
过去的EDA和隐私计算实际上是没有太多交集,但是最近随着EDA慢慢地趋向更多的需要结构化,需要更多的数据驱动,以及更多的采用AI的技术,我相信隐私计算和EDA可能也会产生更多的交集,也能够产生出一些有趣的火花。
数据是智能时代最活跃的一个生产要素,但在经济学上有特殊的非竞争性的特点。过去像其他的生产要素,比如土地,我拥有这块的话,别人不可能再用了。但是数据不一样,数据非常容易拷贝,我用了一块数据,别人可以很容易拥有同样的一块数据。这导致数据有很多细节需要重新考虑。
通过一些技术的手段,不流通数据本身,而是流通数据产生的价值。隐私计算就是这样一种技术实现手段。也就是我们在特定的信任架构下,在保护数据所隐含的隐私和机密,避免数据资产的流失转移和失控的前提下,能够实现分享数据价值的技术产品和方法。
分享内容
各位尊敬的来宾,大家好。非常感谢芯华章的邀请,让我有机会和大家分享隐私计算与数据价值流通共享这个话题。大家都知道芯华章是一家EDA公司,做得非常出色。巧合的是,我在研究生阶段,做的很多工作也是在EDA和验证领域。工作之后,我的工作转向了计算机系统、人工智能等一些方面的研究。
今天有机会和大家来分享一下这个话题。过去的EDA和隐私计算实际上是没有太多交集,但是最近随着EDA慢慢地趋向更多的需要结构化,需要更多的数据驱动,以及更多的采用AI的技术,我相信隐私计算和EDA可能也会产生更多的交集,也能够产生出一些有趣的火花。
首先,大家知道最近的人工智能获得了非常大的进展,我们觉得智能时代已经开始来到了。智能时代,是人类有史以来第一次找到了能够从数据获得知识的途径,这是一个非常有意思的方向,为什么?因为过去我们一直只有人类才有智能,现在我们可以从数据中建立模型,能够从模型中产生产品,并且能够服务社会,所以我们产生了机器认知。机器认知和人类认知的途径不完全重合,所以它从数据服务社会的路径有可能更加更高效,数据的流通就会变得非常重要。
最近大家都认识到,数据是智能时代最活跃的一个生产要素,过去我们其实有很多的生产要素,包括有土地,资本等等。最近大家提出,在智能时代最活跃的要素是数据,数据是一种人造的虚拟资源,它和过去的一些生产要素有很大的区别。
社会数据作为一个新的生产要素有一些特殊的特点,过去数据往往是信息时代的遗留物,而它质量参差不齐,来收集的目的不同,并且往往是非标准化非结构化,所以要用好这个数据实际上是有很多挑战。其中,数据有一些特殊的经济学的特征,就是在经济学上数据有特殊的非竞争性的特点。
过去像其他的生产要素,比如土地,我拥有这块别人不可能再用了,或者资本,我拥有了这块资本,这些钱别人都没有了。但是数据不一样,数据非常容易拷贝,我用了一块数据,别人可以很容易拥有同样的一块数据。这导致数据有很多细节需要重新考虑。
在分析学的维度上,数据有很多隐私、合规、经济安全等等的这些方面的要求,所以会跟过去的其他的这种生产资料、生产要素,有很多的不同。大家都认识到数据是国家竞争力的一种表现的战略,包括我们从中共中央国务院都提出,比如说数据要素化。数据要素的市场化是一种非常重要的方向,中国也是人口大国,产生数据的速度也会非常的快。
从这个角度上来讲,我们作为数据资源的大国,数据本质上是非常需要保护的。
因为刚才说到数据的一些经济学特征,使得数据作为一种资产非常有优势。数据本质上是不能安全流通的,考虑到这些对自己的隐私安全,它具有很多外部的依赖性,导致我们不能安全的流通数据,但是作为一种生产要素,数据对这种生产要素一定需要可控,才能够产生最大的价值。
现在我们会通过一些技术的手段,不流通数据本身而流通数据产生的价值。什么叫数据价值?可能是一些模型,可能是一些洞见,可能是一些知识图谱等等的这些知识,会在网络中流通起来。我们通过一些技术的手段,包括隐私计算,这是我们今天讲的一个话题。
什么叫做隐私计算?隐私计算技术实际上在过去二三十年间得到了飞速的发展,它实际上不是一项单一的技术,它包括一系列的技术手段,使得能够在不接入原始数据的情况下,能够从数据中获得一些计算的结果。
过去在全世界很多的研究,有很多的技术手段,包括多方安全计算、包括平台加密等等一些手段,用密码学的手段来不需要一个可信的第三方完成数据的共同计算。
大概最近10年,也有另外一个技术手段,通过所谓的数据不断能行动这样的一个方法,能够让己方的数据通过模型深度学习或者是机器学习模型的建构,还有一些技术手段,通过一些硬件或者通过一些操作系统方面的手段,做安全沙箱和进行新环境等等这些技术,也能够实现保护数据上做一些计算技术。
当然除了这些主流的技术以外,还有很多的其他技术,包括区块链、零知识证明等等一系列的技术手段被提出来。但是过去在传统意义上的计算技术,往往大家关心的是计算事情本身,现在仅仅考虑计算信息的安全,往往没有考虑数据全周期的安全可以保护,所以我们觉得这种狭义上的一个计算机会非常重要,但是它不能够完全体现出我们现在谈的这个技术。
所以,我们想更广泛地定义一下隐私的安全计算。也就是我们在特定的信任架构下,在保护数据所隐含的隐私和机密,避免数据资产的流失转移和失控的前提下,能够实现分享数据价值的技术产品和方法。
下面来具体谈下什么叫做隐私计算。
我们可以看看像这样子两个图,在左边是一个传统意义上的数据计算,过去如果我们有些数据想要分享出来,想要分享数据价值,以前的做法是这样,我们通过把数据放在一个平台上,数据的使用方在左图中,大家可以看到是医学统计公司,他希望比如说做一些统计或者做一些模型评估,它会从一个原始数据中去做一些查询,这种方法是非常危险的,因为原始数据就流出了传统的医疗数据的平台,这时候数据会被复用,数据存在被泄露、给别人去把控的风险。
我们想谈的隐私计算,实际上是右图所显示的这样一个模式。我们希望大家把数据把计算的模式,都放在中间这样一个三层计算平台上。这个平台可能是一个单台机器,也可能是一个区块链上的很多的机器,有可能是一个云服务等等,我们不限制这样一个平台。就是说所有参与方参与这样一个系统的抽象的平台,这个平台就可以接收数据和计算。
最后从平台的输出只有最后的结果,比如说从医疗公司的角度上来说,他能够从平台中获取的只有他所需要的结果,当然看不到原始的数据,你这个平台内部所有的操作都是可控的,可监测和管理。当然这是非常抽象的一个事件,抽象的一个概念。为了实现这样一个概念,其实还有很多的概念,一方面当然有自己计算的技术。
但是技术之外,还有很多的问题,比如说首先最简单一个问题,应用方是如何发现的数据,在这个平台里面如何发现数据,如何获得数据的使用权,如何看待这些数据是不是能够符合我的要求?
因为有可能,比如说医院有很多的病人,但是满足我需要做评估的病人,到底多少病人会有这种要求,你还没有得到数据授权的工作;各个机构数据可能有不同的格式和字段面,如何可能有效的使用这些数据;为什么大家相信这样这个平台,为什么大家愿意把数据放在这个平台上?模型方为什么愿意相信这个品牌?为什么相信数据方不会把它的模型给偷走。最后,还有如何实现数据价值的分配,让数据产生的价值模型有一些收入以后,如何能够保证数据上也能够获得其中的一些收益等等,这一系列的挑战需要解决。
所以就谈到我们翼方健数这家公司了。我们是成立于2016年,是数据和计算互联网的先行者,专注于隐私安全计算工程,人工智能和大数据,在医疗、政务、金融、营销、科学等领域,都在做自己的开放生态和数据共享协作的一个环境。
我们认为数据,考虑到刚才说的那些因素,他必须要对原始数据进行处理,不能够给大家看到原始的数据,在这个准则下,需要把数据连接起来,形成一个数据算法算例,一起形成一个数据计算互联网。可以想象这个数据和算力,算法也可以进行流通,这就是我们称之为数据原生时代的新型IT infra。
数据是一个最重要的资产,所以一定要数据先行而不是应用。基于这样的考虑,我们在建这样子的网络,目前来进行推动数据驱动的商业和产业,实现数据的价值,满足很多的挑战和机遇。
当然刚才已经提到数据的治理和发现。如何能够发现我需要的,如何能从网络中找到满足我需要的数据,在数据不可见的前提下评估数据的价值。当我发现了数据以后,我当然是要做一个隐私安全计算,如何保证在数据中合法的得到授权的使用,能够保护它的全周期的隐私和资产的安全,这是隐私安全计算。
当然为了要做这样的计算,需要很多资源的调度、算力的调度,可能还需要会选择内存和存储,如何有效的利用不同平台异构的存储和计算资源这样的问题,以及最后我们还要实现计算的价值。由于数据它的价值很多情况下是能够长期的获取,如何能够将行业的动产和应用和资产化的数据算法结合起来,能够得到合理的分配,这也是需要解决的一个问题。
我们实际上在这方面做了很多年的耕耘,建立了一系列的技术。从原始的数据采集,到最后我们产生数据的价值,中间实际上有非常长的链条。
一方面是在这方面做了非常多的工作,其中在数据发现方面的一些产品,比如说我们这个产品,可以应用在不同的行业中,在医疗、营销、保险等等的方面。另一方面,我们打造的一个安全计算平台-XDP。在这个平台上,大家一起协作管理,并且提供了很多的数据的发现能力,以及可以让大家观察数据,能够做计算资源的调配和调度,能够适应多种底层的基础设施,能够支持办学模式训练、统筹管理等等。
很多这里面的技术,我们已经开源了,所以这样使得很多技术也会容易得到大家的信任。
目前有超过90个XDP实际上已经广泛被部署在中国的各行各业中,包括医疗、工程、生物信息、政务,以及一些在数据分享平台,包括公共服务等等一系列的平台之中。
案例分享
最后,我给大家快速介绍成功落地的一些案例,隐私计算是怎么被用在这个行业中的。
其中一个案例,就是多点触发的疾控方案。大家知道最近的疾控是一个非常关心的话题,我们希望能够预测一个传染病会不会爆发,为了要做这样的一个判断,我们可能还需要从很多地方获取数据来做这样一个判断。
比如我们和某个城市一起合作,要判断疾病是不是要发生了,除了健康的数据,除了医院的数据以外,还有很多其他的数据,比如说药品销售的数据,因为很多人在看病之前会去买一些药。这块通过保险的医保,都会获得这方面的数据。
另外还有一些外界数据,比如说天气和搜索引擎等等一系列,都可以用来做这个,可以用来判断这个是否会发生。但是你要把这些数据打通,实际上也是很大的困难。
为此我们部署了这样一个联合几个协会的平台,通过联邦学习的方法,通过安全的方法,把不同的数据进行打通,并且和医疗的一些知识相结合,因此会产生一个非常好的效果。
另外一个案例,实际上是我们通过隐私安全计算的这种模式赋能科研。我们和长三角的生物医学产业大数据联盟,通过智数坊这样的平台,把长三角、西南、大湾区三个节点联通,支持了国家生物信息中心的一个数据使用。在这种情况下,数据能够在节点之间打通。每个节点上,大家可以利用数据做一些工作,但是更可以和其他的节点,相互交互,利用其他节点的数据做一些工作。
刚才讲的都是一些多平台的情况,这里还有一个案例是在香港科技园AI验证平台的案例。这里实际上是一个单独的情况。我们知道很多情况下,一个AI需求方,需要一个很好的AI解决方案,但是需求方往往自己有这个数据,他不愿意分享给供应商,不愿意分享给模型的提供方,反过来AI模型的提供方又不愿意把自己的模型免费的送给AI的信息方。
在这种情况下,我们建立了一个XDP的平台。这样一个解决方案,就是平台上用户就可以安全的做这种模型和算法的评估,大家都不用担心数据失去控制。
最后我们还开发了一个平台,它通过以安全计算的方法,建立一个开放的平台支持,在这个情况下能够保护隐私、保护数据和模型的共享,提供一个高性价比的算力,进行完整的AI供应链。通过一系列的技术,通过隐私安全的技术,建立底层的平台来支持人工智能,特别是中小企业对公司的需求。
希望能够在未来与大家一起合作,通过数据协作,能够让数据创造更多的价值。
审核编辑:汤梓红
全部0条评论
快来发表一下你的评论吧 !