电子说
近日,27 岁的中国黄冈女孩李琼秀,成为欧洲信号处理会议(EUSIPCO)会议年度三分钟论文比赛的冠军,该会议由欧洲信号处理协会(EURASIP)主办,是欧洲信号处理领域的顶级会议。
谈及拿到冠军,她说自己的演讲内容时效性较强,逻辑性也比较强。目前,她正在丹麦奥尔堡大学信息与通信工程读博,马上即将毕业。
演讲中,她提到了前不久发表在 IEEE Transactions on Signal Processing 的论文《通过子空间扰动实现隐私保护的分布式优化:一个通用框架》(Privacy-Preserving Distributed Optimization via Subspace Perturbation: A General Framework)。作为论文第一作者,她已把相关 MATLAB 代码开源到 GitHub 上。
该研究要解决的痛点在于,在日益数字化和互联的现代世界中,人们在处理大量数据时,一般会使用分布式信号处理技术。然而,阻碍分布式信号处理技术广泛使用的一个难题,是在处理敏感数据时的隐私问题。
举一个简单的例子,比如智能电网,很多家庭会安装智能电表,来记录用电量等信息。通过收集这些用电量信息可以做更好的用电规划。
但是用电量不能被随意泄露,有研究表明很多个人信息都能通过用电量泄露,比如家里住了几口人、身体健康情况、以及出行信息等。
李琼秀提醒称,用户不要区分哪项个人信息更重要,其实跟自己相关的每项信息都重要,都有可能泄露很多敏感的个人信息。
举例说,用户的身体健康状况比如是否患有帕金森综合征可以通过语音信息泄露 。再比如说,不法分子可以通过一张匿名的十次公交车票,来推断出乘客的身份信息。
为了保护用户隐私,李琼秀提出一种新型子空间扰动方法,在去中心化系统中它规避了传统的隐私保护算法比如差分隐私和安全多方计算(SMPC)方法的局限性,该方法允许每个节点 / 用户在保护私有数据的前提下,获得所需的解决方案。
通过在子空间中插入扰动噪声,这样不仅可以保护私有数据不被泄露给他人,而且结果的准确性也不受影响。
研究中,她证明出在每个分布式优化器中引入的对偶变量,不会收敛于由图拓扑确定的某个子空间中。此外,算法还保证优化变量收敛于所需的解,因为它与这个非收敛的子空间正交。
因此她通过对偶变量在非收敛的子空间中插入噪声,从而保护私有数据,并且所期望的解的精度完全不受影响。
研究证明,该方法在被动(半诚实)和窃听两种广泛使用的攻击者模型下是安全的,她还考虑了一些常用的分布式优化算子如交替方向乘子法(ADMM)和 PDMM,以证明该方法的一般适用性。
最后,李琼秀通过一组应用程序来测试性能。数值测试表明,该方法在估计精度、隐私水平、通信成本和收敛速度等参数方面都优于现有的方法。
与传统的集中式系统相比,所有数据必须首先从不同的单元收集,然后在中央服务器上处理,而分布式信号处理利用网络特性绕过了这一限制。
也就是说,每个节点 / 单元不依赖于单一的集中协调,而是能够从邻居那里收集信息,并对整个网络数据的子集进行计算。这种分布式处理有许多优点,例如允许节点数量的灵活可伸缩性,以及对图拓扑的动态变化的鲁棒性。
目前,分布式系统中的计算单元 / 节点资源往往比较有限,因为平板电脑和手机成为多数用户使用的主要计算设备。
这些设备通常包含可使用无线通信形成所谓的临时网络的传感器,因此这些设备可通过共享计算资源和传感器数据来协作解决问题。
然而,从 GPS、照相机和麦克风等传感器收集到的信息中,通常包括个人数据,这很让人担忧,因为这些数据本质上是私有的。
分布式优化算法在各个领域有广泛应用,因为分布式系统中的许多传统信号处理问题,可以等价形成凸优化问题。
由于分布式优化的普遍适用性和灵活性,优化已经出现在声学信号处理、控制理论和图像处理等广泛的应用中。
通常,分布式优化的范式是将网络上的全局目标函数,分离为几个局部目标函数,即只能通过与邻居交换数据来解决全局目标优化问题。
这种数据交换是引起隐私问题的主要原因,因为交换的数据通常包含敏感信息,而传统的分布式优化方案并不能解决这个隐私问题。因此,如何设计一个能够处理敏感数据的分布式优化器,是该领域需要克服的挑战。
兼容可通用,可解决所有凸的分布式优化问题
李琼秀告诉 DeepTech,基于分布式优化的子空间扰动算法是一个可兼容的通用的隐私保护算法, 可以解决所有凸的分布式优化问题。
此前在该领域主流算法有两种:差分隐私算法和安全多方计算算法。以差分隐私算法为例,其主要缺点在于结果不太准确,而本算法的结果非常准确。
谈及研究步骤,她表示,在做隐私保护的研究时,很多学者的初始想法是从密码学中寻找已经合适并且成熟的工具来应用到自己的研究领域中,所以主流的隐私保护分布式优化算法主要包括差分隐私和安全多方计算这两种已有算法。
而李琼秀则另辟蹊径,从分布式优化算法本身出发,发现了该问题本身存在一种子空间特性。
基于该特性,她提出如果把噪声扰动放在不受影响的子空间中,可达到既不影响最后结果准确度、还能隐私保护的效果。她说,正因为自己的想法,完全区别于主流算法,所以才能被 IEEE TSP 收录论文。
研究中,她用 MATLAB 语言做了仿真,为了证明猜想的正确性,她首先模拟一个分布式(去中心化)的系统,系统中每个用户 & 节点都只与和自己足够接近的邻居相连接,只有连接的用户之间才能交流通信。
然后在这个分布式系统试验解决一些常见的分布式优化问题,接着再通过提出的隐私保护算法来解决这些问题,最终通过仿真结果严重算法性能。
该算法具有两大优点,李琼秀表示,这两大优点是和前文提到的两种算法对比后得出的。其一是相比于差分隐私,它的优点是不需要在隐私和算法准确度之间权衡取舍;
其二,相比于安全多方计算里的同态加密和秘密共享技术,其计算和传输复杂度都很小。她说,整个算法非常优雅,只是对其进行初始化,即可进行隐私保护。
在前文提到的三分钟演讲中,她提到一个新冠追踪 App 的案例,由于欧盟的通用数据保护条例(GDPR),欧洲这边开发此类追踪 App 同时必须遵守此类隐私保护法律。
比如在她的留学所在国丹麦,在推出新馆追踪 App 之前花了很久的时间嵌入隐私保护算法来保证用户隐私信息不被泄露。
无需经过第三方权威的去中心化信号处理
她还讲到分布式信号处理,事实上这也是一种去中心化信号处理。不同于中心化信号处理,去中心化信号处理无需经过一个第三方权威。
以手机使用的谷歌服务为例,所有用户都是依赖谷歌,谷歌角色为权威第三方。而去中心化,则无需依赖谷歌,通过用户 A 和用户 B 之间的直接一对一交流,即可形成分布式网络。
也就是无需完全依赖于第三方权威。中心化的缺点在于要完全依赖(很多时候也需要信任)第三方,但是第三方是否值得依赖和信任还得另说。
而在去中心化系统中做隐私保护,正是李琼秀研究的课题。但是在去中心化信号处理,用户 A 要面对很多其他用户,这时要做隐私保护,一是不能直接把秘密告诉别人。
这时最常用的做法,是设计一个加密方程,然后在上面做一个噪声扰动,把秘密变得 “不像秘密”,这时向外界展示被扰动的东西,其他人就无法获悉真正的秘密。
而之后的计算比如机器学习、跟踪优化等,都是在被扰动的数据上面计算,由此达到保留秘密、合作双赢的目的。
说起自己研究的分布式优化,李琼秀说可能很多人觉得和自己的研究领域没关系,但其实很多领域都没办法离开优化,分布式优化可应用到很多领域,比如机器学习,联邦学习等。
基于上次论文,李琼秀正在对算法做量化,即在减少算法传输带宽的同时,还能保证收敛速度和算法准确度。
坚持读博梦,工作后重新踏入校园
李琼秀生于 1993 年,来自湖北省黄冈市浠水县的一个小村庄,大学考上东北大学秦皇岛分校,学习电子信息工程,本科总成绩排名专业第一。
大学毕业后拿到全额奖学金(学费+生活费)进入韩国仁荷大学学习信息与通信工程,攻读硕士学位。谈及为什么选择韩国攻读硕士学位,她表示主要是由于经济原因,其实她本身是希望去欧洲读硕士。
2016 年底,在硕士第三学期时李琼秀尝试申请丹麦奥尔堡大学信息与通信工程马德・格拉斯布尔・克里斯滕森(Mads Græsbøll Christensen)教授的博士生,但是很遗憾由于硕士还没有毕业所以没有入学资格。
硕士毕业后, 她选择来到杭州工作。大约半年后,收到克里斯滕森教授的邀请,说他有一个新项目需要招募博士生,问其是否还愿意来丹麦读博。
这点燃了李琼秀心中的博士梦,抱着对学术的憧憬和向往,她很快飞到丹麦读书,并在读博期间,来到代尔夫特理工大学的 Richard Heusdens 教授的研究组做了几个月的访问学者。
谈及未来,她计划前往新加坡国立大学和美国普林斯顿大学做博后,并且会继续做隐私保护去中心化相关的研究,之后再考虑到底去业界还是去高校工作的问题。
责任编辑:haq
全部0条评论
快来发表一下你的评论吧 !