加州大学伯克利分校的一组科学家进行的新研究使全球数据贫乏的地区有能力分析数据丰富的卫星图像。发表在自然传播上的研究介绍了一种机器学习模型,资源受限的组织和研究人员可以利用该模型提取区域社会经济和环境信息。能够远程评估当地资源有助于指导有效的干预措施并使全球社区受益。
“我们发现,包括我们在内的许多研究人员都放弃了这一有价值的数据源,因为建立计算机视觉管道将原始像素值转化为有用信息的复杂性和前期成本。我们认为 MIG 有一种方法可以使这些信息更容易获取,同时保持最先进方法提供的预测技能。因此,我们开始构建一种实现这一目标的方法,”该研究的合著者伊恩·博利格( Ian Bolliger )说,他在加州大学伯克利分校攻读能源与资源博士学位时参与了这项研究。
在任何时候,数百颗图像采集卫星环绕地球运行,每天向数据库发送大量信息。这些数据对全球挑战(包括健康、经济和环境条件)有着宝贵的洞察力 ,甚至还提供了对数据贫乏和偏远地区的观察。
将卫星图像与机器学习( SIML )相结合已成为将这些原始数据流转化为可用信息的有效工具。研究人员已将 SIML 应用于广泛的研究,从计算贫困率到水的供应,再到教育普及。然而,大多数 SIML 项目捕捉的是一个狭隘主题的信息,创建的数据适合于特定的研究和位置。
研究人员试图创建一个可访问的系统,能够分析和组织来自多个来源的卫星图像,同时降低计算需求。他们创建的工具,称为使用卫星图像和厨房水槽的多任务观测( MOSAIKS ),通过使用相对简单和更有效的无监督机器学习算法来实现这一点。
“我们设计 MOSAIKS 时考虑到单个卫星图像同时包含许多不同预测变量(如森林覆盖率或人口密度)的信息。我们选择使用图像的无监督嵌入来创建每个图像的统计摘要。特征化步骤的无监督性质使得管道的学习和预测步骤非常快,而如何从图像计算这些特征的细节非常适合卫星图像数据,”合著者、博士 Esther Rolf 说。伯克利大学计算机科学系学生。
为了开发模型,研究人员在 AWS 上使用 CUDA – 加速 NVIDIA V100 Tensor Core GPU。公共可用的CodeOcean胶囊使用 NVIDIA GPU ,它提供代码、计算和存储,供任何人交互运行。
图 1 。训练数据(左)和使用日间图像单一特征化的预测(右)。插图(最右侧)在全局地图中用黑色正方形标记。训练样本是对 1000000 个陆地网格单元的统一随机抽样, 498063 个网格单元的图像可用,并且可以与任务标签匹配。
“我们希望资源有限且没有专业计算技能的决策者能够毫不费力地收集卫星图像,建立他们关心的变量模型(比如,是否存在适当的卫生系统),并测试该模型是否实际运行良好。如果他们能够做到这一点,这将大大提高这些信息在实现政策目标方面的有用性,”博利格说。
目前,该团队正在开发和测试一个面向公众的网页界面工具,使人们能够方便地在用户指定的位置查询 MOSAIKS 功能。研究人员鼓励感兴趣的研究人员使用注册作为测试版。
关于作者
Michelle Horton 是 NVIDIA 的高级开发人员通信经理,拥有通信经理和科学作家的背景。她在 NVIDIA 为开发者博客撰文,重点介绍了开发者使用 NVIDIA 技术的多种方式。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !