机器学习在显微技术领域的应用

Tensorflowers 2018-07-25 3655

描述

在生物学和医学领域，研究人员通常利用显微技术观察肉眼无法看到的细胞和分子的细节。透射光显微技术的原理是对生物样本单侧照射并生成图像，操作相对简单且活体培养样本耐受度高，但通过这种方式生成的图像难以正确评估。而荧光显微技术可以使用荧光分子将需要观察的生物目标（如细胞核）标上颜色，这种做法简化了分析，但需要繁琐的样本制备。

随着机器学习（包括用于自动评估图像质量和协助病理学家诊断癌组织的算法）在显微技术领域的应用日益增多，我们想知道是否可以开发一种能够结合两种显微技术的优点，同时最大限度减少缺点的深度学习系统。

在 “In Silico Labeling:Predicting Fluorescent Labels in Unlabeled Images” 一文（今日刊登于《Cell》杂志）中，我们展示了一个新的深度神经网络，这个网络能够通过透射光图像预测荧光图像，无需修改细胞就可以生成带标记的有用图像，从而允许对未修改的细胞作纵向研究、在细胞治疗中实现微创细胞筛查，以及同时运用大量标记进行调查。我们也开源了网络，并提供了完整的训练与测试数据、训练模型检查点和示例代码。

背景

透射光显微技术操作简单，但生成的图像难以分辨。以下图为例，这是通过相衬显微镜获得的一个图像，其中的像素强度表示光线穿过样本时相位变化的程度。

利用诱导性多能干细胞培养的人体运动神经元的透射光（相衬显微镜）图像。图样 1 显示的是疑似神经元的一组细胞。图样 2 显示图像有缺损，底层细胞模糊不清。图样 3 显示的是神经突。图样 4 显示的内容疑似死细胞。比例尺：40 微米。这一组图像和以下图片均来自 Gladstone 研究所的 Finkbeiner 实验室。

在上图中，很难判断图样 1 的神经元簇中的细胞数量，也无法看出图样 4 中细胞的位置和状态（提示：在中上方位置有一个非常不明显的扁平细胞）。同时也很难始终让精细结构保持在对焦范围内，如图样 3 中的神经突。

我们可以通过在 z 堆栈中获取图像，利用透射光显微技术获得更多信息：在 (x, y) 中配准图像，而 z（与相机的距离）会系统地发生变化。这会使细胞的不同部分对焦或脱焦，从而提供样本的 3D 结构信息。遗憾的是，通常只有有经验的分析人员才能看懂 z 堆栈，而此类 z 堆栈的分析目前在很大程度上还无法实现自动化。下面是一个 z 堆栈示例。

相同细胞的相衬显微镜 z 堆栈。注意焦点移动时表象的相应变化。现在我们可以看出，图样 1 右下方的模糊形状是单个椭圆形细胞，图样 4 中最右边的细胞比最上面的细胞还要长，这表明它可能经历了细胞程序性死亡。

在用荧光显微技术观察到的图像中，研究人员用荧光对要观察的内容进行了精心标记，因而，相比之下分析起来更加容易。例如，大多数人类细胞只有一个细胞核，因此可以进行细胞核标记（如下图的蓝色标记），这就使得利用简单工具查找图像中的细胞和统计细胞数量成为可能。

相同细胞的荧光显微图像。蓝色荧光标记集中于 DNA，突出了细胞核。绿色荧光标记集中于仅存在于树突（一种神经子结构）中的蛋白质。红色荧光标记集中于仅存在于轴突（另一种神经子结构）中的蛋白质。通过这些标记，可以更轻松地了解样本中发生的情况。例如，图样 1 中的绿色和红色标记确认这是神经元簇。图样 3 中的红色标记显示神经突是轴突而不是树突。图样 4 中左上方的蓝点显示出之前难以辨认的细胞核，而左侧细胞缺失蓝点，表明它是无 DNA 的细胞碎片。

不过，荧光显微技术存在严重的缺陷。首先，样本制备和荧光标记本身增加了复杂程度和变数。其次，如果样本中存在许多不同的荧光标记，光谱重叠会使人很难分辨出哪一种颜色属于哪个标记，因此，研究人员通常只能在一个样本中同时使用 3 到 4 个标记。再次，荧光标记可能对细胞有害，有时还可能直接杀死细胞，这样一来，在需要随着时间推移跟踪细胞的纵向研究中很难使用标记。

利用深度学习发现更多信息

在论文中，我们展示深度神经网络可以根据透射光 z 堆栈预测荧光图像。为此，我们创建了一个与荧光图像匹配的透射光 z 堆栈数据集，并训练了一个神经网络来根据 z 堆栈预测荧光图像。具体过程如下图所示。

我们系统的概览。(A) 训练示例的数据集：z 堆栈的透射光图像对与同一场景下像素配准的荧光图像集。使用几种不同的荧光标记生成荧光图像，并且不同训练示例中所用的标记也各不相同；棋盘格图像表示没有为给定示例获取的荧光标记。(B) 未训练的深度网络使用数据 A 训练 (C)。(D) 新场景下图像的 z 堆栈。(E) 训练的网络 C 用于为新图像 D 中的每个像素预测从 A 中学习的荧光标记。

在研究过程中，受到 Inception 模块化设计的启发，我们开发了一种新型神经网络，此网络由以下三种基本构建块组成：in-scale 配置（不改变特征的空间缩放）、down-scale 配置（将空间缩放加倍）以及 up-scale 配置（将空间缩放减半）。这样一来，网络架构设计的难题分解为两个简单的问题：构建块（宏架构）的安排以及构建块本身（微架构）的设计。我们使用论文中讨论的设计原则解决了第一个问题，第二个问题则通过由 Google Hypertune 提供支持的自动搜索加以解决。

为了确保方法的合理性，我们使用来自 Alphabet 实验室以及两个外部合作伙伴的数据对模型进行了验证：Gladstone 研究所的 Steve Finkbeiner 实验室和哈佛大学 Rubin 实验室。这些数据包含了三种透射光成像模式（亮视野、相衬和微分干涉对比）和三种培养类型（来自诱导性多能干细胞的人体运动神经元、老鼠大脑皮层培养和人类乳腺癌细胞）。结果发现，我们的方法可以准确预测细胞核、细胞类型（例如神经细胞）和细胞状态（例如细胞死亡）等的多个标记。下图显示了模型对透射光输入的预测以及我们运动神经元示例的荧光实况。

动画显示了相同细胞的透射光和荧光成像以及我们的模型预测的荧光标记。根据图样 2 所示，尽管输入图像中存在伪像，模型依然正确预测了标记。在图样 3 中，模型可能基于过程与最近的细胞之间的距离推断出这些过程是轴突。在图样 4 中，模型在顶部显示出之前难以辨认的细胞，并将左侧的物体正确识别为无 DNA 的细胞碎片。

打开APP阅读更多精彩内容