小米首个AI大模型计算摄影平台Xiaomi AISP介绍

小米公司 2024-03-14 4402

描述

2月22日，小米龙年第一场重磅发布会，正式发布专业影像旗舰小米14 Ultra。

此前小米发布的两代 Ultra，在不同维度，引领了移动影像行业的走向。最新的小米14 Ultra 在定义的时候，我们反复在思考：怎么才能把移动影像推向一个全新的层次？

为此，小米跟徕卡、用户、摄影师、专家学者做了大量的交流，最终确定小米14 Ultra 影像追求的目标：让真实有层次，要细节丰富，过渡细腻；要主次明确，远近分明，通过好的技术和审美，还原生活的丰富、从而直指人心。

当 AI 大模型与手机影像结合，会碰撞出什么火花？

为了让基于 AI 大模型实现的手机影像系统更符合小米的“光学味”，在结合小米14 Ultra 的设计理念下，我们层次性地去释放大模型的能力，给用户带来突破性的效果和使用体验。

这里，要和大家重点介绍小米首个 AI 大模型计算摄影平台 Xiaomi AISP，也是小米影像大脑的全新升级。Xiaomi AISP 是计算摄影的强力之作，它有哪些革命性升级？我们一起来看。

Xiaomi AISP

首个 AI 大模型计算摄影平台

AI 大模型一经问世，便展现了其惊人的技术能力，各行各业都相继涌现出了利用 AI 大模型来推动技术变革的不同思路。小米相机团队也一直在思考，AI 大模型会给手机影像带来哪些变革？又如何将 AI 大模型技术更好地引入到手机影像系统里来？

经过不断地技术验证及效果评估，小米确定了开发基于 AI 大模型的 Xiaomi AISP 影像处理系统的目标，并在效果、算力、生成三个方面有了独家的见解和想法创新。

效果：在图像领域，AI 大模型最初被用来生成描述包含各式内容、具有指定风格的图像。但随着技术的迭代，生成图像的质量、真实性、分辨率越来越高，甚至达到了影棚级的效果。

若将大模型用到相机影像系统的任务中，处理噪声、影调、人像等问题，效果是不是会更好？团队带着问题开始尝试和探索，认为在具备一定质量的图像输入的前提下，经过合适的调整和匹配，AI 大模型会得到相较于传统方法或者第一代 AI 技术更好的效果。

算力：算力，是将大模型应用到手机上、拍照影像系统里最大的问题。团队为了能将 AI 大模型应用到实时性要求非常高的手机相机影像系统中，在模型重构设计、模型求解优化（推理迭代）以及系统级管线管理及多硬件算法分配方面，投入了非常多的资源，也攻克了许多关键性的问题。

通过重新设计、训练适合相机影像任务的小型化 AI 大模型，并基于小米澎湃 OS 和自研的异构加速平台，全面整合了 CPU、GPU、NPU 和 ISP 的平台算力（计算能力达到 60 TOPS），最终成功地实现了基于 AI 大模型的 ISP 系统解决了端侧、拍照模型运行的速度、功耗等问题。

生成：为了让基于 AI 大模型实现的相机影像系统更符合小米的“光学味”，在结合小米14 Ultra 的设计理念下，我们层次性地去释放大模型的能力。在基础的影像功能任务和场景，从多个维度相对保守的使用了 AI 大模型的生成能力，以保持大模型原有的优势；相反的，在超出光学和传感器物理极限的场景，我们会适当释放大模型的生成能力，以带来不一样的效果体验。

本次推出的14 Ultra 所使用的 Xiaomi AISP 平台便是通过对效果、算力、生成的创新思考，基于 Stable Diffusion 模型（图像处理领域的基础 AI 大模型）开发。

依据相机影像功能间的耦合程度以及相机功能特点，小米将 Xiaomi AISP 拆分成四类大模型，即融合光学大模型、影调大模型、色彩大模型及人像大模型，并且各个模型都经过了小型化、异构并行等加速处理，以符合手机端侧、拍照功能客观需求特点。

经过这四类大模型不同的组合方式并结合影像处理流程的其他模块，实现了基于 Xiaomi AISP 的全新的相机功能，接下来让我们展开介绍。

AI 超级变焦

恢复超高清远景瞬间

清晰地捕捉动人瞬间，不受拍摄距离远近的影响，留住想要记录的真实。小米首次将 AIGC 技术应用到计算摄影领域，带来了能精准预测“看到什么”、“想要呈现什么样”的影像，解决相机中长焦功能拍摄距离远，成片效果模糊不清，缺少真实性的问题，并利用先进的 Stable Diffusion 大模型将其生成为图片的 AI 超级变焦（Ultra Zoom）功能。

以往 AIGC 往往使用在如魔法消除等后处理功能中，而如今应用在实时出图的功能中，小米走在了前列。可以说，Ultra Zoom 是 AIGC 在影像领域应用的革命性创新。

受硬件限制，长焦高倍率拍摄场景一直以来都是行业难题之一。相比于专业相机，手机相机的传感器、光圈都更小，限制了最终拍摄图像的空间分辨率和聚光能力。因此当我们在拍摄远景时，大气扰动叠加镜头光学模糊、像素欠采样等影响都会导致手机相机传感器捕捉的照片出现清晰度不足、线条扭曲、细节丢失等现象。

由于 Zoom 倍率比较大，现有相机通常采用对图像裁切并插值放大的方式来实现数字变焦，进一步导致图像变得模糊，失真也更严重，影响最终拍摄出图画质。

随着大模型技术的出现，我们在思考是否可以借助大模型的强大生成能力和泛化能力来提升移动端相机在长焦高倍率的拍摄效果。于是，展开了 Ultra Zoom 算法的研发，利用超大参数量的新一代网络架构，对精心清洗的大量（超过200w)超高清数据进行学习，使得模型具备了对细节恢复任务的充分理解及知识迁移，实现对远摄场景自适应超清优化效果。

Ultra Zoom 以 Stable Diffusion 大模型为基座，融合了场景分割、超分辨率等多项技术，以低清图像作为提示，结合大模型的先验知识，“猜想”出物体的纹理和细节，带来真正可用的超高倍率变焦效果。

▍大模型轻量化升级，部署移动端侧

Stable Diffusion 大模型虽然具有强大的理解能力和生成能力，但数十亿的参数量对于算力和存储都受限的手机移动端部署是巨大的挑战，很多特殊的计算操作是手机端侧目前无法支持的。即使部分算子能够进行支持，推理时间也是达到了数十秒，尽管目前出现了很多关于 Diffusion 推理性能的优化方案，但是想直接应用到对实时性要求较高的手机拍照上，还有很大差距，大模型如何轻量化到可以进行端侧部署是一大难题。

为了解决以上问题，我们对齐硬件平台规格，对低效算子进行替换，同时结合量化、剪枝技术，实现了硬件感知的性能优化。同时从迭代推理部署入手，结合潜在一致性模型思想，将原本上千步的迭代优化到了6步以内，降低推理迭代计算负担。最后结合大模型蒸馏技术，保证轻量化后的 Stable Diffusion 相比原来推理精度损失最小，达到秒级推理高清 4K 图像的水平，可成功部署在移动端。

▍真实清晰双向并行，提升画面细节

基于大模型的图像生成任务中，保真度和清晰度的平衡是一个非常重要的难点。保真度通常指的是生成的图像与真实物理场景的相似度，而清晰度则指的是生成的图像的细节和清晰程度。例如拍摄一张远处的大楼，如果扩散模型过于注重清晰度和细节，那么可能会在大楼的墙面生成砖纹，但真实的大楼可能是没有砖纹或者不同形状的砖纹，这样生成的图像就会失去真实感和自然感。相反，如果扩散模型过于注重保真度，没有生成砖纹，反而将墙面抹的很平，那么就不会带来画面清晰度和细节的提升。

为了在保真度和清晰度之间寻求最优平衡点，团队采用局部判别学习的方式，对细节信息和异常纹理进行区分处理，对细节进行信息增强和恢复，对异常纹理进行抑制和去除。同时研发了特征控制模块，对不同场景和不同图像内容进行生成信息强度的引导，实现场景自适应的保真度和清晰度平衡。

AI 超级变焦功能生成的照片虽然可观性更强，但是它加入了 AI 算法的修饰，并非完全的真实。真实性，是小米在影像战略道路上一直坚守的方向。因此，对于 Ultra Zoom 所生成的图像，小米都给予了它们加密的 AI 标签，这是一个藏在画面中的「AI 暗水印」，这个信息不会随着修图或者分享而消失，从而保持照片来源的客观性和真实性。

Ultra Raw 超级底片

塑造移动摄影新基底

让移动摄影再迈进一步，定义属于这个时代的新层次。得益于 Xiaomi AISP，小米14 Ultra 拥有全新融合光学大模型（FusionLM）算法，打破了常规的先剪切再拼接逻辑，最大化的保留了完整的原始光强信息，做到原始光强线性校准，在合成一张图片时，突破了旧有合成技术过渡不自然不顺滑的问题。

诞生于 Xiaomi AISP 计算管线多帧融合光学数据的 Ultra Raw 超级底片，能在 HDR 照片拍摄时，把多帧不同亮度的图片以“像素”为单位合而为一，保留多帧完整的原始光强信息，并且取材的颗粒度更细腻，亮度变化更顺滑自然，不会有割裂的光强表现，在动态范围达到 16EV，线性色深可以达到16bit 的条件下，给后期处理无尽的发挥空间。

融合光学大模型是整个 Xiaomi AISP 影像处理系统的核心部分，RAW 文件即一种未经加工的“原始图像编码数据”的文件格式，保留着图像感应器捕捉到的原始画面数据，也被称为「数字底片」。 Ultra Raw 超级底片具备可进行风格化调色创作的原始图像信息，能带来更多影像的可塑性、创造性。可以说 Ultra Raw 超级底片为专业摄影师带来了移动端摄影惊喜。

▍高度适配丰富场景，多帧融合丝滑拼接

那究竟是如何让光影、像素信息过渡自然，达到顺滑效果的呢？常规而言，用户在 HDR 照片拍摄时，成像会根据多帧不同亮度图片的非线性亮度分布和细节情况，在不同区域选择不同源的输入，即所谓的“剪切”。比如原始光强比较暗的区域会选择曝光量更高的图片，来获得更合适的亮度和更佳的信噪比；原始光强比较亮的区域会选择曝光量更低的图片，来尽可能地避免过曝和还原更多高光细节等。且在选择不同输入源的同时，算法还会根据画面的亮度和细节等信息计算其相应的融合比例，最后不同区域根据不同比例进行“拼接”来得到最终的融合结果。

但问题也随之而来，由于 HDR 照片拍摄时后台拍摄的多帧图片的曝光量往往是离散的，这时来自不同区域、不同输入源的特性，就会导致最终成图时不同区域之间也存在一定亮度离散性，画面亮度不连续。

虽然研究人员也会做各种各样平滑和过渡处理来缓解以上离散问题，但这并不能从根源上解决，也导致了后续拍摄成像时亮度线性关系保持不好、比例控制不当易出现“不自然不连续”“亮度反转”的问题。由此，我们首先要解决的问题就是：如何借助大模型的强大算力和学习能力，解决传统融合方法的弊端，从更细颗粒度的像素上自动学习多帧信息融合和亮度线性自然过渡，并兼顾运动伪影处理。

融合光学大模型 FusionLM 由于有线性数据的输入要求，能从公开渠道获得的训练数据较少，特别是拍摄对象带真实连续运动的数据更加不足，很难发挥大模型海量数据的优势。针对该问题，我们创新性地提出了一套基于 AIGC 的多帧融合光学数据生成方法，极大提高了训练数据的场景丰富度和数据量，保证了 FusionLM 大模型的融合效果和丰富场景的适配能力。

▍网络模型消除运动伪影，动势成像过渡自然

在动势场景下要想成像过渡自然，就不得不提及由于运动直接导致的“运动伪影”。在拍摄过程中，摄像者常会面临运动对象的速度或快或慢，如快速行驶的汽车、慢悠悠散步的行人；被摄主体或大或小，如庞大的建筑和精巧的小物件；拍摄距离或远或近带来的成像尺寸变化，如人物特写与大全景的情况。这就带来了用户常规拍摄时拍摄对象突然移动或者姿态变化带来的运动伪影问题，这对网络的多尺寸特征提取能力和提取效率提出了很大的挑战。

需要既能“看到更大范围”来覆盖快速运动物体的运动区间和大尺寸拍摄对象，又能“聚焦更小范围”来识别局部精细运动和小尺寸对象。因此，团队特别设计了专门的人/物运动和人体姿态变化的数据生成方法，为网络训练提供了更多样、更连续真实的运动样本，模拟真实拍摄场景的情况，极大提高了模型运动伪影的处理能力。

同时，也从网络模型优化着手，对 Tranformer 的 attention block 和 window partition 进行专门改进，提高网络多尺度、cross patch 的特征提取能力。去有效解决运动伪影问题，提高用户在运动场景拍摄效果和拍摄成片率。

Ultra Raw 超级底片，能够做到高动态范围、高信噪比、无运动伪影的纯线性域数据，带给专业摄影师更多的操作空间。这个突破性的想法得到了徕卡的认可，小米作为移动影像领域的引领者，从认知到技术，都为行业带来了全新的突破。他们认为“ Ultra Raw 甚至超越了光学无损，每一张照片都写满了被自由修改的渴望”。除了徕卡，Ultra Raw 还通过了 Adobe 实验室校准，也是目前国内率先支持 Lightroom HDR 工作流的安卓设备。

构建小米的色彩还原体系

每个颜色都有独特的 RGB 信息，给人传递或温柔、或强烈、或冷淡等视觉识别性的信息特征。每一张照片都记录着当时入画的环境、主体物等，要想成像质量足够高，图像信息更丰富，就必须得提及 HDR（高动态范围成像）技术。作为在大家拍摄自然风景、人物肖像、市场街景、食物摄影、艺术品展览等场景下的好搭档，能够更细节地留下图像的色彩信息，呈现出最贴近人眼视觉感受的真实色彩，还原所见之景。

那么，人眼中的色彩世界和相机传感器中的色彩世界是否一致呢？人眼只能看到380纳米到780纳米之间的光谱，且看不见短于380纳米的紫外线光波和长于780纳米的红外线光波。而相机传感器的设计是基于人眼成像的特性，采用相近的响应光谱分布，但依旧与真实人眼所能看到的色彩光波信息存在差异，因此， CMOS 传感器无法真实呈现贴近肉眼和心理期待的色彩还原。

且自然界的物体不仅会反射颜色，也会吸收颜色，更是增加了还原色彩的难度。例如成熟的樱桃有着饱满艳丽的鲜红色，这是因为樱桃表面吸收绿光和蓝光，而只反射长波光，所以才会显出红色。因此，感知到哪些颜色，取决于蓝色、绿色和红色被吸收的比例和光线强度。这些因素都让人感受到照片和真实世界中颜色具有差异。这就需要我们图像色彩大模型具备高精度的色彩还原能力，以满足拍摄的照片能还原出原始图像中的细节和色彩信息。

▍色彩大模型，高精度还原自然真实色彩

色彩，是认知世界的重要信息。原有的 HDR 算法中，高光处颜色无法得到正确还原，以及存在偏色、失真的问题。为了更好地把握色彩，小米与徕卡工程师进行了深度地交谈，同时结合产品和评测多方专业意见，构建出了一套属于小米自己的色彩还原体系。

通过在标准的实验室场景和真实的自然场景大量的采集和调试，逐步完善了我们的色彩数据库，并结合大模型强大的学习和表达能力，做到哪怕是高动态的拍摄场景下，也能保证色彩还原的准确性，做到准确还原人眼所感知的内容，让用户所见即所得。

同时，针对以往算法会遇到的色彩断层、过渡不均匀等问题，我们结合了传统算法中的 3D LUT 技术，利用其本身良好的色彩过渡性和连续性，融入进色彩大模型之中，在准确还原色彩的基础上，保证了色彩是自然连续有层次感的。无论是拍摄自然景色、城市风光，还是普通拍照或高动态场景，画面都能还原出真实的自然色彩，展现出场景中丰富的色彩变化，得到身临其境般的影像效果。

大师开拍

探索电影级光影之美

影调，如同画作中的色彩一样，能赋予画面生命和情感，更是一种视觉情境的表现形式。Xiaomi 14 Ultra 是目前唯一支持全焦段 8K 拍摄的影像旗舰，拥有全新的影调大模型（ ToneLM） 大模型算法。借助于大模型的强大算力，真正让小米影像做到了“让真实有层次”、“过渡细腻”、“主次明确”的影调风格。

▍影调大模型，直出电影级层次感视频

小米14 Ultra 搭载全新的「大师开拍」视频功能，视频影调风格也进行了全面的升级，具备电影级的高规格，拥有“直出电影级层次感”视频的能力。它具备电影级的高规格，4K，24或30帧的电影帧率，10bit 色深、HLG 高动态范围、以及 BT2020 广色域。充分利用了 LYT-900 的高动态能力，捕捉和记录 14EV 的动态范围，并通过高动态的影调和中性的色调，呈现出电影级自然、细腻的画质。许多摄影师体验之后也不禁感叹“安卓的视频也终于有了影调”。让画面光影效果更真实，光比更接近人眼的效果。小米使用了 ToneLM 大模型来训练 Tone mapping 算法，该模型会在 Ultra Raw 超高动态范围线性数据上，自动学习如何调整图像的亮度和对比度，提高影调效果，比传统的 Tone mapping 算法能处理复杂的场景。

在亮度上，拍摄高动态范围画面时可以更真实地还原环境的光比，既保持影像的明暗影调关系，又还原暗部和高光蕴涵的细节。例如金属质感、夕阳的光感，以及夜晚的霓虹灯效果。

在对比度上，既聚焦全局通透感提升，强化场景特点，又专注于局部层次和反差的捕捉，实现整体通透、局部反差自然结合。例如波光粼粼的河流、郁郁葱葱的树林等，让影像更加鲜明、有立体感。

同时，在将高动态的图像转换为低动态图像的过程中。主要关注：

呈现图像的完整动态范围，充分恢复图像内容细节，暗区不死黑，亮区不过曝；

影调真实自然，尽量避免亮度反转，贴近人眼观感。现有的视觉大模型算法不能完全匹配 Tone mapping 任务的特性和需求。

因此在模型设计上，将 transformer block 和空间/通道注意力模块结合，并采用多尺度的架构，更好地挖掘局部和全局信息，保持影像的明暗影调关系，又还原暗部和高光蕴涵的细节。

当你启用大师开拍，视频画面就拥有了电影级的立体光影、柔和的色彩过渡，充满故事感。

大师人像

迈入人像摄影新境界

摄影，需要真实性与艺术性的并行描绘，是一种能触动人心的艺术。Xiaomi 14 Ultra 此次推出的「大师人像」功能便做到了真实与美丽的极致融合，带来更丰富的焦段选择、更强的抓拍能力，以及全新的「大师人像」/「徕卡人像」双画质，展现了小米在人像摄影层面的技术突破与艺术理解。

▍人像大模型，主体与背景的深层融合

人像摄影技术的全面超越，离不开人像大模型（Portrait LM）的技术支持，人像大模型共包括“人像语义”，“人像虚化”和“高保真人像智能美颜”三个主要模块。它们超越了传统人像算法的「功能导向」思路，提供了模仿摄影大师思维方式的算法模型。通过算法的艺术般处理，让光影更加立体、景深层次更加自然、皮肤细节和肤质更加真实，为用户获得真实美好的人像图像提供了最稳妥的技术依托。

“人像语义”对图像进行解析，通过大模型分析返回人像和环境的解析结果，实现了人像的精细化调整。“精细分割”是实现人像精细化处理的必杀技。

“人像语义”通过对图像不同区域进行精细化的分割，对不同分割区域应用不同的算法处理，来呈现整图最优的人像效果。例如通过皮肤分割，实现对肤色的精确还原；五官分割，对五官进行微调，让五官更加立体饱满；发丝分割，帮助还原发丝，做到“发丝级”虚化；天空和场景分割，让人像背景影调更加通透，色彩还原更加准确。

除了能对图像精细分割外，“人像语义”还会输出图像属性 ID ，将不同的人像属性 ID 与不同的算法相结合，实现对不同类型的人像最优处理。例如定制面部美颜效果功能并能够针对不同光源、肤质区别性地对肤色进行调试，让肤色还原更加准确。

“人像虚化”则包括深度计算与虚化渲染两部分。

深度计算动态融合多种语义信息，对深度细节、稳定性方面的技术进行了增强。由于不同语义处理图像的不同区域，小米还引入了“门控网络”实现语义的动态融合，让语义信息能根据图像内容自适应优化深度准确性，从而使人像虚化更加真实自然。

例如拍摄人像特写时，模型专注提升人体发丝还原准确性，做到发丝根根分明；拍摄多人合影时，模型专注提升多人景深关系的准确性，告别「纸片人」式的“虚化抠图”的生硬感。虚化渲染则能够使用光源，还原网络估计场景光斑能量分布，以做到光斑的光学还原。同时使用网络对光学景深进行建模，做到与同光圈条件下单反相机能够呈现地同样的景深效果。

“高保真人像智能美颜”模块构建大规模人像修复模型并整合 StyleGan 的人像生成能力，使得美颜算法在修复补全的同时具备轻度智能生成效果，祛除人脸瑕疵同时获得超越自身的轻微美化。此外，大模型还整合了大量人像语义信息让美颜更智能，让算法能够根据人像属性信息匹配合适的美化效果，一键实现“千人千面”的定制化美颜效果。

同时，为避免过度美化问题，人像大模型还引入了语义高保真模块，促使在修复和生成过程中，更好地记忆并保持人脸身份信息。

- 真实是人文影像永恒的魅力，能透过照片传递出情感与艺术张力，而真实影像的灵魂就在于“层次感”。

Xiaomi AISP 影像处理平台，在技术上赋予了小米影像更多的精巧呈现，同时又增添了许多对摄影艺术的深刻理解，层次性地展示了真实的人物、真实的场景、真实的光影，让手机摄影进入新的艺术阶段。在小米影像的全新篇章里，技术与人文的交融，缔造出了真实有层次的影像。让我们一起拿起小米14 Ultra，用影像的语言，体验丰富“层次感”所带来的真实感受吧！

审核编辑：刘清

打开APP阅读更多精彩内容