商汤SenseNova U1图文交错增强版开源，支持多页连续创作

科技绿洲 2026-06-16 342

描述

近日，商汤科技正式开源日日新SenseNova U1系列新成员—— U1-8B-MoT-Interleaved图文交错增强版模型 ，专门面向图文交错创作与生成场景进行了专项强化，支持绘本、故事书、多页PPT、图文教程等连续内容创作，直击传统多模态模型"多轮生成后角色形象飘移、画风断裂、图文脱节"三大核心痛点。

叙事一致性与角色连贯性。 过去多轮生成后角色"走调"、画风断裂的问题被彻底解决，故事线严格遵循，人物形象从第一页到最后一页高度一致。

图文语义对齐。 精准呈现复杂场景、动态动作与空间关系，生成画面与文字描述严格对应，告别"图文脱节"。

视觉质量提升。 定向优化高频高难区域，人物结构变形、文字渲染错误、排版错乱等问题大幅减少，Artifact发生率降低超过60%。

多页PPT自动生成（全新能力）。 此前完全不支持的功能，现在智能提取要点、自动排版设计与文字渲染，3000字可直接生成15至20页PPT，图文布局合理度达92%，关键信息覆盖率超过95%。

教程类内容。 原版生成的搅拌步骤出现违背物理逻辑的"星云漩涡"，步骤繁琐不实用；增强版画面完全符合真实物理逻辑，步骤精简实用，无锯齿状Artifact。

故事书类内容。 原版未能遵循"角色突然失踪"的关键情节指令，鸟类尾部和人物面部出现明显形变；增强版精准呈现核心反转情节，角色卡通化且稳定，无形变问题。

绘画过程类内容。 原版画面质感生硬，缺乏纸质肌理；增强版过程性体现极强，纸张画面感逼真，完美还原真实手绘艺术质感。

PPT内容生成（全新能力）。 以"赛博朋克"主题PPT为例，全程风格高度统一、图文语义严格对应、多页叙事逻辑完整。单页PPT在布局稳定性、视觉美观度和文字呼吸感上均实现质的飞跃，并借助"图文交错思维链"将设计全过程以连续图文形式逐步呈现。

该模型基于商汤2026年3月自研的 NEO-unify架构 ，彻底摒弃了传统多模态模型"视觉编码器+语言骨干拼接"的缝合方案，去除VE和VAE，在单一架构内统一多模态理解、推理与生成。语言与视觉作为统一复合体直接建模，信息流转路径更短、损耗更低，仅凭8B参数量即可达到甚至超越部分大型商业闭源模型。

打开APP阅读更多精彩内容