近日,商汤科技正式开源日日新SenseNova U1系列新成员—— U1-8B-MoT-Interleaved图文交错增强版模型 ,专门面向图文交错创作与生成场景进行了专项强化,支持绘本、故事书、多页PPT、图文教程等连续内容创作,直击传统多模态模型"多轮生成后角色形象飘移、画风断裂、图文脱节"三大核心痛点。
叙事一致性与角色连贯性。 过去多轮生成后角色"走调"、画风断裂的问题被彻底解决,故事线严格遵循,人物形象从第一页到最后一页高度一致。
图文语义对齐。 精准呈现复杂场景、动态动作与空间关系,生成画面与文字描述严格对应,告别"图文脱节"。
视觉质量提升。 定向优化高频高难区域,人物结构变形、文字渲染错误、排版错乱等问题大幅减少,Artifact发生率降低超过60%。
多页PPT自动生成(全新能力)。 此前完全不支持的功能,现在智能提取要点、自动排版设计与文字渲染,3000字可直接生成15至20页PPT,图文布局合理度达92%,关键信息覆盖率超过95%。
教程类内容。 原版生成的搅拌步骤出现违背物理逻辑的"星云漩涡",步骤繁琐不实用;增强版画面完全符合真实物理逻辑,步骤精简实用,无锯齿状Artifact。
故事书类内容。 原版未能遵循"角色突然失踪"的关键情节指令,鸟类尾部和人物面部出现明显形变;增强版精准呈现核心反转情节,角色卡通化且稳定,无形变问题。
绘画过程类内容。 原版画面质感生硬,缺乏纸质肌理;增强版过程性体现极强,纸张画面感逼真,完美还原真实手绘艺术质感。
PPT内容生成(全新能力)。 以"赛博朋克"主题PPT为例,全程风格高度统一、图文语义严格对应、多页叙事逻辑完整。单页PPT在布局稳定性、视觉美观度和文字呼吸感上均实现质的飞跃,并借助"图文交错思维链"将设计全过程以连续图文形式逐步呈现。
该模型基于商汤2026年3月自研的 NEO-unify架构 ,彻底摒弃了传统多模态模型"视觉编码器+语言骨干拼接"的缝合方案,去除VE和VAE,在单一架构内统一多模态理解、推理与生成。语言与视觉作为统一复合体直接建模,信息流转路径更短、损耗更低,仅凭8B参数量即可达到甚至超越部分大型商业闭源模型。
全部0条评论
快来发表一下你的评论吧 !