商汤SenseNova U1图文交错增强版开源,支持多页连续创作

描述

近日,商汤科技正式开源日日新SenseNova U1系列新成员—— U1-8B-MoT-Interleaved图文交错增强版模型 ,专门面向图文交错创作与生成场景进行了专项强化,支持绘本、故事书、多页PPT、图文教程等连续内容创作,直击传统多模态模型"多轮生成后角色形象飘移、画风断裂、图文脱节"三大核心痛点。

叙事一致性与角色连贯性。 过去多轮生成后角色"走调"、画风断裂的问题被彻底解决,故事线严格遵循,人物形象从第一页到最后一页高度一致。

图文语义对齐。 精准呈现复杂场景、动态动作与空间关系,生成画面与文字描述严格对应,告别"图文脱节"。

视觉质量提升。 定向优化高频高难区域,人物结构变形、文字渲染错误、排版错乱等问题大幅减少,Artifact发生率降低超过60%。

多页PPT自动生成(全新能力)。 此前完全不支持的功能,现在智能提取要点、自动排版设计与文字渲染,3000字可直接生成15至20页PPT,图文布局合理度达92%,关键信息覆盖率超过95%。

教程类内容。 原版生成的搅拌步骤出现违背物理逻辑的"星云漩涡",步骤繁琐不实用;增强版画面完全符合真实物理逻辑,步骤精简实用,无锯齿状Artifact。

故事书类内容。 原版未能遵循"角色突然失踪"的关键情节指令,鸟类尾部和人物面部出现明显形变;增强版精准呈现核心反转情节,角色卡通化且稳定,无形变问题。

绘画过程类内容。 原版画面质感生硬,缺乏纸质肌理;增强版过程性体现极强,纸张画面感逼真,完美还原真实手绘艺术质感。

PPT内容生成(全新能力)。 以"赛博朋克"主题PPT为例,全程风格高度统一、图文语义严格对应、多页叙事逻辑完整。单页PPT在布局稳定性、视觉美观度和文字呼吸感上均实现质的飞跃,并借助"图文交错思维链"将设计全过程以连续图文形式逐步呈现。

该模型基于商汤2026年3月自研的 NEO-unify架构 ,彻底摒弃了传统多模态模型"视觉编码器+语言骨干拼接"的缝合方案,去除VE和VAE,在单一架构内统一多模态理解、推理与生成。语言与视觉作为统一复合体直接建模,信息流转路径更短、损耗更低,仅凭8B参数量即可达到甚至超越部分大型商业闭源模型。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分