AI另一个重大领域视觉的GPT时刻何时到来？

微云疏影 2023-06-02 1971

描述

　　5月28日，北京智源人工智能研究院在2023年中关村论坛并行论坛之一的人工智能大规模模型发展论坛上发布了通用分割模型seggpt （segment everything in contex）。这是一种利用prompt（视觉提示）完成任意分割工作的通用视觉模型。

　　seggpt是一个基于支持通用视觉模型painter的模型，它优化了所有物体的分割。seggpt具有上下文推理功能，即使没有细微的调整，只要提供示例，就可以自动进行推理和相应的分割工作。示例包括示例、类、部件、轮廓、文本、面部、医疗图像等。它灵活的推论能力足以提供许多视觉线索。自动视频分割和追踪功能：seggpt以第一个框架的图片和对象屏蔽为上下文单位，可以自动分割下一个视频框架，并使用屏蔽颜色作为对象id自动追踪。

　　seggpt与推出ai图像分割基础模型sam的meta不同，sam使用的是通过一个点或边框相互提示预测图像，识别分割画面上的特定物体的“one touch touch”方式。seggpt通过提示一个或多个示例图像和意图面具来掌握用户的意图，并根据意图进行分割等操作。只要用户在画面上表示识别一种物体，无论是现在的画面还是其他画面，都可以定量地识别和分割同类物体。

　　“一触即通”或“一通百通”意味着视觉模型理解了形象结构。sam的精细脚注功能与seggpt的通用分割脚注功能相结合，可以在像素排列中分析任何图像，以像生物视觉一样理解任何场景。

打开APP阅读更多精彩内容