通用视觉GPT之战打响！智源推出SegGPT，批量抠图神器来了

首页 > 资讯 > > 内容页

通用视觉GPT之战打响！智源推出SegGPT，批量抠图神器来了

2023-04-10 05:05:27 来源:智东西

智东西

作者 | ZeR0

编辑 | 漠影

(资料图片)

智东西4月8日报道，继ChatGPT掀起语言大模型狂潮后，本周，计算机视觉迎来了GPT时刻。先是周四Meta发布“分割一切”模型SAM，紧接着智源研究院视觉团队也推出通用分割模型SegGPT（Segment Everything In Context）。

SegGPT可用于分割上下文中所有事物，是首个利用视觉提示（prompt）完成任意分割任务的通用视觉模型。SegGPT与SAM的差异在于：

（1）SegGPT “ 一通百通”：给出一个或几个示例图像和意图掩码，模型就能明白用户意图，“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。

（2）SAM “ 一触即通”：通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”，都意味着视觉模型已经“理解”了图像结构。

SAM精细标注能力与SegGPT的通用分割标注能力相结合，能把任意图像从像素阵列解析为视觉结构单元，像生物视觉那样理解任意场景。

论文地址： https://arxiv.org/abs/2304.03284

代码地址： https://github.com/baaivision/Painter

Demo： https://huggingface.co/spaces/BAAI/SegGPT

一、目标是分割一切物体，三大优势加持

SegGPT是智源通用视觉模型Painter的衍生模型，针对分割一切物体的目标做出优化。

训练完成后，无需微调，只需提供示例，SegGPT就能自动推理并完成对应分割任务。

具体来看，SegGPT模型具有以下优势能力：

1、通用能力：SegGPT具有上下文推理能力，模型能够根据提供的分割示例（prompt），对预测进行自适应的调整，实现对“everything”的分割，包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

2、灵活推理能力：支持任意数量的prompt；支持针对特定场景的tuned prompt；可以用不同颜色的mask表示不同目标，实现并行分割推理。

3、自动视频分割和追踪能力：以第一帧图像和对应的物体掩码作为上下文示例，SegGPT能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。

二、应用示例：批量“抠”出彩虹、行星环带

1、标注出一个画面中的彩虹，SegGPT就能批量化分割其他画面中的彩虹。

2、研究人员在广泛的任务上对SegGPT进行了评估，包括少样本语义分割、视频对象分割、语义分割和全景分割。

下图中具体展示了SegGPT在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

3、用画笔大致圈出行星环带。

SegGPT在预测图中准确输出目标图像中的行星环带。

4、根据用户提供的宇航员头盔掩码这一上下文。

SegGPT能够在新的图片中预测出对应的宇航员头盔区域。

三、训练思路：定义为上下文着色问题，多项技术解锁分割能力

SegGPT将各种分割任务统一到一个通用的上下文学习框架中，通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

其训练被定义为一个上下文着色问题，每个数据样本都有随机的颜色映射，以根据上下文完成不同的任务，而非依赖于特定的颜色。

经训练，SegGPT可以通过上下文推理在图像或视频中执行任意分割任务，如物体实例、类别、零部件、轮廓、文本和任意形状物体等。

如何通过 test-time techniques 解锁各种能力是通用模型的一大亮点。

SegGPT论文中提出了多个技术来解锁和增强各类分割能力，比如下图所示的不同的context ensemble方法。论文所提出的Feature Ensemble方法可以支持任意数量的prompt示例。

此外，SegGPT还支持对特定场景优化专用prompt提示。对于针对性的使用场景，SegGPT可以通过prompt tuning得到对应prompt，无需更新模型参数来适用于特定场景。

比如，针对某一数据集自动构建一个对应的prompt，或者针对一个房间来构建专用prompt。如下图所示：

结语：强大零样本场景迁移能力，经典CV数据集上取得最优性能

模型只需少数prompt示例，在COCO和PASCAL数据集上取得最优性能。

SegGPT显示出强大的零样本场景迁移能力，比如在少样本语义分割测试集FSS-1000上，在无需训练的情况下取得state-of-the-art性能。

无需视频训练数据，SegGPT可直接进行视频物体分割，并取得和针对视频物体分割专门优化的模型相当的性能。

以下是基于tuned prompt在语义分割和实例分割任务上的效果展示：

SegGPT在广泛的任务中进行了评估，包括少数照片的语义分割、视频物体分割、语义分割、全景分割。结果显示，在对域内和域外目标进行分割时，无论是质量还是数量都有很强的能力。

随着SAM和SegGPT两款图像分割基础模型的发布，通用视觉GPT曙光乍现。

关键词：

通用视觉GPT之战打响！智源推出SegGPT，批量抠图神器来了

一、目标是分割一切物体，三大优势加持

二、应用示例：批量“抠”出彩虹、行星环带

三、训练思路：定义为上下文着色问题，多项技术解锁分割能力

结语：强大零样本场景迁移能力，经典CV数据集上取得最优性能

通用视觉GPT之战打响！智源推出SegGPT，批量抠图神器来了

智东西作者|ZeR0编辑|漠影智东西4月8日报道，继ChatGPT掀起语言大模...

粮食工程专业就业方向_粮食工程专业

1、粮食工程专业旨培养德、智、体全面发展知识面宽基础扎实手能力强...

这种码，很危险！

近期，反诈民警发现了一个新型诈骗手法。不法分子利用邮寄的方式广...

电商热门选品思路-全球时讯

这是黄三水的第503期分享作者l黄三水来源l黄三水频道（ID：hss2083...

平谷区增速第一！2022年北京市各区GDP出炉！ 天天亮点

2022年北京市各区GDP出炉：第1名，海淀区，10206 9亿，同比增速3 ...

FSR、DLSS谁更好？26款游戏PK：AMD居然0胜！ 热点在线

AMDFSR、NVIDIADLSS是双方在同一技术路线上的又一次PK，但是和历史...

环球今日讯！福建省一批项目入选2023年农业产业融合发展项目拟批准创建名单

日前，农业农村部、财政部对2023年农业产业融合发展项目拟批准创建

【全球播资讯】对男朋友的爱称（对男朋友的昵称独特的备注）

1、宝贝、亲爱的、老公这些称呼大家都在叫，没有独特的心意。2、其...

微信黑名单在哪里查看 微信黑名单在哪里查看?-全球头条

1、登录微信：确保手机是保持在连接网络的状态。2、点击我：位置在...

天天时讯：335奶德毕业装备（奶德毕业装备）

1、SW毕业奶D装头智者乌索尔之帽JD掉落（我带的布甲的纯净奥术头盔...

新疆霍尔果斯今年开行中欧班列突破2000列_每日速递

新疆霍尔果斯今年开行中欧班列突破2000列。 李明 摄中新网乌鲁木...

中国海拔最高的县(中国海拔最高的县是什么县)-世界速读

本文目录一览：1、中国最高海拔是哪个县2、中国海拔最高的县是什么...

山东省招生办电话(山东省招生办的电话是多少？)

本文目录一览：1、山东省招生办的电话是多少？2、山东省招生办电话2...

4月09日18时河南周口疫情新增确诊数及周口目前为止疫情总人数

大家好该疫情数据更新统计周期为昨日0时起至24时，非今日实时数据，...

使用 Feign 实现微服务之间的认证和授权

在微服务架构中，认证和授权是保障系统安全和可靠性的重要手段。使...

魔盒插件怎么彻底删除_魔盒插件_每日播报

1、要完全卸载多玩魔盒，需要几个步骤。2、要重置所有设置，只需要...

世界观点：苁怎么读 拼音_苁怎么读

1、cōngㄘㄨㄥˉ1 〔～蓉〕寄生植物“草苁蓉”和“肉苁蓉”的统称...

离职后无法享受生育津贴？上海市医保局：正研究调整完善政策

近日，有市民通过上海市委领导信箱留言，建议生育津贴不与是否在职...

iphone主题怎么换（iPhone主题太单调？教你如何更换主题）

大家平时使用的iPhone手机，一直都是以白色为主的主题，时间长了，...

中信证券：规避主题炒作 回归业绩主线

【中信证券：规避主题炒作回归业绩主线】中信证券最新研报表示，当...

全球动态:奥普家居：一季度净利润同比增长115.24%

【奥普家居：一季度净利润同比增长115 24%】奥普家居(603551)4月9...

2022年违章停车罚单扣分吗

违章停车，或者没有及时驶离这种违章停车情况只罚款200元不扣分。机...

海洋“豹”款再增实力背书，海豹获央视中国汽车风云盛典最高奖 时快讯

2023年4月7日比亚迪海洋系列“豹”款海豹在央视举办的第三届“中国...

超同年漫威大片近3倍！新海诚《铃芽之旅》国内票房达7亿-环球视讯

超同年漫威大片近3倍！新海诚《铃芽之旅》国内票房达7亿

知名玩家怒喷《最后生还者RE》PC版：我都不知道咋过的审

知名玩家怒喷《最后生还者RE》PC版：我都不知道咋过的审

当前快看：安卓老将上新！HTC Wildfire E3 Lite发布：紫光展锐SC9863+5000mAh电池

今日，HTC推出了全新的手机——HTCWildfireE3Lite。该机型提供3GB+3...

英媒：特朗普刑事指控事件暴露美国社会深度撕裂

英媒：特朗普刑事指控事件暴露美国社会深度撕裂．com－img｛width：...

世界热头条丨美军秘密文件疑似泄露 美国介入俄乌冲突程度之深超出预想

美军秘密文件疑似泄露美国介入俄乌冲突程度之深超出预想．com－img...

英国学者：美欧持续加息是导致欧洲银行业动荡重要原因-快消息

新华社伦敦4月8日电（记者赵修知）近期，欧洲银行业风波引发全球关...

东部战区热血MV《利剑出鞘》，震撼发布

01:26△MV：利剑出鞘如果祖国需要我会随叫随到守我山河护我人民祖国...

诺基亚1010怎么安装电话卡？诺基亚1010手机参数

小米手机陀螺仪怎么设置？订单号搞错了怎么撤回？|热门

办信用卡看不看配偶征信？民生京东PLUS联名卡年费多少？

平谷区增速第一！2022年北京市各区GDP出炉！天天亮点

FSR、DLSS谁更好？26款游戏PK：AMD居然0胜！热点在线

微信黑名单在哪里查看微信黑名单在哪里查看?-全球头条

新疆霍尔果斯今年开行中欧班列突破2000列。　李明　摄中新网乌鲁木...

世界观点：苁怎么读拼音_苁怎么读

中信证券：规避主题炒作回归业绩主线

海洋“豹”款再增实力背书，海豹获央视中国汽车风云盛典最高奖时快讯

世界热头条丨美军秘密文件疑似泄露美国介入俄乌冲突程度之深超出预想