搜索

有没有有专门针对 UI 界面截图进行智能标记（Set-of-Mark, SoM）的开源库和工具？

其他

网友回复

目前已有专门针对 UI 界面截图进行 Set-of-Mark（SoM）智能标记 的开源工具和相关实现，主要包括以下几类：

1. 官方 SoM 技术实现（微软研究院）

SoM（Set-of-Mark）最初由微软研究院提出，是一种用于增强多模态大模型（如 GPT-4V）在 GUI 理解任务中视觉定位能力的技术。其核心思想是在 UI 截图上自动标注可发音、空间唯一的视觉标记（如数字或字母），从而让模型能精准关联...

点击查看剩余70%

我知道答案，我要回答

我有问题

最新提问

有没有有专门针对 UI 界面截图进行智能标记（Set-of-Mark, SoM） 的开源库和工具？