微软投资的 OpenAI 推出 ChatGPT 后引起轰动,掀起一波 AI 竞赛,大型科技公司纷纷宣扬他们在 AI 技术的突破,其中 Meta 展示他们在影像分析和计算机视觉方面的最新进展。
Meta 发布名为 Segment Anything Model(SAM)的 AI 模型,可以辨识图像和影片中的单一物体,即便是过去 AI 训练没有遇过的物体也能辨识出来。
根据 Meta 官方论坛文章指出,SAM 是一种影像分割模型,可以根据文字提示或使用者点击进而圈出图像中的特定物体。
影像分割是计算机视觉(Computer Vision,CV)的一种过程,涉及将图像区分成多个片段或区域,再对应特定的物体。
这是为了让图像易于分析或处理。Meta 认为影像分割技术有助于理解网页内容、开发 AR 应用、编辑图像,也能将影片中的动物或物体自动定位、追踪,以进行学术研究。
通常建立准确的影像分析模型需要专家进行高度专业化的工作,现在通过 SAM,Meta 希望能减少影像分割对专业训练和知识的要求,促成计算机视觉的进一步发展。
除了 SAM 以外,Meta 还建立一个名为 SA-1B(Segment Anything 1-Billion mask dataset)的训练数据集,其中包括从一家大型照片公司获得许可的 1,100 万张图像,以及利用影像分割模型产生的11 亿个分割遮罩。
目前 SAM 的源码已在 GitHub 开源,还有展示网站能够免费体验,Meta 将让 SAM 和 SA-1B 能在 Apache 2.0 授权条款下用于研究。
《路透社》报导指出,Meta 董事长 Mark Zuckerberg 强调今年将生成式AI(Generative AI)纳入公司旗下服务的重要性。
尽管尚未发表使用生成式 AI 的商用产品,但 Meta 已在 Facebook 平台使用类似SAM 的技术进行照片标记、内容审核,以及确认 Facebook 和 Instagram 的推荐贴文。
虽然影像分割技术并不新奇,但 SAM 能够辨识出不存在于训练资料集内的物体,并对学术研究开放使用,成为这项技术最大亮点,SA-1B 的发布可望也能推动新一代计算机视觉应用。