您的位置:首页 > 新闻 > 热点要闻 > 成品短视频源码与热门应用比较_企业网站推广的名词解释_淘宝客推广有效果吗_seo搜索优化工具

成品短视频源码与热门应用比较_企业网站推广的名词解释_淘宝客推广有效果吗_seo搜索优化工具

2025/5/18 0:41:21 来源:https://blog.csdn.net/matt45m/article/details/147597156  浏览:    关键词:成品短视频源码与热门应用比较_企业网站推广的名词解释_淘宝客推广有效果吗_seo搜索优化工具
成品短视频源码与热门应用比较_企业网站推广的名词解释_淘宝客推广有效果吗_seo搜索优化工具

介绍

传统的对象检测模型大多是封闭词汇类型,只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而,现实世界中的物体类别几乎无穷无尽,这就需要能够检测未知类别的开放式词汇类型。对比学习(Contrastive Learning)使用成对的图像和语言数据,在这一挑战中备受关注。著名的模型包括 CLIP,但将其应用于物体检测,如在训练过程中处理未见类别,仍然是一个挑战。

本文使用标准视觉转换器(ViT)建立了一个开放词汇对象检测模型——开放世界定位视觉转换器(OWL-ViT),只做了极少的修改。该模型在大型图像-文本对的对比学习预训练和端到端检测的微调方面表现出色。特别是,使用类名嵌入可以实现对未学习类别的零检测。
OWL-ViT 在单次检测方面也很强大,因为它可以使用图像嵌入和文本作为查询。特别是在 COCO 数据集中,对于未经训练的类别,OWL-ViT 比以前的一流模型有了显著的性能提升。这一特性对于检测难以描述的对象(如特殊部件)非常有用。

我们还证明,增加预训练时间和模型大小能持续提高检测性能。特别是,我们发现,即使图像-文本对的数量超过 200 亿,开放词汇检测的性能改善仍在继续。此外,通过在检测微调中适当使用数据扩展和正则化,即使使用简单的训练配方,也能实现较高的零次和单次检测性能。

建议方法

OWL-ViT 是一个两阶段的学习过程,具体如下:

  1. 使用大型图像-文本对进行对比预训练。
  2. 将学习过渡到检测任务。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com