使用零样本目标检测识别物体 | 附代码

科技 2024-11-19 10:05 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”

在这篇文章中，我们将探讨如何使用Hugging Face的transformers库来使用零样本目标检测在冰箱图像中识别物体。这种方法允许我们在不需要针对这些物体进行特定预训练的情况下识别各种物品。以下是如何工作的代码的逐步指南。在这种情况下，我们使用Google的OWL-ViT模型，该模型非常适合目标检测任务。该模型作为管道加载，允许我们将其作为目标检测器使用，设置非常简单。

# 导入必要的库from transformers import pipeline

在这里，transformers库用于目标检测，利用Hugging Face的零样本目标检测模型。零样本模型是目标检测任务的强大工具，因为它们不需要对每个对象的特定数据集进行训练，而是能够开箱即用地理解各种对象的上下文。

# 从Hugging Face模型中心加载特定检查点checkpoint = “google/owlv2-base-patch16-ensemble”detector = pipeline(model=checkpoint, task=”zero-shot-object-detection”)

加载和显示图像

# 导入图像处理库import skimageimport numpy as npfrom PIL import Imageimport matplotlib.pyplot as plt

# 加载并显示图像image = Image.open(‘/content/image2.jpg’)plt.imshow(image)plt.axis(‘off’)plt.show()image = Image.fromarray(np.uint8(image)).convert(“RGB”)

在这里，我们使用广泛用于Python图像处理的PIL库从指定路径加载图像（image2.jpg）。然后我们使用matplotlib显示它。

检测物体

模型已加载，图像已准备就绪，我们继续进行检测。

# 定义候选标签并在图像上运行检测器predictions = detector(    image,    candidate_labels=[“fanta”, “cokacola”, “bottle”, “egg”, “bowl”, “donut”, “milk”, “jar”, “curd”, “pickle”, “refrigerator”, “fruits”, “vegetables”, “bread”,”yogurt”],)predictions

[{'score': 0.4910733997821808,  'label': 'bottle',  'box': {'xmin': 419, 'ymin': 1825, 'xmax': 574, 'ymax': 2116}}, {'score': 0.45601949095726013,  'label': 'bottle',  'box': {'xmin': 1502, 'ymin': 795, 'xmax': 1668, 'ymax': 1220}}, {'score': 0.4522128999233246,  'label': 'bottle',  'box': {'xmin': 294, 'ymin': 1714, 'xmax': 479, 'ymax': 1924}}, {'score': 0.4485340714454651,  'label': 'milk',  'box': {'xmin': 545, 'ymin': 811, 'xmax': 770, 'ymax': 1201}}, {'score': 0.44276902079582214,  'label': 'bottle',  'box': {'xmin': 1537, 'ymin': 958, 'xmax': 1681, 'ymax': 1219}}, {'score': 0.4287840723991394,  'label': 'bottle',  'box': {'xmin': 264, 'ymin': 1726, 'xmax': 459, 'ymax': 2104}}, {'score': 0.41883620619773865,  'label': 'bottle',  'box': {'xmin': 547, 'ymin': 632, 'xmax': 773, 'ymax': 1203}}, {'score': 0.15758953988552094,  'label': 'jar',  'box': {'xmin': 1141, 'ymin': 1628, 'xmax': 1259, 'ymax': 1883}}, {'score': 0.15696804225444794,  'label': 'egg',  'box': {'xmin': 296, 'ymin': 1034, 'xmax': 557, 'ymax': 1131}}, {'score': 0.15674084424972534,  'label': 'egg',  'box': {'xmin': 292, 'ymin': 1109, 'xmax': 552, 'ymax': 1212}}, {'score': 0.1565699428319931,  'label': 'coke',  'box': {'xmin': 294, 'ymin': 1714, 'xmax': 479, 'ymax': 1924}}, {'score': 0.15651869773864746,  'label': 'milk',  'box': {'xmin': 417, 'ymin': 1324, 'xmax': 635, 'ymax': 1450}}]

在零样本检测中，我们提供了一个候选标签列表，或在图像中寻找的可能物品，例如常见的冰箱物品：“fanta”，“milk”，“yogurt”等。然后模型尝试在图像中定位这些物体，提供它们的边界框和置信度分数。

可视化检测结果

为了可视化检测到的物体，我们在它们周围绘制矩形框，并用检测到的标签和置信度分数标记它们。

from PIL import ImageDrawdraw = ImageDraw.Draw(image)for prediction in predictions:    box = prediction[“box”]    label = prediction[“label”]    score = prediction[“score”]    xmin, ymin, xmax, ymax = box.values()    draw.rectangle((xmin, ymin, xmax, ymax), outline=”red”, width=1)    draw.text((xmin, ymin), f”{label}: {round(score,2)}”, fill=”white”)image

代码创建了一个ImageDraw实例，允许我们在图像上叠加矩形框和文本。对于每个检测到的物体，我们提取其边界框坐标（xmin，ymin，xmax，ymax），标签和置信度分数。在检测到的物体周围绘制矩形框，并将标签和分数添加为文本。

提取检测到的物体

get_detected_objects函数允许我们仅从预测中提取检测到的物体的标签，以便更容易地访问物体名称。

# 提取检测到的物体的函数def get_detected_objects(predictions):    detected_objects = [pred[“label”] for pred in predictions]    return detected_objects

# 打印检测到的物体列表detected_objects = get_detected_objects(predictions)print(“Detected Objects:”, detected_objects)

输出：

Detected Objects: [‘bottle’, ‘bottle’, ‘bottle’, ‘milk’, ‘bottle’, ‘bottle’, ‘bottle’, ‘coke’, ‘jar’, ‘milk’, ‘refrigerator’, ‘jar’, ‘jar’, ‘refrigerator’, ‘bottle’, ‘jar’, ‘yogurt’, ‘yogurt’, ‘refrigerator’, ‘bottle’, ‘jar’, ‘vegetables’, ‘bottle’, ‘jar’, ‘coke’, ‘jar’, ‘yogurt’, ‘coke’, ‘yogurt’, ‘milk’, ‘coke’, ‘egg’, ‘egg’, ‘bottle’, ‘vegetables’, ‘milk’, ‘coke’, ‘fruits’, ‘vegetables’, ‘milk’, ‘jar’, ‘jar’, ‘bottle’, ‘yogurt’, ‘refrigerator’, ‘milk’, ‘milk’, ‘coke’, ‘bottle’, ‘coke’, ‘egg’, ‘yogurt’, ‘bottle’, ‘milk’, ‘refrigerator’, ‘bottle’, ‘bottle’, ‘egg’, ‘bottle’, ‘milk’, ‘egg’, ‘bottle’, ‘milk’, ‘curd’, ‘coke’, ‘bowl’, ‘vegetables’, ‘milk’, ‘milk’, ‘coke’, ‘egg’, ‘bottle’, ‘curd’, ‘egg’, ‘egg’, ‘yogurt’, ‘egg’, ‘bottle’, ‘egg’, ‘jar’, ‘egg’, ‘egg’, ‘coke’, ‘milk’, ‘vegetables’, ‘curd’, ‘bottle’, ‘jar’, ‘egg’, ‘yogurt’, ‘milk’, ‘egg’, ‘fruits’, ‘yogurt’, ‘jar’, ‘milk’, ‘milk’, ‘curd’, ‘fruits’, ‘curd’, ‘yogurt’, ‘yogurt’, ‘yogurt’, ‘egg’, ‘coke’, ‘egg’, ‘refrigerator’, ‘cokacola’, ‘curd’, ‘jar’, ‘bottle’, ‘refrigerator’, ‘bottle’, ‘milk’, ‘milk’, ‘coke’, ‘curd’, ‘yogurt’, ‘fruits’, ‘yogurt’, ‘vegetables’, ‘yogurt’, ‘coke’, ‘cokacola’, ‘egg’, ‘milk’, ‘milk’, ‘egg’, ‘coke’, ‘coke’, ‘curd’, ‘cokacola’, ‘jar’, ‘jar’, ‘bottle’, ‘curd’, ‘coke’, ‘yogurt’, ‘curd’, ‘fruits’, ‘refrigerator’, ‘milk’, ‘fruits’, ‘cokacola’, ‘milk’, ‘cokacola’, ‘egg’, ‘yogurt’, ‘pickle’, ‘fruits’, ‘coke’, ‘pickle’, ‘egg’, ‘fruits’, ‘refrigerator’, ‘refrigerator’, ‘bottle’, ‘curd’, ‘egg’, ‘egg’, ‘bottle’, ‘refrigerator’, ‘egg’, ‘jar’, ‘jar’, ‘bottle’, ‘pickle’, ‘egg’, ‘jar’, ‘cokacola’, ‘yogurt’, ‘milk’, ‘curd’, ‘bottle’, ‘milk’, ‘milk’, ‘cokacola’, ‘bottle’]

这段代码仅从预测中检索标签，并打印检测到的物体列表。

扩展检测标签

我们可以通过调整候选标签来执行进一步的检测，例如添加其他饮料或品牌。

# 使用额外的标签再次运行检测器predictions = detector(    image,    candidate_labels=[“fanta”, “cokacola”, “pepsi”, “mountain dew”, “sprite”, “pepper”, “sangria”, “vitamin water”, “beer”],)

通过这种方式，我们扩展了候选标签列表，允许我们搜索冰箱中常见的其他物品和品牌。

from PIL import ImageDrawdraw = ImageDraw.Draw(image)for prediction in predictions:    box = prediction[“box”]    label = prediction[“label”]    score = prediction[“score”]    xmin, ymin, xmax, ymax = box.values()    draw.rectangle((xmin, ymin, xmax, ymax), outline=”red”, width=1)    draw.text((xmin, ymin), f”{label}: {round(score,2)}”, fill=”white”)image

图像中检测到的物体

结论

这个代码示例展示了零样本目标检测在动态环境中识别物体的强大功能，比如冰箱内部。通过指定自定义标签，你可以将检测定制到广泛的应用中，而无需为每个特定任务重新训练模型。Hugging Face的transformers库和像Google的OWL-ViT这样的预训练模型，使得实施强大的目标检测变得非常简单，几乎不需要设置。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570689&idx=3&sn=eb07562f5853e7fbe0c0e64590ba160c

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集

【魔改Mamba系列】视觉Mamba和多尺度多频率特征融合，实现遥感图像分割：

使用视觉语言模型（VLMs）进行目标检测

招生信息 | 加州大学圣地亚哥分校Dr. Lianhui Qin招收NLP方向博士

【魔改Mamba系列】Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

视觉Transformer同架构设计和训练技巧

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

医图论文 Arxiv'24 | TP-UNet：用于医学图像分割的时间提示引导UNet

知识蒸馏综述：代码整理

招生信息 | 波士顿学院Dr. Yuan Yuan实验室开放人工智能方向多个博后、博士、硕士及本科生岗位

【魔改YOLO系列】Hyper-YOLO: 利用超图计算增强目标检测

思考 | 什么时候不要使用神经网络？

招生信息 | 英国贝尔法斯特女王大学Dr. Shuyan Li团队招生

【魔改YOLO系列】YOLO-Claw：快速准确的鸡爪检测方法

你是几级调参侠？

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

【魔改YOLO系列】YOLO-PPA：YOLO中引入并行块感知注意力实现高效交通标志检测

使用YOLO World进行高性能目标检测

招生信息 | 香港城市大学Dr. Su Wen招收统计学习方向博士生

【魔改YOLO系列】Hyper-YOLO: 超图计算与YOLO结合实现目标检测

奇异值分解（SVD）原理总结

Nature打破传统！“天才大神”展示深度学习＋视觉成像的全新思路！将颠覆传统研究！

招生信息 | 英国贝尔法斯特女王大学计算机系Shi Xinming博士团队招募

知乎高赞：为什么编程语言会发展出“类型”？

约翰霍普金斯大学PENSA实验室Sijia Geng 博士招生

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

收藏 | 卷积神经网络压缩方法总结

招生信息 | 新加坡NUS计算机工程系Jin Yueming教授招收博士及博士后

【魔改Mamba系列】UNetMamba：一种用于高分辨率遥感图像语义分割的高效UNet类Mamba模型

使用零样本目标检测识别物体 | 附代码

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉