OBJECT DETECTION

YOLO 算法简介

You Only Look Once

一种实时目标检测算法,由 Joseph Redmon 等人于 2015 年首次提出。
核心思想:只看一次,就能同时完成目标定位和分类。

SCROLL

Step 01

核心思路:重新定义问题

YOLO 将目标检测重新定义为一个单一的回归问题,一次完成所有预测。

传统两阶段方法

1生成候选区域
2逐一提取特征
3分别分类每个区域
4回归修正边界框
~7 FPS · 慢
VS

YOLO 单阶段

1整张图片一次前向传播
45+ FPS · 实时

Step 02

划分网格:S × S

🐕 🚗 🐈 S × S = 7 × 7 = 49 cells
INPUT
将输入图像划分为 7 × 7 的网格
EACH CELL
每个网格单元负责检测中心落在该单元内的目标
OUTPUT
每个单元预测 B 个边界框 + C 个类别概率

Step 03

同时预测:三重输出

conf: 0.92 🐕
📦

边界框 Bounding Box

预测 (x, y, w, h) 四个值
x=0.36 y=0.50 w=0.33 h=0.40
🎯

置信度 Confidence

P(Object) × IoU = 框内有目标的概率 × 框的准确程度
92%
🏷️

类别概率 Class Prob

0.85
0.10
0.03

Step 04

一次前向传播:端到端

整张图片只需通过网络一次,即可输出所有检测结果。

🖼️ 448×448 Conv7×7 Pool Conv3×3 Conv Conv×4 FC4096 FC 7×7×30

Step 05

后处理:非极大值抑制 NMS

去除冗余的重叠框,只保留最佳检测结果。

🐕 0.92 0.87 0.78 0.65 0.54
抑制前 · 5 个框
🐕 狗 · 0.92
抑制后 · 1 个框 ✓

SUMMARY

只看一次,全部搞定

YOLO 将目标检测从"看很多次慢慢找"变成"看一次全搞定",
在速度与精度之间取得了优秀的平衡。

极速推理

45+ FPS 实时检测,满足视频流处理需求

🌍

全局视野

看整张图,非局部区域,背景误检率更低

🔄

泛化性强

对新领域和新场景具有较好的迁移能力