OBJECT DETECTION

YOLO 算法简介

You Only Look Once

一种实时目标检测算法，由 Joseph Redmon 等人于 2015 年首次提出。
核心思想：只看一次，就能同时完成目标定位和分类。

SCROLL

Step 01

核心思路：重新定义问题

YOLO 将目标检测重新定义为一个单一的回归问题，一次完成所有预测。

传统两阶段方法

1生成候选区域

2逐一提取特征

3分别分类每个区域

4回归修正边界框

~7 FPS · 慢

YOLO 单阶段

1整张图片一次前向传播

45+ FPS · 实时

Step 02

划分网格：S × S

INPUT

将输入图像划分为 7 × 7 的网格

EACH CELL

每个网格单元负责检测中心落在该单元内的目标

OUTPUT

每个单元预测 B 个边界框 + C 个类别概率

Step 03

同时预测：三重输出

📦

边界框 Bounding Box

预测 (x, y, w, h) 四个值
x=0.36 y=0.50 w=0.33 h=0.40

🎯

置信度 Confidence

P(Object) × IoU = 框内有目标的概率 × 框的准确程度

92%

🏷️

类别概率 Class Prob

狗

0.85

猫

0.10

车

0.03

Step 04

一次前向传播：端到端

整张图片只需通过网络一次，即可输出所有检测结果。

Step 05

后处理：非极大值抑制 NMS

去除冗余的重叠框，只保留最佳检测结果。

抑制前 · 5 个框

抑制后 · 1 个框 ✓

SUMMARY

只看一次，全部搞定

YOLO 将目标检测从"看很多次慢慢找"变成"看一次全搞定"，
在速度与精度之间取得了优秀的平衡。

⚡

极速推理

45+ FPS 实时检测，满足视频流处理需求

🌍

全局视野

看整张图，非局部区域，背景误检率更低

🔄

泛化性强

对新领域和新场景具有较好的迁移能力