现代图像处理技术

课程简介

现代图像处理技术课程涵盖数字图像处理的基本理论和最新技术，包括图像增强、分割、特征提取、目标检测等。

学习内容

基础理论

数字图像基础
图像变换
频域处理
图像增强

高级技术

图像分割
特征提取
目标检测
深度学习在图像处理中的应用

学习笔记

第1章绪论

1.1 什么是数字图像处理

数字图像处理（Digital Image Processing, DIP）是指用计算机对图像进行处理的技术和方法。

定义

数字图像处理是使用数字计算机或其他数字硬件，对通过某种方式获取的数字图像进行各种处理操作，以提取有用信息或得到更适合人或机器分析的图像。

图像的数学表示

二维函数表示：图像可表示为二维函数 (f(x,y))，其中 ((x,y)) 是空间坐标，(f) 是该点的灰度值
数字图像：当 (x)、(y) 和 (f) 的幅值都是有限的离散值时，称该图像为数字图像
像素：数字图像的基本单元，表示为 (f(x,y)) 在某个位置的值

图像处理的三个层次

低级处理：输入和输出都是图像，如图像去噪、图像增强、图像复原等
中级处理：输入是图像，输出是从图像中提取的属性，如图像分割、边缘检测、特征提取等
高级处理：对识别出的目标进行认知，如图像识别、场景理解、目标跟踪等

1.2 数字图像处理的起源

早期发展（1920s-1950s）

1920s：报纸通过海底电缆传输图片，首次实现图像的数字化传输
1950s：电子计算机的出现为数字图像处理奠定基础

空间时代（1960s-1970s）

1964年：美国喷气推进实验室（JPL）使用计算机处理"徘徊者7号"传回的月球照片
1972年：NASA对"水手9号"和"水手10号"传回的火星和水星图像进行增强处理
1970年代：医学成像技术发展，CT（计算机断层扫描）技术诞生

现代发展（1980s至今）

1980s：个人计算机普及，图像处理软件开始商业化
1990s：互联网发展推动图像压缩技术（JPEG、MPEG）
2000s：数码相机普及，数字图像处理进入千家万户
2010s至今：深度学习技术革新图像处理领域，计算机视觉快速发展

1.3 数字图像处理应用领域

1. 航天和航空

卫星遥感图像处理
行星探测图像增强
气象云图分析
地形地貌识别

2. 生物医学工程

医学影像：CT、MRI、X射线、超声成像
病理分析：细胞图像分割与计数
辅助诊断：肿瘤检测、病灶识别
手术导航：三维重建、实时图像引导

3. 通信工程

图像编码与压缩（JPEG、H.264、HEVC）
视频会议与流媒体传输
图像传输中的错误校正
图像水印与信息隐藏

4. 工业应用

自动检测：产品缺陷检测、质量控制
机器视觉：机器人导航、装配引导
条码识别：一维码、二维码扫描
文字识别：OCR技术

5. 执法与安全

监控系统：视频监控、异常行为检测
人脸识别：身份验证、犯罪侦查
车牌识别：交通管理、停车场管理
指纹识别：生物特征识别

6. 文化艺术

文物数字化保护
古籍图像修复
艺术作品鉴定
图像风格迁移

7. 消费电子

智能手机图像处理（美颜、滤镜、HDR）
数码相机自动对焦、防抖
图像编辑软件（Photoshop、美图秀秀）
增强现实（AR）应用

1.4 数字图像处理的基本步骤

完整的图像处理流程

图像获取 → 预处理 → 图像增强 → 图像复原 → 
形态学处理 → 图像分割 → 特征提取 → 目标识别

1. 图像获取（Image Acquisition）

通过传感器将光学图像转换为数字信号
设备：数码相机、扫描仪、摄像机、医学成像设备等
输出：原始数字图像

2. 图像预处理（Image Preprocessing）

目的：改善图像质量，为后续处理做准备
操作：
- 噪声滤除
- 几何校正（旋转、缩放、畸变校正）
- 灰度变换
- 对比度调整

3. 图像增强（Image Enhancement）

目的：突出图像中的有用信息，抑制无用信息
方法：
- 空间域方法：直方图均衡化、灰度变换、空间滤波
- 频率域方法：低通滤波、高通滤波、同态滤波

4. 图像复原（Image Restoration）

目的：恢复退化图像，尽可能接近原始图像
技术：去模糊、去运动模糊、超分辨率重建

5. 形态学处理（Morphological Processing）

基本操作：腐蚀、膨胀、开运算、闭运算
应用：噪声去除、形状提取、骨架提取

6. 图像分割（Image Segmentation）

目的：将图像划分为若干有意义的区域
方法：
- 阈值分割
- 区域生长
- 边缘检测
- 基于聚类的分割
- 深度学习分割（U-Net、Mask R-CNN）

7. 特征提取（Feature Extraction）

目的：提取图像中具有代表性的特征
特征类型：
- 颜色特征：直方图、颜色矩
- 纹理特征：灰度共生矩阵、LBP
- 形状特征：边界描述、不变矩
- 深度特征：CNN提取的高层特征

8. 目标识别（Object Recognition）

目的：识别图像中的目标类别
方法：
- 传统方法：模板匹配、特征匹配
- 机器学习：SVM、随机森林
- 深度学习：CNN、YOLO、Faster R-CNN

1.5 图像处理系统的组成

硬件组成

1. 图像采集设备

光学传感器：CCD、CMOS
扫描设备：平板扫描仪、胶片扫描仪
视频采集卡：模拟/数字视频输入

2. 图像存储设备

内存：快速临时存储
硬盘：大容量永久存储
固态硬盘（SSD）：高速读写
网络存储：云存储、NAS

3. 图像处理设备

CPU：通用处理器
GPU：并行计算，加速图像和深度学习处理
FPGA：可编程硬件，实时处理
DSP：数字信号处理器
专用芯片：NPU、TPU

4. 图像显示设备

显示器：LCD、OLED、LED
投影仪：大屏幕显示
VR/AR设备：沉浸式显示

5. 图像输出设备

打印机：彩色/黑白打印
绘图仪：大幅面输出

软件组成

1. 操作系统

Windows、Linux、macOS
嵌入式操作系统（实时系统）

2. 图像处理库

OpenCV：开源计算机视觉库
PIL/Pillow：Python图像处理库
scikit-image：科学图像处理
ImageJ：生物医学图像分析
MATLAB Image Processing Toolbox

3. 深度学习框架

TensorFlow：Google开发
PyTorch：Facebook开发
Keras：高级API
Caffe：专注于图像处理

4. 应用软件

图像编辑：Adobe Photoshop、GIMP
图像浏览：ACDSee、XnView
专业软件：医学影像处理软件、遥感图像处理软件

系统架构

┌─────────────────────────────────────────┐
│           应用层（Application）          │
│  图像编辑、目标识别、医学诊断、监控等    │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│         算法层（Algorithm）              │
│  增强、分割、特征提取、深度学习模型      │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│         软件库层（Library）              │
│  OpenCV、PIL、TensorFlow、PyTorch等      │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│      操作系统层（Operating System）      │
│  Windows、Linux、macOS                   │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│         硬件层（Hardware）               │
│  CPU、GPU、存储、采集设备、显示设备      │
└─────────────────────────────────────────┘

1.6 数字图像处理应用举例

案例1：医学图像增强

问题：X射线图像对比度低，难以观察病灶

解决方案：

直方图均衡化提高对比度
锐化滤波器增强边缘
噪声滤除去除干扰

效果：病灶区域更清晰，便于医生诊断

数学原理：直方图均衡化变换函数：

s_{k} = T (r_{k}) = (L - 1) \sum_{j = 0}^{k} p_{r} (r_{j}) = \frac{(L - 1)}{M N} \sum_{j = 0}^{k} n_{j}

其中：

(L) 是灰度级数
(p_r(r_j)) 是灰度级 (r_j) 的概率
(n_j) 是灰度级 (j) 的像素数
(MN) 是图像总像素数

案例2：卫星图像去云处理

问题：遥感卫星图像被云层遮挡，影响地表信息获取

解决方案：

多时相图像融合
基于深度学习的云检测与去除
图像修复技术填补云遮挡区域

效果：获得清晰的地表图像，用于农业监测、城市规划等

案例3：人脸识别系统

问题：在不同光照、角度、表情下准确识别人脸

解决方案：

人脸检测：使用级联分类器或深度学习（MTCNN）
人脸对齐：基于关键点检测进行几何校正
特征提取：使用深度卷积神经网络（如FaceNet、ArcFace）
人脸匹配：计算特征向量的相似度

技术细节：

FaceNet：将人脸映射到128维欧氏空间
损失函数：Triplet Loss
$L = \sum_{i} {[∥ f (x_{i}^{a}) - f (x_{i}^{p}) ∥_{2}^{2} - ∥ f (x_{i}^{a}) - f (x_{i}^{n}) ∥_{2}^{2} + α]}_{+}$
其中 (x_i^a) 是锚点，(x_i^p) 是正样本，(x_i^n) 是负样本

应用场景：

手机解锁
门禁系统
支付认证
安防监控

案例4：自动驾驶中的车道线检测

问题：实时准确地检测道路车道线，指导车辆行驶

解决方案：

图像预处理：
- 灰度化
- 高斯滤波去噪
- 感兴趣区域（ROI）提取
边缘检测：Canny算子
- 计算梯度： $G = \sqrt{G_{x}^{2} + G_{y}^{2}}, θ = \arctan (\frac{G_{y}}{G_{x}})$
- 非极大值抑制
- 双阈值检测
直线检测：霍夫变换（Hough Transform）
- 参数空间表示：(\rho = x\cos\theta + y\sin\theta)
- 投票机制找出直线
车道线拟合：多项式拟合或深度学习方法

深度学习方法：

语义分割：使用U-Net、SegNet等网络逐像素分类
实例分割：区分不同的车道线

效果：实时准确检测车道线，保持车辆在车道内行驶

案例5：文档图像二值化与OCR识别

问题：扫描的文档图像光照不均、背景噪声多，影响文字识别

解决方案：

第一步：图像二值化

全局阈值法：Otsu方法
Otsu算法最大化类间方差：
$σ_{B}^{2} (t) = ω_{0} (t) [μ_{0} (t) - μ]^{2} + ω_{1} (t) [μ_{1} (t) - μ]^{2}$
或等价地：
$σ_{B}^{2} (t) = ω_{0} (t) ω_{1} (t) [μ_{0} (t) - μ_{1} (t)]^{2}$
其中：
- (\omega_0, \omega_1) 是两类的概率
- (\mu_0, \mu_1) 是两类的均值
- (\mu) 是整体均值
局部自适应阈值：Sauvola方法
$T (x, y) = m (x, y) [1 + k (\frac{s (x, y)}{R} - 1)]$
其中 (m(x,y)) 是局部均值，(s(x,y)) 是局部标准差

第二步：文字识别（OCR）

传统方法：模板匹配、特征提取+分类器
深度学习方法：
- CNN + RNN + CTC：用于文本行识别
- CRNN（Convolutional Recurrent Neural Network）
- Transformer-based OCR

效果：高精度文字识别，应用于文档数字化、票据识别等

案例6：图像风格迁移

问题：将一幅图像的艺术风格应用到另一幅图像上

解决方案：基于深度学习的神经风格迁移（Neural Style Transfer）

方法：使用预训练的卷积神经网络（如VGG19）

损失函数：

L_{t o t a l} = α L_{c o n t e n t} + β L_{s t y l e}

内容损失：
$L_{c o n t e n t} = \frac{1}{2} \sum_{i, j} (F_{i j}^{l} - P_{i j}^{l})^{2}$
其中 (F^l) 是生成图像在第 (l) 层的特征，(P^l) 是内容图像的特征
风格损失：基于Gram矩阵
$G_{i j}^{l} = \sum_{k} F_{i k}^{l} F_{j k}^{l}$ $L_{s t y l e} = \sum_{l} w_{l} \frac{1}{4 N_{l}^{2} M_{l}^{2}} \sum_{i, j} (G_{i j}^{l} - A_{i j}^{l})^{2}$
其中 (A^l) 是风格图像的Gram矩阵

应用：艺术创作、照片美化、视频特效

第2章数字图像形成

2.1 视觉感知要素

人眼的结构与功能

人眼是一个复杂的光学系统，能够感知光线并将其转换为神经信号。

眼睛的主要组成部分

角膜（Cornea）：透明的前表面，负责大部分光线折射
虹膜（Iris）：控制进入眼睛的光量，中间的开口称为瞳孔
晶状体（Lens）：可调节焦距，将光线聚焦到视网膜上
视网膜（Retina）：包含感光细胞，将光信号转换为神经信号
视神经（Optic Nerve）：将神经信号传递到大脑

        光线
         ↓
    ┌────────────┐
    │   角膜     │  折射光线
    └────────────┘
         ↓
    ┌────────────┐
    │ 瞳孔/虹膜  │  控制光量
    └────────────┘
         ↓
    ┌────────────┐
    │   晶状体   │  调节焦距
    └────────────┘
         ↓
    ┌────────────┐
    │   视网膜   │  感光转换
    └────────────┘
         ↓
      视神经
         ↓
        大脑

视网膜的感光细胞

1. 视杆细胞（Rods）

数量：约1.2亿个
分布：主要分布在视网膜外围
功能：
- 对光极其敏感，负责暗视觉（scotopic vision）
- 不能感知颜色
- 适合低照度环境
光谱敏感性：峰值约在507 nm（蓝绿光）

2. 视锥细胞（Cones）

数量：约600-700万个
分布：主要集中在中央凹（fovea）
功能：
- 负责明视觉（photopic vision）和色觉
- 需要较高的光照强度
- 提供高分辨率视觉
三种类型：
- S型（短波）：对蓝光敏感，峰值约420 nm
- M型（中波）：对绿光敏感,峰值约534 nm
- L型（长波）：对红光敏感，峰值约564 nm

三色理论：人眼通过这三种视锥细胞的组合响应感知各种颜色

视觉感知特性

1. 亮度适应（Brightness Adaptation）

人眼可以在极宽的亮度范围内工作：

亮度范围：约 (10^{-6}) 到 (10^4) cd/m²（10个数量级）
瞬时适应范围：约 (10^{-2}) 到 (10^2) cd/m²（4个数量级）

韦伯定律（Weber's Law）：

\frac{Δ I}{I} = k

其中：

(\Delta I) 是可察觉的亮度差
(I) 是背景亮度
(k) 是韦伯常数（约2%）

2. 对比度敏感性

人眼对相对亮度变化比绝对亮度更敏感。

对比度定义：

C = \frac{I_{m a x} - I_{m i n}}{I_{m a x} + I_{m i n}}

或Michelson对比度：

C = \frac{L_{m a x} - L_{m i n}}{L_{m a x} + L_{m i n}}

3. 空间频率敏感性

人眼对不同空间频率的敏感度不同：

最敏感频率：约3-5 cycles/degree
截止频率：约50-60 cycles/degree

对比度敏感函数（CSF）：描述人眼对不同空间频率的敏感度

4. 马赫带效应（Mach Band Effect）

在亮度均匀变化的区域边界，人眼会感知到不存在的亮带和暗带。这是人眼边缘增强的结果。

5. 同时对比（Simultaneous Contrast）

同一灰度值在不同背景下看起来不同。

6. 颜色恒常性（Color Constancy）

在不同光照条件下，人眼倾向于感知物体具有恒定的颜色。

2.2 光和电磁波谱

电磁波谱

电磁波是电场和磁场的振荡传播，其特征由波长 (\lambda) 或频率 (f) 决定：

c = λ f

其中 (c) 是光速（约 (3 \times 10^8) m/s）

电磁波谱分类

按波长从短到长排列：

波段	波长范围	应用
伽马射线	< 0.01 nm	放射医学、天文观测
X射线	0.01 nm - 10 nm	医学成像、安检、晶体学
紫外线（UV）	10 nm - 400 nm	消毒、光刻、材料分析
可见光	400 nm - 700 nm	人眼视觉、摄影、显示
红外线（IR）	700 nm - 1 mm	热成像、遥感、夜视
微波	1 mm - 1 m	雷达、通信、微波炉
无线电波	> 1 m	广播、电视、通信

可见光谱

人眼可感知的电磁波范围：400-700 nm

颜色	波长范围 (nm)
紫色	380 - 450
蓝色	450 - 495
绿色	495 - 570
黄色	570 - 590
橙色	590 - 620
红色	620 - 750

光的基本性质

1. 反射（Reflection）

反射定律：

入射角等于反射角：$ (\theta_i = \theta_r) $
入射光线、反射光线和法线在同一平面内

反射类型：

镜面反射（Specular Reflection）：光滑表面，反射光线方向确定
漫反射（Diffuse Reflection）：粗糙表面，反射光线向各个方向散射

Lambert余弦定律：

I = I_{0} \cos θ

其中 (\theta) 是观察方向与表面法线的夹角

2. 折射（Refraction）

Snell定律：

n_{1} \sin θ_{1} = n_{2} \sin θ_{2}

其中：

(n_1, n_2) 是两种介质的折射率
(\theta_1, \theta_2) 是入射角和折射角

3. 吸收（Absorption）

Beer-Lambert定律：

I = I_{0} e^{- α x}

其中：

(I_0) 是入射光强
(\alpha) 是吸收系数
(x) 是传播距离

4. 散射（Scattering）

光在传播过程中遇到微小粒子而改变方向。

瑞利散射（Rayleigh Scattering）：散射强度与波长的四次方成反比：

I \propto \frac{1}{λ^{4}}

这解释了为什么天空是蓝色的（短波长的蓝光散射更强）。

光度学基本量

1. 光通量（Luminous Flux）(\Phi)

单位：流明（lumen, lm）
定义：光源辐射的可见光能量

2. 光强度（Luminous Intensity）(I)

单位：坎德拉（candela, cd）
定义：单位立体角内的光通量 $I = \frac{d Φ}{d Ω}$

3. 光照度（Illuminance）(E)

单位：勒克斯（lux, lx）
定义：单位面积接收的光通量 $E = \frac{d Φ}{d A}$

4. 光亮度（Luminance）(L)

单位：坎德拉每平方米（cd/m²）
定义：单位面积、单位立体角内的光通量 $L = \frac{d^{2} Φ}{d A \cdot d Ω \cdot \cos θ}$

2.3 图像感知和获取

图像形成模型

数字图像的形成可以建模为：

f (x, y) = i (x, y) \cdot r (x, y)

其中：

(f(x,y)) 是观察到的图像
(i(x,y)) 是照明分量（illumination），范围 ([0, $ \infty $ ))
(r(x,y)) 是反射分量（reflectance），范围 ([0, 1])

物理意义：

(i(x,y)) 取决于光源
(r(x,y)) 取决于物体表面特性

图像传感器

1. CCD（Charge-Coupled Device，电荷耦合器件）

工作原理：

光子入射到光敏区
产生电荷（光电效应）
电荷在电极控制下传输
转换为电压信号
模数转换（ADC）得到数字信号

特点：

✓ 高灵敏度
✓ 低噪声
✓ 图像质量好
✗ 功耗较高
✗ 制造成本高

2. CMOS（Complementary Metal-Oxide-Semiconductor）

工作原理：

每个像素包含光电二极管和放大电路
直接在像素处进行电荷-电压转换
随机访问像素

特点：

✓ 功耗低
✓ 成本低
✓ 集成度高
✓ 读取速度快
✗ 早期产品噪声较高（现已改善）

CCD vs CMOS 对比：

特性	CCD	CMOS
灵敏度	高	中高（不断提升）
噪声	低	中（不断改善）
功耗	高	低
成本	高	低
速度	中	高
应用	专业相机、天文	手机、消费相机

图像获取设备

1. 数码相机

单反相机（DSLR）：光学取景，可更换镜头
无反相机：电子取景，轻便
卡片相机：便携，固定镜头

2. 扫描仪

平板扫描仪：文档、照片扫描
胶片扫描仪：数字化胶片
3D扫描仪：获取三维几何信息

3. 医学成像设备

X射线成像：透视成像
CT（Computed Tomography）：X射线断层成像
MRI（Magnetic Resonance Imaging）：磁共振成像
超声成像：利用超声波反射

4. 遥感传感器

光学传感器：可见光、红外
雷达：主动式，穿透云层
激光雷达（LiDAR）：获取三维信息

5. 视频采集设备

摄像机：连续图像序列
监控摄像头：安防应用
运动捕捉系统：高速摄像机阵列

彩色图像获取

单传感器方法：Bayer滤镜阵列

Bayer模式：

G R G R G R
B G B G B G
G R G R G R
B G B G B G

绿色像素：50%（人眼对绿光最敏感）
红色像素：25%
蓝色像素：25%

去马赛克（Demosaicing）：通过插值算法恢复完整的RGB图像

常用插值算法：

双线性插值
边缘自适应插值
频域插值

三传感器方法：棱镜分光

使用分光棱镜将光线分为RGB三路，每路对应一个传感器。

优点：

每个像素都有完整的RGB信息
无需去马赛克
色彩准确

缺点：

体积大
成本高
主要用于专业摄像机

2.4 图像取样和量化

将连续的模拟图像转换为离散的数字图像需要两个步骤：取样和量化。

取样（Sampling）

定义：将空间上连续的图像离散化为离散的像素点。

取样定理（Nyquist-Shannon Sampling Theorem）

为了无失真地重建连续信号，取样频率必须至少是信号最高频率的两倍：

f_{s} \geq 2 f_{m a x}

其中：

(f_s) 是取样频率
(f_{max}) 是信号的最高频率
(2f_{max}) 称为Nyquist频率

欠取样的后果：混叠（Aliasing）现象

高频信息被误认为低频
图像出现锯齿、摩尔纹等失真

防止混叠：

提高取样率
取样前进行低通滤波（抗混叠滤波器）

空间分辨率

定义：单位长度内的像素数量

常见表示：

像素数量：如1920×1080（总共约200万像素）
DPI/PPI：每英寸点数/像素数（Dots/Pixels Per Inch）

影响因素：

传感器尺寸
像素数量
镜头质量

分辨率与图像质量：

高分辨率 → 更多细节，文件更大
低分辨率 → 细节损失，文件较小

量化（Quantization）

定义：将连续的像素强度值映射到有限个离散灰度级。

量化过程

假设连续灰度值范围是 ([0, I_{max}])，量化为 (L) 个灰度级：

I_{q} = round (\frac{I}{I_{m a x}} \times (L - 1))

灰度级数：通常 (L = 2^b)，其中 (b) 是比特数

(b = 1)：2级（二值图像）
(b = 8)：256级（常见灰度图像）
(b = 16)：65536级（高动态范围）

量化误差

定义：量化前后的差值

e (x, y) = I (x, y) - I_{q} (x, y)

均方量化误差：

MSE = \frac{1}{M N} \sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} [I (x, y) - I_{q} (x, y)]^{2}

信噪比（SNR）：

SNR = 10 \log_{10} \frac{σ_{signal}^{2}}{σ_{noise}^{2}} (dB)

峰值信噪比（PSNR）：

PSNR = 10 \log_{10} \frac{I_{m a x}^{2}}{MSE} = 20 \log_{10} \frac{I_{m a x}}{\sqrt{MSE}} (dB)

伪轮廓（False Contouring）

当量化级数太少时，平滑渐变区域会出现明显的阶梯状边界。

解决方法：

增加量化级数
抖动（Dithering）技术

数字图像表示

灰度图像：

f (x, y), x = 0, 1, \dots, M - 1; y = 0, 1, \dots, N - 1

f (x, y) \in [0, L - 1]

存储大小：

Size = M \times N \times b (bits)

例如：1920×1080，8位灰度图像

Size = 1920 \times 1080 \times 8 = 16, 588, 800 bits \approx 2.07 MB

彩色图像（RGB）：

f (x, y) = [R (x, y), G (x, y), B (x, y)]

每个通道通常8位，总共24位/像素

取样和量化的权衡

空间分辨率 vs 灰度分辨率：

在存储空间有限时：

高空间分辨率 + 低灰度分辨率：更多细节，但对比度差
低空间分辨率 + 高灰度分辨率：细节少，但灰度平滑

一般经验：

自然图像：8位量化通常足够
医学图像：可能需要12-16位
空间分辨率的影响通常比灰度分辨率更显著

2.5 像素间的基本关系

像素的邻域

4-邻域（4-Neighborhood）(N_4(p))

像素 (p) 在 ((x,y)) 位置，其4-邻域包含：

(x + 1, y), (x - 1, y), (x, y + 1), (x, y - 1)

      N
      ↑
W ← [ p ] → E
      ↓
      S

对角邻域（Diagonal Neighborhood）(N_D(p))

(x + 1, y + 1), (x + 1, y - 1), (x - 1, y + 1), (x - 1, y - 1)

NW    N    NE
    ↖ ↑ ↗
W ← [ p ] → E
    ↙ ↓ ↘
SW    S    SE

8-邻域（8-Neighborhood）(N_8(p))

N_{8} (p) = N_{4} (p) \cup N_{D} (p)

包含上述8个位置的像素。

像素的连通性

连通的定义

两个像素连通需要满足：

邻接性：两个像素是邻居
灰度相似性：满足某种灰度准则（如相同灰度值、灰度差小于阈值）

连通类型

4-连通：通过4-邻域连通 8-连通：通过8-邻域连通 m-连通（混合连通）：避免二义性的连通定义

连通分量

定义：图像中所有相互连通的像素构成一个连通分量（或连通区域）

标记算法：

扫描图像，遇到未标记的前景像素
分配一个新标签
递归或迭代标记所有与之连通的像素
继续扫描，直到所有像素被处理

距离度量

设像素 (p, q, z) 的坐标分别为 ((x, y), (s, t), (u, v))。

1. 欧氏距离（Euclidean Distance）

D_{e} (p, q) = \sqrt{(x - s)^{2} + (y - t)^{2}}

性质：

(D_e(p, q) \geq 0)，且 (D_e(p, q) = 0) 当且仅当 (p=q)
(D_e(p, q) = D_e(q, p))（对称性）
(D_e(p, z) \leq D_e(p, q) + D_e(q, z))（三角不等式）

等距线：圆

2. 城市街区距离/曼哈顿距离（City Block / Manhattan Distance）(D_4)

D_{4} (p, q) = | x - s | + | y - t |

物理意义：沿着网格移动的距离（4-连通）

等距线：菱形

3. 棋盘距离（Chessboard Distance）(D_8)

D_{8} (p, q) = max (| x - s |, | y - t |)

物理意义：国际象棋中王的移动步数（8-连通）

等距线：正方形

距离度量的性质

一个函数 (D(p, q)) 是距离度量，需满足：

非负性：(D(p, q) \geq 0)，且 (D(p, q) = 0 \Leftrightarrow p = q)
对称性：(D(p, q) = D(q, p))
三角不等式：(D(p, z) \leq D(p, q) + D(q, z))

2.6 常用数学工具

2.6.1 数组与矩阵操作

图像表示为矩阵

灰度图像可表示为 (M \times N) 矩阵：

F = [\begin{matrix} f (0, 0) & f (0, 1) & \dots & f (0, N - 1) \\ f (1, 0) & f (1, 1) & \dots & f (1, N - 1) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ f (M - 1, 0) & f (M - 1, 1) & \dots & f (M - 1, N - 1) \end{matrix}]

基本运算

矩阵加法：

(A + B)_{i j} = A_{i j} + B_{i j}

应用：图像叠加、噪声添加

矩阵数乘：

(α A)_{i j} = α A_{i j}

应用：亮度调整

矩阵乘法：

(A B)_{i j} = \sum_{k} A_{i k} B_{k j}

应用：线性变换

元素乘法（Hadamard积）：

(A \circ B)_{i j} = A_{i j} \cdot B_{i j}

应用：掩膜操作

转置

A^{T} : (A^{T})_{i j} = A_{j i}

2.6.2 线性操作

叠加原理

线性系统 (H) 满足：

H [a f_{1} (x, y) + b f_{2} (x, y)] = a H [f_{1} (x, y)] + b H [f_{2} (x, y)]

卷积（Convolution）

二维卷积定义：

(f * h) (x, y) = \sum_{s = - \infty}^{\infty} \sum_{t = - \infty}^{\infty} f (s, t) h (x - s, y - t)

离散卷积：

g (x, y) = \sum_{s = - a}^{a} \sum_{t = - b}^{b} f (x + s, y + t) h (s, t)

卷积性质：

交换律：(f * h = h * f)
结合律：(f * (h_1 * h_2) = (f * h_1) * h_2)
分配律：(f * (h_1 + h_2) = f * h_1 + f * h_2)

应用：空间滤波、模糊、锐化

2.6.3 二维变换

1. 傅里叶变换（Fourier Transform）

连续傅里叶变换：

F (u, v) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f (x, y) e^{- j 2 π (u x + v y)} d x d y

逆变换：

f (x, y) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} F (u, v) e^{j 2 π (u x + v y)} d u d v

二维离散傅里叶变换（2D DFT）：

F (u, v) = \frac{1}{M N} \sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} f (x, y) e^{- j 2 π (u x / M + v y / N)}

逆变换（IDFT）：

f (x, y) = \sum_{u = 0}^{M - 1} \sum_{v = 0}^{N - 1} F (u, v) e^{j 2 π (u x / M + v y / N)}

幅度谱和相位谱：

| F (u, v) | = \sqrt{R^{2} (u, v) + I^{2} (u, v)}

ϕ (u, v) = \arctan (\frac{I (u, v)}{R (u, v)})

功率谱：

P (u, v) = | F (u, v) |^{2}

重要性质：

线性：(\mathcal{F}[af + bg] = a\mathcal{F}[f] + b\mathcal{F}[g])
平移：(\mathcal{F}[f(x-x_0, y-y_0)] = F(u,v)e^{-j2\pi(ux_0/M + vy_0/N)})
旋转：(f(x,y)) 旋转 (\theta) → (F(u,v)) 旋转 (\theta)
卷积定理：(\mathcal{F}[f * h] = F(u,v)H(u,v))
Parseval定理：(\sum_{x,y}|f(x,y)|^2 = \sum_{u,v}|F(u,v)|^2)

应用：频域滤波、图像压缩、相位相关配准

2. 离散余弦变换（DCT）

二维DCT：

F (u, v) = α (u) α (v) \sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} f (x, y) \cos [\frac{(2 x + 1) u π}{2 M}] \cos [\frac{(2 y + 1) v π}{2 N}]

其中：

α (u) = {\begin{cases} \sqrt{1 / M}, & u = 0 \\ \sqrt{2 / M}, & u = 1, 2, \dots, M - 1 \end{cases}

逆DCT（IDCT）：

f (x, y) = \sum_{u = 0}^{M - 1} \sum_{v = 0}^{N - 1} α (u) α (v) F (u, v) \cos [\frac{(2 x + 1) u π}{2 M}] \cos [\frac{(2 y + 1) v π}{2 N}]

特点：

实数变换（不涉及复数）
能量集中性好
JPEG压缩标准采用的变换

3. 小波变换（Wavelet Transform）

连续小波变换（CWT）：

W (a, b) = \frac{1}{\sqrt{| a |}} \int_{- \infty}^{\infty} f (x) ψ^{*} (\frac{x - b}{a}) d x

其中：

(\psi(x)) 是母小波
(a) 是尺度参数
(b) 是平移参数

离散小波变换（DWT）：使用尺度函数和小波函数，通过滤波器组实现

二维DWT：对图像行和列分别进行一维DWT，得到4个子带：

LL：低频（近似）
LH：水平高频
HL：垂直高频
HH：对角高频

应用：图像压缩（JPEG2000）、去噪、特征提取

2.6.4 概率与统计

直方图

定义：灰度级的频数分布

h (r_{k}) = n_{k}

其中 (n_k) 是灰度级 (r_k) 的像素数。

归一化直方图（概率密度函数）：

p (r_{k}) = \frac{n_{k}}{M N}

其中 (MN) 是图像总像素数。

统计特征

均值（Mean）：

μ = \frac{1}{M N} \sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} f (x, y) = \sum_{k = 0}^{L - 1} r_{k} p (r_{k})

方差（Variance）：

σ^{2} = \frac{1}{M N} \sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} [f (x, y) - μ]^{2} = \sum_{k = 0}^{L - 1} (r_{k} - μ)^{2} p (r_{k})

标准差（Standard Deviation）：

σ = \sqrt{σ^{2}}

高阶矩：

偏度（Skewness）：衡量分布的不对称性
$γ_{1} = \frac{μ_{3}}{σ^{3}} = \frac{1}{M N σ^{3}} \sum [f (x, y) - μ]^{3}$
峰度（Kurtosis）：衡量分布的尖锐程度
$γ_{2} = \frac{μ_{4}}{σ^{4}} - 3$

熵（Entropy）：

H = - \sum_{k = 0}^{L - 1} p (r_{k}) \log_{2} p (r_{k})

衡量图像的信息量或不确定性。

联合概率与相关性

联合直方图：

h (i, j) = count of pixel pairs with values (i, j)

协方差（Covariance）：

Cov (X, Y) = E [(X - μ_{X}) (Y - μ_{Y})]

相关系数（Correlation Coefficient）：

ρ = \frac{Cov (X, Y)}{σ_{X} σ_{Y}}

范围：([-1, 1])

(\rho = 1)：完全正相关
(\rho = 0)：不相关
(\rho = -1)：完全负相关

实践项目

[ ] 实现图像增强算法
[ ] 完成图像分割任务
[ ] 使用OpenCV进行图像处理
[ ] 深度学习图像分类项目

参考资料

教材：《Digital Image Processing》- Gonzalez & Woods
软件工具：OpenCV, PIL, scikit-image
在线资源：Image Processing Tutorials

最后更新：2024年9月9日

现代图像处理技术 ​

课程简介 ​

学习内容 ​

基础理论 ​

高级技术 ​

学习笔记 ​

第1章 绪论 ​

1.1 什么是数字图像处理 ​

定义 ​

图像的数学表示 ​

图像处理的三个层次 ​

1.2 数字图像处理的起源 ​

早期发展（1920s-1950s） ​

空间时代（1960s-1970s） ​

现代发展（1980s至今） ​

1.3 数字图像处理应用领域 ​

1. 航天和航空 ​

2. 生物医学工程 ​

3. 通信工程 ​

4. 工业应用 ​

5. 执法与安全 ​

6. 文化艺术 ​

7. 消费电子 ​

1.4 数字图像处理的基本步骤 ​

完整的图像处理流程 ​

1. 图像获取（Image Acquisition） ​

2. 图像预处理（Image Preprocessing） ​

3. 图像增强（Image Enhancement） ​

4. 图像复原（Image Restoration） ​

5. 形态学处理（Morphological Processing） ​

6. 图像分割（Image Segmentation） ​

7. 特征提取（Feature Extraction） ​

8. 目标识别（Object Recognition） ​

1.5 图像处理系统的组成 ​

硬件组成 ​

1. 图像采集设备 ​

2. 图像存储设备 ​

3. 图像处理设备 ​

4. 图像显示设备 ​

5. 图像输出设备 ​

软件组成 ​

1. 操作系统 ​

2. 图像处理库 ​

3. 深度学习框架 ​

4. 应用软件 ​

系统架构 ​

1.6 数字图像处理应用举例 ​

案例1：医学图像增强 ​

案例2：卫星图像去云处理 ​

案例3：人脸识别系统 ​

案例4：自动驾驶中的车道线检测 ​

案例5：文档图像二值化与OCR识别 ​

案例6：图像风格迁移 ​

第2章 数字图像形成 ​

2.1 视觉感知要素 ​

人眼的结构与功能 ​

眼睛的主要组成部分 ​

视网膜的感光细胞 ​

1. 视杆细胞（Rods） ​

2. 视锥细胞（Cones） ​

视觉感知特性 ​

1. 亮度适应（Brightness Adaptation） ​

2. 对比度敏感性 ​

3. 空间频率敏感性 ​

4. 马赫带效应（Mach Band Effect） ​

5. 同时对比（Simultaneous Contrast） ​

6. 颜色恒常性（Color Constancy） ​

2.2 光和电磁波谱 ​

电磁波谱 ​

电磁波谱分类 ​

可见光谱 ​

光的基本性质 ​

1. 反射（Reflection） ​

2. 折射（Refraction） ​

3. 吸收（Absorption） ​

4. 散射（Scattering） ​

光度学基本量 ​

1. 光通量（Luminous Flux）(\Phi) ​

2. 光强度（Luminous Intensity）(I) ​

3. 光照度（Illuminance）(E) ​

现代图像处理技术

课程简介

学习内容

基础理论

高级技术

学习笔记

第1章绪论

1.1 什么是数字图像处理

定义

图像的数学表示

图像处理的三个层次

1.2 数字图像处理的起源

早期发展（1920s-1950s）

空间时代（1960s-1970s）

现代发展（1980s至今）

1.3 数字图像处理应用领域

1. 航天和航空

2. 生物医学工程

3. 通信工程

4. 工业应用

5. 执法与安全

6. 文化艺术

7. 消费电子

1.4 数字图像处理的基本步骤

完整的图像处理流程

1. 图像获取（Image Acquisition）

2. 图像预处理（Image Preprocessing）

3. 图像增强（Image Enhancement）

4. 图像复原（Image Restoration）

5. 形态学处理（Morphological Processing）

6. 图像分割（Image Segmentation）

7. 特征提取（Feature Extraction）

8. 目标识别（Object Recognition）

1.5 图像处理系统的组成

硬件组成

1. 图像采集设备

2. 图像存储设备

3. 图像处理设备

4. 图像显示设备

5. 图像输出设备

软件组成

1. 操作系统

2. 图像处理库

3. 深度学习框架

4. 应用软件

系统架构

1.6 数字图像处理应用举例

案例1：医学图像增强

案例2：卫星图像去云处理

案例3：人脸识别系统

案例4：自动驾驶中的车道线检测

案例5：文档图像二值化与OCR识别

案例6：图像风格迁移

第2章数字图像形成

2.1 视觉感知要素

人眼的结构与功能

眼睛的主要组成部分

视网膜的感光细胞

1. 视杆细胞（Rods）

2. 视锥细胞（Cones）

视觉感知特性

1. 亮度适应（Brightness Adaptation）

2. 对比度敏感性

3. 空间频率敏感性

4. 马赫带效应（Mach Band Effect）

5. 同时对比（Simultaneous Contrast）

6. 颜色恒常性（Color Constancy）

2.2 光和电磁波谱

电磁波谱

电磁波谱分类

可见光谱

光的基本性质

1. 反射（Reflection）

2. 折射（Refraction）

3. 吸收（Absorption）

4. 散射（Scattering）

光度学基本量

1. 光通量（Luminous Flux）(\Phi)

2. 光强度（Luminous Intensity）(I)

3. 光照度（Illuminance）(E)