现代图像处理技术
课程简介
现代图像处理技术课程涵盖数字图像处理的基本理论和最新技术,包括图像增强、分割、特征提取、目标检测等。
学习内容
基础理论
- 数字图像基础
- 图像变换
- 频域处理
- 图像增强
高级技术
- 图像分割
- 特征提取
- 目标检测
- 深度学习在图像处理中的应用
学习笔记
第1章 绪论
1.1 什么是数字图像处理
数字图像处理(Digital Image Processing, DIP)是指用计算机对图像进行处理的技术和方法。
定义
数字图像处理是使用数字计算机或其他数字硬件,对通过某种方式获取的数字图像进行各种处理操作,以提取有用信息或得到更适合人或机器分析的图像。
图像的数学表示
- 二维函数表示:图像可表示为二维函数 (f(x,y)),其中 ((x,y)) 是空间坐标,(f) 是该点的灰度值
- 数字图像:当 (x)、(y) 和 (f) 的幅值都是有限的离散值时,称该图像为数字图像
- 像素:数字图像的基本单元,表示为 (f(x,y)) 在某个位置的值
图像处理的三个层次
- 低级处理:输入和输出都是图像,如图像去噪、图像增强、图像复原等
- 中级处理:输入是图像,输出是从图像中提取的属性,如图像分割、边缘检测、特征提取等
- 高级处理:对识别出的目标进行认知,如图像识别、场景理解、目标跟踪等
1.2 数字图像处理的起源
早期发展(1920s-1950s)
- 1920s:报纸通过海底电缆传输图片,首次实现图像的数字化传输
- 1950s:电子计算机的出现为数字图像处理奠定基础
空间时代(1960s-1970s)
- 1964年:美国喷气推进实验室(JPL)使用计算机处理"徘徊者7号"传回的月球照片
- 1972年:NASA对"水手9号"和"水手10号"传回的火星和水星图像进行增强处理
- 1970年代:医学成像技术发展,CT(计算机断层扫描)技术诞生
现代发展(1980s至今)
- 1980s:个人计算机普及,图像处理软件开始商业化
- 1990s:互联网发展推动图像压缩技术(JPEG、MPEG)
- 2000s:数码相机普及,数字图像处理进入千家万户
- 2010s至今:深度学习技术革新图像处理领域,计算机视觉快速发展
1.3 数字图像处理应用领域
1. 航天和航空
- 卫星遥感图像处理
- 行星探测图像增强
- 气象云图分析
- 地形地貌识别
2. 生物医学工程
- 医学影像:CT、MRI、X射线、超声成像
- 病理分析:细胞图像分割与计数
- 辅助诊断:肿瘤检测、病灶识别
- 手术导航:三维重建、实时图像引导
3. 通信工程
- 图像编码与压缩(JPEG、H.264、HEVC)
- 视频会议与流媒体传输
- 图像传输中的错误校正
- 图像水印与信息隐藏
4. 工业应用
- 自动检测:产品缺陷检测、质量控制
- 机器视觉:机器人导航、装配引导
- 条码识别:一维码、二维码扫描
- 文字识别:OCR技术
5. 执法与安全
- 监控系统:视频监控、异常行为检测
- 人脸识别:身份验证、犯罪侦查
- 车牌识别:交通管理、停车场管理
- 指纹识别:生物特征识别
6. 文化艺术
- 文物数字化保护
- 古籍图像修复
- 艺术作品鉴定
- 图像风格迁移
7. 消费电子
- 智能手机图像处理(美颜、滤镜、HDR)
- 数码相机自动对焦、防抖
- 图像编辑软件(Photoshop、美图秀秀)
- 增强现实(AR)应用
1.4 数字图像处理的基本步骤
完整的图像处理流程
图像获取 → 预处理 → 图像增强 → 图像复原 →
形态学处理 → 图像分割 → 特征提取 → 目标识别1. 图像获取(Image Acquisition)
- 通过传感器将光学图像转换为数字信号
- 设备:数码相机、扫描仪、摄像机、医学成像设备等
- 输出:原始数字图像
2. 图像预处理(Image Preprocessing)
- 目的:改善图像质量,为后续处理做准备
- 操作:
- 噪声滤除
- 几何校正(旋转、缩放、畸变校正)
- 灰度变换
- 对比度调整
3. 图像增强(Image Enhancement)
- 目的:突出图像中的有用信息,抑制无用信息
- 方法:
- 空间域方法:直方图均衡化、灰度变换、空间滤波
- 频率域方法:低通滤波、高通滤波、同态滤波
4. 图像复原(Image Restoration)
- 目的:恢复退化图像,尽可能接近原始图像
- 技术:去模糊、去运动模糊、超分辨率重建
5. 形态学处理(Morphological Processing)
- 基本操作:腐蚀、膨胀、开运算、闭运算
- 应用:噪声去除、形状提取、骨架提取
6. 图像分割(Image Segmentation)
- 目的:将图像划分为若干有意义的区域
- 方法:
- 阈值分割
- 区域生长
- 边缘检测
- 基于聚类的分割
- 深度学习分割(U-Net、Mask R-CNN)
7. 特征提取(Feature Extraction)
- 目的:提取图像中具有代表性的特征
- 特征类型:
- 颜色特征:直方图、颜色矩
- 纹理特征:灰度共生矩阵、LBP
- 形状特征:边界描述、不变矩
- 深度特征:CNN提取的高层特征
8. 目标识别(Object Recognition)
- 目的:识别图像中的目标类别
- 方法:
- 传统方法:模板匹配、特征匹配
- 机器学习:SVM、随机森林
- 深度学习:CNN、YOLO、Faster R-CNN
1.5 图像处理系统的组成
硬件组成
1. 图像采集设备
- 光学传感器:CCD、CMOS
- 扫描设备:平板扫描仪、胶片扫描仪
- 视频采集卡:模拟/数字视频输入
2. 图像存储设备
- 内存:快速临时存储
- 硬盘:大容量永久存储
- 固态硬盘(SSD):高速读写
- 网络存储:云存储、NAS
3. 图像处理设备
- CPU:通用处理器
- GPU:并行计算,加速图像和深度学习处理
- FPGA:可编程硬件,实时处理
- DSP:数字信号处理器
- 专用芯片:NPU、TPU
4. 图像显示设备
- 显示器:LCD、OLED、LED
- 投影仪:大屏幕显示
- VR/AR设备:沉浸式显示
5. 图像输出设备
- 打印机:彩色/黑白打印
- 绘图仪:大幅面输出
软件组成
1. 操作系统
- Windows、Linux、macOS
- 嵌入式操作系统(实时系统)
2. 图像处理库
- OpenCV:开源计算机视觉库
- PIL/Pillow:Python图像处理库
- scikit-image:科学图像处理
- ImageJ:生物医学图像分析
- MATLAB Image Processing Toolbox
3. 深度学习框架
- TensorFlow:Google开发
- PyTorch:Facebook开发
- Keras:高级API
- Caffe:专注于图像处理
4. 应用软件
- 图像编辑:Adobe Photoshop、GIMP
- 图像浏览:ACDSee、XnView
- 专业软件:医学影像处理软件、遥感图像处理软件
系统架构
┌─────────────────────────────────────────┐
│ 应用层(Application) │
│ 图像编辑、目标识别、医学诊断、监控等 │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 算法层(Algorithm) │
│ 增强、分割、特征提取、深度学习模型 │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 软件库层(Library) │
│ OpenCV、PIL、TensorFlow、PyTorch等 │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 操作系统层(Operating System) │
│ Windows、Linux、macOS │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ 硬件层(Hardware) │
│ CPU、GPU、存储、采集设备、显示设备 │
└─────────────────────────────────────────┘1.6 数字图像处理应用举例
案例1:医学图像增强
问题:X射线图像对比度低,难以观察病灶
解决方案:
- 直方图均衡化提高对比度
- 锐化滤波器增强边缘
- 噪声滤除去除干扰
效果:病灶区域更清晰,便于医生诊断
数学原理: 直方图均衡化变换函数:
其中:
- (L) 是灰度级数
- (p_r(r_j)) 是灰度级 (r_j) 的概率
- (n_j) 是灰度级 (j) 的像素数
- (MN) 是图像总像素数
案例2:卫星图像去云处理
问题:遥感卫星图像被云层遮挡,影响地表信息获取
解决方案:
- 多时相图像融合
- 基于深度学习的云检测与去除
- 图像修复技术填补云遮挡区域
效果:获得清晰的地表图像,用于农业监测、城市规划等
案例3:人脸识别系统
问题:在不同光照、角度、表情下准确识别人脸
解决方案:
- 人脸检测:使用级联分类器或深度学习(MTCNN)
- 人脸对齐:基于关键点检测进行几何校正
- 特征提取:使用深度卷积神经网络(如FaceNet、ArcFace)
- 人脸匹配:计算特征向量的相似度
技术细节:
FaceNet:将人脸映射到128维欧氏空间
损失函数:Triplet Loss
其中 (x_i^a) 是锚点,(x_i^p) 是正样本,(x_i^n) 是负样本
应用场景:
- 手机解锁
- 门禁系统
- 支付认证
- 安防监控
案例4:自动驾驶中的车道线检测
问题:实时准确地检测道路车道线,指导车辆行驶
解决方案:
图像预处理:
- 灰度化
- 高斯滤波去噪
- 感兴趣区域(ROI)提取
边缘检测:Canny算子
- 计算梯度:
- 非极大值抑制
- 双阈值检测
- 计算梯度:
直线检测:霍夫变换(Hough Transform)
- 参数空间表示:(\rho = x\cos\theta + y\sin\theta)
- 投票机制找出直线
车道线拟合:多项式拟合或深度学习方法
深度学习方法:
- 语义分割:使用U-Net、SegNet等网络逐像素分类
- 实例分割:区分不同的车道线
效果:实时准确检测车道线,保持车辆在车道内行驶
案例5:文档图像二值化与OCR识别
问题:扫描的文档图像光照不均、背景噪声多,影响文字识别
解决方案:
第一步:图像二值化
全局阈值法:Otsu方法
Otsu算法最大化类间方差:
或等价地:
其中:
- (\omega_0, \omega_1) 是两类的概率
- (\mu_0, \mu_1) 是两类的均值
- (\mu) 是整体均值
局部自适应阈值:Sauvola方法
其中 (m(x,y)) 是局部均值,(s(x,y)) 是局部标准差
第二步:文字识别(OCR)
- 传统方法:模板匹配、特征提取+分类器
- 深度学习方法:
- CNN + RNN + CTC:用于文本行识别
- CRNN(Convolutional Recurrent Neural Network)
- Transformer-based OCR
效果:高精度文字识别,应用于文档数字化、票据识别等
案例6:图像风格迁移
问题:将一幅图像的艺术风格应用到另一幅图像上
解决方案:基于深度学习的神经风格迁移(Neural Style Transfer)
方法:使用预训练的卷积神经网络(如VGG19)
损失函数:
内容损失:
其中 (F^l) 是生成图像在第 (l) 层的特征,(P^l) 是内容图像的特征
风格损失:基于Gram矩阵
其中 (A^l) 是风格图像的Gram矩阵
应用:艺术创作、照片美化、视频特效
第2章 数字图像形成
2.1 视觉感知要素
人眼的结构与功能
人眼是一个复杂的光学系统,能够感知光线并将其转换为神经信号。
眼睛的主要组成部分
- 角膜(Cornea):透明的前表面,负责大部分光线折射
- 虹膜(Iris):控制进入眼睛的光量,中间的开口称为瞳孔
- 晶状体(Lens):可调节焦距,将光线聚焦到视网膜上
- 视网膜(Retina):包含感光细胞,将光信号转换为神经信号
- 视神经(Optic Nerve):将神经信号传递到大脑
光线
↓
┌────────────┐
│ 角膜 │ 折射光线
└────────────┘
↓
┌────────────┐
│ 瞳孔/虹膜 │ 控制光量
└────────────┘
↓
┌────────────┐
│ 晶状体 │ 调节焦距
└────────────┘
↓
┌────────────┐
│ 视网膜 │ 感光转换
└────────────┘
↓
视神经
↓
大脑视网膜的感光细胞
1. 视杆细胞(Rods)
- 数量:约1.2亿个
- 分布:主要分布在视网膜外围
- 功能:
- 对光极其敏感,负责暗视觉(scotopic vision)
- 不能感知颜色
- 适合低照度环境
- 光谱敏感性:峰值约在507 nm(蓝绿光)
2. 视锥细胞(Cones)
- 数量:约600-700万个
- 分布:主要集中在中央凹(fovea)
- 功能:
- 负责明视觉(photopic vision)和色觉
- 需要较高的光照强度
- 提供高分辨率视觉
- 三种类型:
- S型(短波):对蓝光敏感,峰值约420 nm
- M型(中波):对绿光敏感,峰值约534 nm
- L型(长波):对红光敏感,峰值约564 nm
三色理论:人眼通过这三种视锥细胞的组合响应感知各种颜色
视觉感知特性
1. 亮度适应(Brightness Adaptation)
人眼可以在极宽的亮度范围内工作:
- 亮度范围:约 (10^{-6}) 到 (10^4) cd/m²(10个数量级)
- 瞬时适应范围:约 (10^{-2}) 到 (10^2) cd/m²(4个数量级)
韦伯定律(Weber's Law):
其中:
- (\Delta I) 是可察觉的亮度差
- (I) 是背景亮度
- (k) 是韦伯常数(约2%)
2. 对比度敏感性
人眼对相对亮度变化比绝对亮度更敏感。
对比度定义:
或Michelson对比度:
3. 空间频率敏感性
人眼对不同空间频率的敏感度不同:
- 最敏感频率:约3-5 cycles/degree
- 截止频率:约50-60 cycles/degree
对比度敏感函数(CSF):描述人眼对不同空间频率的敏感度
4. 马赫带效应(Mach Band Effect)
在亮度均匀变化的区域边界,人眼会感知到不存在的亮带和暗带。这是人眼边缘增强的结果。
5. 同时对比(Simultaneous Contrast)
同一灰度值在不同背景下看起来不同。
6. 颜色恒常性(Color Constancy)
在不同光照条件下,人眼倾向于感知物体具有恒定的颜色。
2.2 光和电磁波谱
电磁波谱
电磁波是电场和磁场的振荡传播,其特征由波长 (\lambda) 或频率 (f) 决定:
其中 (c) 是光速(约 (3 \times 10^8) m/s)
电磁波谱分类
按波长从短到长排列:
| 波段 | 波长范围 | 应用 |
|---|---|---|
| 伽马射线 | < 0.01 nm | 放射医学、天文观测 |
| X射线 | 0.01 nm - 10 nm | 医学成像、安检、晶体学 |
| 紫外线(UV) | 10 nm - 400 nm | 消毒、光刻、材料分析 |
| 可见光 | 400 nm - 700 nm | 人眼视觉、摄影、显示 |
| 红外线(IR) | 700 nm - 1 mm | 热成像、遥感、夜视 |
| 微波 | 1 mm - 1 m | 雷达、通信、微波炉 |
| 无线电波 | > 1 m | 广播、电视、通信 |
可见光谱
人眼可感知的电磁波范围:400-700 nm
| 颜色 | 波长范围 (nm) |
|---|---|
| 紫色 | 380 - 450 |
| 蓝色 | 450 - 495 |
| 绿色 | 495 - 570 |
| 黄色 | 570 - 590 |
| 橙色 | 590 - 620 |
| 红色 | 620 - 750 |
光的基本性质
1. 反射(Reflection)
反射定律:
- 入射角等于反射角:$ (\theta_i = \theta_r) $
- 入射光线、反射光线和法线在同一平面内
反射类型:
- 镜面反射(Specular Reflection):光滑表面,反射光线方向确定
- 漫反射(Diffuse Reflection):粗糙表面,反射光线向各个方向散射
Lambert余弦定律:
其中 (\theta) 是观察方向与表面法线的夹角
2. 折射(Refraction)
Snell定律:
其中:
- (n_1, n_2) 是两种介质的折射率
- (\theta_1, \theta_2) 是入射角和折射角
3. 吸收(Absorption)
Beer-Lambert定律:
其中:
- (I_0) 是入射光强
- (\alpha) 是吸收系数
- (x) 是传播距离
4. 散射(Scattering)
光在传播过程中遇到微小粒子而改变方向。
瑞利散射(Rayleigh Scattering): 散射强度与波长的四次方成反比:
这解释了为什么天空是蓝色的(短波长的蓝光散射更强)。
光度学基本量
1. 光通量(Luminous Flux)(\Phi)
- 单位:流明(lumen, lm)
- 定义:光源辐射的可见光能量
2. 光强度(Luminous Intensity)(I)
- 单位:坎德拉(candela, cd)
- 定义:单位立体角内的光通量
3. 光照度(Illuminance)(E)
- 单位:勒克斯(lux, lx)
- 定义:单位面积接收的光通量
4. 光亮度(Luminance)(L)
- 单位:坎德拉每平方米(cd/m²)
- 定义:单位面积、单位立体角内的光通量
2.3 图像感知和获取
图像形成模型
数字图像的形成可以建模为:
其中:
- (f(x,y)) 是观察到的图像
- (i(x,y)) 是照明分量(illumination),范围 ([0, $ \infty $ ))
- (r(x,y)) 是反射分量(reflectance),范围 ([0, 1])
物理意义:
- (i(x,y)) 取决于光源
- (r(x,y)) 取决于物体表面特性
图像传感器
1. CCD(Charge-Coupled Device,电荷耦合器件)
工作原理:
- 光子入射到光敏区
- 产生电荷(光电效应)
- 电荷在电极控制下传输
- 转换为电压信号
- 模数转换(ADC)得到数字信号
特点:
- ✓ 高灵敏度
- ✓ 低噪声
- ✓ 图像质量好
- ✗ 功耗较高
- ✗ 制造成本高
2. CMOS(Complementary Metal-Oxide-Semiconductor)
工作原理:
- 每个像素包含光电二极管和放大电路
- 直接在像素处进行电荷-电压转换
- 随机访问像素
特点:
- ✓ 功耗低
- ✓ 成本低
- ✓ 集成度高
- ✓ 读取速度快
- ✗ 早期产品噪声较高(现已改善)
CCD vs CMOS 对比:
| 特性 | CCD | CMOS |
|---|---|---|
| 灵敏度 | 高 | 中高(不断提升) |
| 噪声 | 低 | 中(不断改善) |
| 功耗 | 高 | 低 |
| 成本 | 高 | 低 |
| 速度 | 中 | 高 |
| 应用 | 专业相机、天文 | 手机、消费相机 |
图像获取设备
1. 数码相机
- 单反相机(DSLR):光学取景,可更换镜头
- 无反相机:电子取景,轻便
- 卡片相机:便携,固定镜头
2. 扫描仪
- 平板扫描仪:文档、照片扫描
- 胶片扫描仪:数字化胶片
- 3D扫描仪:获取三维几何信息
3. 医学成像设备
- X射线成像:透视成像
- CT(Computed Tomography):X射线断层成像
- MRI(Magnetic Resonance Imaging):磁共振成像
- 超声成像:利用超声波反射
4. 遥感传感器
- 光学传感器:可见光、红外
- 雷达:主动式,穿透云层
- 激光雷达(LiDAR):获取三维信息
5. 视频采集设备
- 摄像机:连续图像序列
- 监控摄像头:安防应用
- 运动捕捉系统:高速摄像机阵列
彩色图像获取
单传感器方法:Bayer滤镜阵列
Bayer模式:
G R G R G R
B G B G B G
G R G R G R
B G B G B G- 绿色像素:50%(人眼对绿光最敏感)
- 红色像素:25%
- 蓝色像素:25%
去马赛克(Demosaicing):通过插值算法恢复完整的RGB图像
常用插值算法:
- 双线性插值
- 边缘自适应插值
- 频域插值
三传感器方法:棱镜分光
使用分光棱镜将光线分为RGB三路,每路对应一个传感器。
优点:
- 每个像素都有完整的RGB信息
- 无需去马赛克
- 色彩准确
缺点:
- 体积大
- 成本高
- 主要用于专业摄像机
2.4 图像取样和量化
将连续的模拟图像转换为离散的数字图像需要两个步骤:取样和量化。
取样(Sampling)
定义:将空间上连续的图像离散化为离散的像素点。
取样定理(Nyquist-Shannon Sampling Theorem)
为了无失真地重建连续信号,取样频率必须至少是信号最高频率的两倍:
其中:
- (f_s) 是取样频率
- (f_{max}) 是信号的最高频率
- (2f_{max}) 称为Nyquist频率
欠取样的后果:混叠(Aliasing)现象
- 高频信息被误认为低频
- 图像出现锯齿、摩尔纹等失真
防止混叠:
- 提高取样率
- 取样前进行低通滤波(抗混叠滤波器)
空间分辨率
定义:单位长度内的像素数量
常见表示:
- 像素数量:如1920×1080(总共约200万像素)
- DPI/PPI:每英寸点数/像素数(Dots/Pixels Per Inch)
影响因素:
- 传感器尺寸
- 像素数量
- 镜头质量
分辨率与图像质量:
- 高分辨率 → 更多细节,文件更大
- 低分辨率 → 细节损失,文件较小
量化(Quantization)
定义:将连续的像素强度值映射到有限个离散灰度级。
量化过程
假设连续灰度值范围是 ([0, I_{max}]),量化为 (L) 个灰度级:
灰度级数:通常 (L = 2^b),其中 (b) 是比特数
- (b = 1):2级(二值图像)
- (b = 8):256级(常见灰度图像)
- (b = 16):65536级(高动态范围)
量化误差
定义:量化前后的差值
均方量化误差:
信噪比(SNR):
峰值信噪比(PSNR):
伪轮廓(False Contouring)
当量化级数太少时,平滑渐变区域会出现明显的阶梯状边界。
解决方法:
- 增加量化级数
- 抖动(Dithering)技术
数字图像表示
灰度图像:
存储大小:
例如:1920×1080,8位灰度图像
彩色图像(RGB):
每个通道通常8位,总共24位/像素
取样和量化的权衡
空间分辨率 vs 灰度分辨率:
在存储空间有限时:
- 高空间分辨率 + 低灰度分辨率:更多细节,但对比度差
- 低空间分辨率 + 高灰度分辨率:细节少,但灰度平滑
一般经验:
- 自然图像:8位量化通常足够
- 医学图像:可能需要12-16位
- 空间分辨率的影响通常比灰度分辨率更显著
2.5 像素间的基本关系
像素的邻域
4-邻域(4-Neighborhood)(N_4(p))
像素 (p) 在 ((x,y)) 位置,其4-邻域包含:
N
↑
W ← [ p ] → E
↓
S对角邻域(Diagonal Neighborhood)(N_D(p))
NW N NE
↖ ↑ ↗
W ← [ p ] → E
↙ ↓ ↘
SW S SE8-邻域(8-Neighborhood)(N_8(p))
包含上述8个位置的像素。
像素的连通性
连通的定义
两个像素连通需要满足:
- 邻接性:两个像素是邻居
- 灰度相似性:满足某种灰度准则(如相同灰度值、灰度差小于阈值)
连通类型
4-连通:通过4-邻域连通 8-连通:通过8-邻域连通 m-连通(混合连通):避免二义性的连通定义
连通分量
定义:图像中所有相互连通的像素构成一个连通分量(或连通区域)
标记算法:
- 扫描图像,遇到未标记的前景像素
- 分配一个新标签
- 递归或迭代标记所有与之连通的像素
- 继续扫描,直到所有像素被处理
距离度量
设像素 (p, q, z) 的坐标分别为 ((x, y), (s, t), (u, v))。
1. 欧氏距离(Euclidean Distance)
性质:
- (D_e(p, q) \geq 0),且 (D_e(p, q) = 0) 当且仅当 (p=q)
- (D_e(p, q) = D_e(q, p))(对称性)
- (D_e(p, z) \leq D_e(p, q) + D_e(q, z))(三角不等式)
等距线:圆
2. 城市街区距离/曼哈顿距离(City Block / Manhattan Distance)(D_4)
物理意义:沿着网格移动的距离(4-连通)
等距线:菱形
3. 棋盘距离(Chessboard Distance)(D_8)
物理意义:国际象棋中王的移动步数(8-连通)
等距线:正方形
距离度量的性质
一个函数 (D(p, q)) 是距离度量,需满足:
- 非负性:(D(p, q) \geq 0),且 (D(p, q) = 0 \Leftrightarrow p = q)
- 对称性:(D(p, q) = D(q, p))
- 三角不等式:(D(p, z) \leq D(p, q) + D(q, z))
2.6 常用数学工具
2.6.1 数组与矩阵操作
图像表示为矩阵
灰度图像可表示为 (M \times N) 矩阵:
基本运算
矩阵加法:
应用:图像叠加、噪声添加
矩阵数乘:
应用:亮度调整
矩阵乘法:
应用:线性变换
元素乘法(Hadamard积):
应用:掩膜操作
转置
2.6.2 线性操作
叠加原理
线性系统 (H) 满足:
卷积(Convolution)
二维卷积定义:
离散卷积:
卷积性质:
- 交换律:(f * h = h * f)
- 结合律:(f * (h_1 * h_2) = (f * h_1) * h_2)
- 分配律:(f * (h_1 + h_2) = f * h_1 + f * h_2)
应用:空间滤波、模糊、锐化
相关(Correlation)
定义:
关系:
当 (h) 对称时,相关等于卷积。
应用:模板匹配
2.6.3 二维变换
1. 傅里叶变换(Fourier Transform)
连续傅里叶变换:
逆变换:
二维离散傅里叶变换(2D DFT):
逆变换(IDFT):
幅度谱和相位谱:
功率谱:
重要性质:
- 线性:(\mathcal{F}[af + bg] = a\mathcal{F}[f] + b\mathcal{F}[g])
- 平移:(\mathcal{F}[f(x-x_0, y-y_0)] = F(u,v)e^{-j2\pi(ux_0/M + vy_0/N)})
- 旋转:(f(x,y)) 旋转 (\theta) → (F(u,v)) 旋转 (\theta)
- 卷积定理:(\mathcal{F}[f * h] = F(u,v)H(u,v))
- Parseval定理:(\sum_{x,y}|f(x,y)|^2 = \sum_{u,v}|F(u,v)|^2)
应用:频域滤波、图像压缩、相位相关配准
2. 离散余弦变换(DCT)
二维DCT:
其中:
逆DCT(IDCT):
特点:
- 实数变换(不涉及复数)
- 能量集中性好
- JPEG压缩标准采用的变换
3. 小波变换(Wavelet Transform)
连续小波变换(CWT):
其中:
- (\psi(x)) 是母小波
- (a) 是尺度参数
- (b) 是平移参数
离散小波变换(DWT): 使用尺度函数和小波函数,通过滤波器组实现
二维DWT: 对图像行和列分别进行一维DWT,得到4个子带:
- LL:低频(近似)
- LH:水平高频
- HL:垂直高频
- HH:对角高频
应用:图像压缩(JPEG2000)、去噪、特征提取
2.6.4 概率与统计
直方图
定义:灰度级的频数分布
其中 (n_k) 是灰度级 (r_k) 的像素数。
归一化直方图(概率密度函数):
其中 (MN) 是图像总像素数。
统计特征
均值(Mean):
方差(Variance):
标准差(Standard Deviation):
高阶矩:
偏度(Skewness):衡量分布的不对称性
峰度(Kurtosis):衡量分布的尖锐程度
熵(Entropy):
衡量图像的信息量或不确定性。
联合概率与相关性
联合直方图:
协方差(Covariance):
相关系数(Correlation Coefficient):
范围:([-1, 1])
- (\rho = 1):完全正相关
- (\rho = 0):不相关
- (\rho = -1):完全负相关
实践项目
- [ ] 实现图像增强算法
- [ ] 完成图像分割任务
- [ ] 使用OpenCV进行图像处理
- [ ] 深度学习图像分类项目
参考资料
- 教材:《Digital Image Processing》- Gonzalez & Woods
- 软件工具:OpenCV, PIL, scikit-image
- 在线资源:Image Processing Tutorials
最后更新:2024年9月9日