Skip to content

现代图像处理技术

课程简介

现代图像处理技术课程涵盖数字图像处理的基本理论和最新技术,包括图像增强、分割、特征提取、目标检测等。

学习内容

基础理论

  • 数字图像基础
  • 图像变换
  • 频域处理
  • 图像增强

高级技术

  • 图像分割
  • 特征提取
  • 目标检测
  • 深度学习在图像处理中的应用

学习笔记

第1章 绪论

1.1 什么是数字图像处理

数字图像处理(Digital Image Processing, DIP)是指用计算机对图像进行处理的技术和方法。

定义

数字图像处理是使用数字计算机或其他数字硬件,对通过某种方式获取的数字图像进行各种处理操作,以提取有用信息或得到更适合人或机器分析的图像。

图像的数学表示

  • 二维函数表示:图像可表示为二维函数 (f(x,y)),其中 ((x,y)) 是空间坐标,(f) 是该点的灰度值
  • 数字图像:当 (x)、(y) 和 (f) 的幅值都是有限的离散值时,称该图像为数字图像
  • 像素:数字图像的基本单元,表示为 (f(x,y)) 在某个位置的值

图像处理的三个层次

  1. 低级处理:输入和输出都是图像,如图像去噪、图像增强、图像复原等
  2. 中级处理:输入是图像,输出是从图像中提取的属性,如图像分割、边缘检测、特征提取等
  3. 高级处理:对识别出的目标进行认知,如图像识别、场景理解、目标跟踪等

1.2 数字图像处理的起源

早期发展(1920s-1950s)

  • 1920s:报纸通过海底电缆传输图片,首次实现图像的数字化传输
  • 1950s:电子计算机的出现为数字图像处理奠定基础

空间时代(1960s-1970s)

  • 1964年:美国喷气推进实验室(JPL)使用计算机处理"徘徊者7号"传回的月球照片
  • 1972年:NASA对"水手9号"和"水手10号"传回的火星和水星图像进行增强处理
  • 1970年代:医学成像技术发展,CT(计算机断层扫描)技术诞生

现代发展(1980s至今)

  • 1980s:个人计算机普及,图像处理软件开始商业化
  • 1990s:互联网发展推动图像压缩技术(JPEG、MPEG)
  • 2000s:数码相机普及,数字图像处理进入千家万户
  • 2010s至今:深度学习技术革新图像处理领域,计算机视觉快速发展

1.3 数字图像处理应用领域

1. 航天和航空

  • 卫星遥感图像处理
  • 行星探测图像增强
  • 气象云图分析
  • 地形地貌识别

2. 生物医学工程

  • 医学影像:CT、MRI、X射线、超声成像
  • 病理分析:细胞图像分割与计数
  • 辅助诊断:肿瘤检测、病灶识别
  • 手术导航:三维重建、实时图像引导

3. 通信工程

  • 图像编码与压缩(JPEG、H.264、HEVC)
  • 视频会议与流媒体传输
  • 图像传输中的错误校正
  • 图像水印与信息隐藏

4. 工业应用

  • 自动检测:产品缺陷检测、质量控制
  • 机器视觉:机器人导航、装配引导
  • 条码识别:一维码、二维码扫描
  • 文字识别:OCR技术

5. 执法与安全

  • 监控系统:视频监控、异常行为检测
  • 人脸识别:身份验证、犯罪侦查
  • 车牌识别:交通管理、停车场管理
  • 指纹识别:生物特征识别

6. 文化艺术

  • 文物数字化保护
  • 古籍图像修复
  • 艺术作品鉴定
  • 图像风格迁移

7. 消费电子

  • 智能手机图像处理(美颜、滤镜、HDR)
  • 数码相机自动对焦、防抖
  • 图像编辑软件(Photoshop、美图秀秀)
  • 增强现实(AR)应用

1.4 数字图像处理的基本步骤

完整的图像处理流程

图像获取 → 预处理 → 图像增强 → 图像复原 → 
形态学处理 → 图像分割 → 特征提取 → 目标识别

1. 图像获取(Image Acquisition)

  • 通过传感器将光学图像转换为数字信号
  • 设备:数码相机、扫描仪、摄像机、医学成像设备等
  • 输出:原始数字图像

2. 图像预处理(Image Preprocessing)

  • 目的:改善图像质量,为后续处理做准备
  • 操作
    • 噪声滤除
    • 几何校正(旋转、缩放、畸变校正)
    • 灰度变换
    • 对比度调整

3. 图像增强(Image Enhancement)

  • 目的:突出图像中的有用信息,抑制无用信息
  • 方法
    • 空间域方法:直方图均衡化、灰度变换、空间滤波
    • 频率域方法:低通滤波、高通滤波、同态滤波

4. 图像复原(Image Restoration)

  • 目的:恢复退化图像,尽可能接近原始图像
  • 技术:去模糊、去运动模糊、超分辨率重建

5. 形态学处理(Morphological Processing)

  • 基本操作:腐蚀、膨胀、开运算、闭运算
  • 应用:噪声去除、形状提取、骨架提取

6. 图像分割(Image Segmentation)

  • 目的:将图像划分为若干有意义的区域
  • 方法
    • 阈值分割
    • 区域生长
    • 边缘检测
    • 基于聚类的分割
    • 深度学习分割(U-Net、Mask R-CNN)

7. 特征提取(Feature Extraction)

  • 目的:提取图像中具有代表性的特征
  • 特征类型
    • 颜色特征:直方图、颜色矩
    • 纹理特征:灰度共生矩阵、LBP
    • 形状特征:边界描述、不变矩
    • 深度特征:CNN提取的高层特征

8. 目标识别(Object Recognition)

  • 目的:识别图像中的目标类别
  • 方法
    • 传统方法:模板匹配、特征匹配
    • 机器学习:SVM、随机森林
    • 深度学习:CNN、YOLO、Faster R-CNN

1.5 图像处理系统的组成

硬件组成

1. 图像采集设备

  • 光学传感器:CCD、CMOS
  • 扫描设备:平板扫描仪、胶片扫描仪
  • 视频采集卡:模拟/数字视频输入

2. 图像存储设备

  • 内存:快速临时存储
  • 硬盘:大容量永久存储
  • 固态硬盘(SSD):高速读写
  • 网络存储:云存储、NAS

3. 图像处理设备

  • CPU:通用处理器
  • GPU:并行计算,加速图像和深度学习处理
  • FPGA:可编程硬件,实时处理
  • DSP:数字信号处理器
  • 专用芯片:NPU、TPU

4. 图像显示设备

  • 显示器:LCD、OLED、LED
  • 投影仪:大屏幕显示
  • VR/AR设备:沉浸式显示

5. 图像输出设备

  • 打印机:彩色/黑白打印
  • 绘图仪:大幅面输出

软件组成

1. 操作系统

  • Windows、Linux、macOS
  • 嵌入式操作系统(实时系统)

2. 图像处理库

  • OpenCV:开源计算机视觉库
  • PIL/Pillow:Python图像处理库
  • scikit-image:科学图像处理
  • ImageJ:生物医学图像分析
  • MATLAB Image Processing Toolbox

3. 深度学习框架

  • TensorFlow:Google开发
  • PyTorch:Facebook开发
  • Keras:高级API
  • Caffe:专注于图像处理

4. 应用软件

  • 图像编辑:Adobe Photoshop、GIMP
  • 图像浏览:ACDSee、XnView
  • 专业软件:医学影像处理软件、遥感图像处理软件

系统架构

┌─────────────────────────────────────────┐
│           应用层(Application)          │
│  图像编辑、目标识别、医学诊断、监控等    │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         算法层(Algorithm)              │
│  增强、分割、特征提取、深度学习模型      │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         软件库层(Library)              │
│  OpenCV、PIL、TensorFlow、PyTorch等      │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│      操作系统层(Operating System)      │
│  Windows、Linux、macOS                   │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│         硬件层(Hardware)               │
│  CPU、GPU、存储、采集设备、显示设备      │
└─────────────────────────────────────────┘

1.6 数字图像处理应用举例

案例1:医学图像增强

问题:X射线图像对比度低,难以观察病灶

解决方案

  1. 直方图均衡化提高对比度
  2. 锐化滤波器增强边缘
  3. 噪声滤除去除干扰

效果:病灶区域更清晰,便于医生诊断

数学原理: 直方图均衡化变换函数:

sk=T(rk)=(L1)j=0kpr(rj)=(L1)MNj=0knj

其中:

  • (L) 是灰度级数
  • (p_r(r_j)) 是灰度级 (r_j) 的概率
  • (n_j) 是灰度级 (j) 的像素数
  • (MN) 是图像总像素数

案例2:卫星图像去云处理

问题:遥感卫星图像被云层遮挡,影响地表信息获取

解决方案

  1. 多时相图像融合
  2. 基于深度学习的云检测与去除
  3. 图像修复技术填补云遮挡区域

效果:获得清晰的地表图像,用于农业监测、城市规划等


案例3:人脸识别系统

问题:在不同光照、角度、表情下准确识别人脸

解决方案

  1. 人脸检测:使用级联分类器或深度学习(MTCNN)
  2. 人脸对齐:基于关键点检测进行几何校正
  3. 特征提取:使用深度卷积神经网络(如FaceNet、ArcFace)
  4. 人脸匹配:计算特征向量的相似度

技术细节

  • FaceNet:将人脸映射到128维欧氏空间

  • 损失函数:Triplet Loss

    L=i[f(xia)f(xip)22f(xia)f(xin)22+α]+

    其中 (x_i^a) 是锚点,(x_i^p) 是正样本,(x_i^n) 是负样本

应用场景

  • 手机解锁
  • 门禁系统
  • 支付认证
  • 安防监控

案例4:自动驾驶中的车道线检测

问题:实时准确地检测道路车道线,指导车辆行驶

解决方案

  1. 图像预处理

    • 灰度化
    • 高斯滤波去噪
    • 感兴趣区域(ROI)提取
  2. 边缘检测:Canny算子

    • 计算梯度:G=Gx2+Gy2,θ=arctan(GyGx)
    • 非极大值抑制
    • 双阈值检测
  3. 直线检测:霍夫变换(Hough Transform)

    • 参数空间表示:(\rho = x\cos\theta + y\sin\theta)
    • 投票机制找出直线
  4. 车道线拟合:多项式拟合或深度学习方法

深度学习方法

  • 语义分割:使用U-Net、SegNet等网络逐像素分类
  • 实例分割:区分不同的车道线

效果:实时准确检测车道线,保持车辆在车道内行驶


案例5:文档图像二值化与OCR识别

问题:扫描的文档图像光照不均、背景噪声多,影响文字识别

解决方案

第一步:图像二值化

  • 全局阈值法:Otsu方法

    Otsu算法最大化类间方差:

    σB2(t)=ω0(t)[μ0(t)μ]2+ω1(t)[μ1(t)μ]2

    或等价地:

    σB2(t)=ω0(t)ω1(t)[μ0(t)μ1(t)]2

    其中:

    • (\omega_0, \omega_1) 是两类的概率
    • (\mu_0, \mu_1) 是两类的均值
    • (\mu) 是整体均值
  • 局部自适应阈值:Sauvola方法

    T(x,y)=m(x,y)[1+k(s(x,y)R1)]

    其中 (m(x,y)) 是局部均值,(s(x,y)) 是局部标准差

第二步:文字识别(OCR)

  • 传统方法:模板匹配、特征提取+分类器
  • 深度学习方法
    • CNN + RNN + CTC:用于文本行识别
    • CRNN(Convolutional Recurrent Neural Network)
    • Transformer-based OCR

效果:高精度文字识别,应用于文档数字化、票据识别等


案例6:图像风格迁移

问题:将一幅图像的艺术风格应用到另一幅图像上

解决方案:基于深度学习的神经风格迁移(Neural Style Transfer)

方法:使用预训练的卷积神经网络(如VGG19)

损失函数

Ltotal=αLcontent+βLstyle
  • 内容损失

    Lcontent=12i,j(FijlPijl)2

    其中 (F^l) 是生成图像在第 (l) 层的特征,(P^l) 是内容图像的特征

  • 风格损失:基于Gram矩阵

    Gijl=kFiklFjklLstyle=lwl14Nl2Ml2i,j(GijlAijl)2

    其中 (A^l) 是风格图像的Gram矩阵

应用:艺术创作、照片美化、视频特效


第2章 数字图像形成

2.1 视觉感知要素

人眼的结构与功能

人眼是一个复杂的光学系统,能够感知光线并将其转换为神经信号。

眼睛的主要组成部分

  1. 角膜(Cornea):透明的前表面,负责大部分光线折射
  2. 虹膜(Iris):控制进入眼睛的光量,中间的开口称为瞳孔
  3. 晶状体(Lens):可调节焦距,将光线聚焦到视网膜上
  4. 视网膜(Retina):包含感光细胞,将光信号转换为神经信号
  5. 视神经(Optic Nerve):将神经信号传递到大脑
        光线

    ┌────────────┐
    │   角膜     │  折射光线
    └────────────┘

    ┌────────────┐
    │ 瞳孔/虹膜  │  控制光量
    └────────────┘

    ┌────────────┐
    │   晶状体   │  调节焦距
    └────────────┘

    ┌────────────┐
    │   视网膜   │  感光转换
    └────────────┘

      视神经

        大脑

视网膜的感光细胞

1. 视杆细胞(Rods)

  • 数量:约1.2亿个
  • 分布:主要分布在视网膜外围
  • 功能
    • 对光极其敏感,负责暗视觉(scotopic vision)
    • 不能感知颜色
    • 适合低照度环境
  • 光谱敏感性:峰值约在507 nm(蓝绿光)

2. 视锥细胞(Cones)

  • 数量:约600-700万个
  • 分布:主要集中在中央凹(fovea)
  • 功能
    • 负责明视觉(photopic vision)和色觉
    • 需要较高的光照强度
    • 提供高分辨率视觉
  • 三种类型
    • S型(短波):对蓝光敏感,峰值约420 nm
    • M型(中波):对绿光敏感,峰值约534 nm
    • L型(长波):对红光敏感,峰值约564 nm

三色理论:人眼通过这三种视锥细胞的组合响应感知各种颜色

视觉感知特性

1. 亮度适应(Brightness Adaptation)

人眼可以在极宽的亮度范围内工作:

  • 亮度范围:约 (10^{-6}) 到 (10^4) cd/m²(10个数量级)
  • 瞬时适应范围:约 (10^{-2}) 到 (10^2) cd/m²(4个数量级)

韦伯定律(Weber's Law)

ΔII=k

其中:

  • (\Delta I) 是可察觉的亮度差
  • (I) 是背景亮度
  • (k) 是韦伯常数(约2%)

2. 对比度敏感性

人眼对相对亮度变化比绝对亮度更敏感。

对比度定义

C=ImaxIminImax+Imin

或Michelson对比度:

C=LmaxLminLmax+Lmin

3. 空间频率敏感性

人眼对不同空间频率的敏感度不同:

  • 最敏感频率:约3-5 cycles/degree
  • 截止频率:约50-60 cycles/degree

对比度敏感函数(CSF):描述人眼对不同空间频率的敏感度

4. 马赫带效应(Mach Band Effect)

在亮度均匀变化的区域边界,人眼会感知到不存在的亮带和暗带。这是人眼边缘增强的结果。

5. 同时对比(Simultaneous Contrast)

同一灰度值在不同背景下看起来不同。

6. 颜色恒常性(Color Constancy)

在不同光照条件下,人眼倾向于感知物体具有恒定的颜色。


2.2 光和电磁波谱

电磁波谱

电磁波是电场和磁场的振荡传播,其特征由波长 (\lambda) 或频率 (f) 决定:

c=λf

其中 (c) 是光速(约 (3 \times 10^8) m/s)

电磁波谱分类

按波长从短到长排列:

波段波长范围应用
伽马射线< 0.01 nm放射医学、天文观测
X射线0.01 nm - 10 nm医学成像、安检、晶体学
紫外线(UV)10 nm - 400 nm消毒、光刻、材料分析
可见光400 nm - 700 nm人眼视觉、摄影、显示
红外线(IR)700 nm - 1 mm热成像、遥感、夜视
微波1 mm - 1 m雷达、通信、微波炉
无线电波> 1 m广播、电视、通信

可见光谱

人眼可感知的电磁波范围:400-700 nm

颜色波长范围 (nm)
紫色380 - 450
蓝色450 - 495
绿色495 - 570
黄色570 - 590
橙色590 - 620
红色620 - 750

光的基本性质

1. 反射(Reflection)

反射定律

  • 入射角等于反射角:$ (\theta_i = \theta_r) $
  • 入射光线、反射光线和法线在同一平面内

反射类型

  • 镜面反射(Specular Reflection):光滑表面,反射光线方向确定
  • 漫反射(Diffuse Reflection):粗糙表面,反射光线向各个方向散射

Lambert余弦定律

I=I0cosθ

其中 (\theta) 是观察方向与表面法线的夹角

2. 折射(Refraction)

Snell定律

n1sinθ1=n2sinθ2

其中:

  • (n_1, n_2) 是两种介质的折射率
  • (\theta_1, \theta_2) 是入射角和折射角

3. 吸收(Absorption)

Beer-Lambert定律

I=I0eαx

其中:

  • (I_0) 是入射光强
  • (\alpha) 是吸收系数
  • (x) 是传播距离

4. 散射(Scattering)

光在传播过程中遇到微小粒子而改变方向。

瑞利散射(Rayleigh Scattering): 散射强度与波长的四次方成反比:

I1λ4

这解释了为什么天空是蓝色的(短波长的蓝光散射更强)。

光度学基本量

1. 光通量(Luminous Flux)(\Phi)

  • 单位:流明(lumen, lm)
  • 定义:光源辐射的可见光能量

2. 光强度(Luminous Intensity)(I)

  • 单位:坎德拉(candela, cd)
  • 定义:单位立体角内的光通量I=dΦdΩ

3. 光照度(Illuminance)(E)

  • 单位:勒克斯(lux, lx)
  • 定义:单位面积接收的光通量E=dΦdA

4. 光亮度(Luminance)(L)

  • 单位:坎德拉每平方米(cd/m²)
  • 定义:单位面积、单位立体角内的光通量L=d2ΦdAdΩcosθ

2.3 图像感知和获取

图像形成模型

数字图像的形成可以建模为:

f(x,y)=i(x,y)r(x,y)

其中:

  • (f(x,y)) 是观察到的图像
  • (i(x,y)) 是照明分量(illumination),范围 ([0, $ \infty $ ))
  • (r(x,y)) 是反射分量(reflectance),范围 ([0, 1])

物理意义

  • (i(x,y)) 取决于光源
  • (r(x,y)) 取决于物体表面特性

图像传感器

1. CCD(Charge-Coupled Device,电荷耦合器件)

工作原理

  1. 光子入射到光敏区
  2. 产生电荷(光电效应)
  3. 电荷在电极控制下传输
  4. 转换为电压信号
  5. 模数转换(ADC)得到数字信号

特点

  • ✓ 高灵敏度
  • ✓ 低噪声
  • ✓ 图像质量好
  • ✗ 功耗较高
  • ✗ 制造成本高

2. CMOS(Complementary Metal-Oxide-Semiconductor)

工作原理

  • 每个像素包含光电二极管和放大电路
  • 直接在像素处进行电荷-电压转换
  • 随机访问像素

特点

  • ✓ 功耗低
  • ✓ 成本低
  • ✓ 集成度高
  • ✓ 读取速度快
  • ✗ 早期产品噪声较高(现已改善)

CCD vs CMOS 对比

特性CCDCMOS
灵敏度中高(不断提升)
噪声中(不断改善)
功耗
成本
速度
应用专业相机、天文手机、消费相机

图像获取设备

1. 数码相机

  • 单反相机(DSLR):光学取景,可更换镜头
  • 无反相机:电子取景,轻便
  • 卡片相机:便携,固定镜头

2. 扫描仪

  • 平板扫描仪:文档、照片扫描
  • 胶片扫描仪:数字化胶片
  • 3D扫描仪:获取三维几何信息

3. 医学成像设备

  • X射线成像:透视成像
  • CT(Computed Tomography):X射线断层成像
  • MRI(Magnetic Resonance Imaging):磁共振成像
  • 超声成像:利用超声波反射

4. 遥感传感器

  • 光学传感器:可见光、红外
  • 雷达:主动式,穿透云层
  • 激光雷达(LiDAR):获取三维信息

5. 视频采集设备

  • 摄像机:连续图像序列
  • 监控摄像头:安防应用
  • 运动捕捉系统:高速摄像机阵列

彩色图像获取

单传感器方法:Bayer滤镜阵列

Bayer模式

G R G R G R
B G B G B G
G R G R G R
B G B G B G
  • 绿色像素:50%(人眼对绿光最敏感)
  • 红色像素:25%
  • 蓝色像素:25%

去马赛克(Demosaicing):通过插值算法恢复完整的RGB图像

常用插值算法

  • 双线性插值
  • 边缘自适应插值
  • 频域插值

三传感器方法:棱镜分光

使用分光棱镜将光线分为RGB三路,每路对应一个传感器。

优点

  • 每个像素都有完整的RGB信息
  • 无需去马赛克
  • 色彩准确

缺点

  • 体积大
  • 成本高
  • 主要用于专业摄像机

2.4 图像取样和量化

将连续的模拟图像转换为离散的数字图像需要两个步骤:取样量化

取样(Sampling)

定义:将空间上连续的图像离散化为离散的像素点。

取样定理(Nyquist-Shannon Sampling Theorem)

为了无失真地重建连续信号,取样频率必须至少是信号最高频率的两倍:

fs2fmax

其中:

  • (f_s) 是取样频率
  • (f_{max}) 是信号的最高频率
  • (2f_{max}) 称为Nyquist频率

欠取样的后果:混叠(Aliasing)现象

  • 高频信息被误认为低频
  • 图像出现锯齿、摩尔纹等失真

防止混叠

  1. 提高取样率
  2. 取样前进行低通滤波(抗混叠滤波器)

空间分辨率

定义:单位长度内的像素数量

常见表示

  • 像素数量:如1920×1080(总共约200万像素)
  • DPI/PPI:每英寸点数/像素数(Dots/Pixels Per Inch)

影响因素

  • 传感器尺寸
  • 像素数量
  • 镜头质量

分辨率与图像质量

  • 高分辨率 → 更多细节,文件更大
  • 低分辨率 → 细节损失,文件较小

量化(Quantization)

定义:将连续的像素强度值映射到有限个离散灰度级。

量化过程

假设连续灰度值范围是 ([0, I_{max}]),量化为 (L) 个灰度级:

Iq=round(IImax×(L1))

灰度级数:通常 (L = 2^b),其中 (b) 是比特数

  • (b = 1):2级(二值图像)
  • (b = 8):256级(常见灰度图像)
  • (b = 16):65536级(高动态范围)

量化误差

定义:量化前后的差值

e(x,y)=I(x,y)Iq(x,y)

均方量化误差

MSE=1MNx=0M1y=0N1[I(x,y)Iq(x,y)]2

信噪比(SNR)

SNR=10log10σsignal2σnoise2 (dB)

峰值信噪比(PSNR)

PSNR=10log10Imax2MSE=20log10ImaxMSE (dB)

伪轮廓(False Contouring)

当量化级数太少时,平滑渐变区域会出现明显的阶梯状边界。

解决方法

  1. 增加量化级数
  2. 抖动(Dithering)技术

数字图像表示

灰度图像

f(x,y),x=0,1,,M1;y=0,1,,N1f(x,y)[0,L1]

存储大小

Size=M×N×b (bits)

例如:1920×1080,8位灰度图像

Size=1920×1080×8=16,588,800 bits2.07 MB

彩色图像(RGB)

f(x,y)=[R(x,y),G(x,y),B(x,y)]

每个通道通常8位,总共24位/像素

取样和量化的权衡

空间分辨率 vs 灰度分辨率

在存储空间有限时:

  • 高空间分辨率 + 低灰度分辨率:更多细节,但对比度差
  • 低空间分辨率 + 高灰度分辨率:细节少,但灰度平滑

一般经验

  • 自然图像:8位量化通常足够
  • 医学图像:可能需要12-16位
  • 空间分辨率的影响通常比灰度分辨率更显著

2.5 像素间的基本关系

像素的邻域

4-邻域(4-Neighborhood)(N_4(p))

像素 (p) 在 ((x,y)) 位置,其4-邻域包含:

(x+1,y),(x1,y),(x,y+1),(x,y1)
      N

W ← [ p ] → E

      S

对角邻域(Diagonal Neighborhood)(N_D(p))

(x+1,y+1),(x+1,y1),(x1,y+1),(x1,y1)
NW    N    NE
    ↖ ↑ ↗
W ← [ p ] → E
    ↙ ↓ ↘
SW    S    SE

8-邻域(8-Neighborhood)(N_8(p))

N8(p)=N4(p)ND(p)

包含上述8个位置的像素。

像素的连通性

连通的定义

两个像素连通需要满足:

  1. 邻接性:两个像素是邻居
  2. 灰度相似性:满足某种灰度准则(如相同灰度值、灰度差小于阈值)

连通类型

4-连通:通过4-邻域连通 8-连通:通过8-邻域连通 m-连通(混合连通):避免二义性的连通定义

连通分量

定义:图像中所有相互连通的像素构成一个连通分量(或连通区域)

标记算法

  1. 扫描图像,遇到未标记的前景像素
  2. 分配一个新标签
  3. 递归或迭代标记所有与之连通的像素
  4. 继续扫描,直到所有像素被处理

距离度量

设像素 (p, q, z) 的坐标分别为 ((x, y), (s, t), (u, v))。

1. 欧氏距离(Euclidean Distance)

De(p,q)=(xs)2+(yt)2

性质

  • (D_e(p, q) \geq 0),且 (D_e(p, q) = 0) 当且仅当 (p=q)
  • (D_e(p, q) = D_e(q, p))(对称性)
  • (D_e(p, z) \leq D_e(p, q) + D_e(q, z))(三角不等式)

等距线:圆

2. 城市街区距离/曼哈顿距离(City Block / Manhattan Distance)(D_4)

D4(p,q)=|xs|+|yt|

物理意义:沿着网格移动的距离(4-连通)

等距线:菱形

3. 棋盘距离(Chessboard Distance)(D_8)

D8(p,q)=max(|xs|,|yt|)

物理意义:国际象棋中王的移动步数(8-连通)

等距线:正方形

距离度量的性质

一个函数 (D(p, q)) 是距离度量,需满足:

  1. 非负性:(D(p, q) \geq 0),且 (D(p, q) = 0 \Leftrightarrow p = q)
  2. 对称性:(D(p, q) = D(q, p))
  3. 三角不等式:(D(p, z) \leq D(p, q) + D(q, z))

2.6 常用数学工具

2.6.1 数组与矩阵操作

图像表示为矩阵

灰度图像可表示为 (M \times N) 矩阵:

F=[f(0,0)f(0,1)f(0,N1)f(1,0)f(1,1)f(1,N1)f(M1,0)f(M1,1)f(M1,N1)]

基本运算

矩阵加法

(A+B)ij=Aij+Bij

应用:图像叠加、噪声添加

矩阵数乘

(αA)ij=αAij

应用:亮度调整

矩阵乘法

(AB)ij=kAikBkj

应用:线性变换

元素乘法(Hadamard积)

(AB)ij=AijBij

应用:掩膜操作

转置

AT:(AT)ij=Aji

2.6.2 线性操作

叠加原理

线性系统 (H) 满足:

H[af1(x,y)+bf2(x,y)]=aH[f1(x,y)]+bH[f2(x,y)]

卷积(Convolution)

二维卷积定义

(fh)(x,y)=s=t=f(s,t)h(xs,yt)

离散卷积

g(x,y)=s=aat=bbf(x+s,y+t)h(s,t)

卷积性质

  • 交换律:(f * h = h * f)
  • 结合律:(f * (h_1 * h_2) = (f * h_1) * h_2)
  • 分配律:(f * (h_1 + h_2) = f * h_1 + f * h_2)

应用:空间滤波、模糊、锐化

相关(Correlation)

定义

(fh)(x,y)=s=t=f(s,t)h(x+s,y+t)

关系

fh=fh(x,y)

当 (h) 对称时,相关等于卷积。

应用:模板匹配

2.6.3 二维变换

1. 傅里叶变换(Fourier Transform)

连续傅里叶变换

F(u,v)=f(x,y)ej2π(ux+vy)dxdy

逆变换

f(x,y)=F(u,v)ej2π(ux+vy)dudv

二维离散傅里叶变换(2D DFT)

F(u,v)=1MNx=0M1y=0N1f(x,y)ej2π(ux/M+vy/N)

逆变换(IDFT)

f(x,y)=u=0M1v=0N1F(u,v)ej2π(ux/M+vy/N)

幅度谱和相位谱

|F(u,v)|=R2(u,v)+I2(u,v)ϕ(u,v)=arctan(I(u,v)R(u,v))

功率谱

P(u,v)=|F(u,v)|2

重要性质

  • 线性:(\mathcal{F}[af + bg] = a\mathcal{F}[f] + b\mathcal{F}[g])
  • 平移:(\mathcal{F}[f(x-x_0, y-y_0)] = F(u,v)e^{-j2\pi(ux_0/M + vy_0/N)})
  • 旋转:(f(x,y)) 旋转 (\theta) → (F(u,v)) 旋转 (\theta)
  • 卷积定理:(\mathcal{F}[f * h] = F(u,v)H(u,v))
  • Parseval定理:(\sum_{x,y}|f(x,y)|^2 = \sum_{u,v}|F(u,v)|^2)

应用:频域滤波、图像压缩、相位相关配准

2. 离散余弦变换(DCT)

二维DCT

F(u,v)=α(u)α(v)x=0M1y=0N1f(x,y)cos[(2x+1)uπ2M]cos[(2y+1)vπ2N]

其中:

α(u)={1/M,u=02/M,u=1,2,,M1

逆DCT(IDCT)

f(x,y)=u=0M1v=0N1α(u)α(v)F(u,v)cos[(2x+1)uπ2M]cos[(2y+1)vπ2N]

特点

  • 实数变换(不涉及复数)
  • 能量集中性好
  • JPEG压缩标准采用的变换

3. 小波变换(Wavelet Transform)

连续小波变换(CWT)

W(a,b)=1|a|f(x)ψ(xba)dx

其中:

  • (\psi(x)) 是母小波
  • (a) 是尺度参数
  • (b) 是平移参数

离散小波变换(DWT): 使用尺度函数和小波函数,通过滤波器组实现

二维DWT: 对图像行和列分别进行一维DWT,得到4个子带:

  • LL:低频(近似)
  • LH:水平高频
  • HL:垂直高频
  • HH:对角高频

应用:图像压缩(JPEG2000)、去噪、特征提取

2.6.4 概率与统计

直方图

定义:灰度级的频数分布

h(rk)=nk

其中 (n_k) 是灰度级 (r_k) 的像素数。

归一化直方图(概率密度函数)

p(rk)=nkMN

其中 (MN) 是图像总像素数。

统计特征

均值(Mean)

μ=1MNx=0M1y=0N1f(x,y)=k=0L1rkp(rk)

方差(Variance)

σ2=1MNx=0M1y=0N1[f(x,y)μ]2=k=0L1(rkμ)2p(rk)

标准差(Standard Deviation)

σ=σ2

高阶矩

  • 偏度(Skewness):衡量分布的不对称性

    γ1=μ3σ3=1MNσ3[f(x,y)μ]3
  • 峰度(Kurtosis):衡量分布的尖锐程度

    γ2=μ4σ43

熵(Entropy)

H=k=0L1p(rk)log2p(rk)

衡量图像的信息量或不确定性。

联合概率与相关性

联合直方图

h(i,j)=count of pixel pairs with values (i,j)

协方差(Covariance)

Cov(X,Y)=E[(XμX)(YμY)]

相关系数(Correlation Coefficient)

ρ=Cov(X,Y)σXσY

范围:([-1, 1])

  • (\rho = 1):完全正相关
  • (\rho = 0):不相关
  • (\rho = -1):完全负相关

实践项目

  • [ ] 实现图像增强算法
  • [ ] 完成图像分割任务
  • [ ] 使用OpenCV进行图像处理
  • [ ] 深度学习图像分类项目

参考资料

  • 教材:《Digital Image Processing》- Gonzalez & Woods
  • 软件工具:OpenCV, PIL, scikit-image
  • 在线资源:Image Processing Tutorials

最后更新:2024年9月9日

基于 VitePress 构建