发表于2024-12-18
计算机视觉和机器模式识别是当前热门的研究领域, 目标检测和识别是其中的关键技术。本书以作者自身丰富的项目实践经验为基础, 提供了一些优选的目标检测和识别方法, 特别是基于统计和基于张量的目标检测与识别方法。本书力求理论与实践密切结合, 不仅以简洁明了的方式提供了这些方法的理论综述和必要的数学背景, 还提供了以C++编程语言为平台的可用于指导或直接移植的实现代码, 读者可基于文中及网站给出的代码开发自己工作中所需的方法。本书的实践领域主要涉及汽车应用, 包括用于路标识别或驾驶监控的视觉系统。
Bogus?aw Cyganek博士:波兰AGH科技大学电子学系研究员及讲师,IEEE, IAPR和 SIAM会员。他的研究兴趣包括计算机视觉、模式识别以及可编程设备和嵌入式系统。他在各种期刊和学术会议单独或与他人合作发表论文90余篇,共出版著作4种。 Bogus?aw Cyganek博士:波兰AGH科技大学电子学系研究员及讲师,IEEE, IAPR和 SIAM会员。他的研究兴趣包括计算机视觉、模式识别以及可编程设备和嵌入式系统。他在各种期刊和学术会议单独或与他人合作发表论文90余篇,共出版著作4种。
目 录
第1章 引言
1.1 计算机视觉的一个例子
1.2 全书内容概览
参考文献
第2章 计算机视觉中的张量方法
2.1 摘要
2.2 张量――一个数学对象
2.2.1 线性空间的主要属性
2.2.2 张量的概念
2.3 张量――数据对象
2.4 张量的基本属性
2.4.1 张量指标和分量的符号
2.4.2 张量积
2.5 张量距离测量
2.5.1 张量距离概述
2.5.2 欧几里得图像距离和标准化变换
2.6 张量场的滤波
2.6.1 张量数据的顺序统计滤波
2.6.2 各向异性扩散滤波
2.6.3 扩散过程的实现
2.7 采用结构张量观察图像
2.7.1 二维图像空间中的结构张量
2.7.2 空时结构张量
2.7.3 多通道和尺度空间结构张量
2.7.4 扩展结构张量
2.8 采用惯性张量和矩的目标表示
2.9 张量的特征分解和表示
2.10张量不变量
2.11多视点几何: 多焦点张量
2.12多线性张量方法
2.12.1 多线性代数的基本概念
2.12.2 高阶奇异值分解(HOSVD)
2.12.3 HOSVD的计算
2.12.4 HOSVD诱导基
2.12.5 张量最佳秩1近似
2.12.6 张量的秩1分解
2.12.7 最佳秩(R1, R2, …, RP)近似
2.12.8 最佳秩(R1, R2,…, RP)近似的计算
2.12.9 子空间数据表示
2.12.10非负矩阵因子分解
2.12.11非负矩阵因子分解的计算
2.12.12采用NMF的图像表示
2.12.13非负矩阵因子分解的实现
2.12.14非负张量因子分解
2.12.15目标识别的多线性方法
2.13结束语
2.13.1 本章小结
2.13.2 延伸阅读
习题
参考文献
第3章 分类方法和算法
3.1 摘要
3.2 分类框架
3.3 用于目标识别的子空间方法
3.3.1 主成分分析
3.3.2 子空间模式分类
3.4 目标识别的统计公式
3.4.1 参数化和非参数化方法
3.4.2 概率框架
3.4.3 贝叶斯决策规则
3.4.4 最大后验分类方案
3.4.5 二元分类问题
3.5 参数化方法――混合高斯
3.6 卡尔曼滤波器
3.7 非参数化方法
3.7.1 基于直方图的技术
3.7.2 比较直方图
3.7.3 多维直方图的实现
3.7.4 Parzen方法
3.8 均值移位方法
3.8.1 均值移位简介
3.8.2 连续自适应均值移位方法
3.8.3 均值移位跟踪的算法方面
3.8.4 CamShift方法的实现
3.9 神经网络
3.9.1 概率神经网络
3.9.2 概率神经网络的实现
3.9.3 汉明神经网络
3.9.4 汉明神经网络的实现
3.9.5 形态神经网络
3.10视觉模式识别中的核
3.10.1 核函数
3.10.2 核的实现
3.11数据聚类
3.11.1 k均值方法
3.11.2 模糊c均值
3.11.3 核模糊c均值
3.11.4 聚类质量的测量
3.11.5 实现问题
3.12支持向量域描述
3.12.1 支持向量机的实现
3.12.2 一类分类器集成的体系结构
3.13本章附录――用于模式分类的MATLAB和其他软件包
3.14结束语
3.14.1 本章小结
3.14.2 延伸阅读
习题
参考文献
第4章 目标检测和跟踪
4.1 简介
4.2 直接像素分类
4.2.1 基准数据采集
4.2.2 实例研究――人类皮肤检测
4.2.3 实例研究――基于像素的路标检测
4.2.4 采用分类器集成的基于像素的图像分割
4.3 基本形状检测
4.3.1 线段的检测
4.3.2 凸形状的UpWrite检测
4.4 图形检测
4.4.1 从特征点进行的规则形状检测
4.4.2 显著点的聚类
4.4.3 自适应窗生长方法
4.4.4 图形验证
4.4.5 实例研究――路标检测系统
4.5 实例研究――路标跟踪和识别
4.6 实例研究――用于目标跟踪的框架
4.7 行人检测
4.8 结束语
4.8.1 本章小结
4.8.2 延伸阅读
习题
参考文献
第5章 目标识别
5.1 摘要
5.2 从张量相位直方图和形态尺度空间进行的识别
5.2.1 在形态尺度中张量相位直方图的计算
5.2.2 张量相位直方图的匹配
5.2.3 实例研究――在形态尺度空间中采用张量相位直方图进行的目标识别
5.3 基于不变量的识别
5.3.1 实例研究――采用仿射不变矩的象形图识别
5.4 基于模板的识别
5.4.1 用于路标识别的模板匹配
5.4.2 用于模板匹配的专用距离
5.4.3 采用对数极坐标和尺度空间进行的识别
5.5 从可变形模型进行的识别
5.6 分类器集成
5.7 实例研究――用于从变形原型中进行路标识别的分类器集成
5.7.1 路标识别系统的体系结构
5.7.2 用于警告标志识别的模块
5.7.3 仲裁单元
5.8 基于张量分解的识别
5.8.1 在由模式张量HOSVD分解所张成的子空间中进行的模式识别
5.8.2 实例研究――基于采用可变形模式原型的张量分解的路标识别系统
5.8.3 实例研究――采用张量分解方法进行的手写数字识别
5.8.4 张量子空间分类器的实现
5.9 用于驾驶员状态监控的人眼识别
5.10目标分类识别
5.10.1 基于部分的目标识别
5.10.2 采用视觉词袋的识别
5.11结束语
5.11.1 本章小结
5.11.2 延伸阅读
习题
参考文献
附录A
译 者 序
俗话说, 眼见为实。对于人和动物来说, 在场景中对目标进行检测与识别是一种很轻松自然的生存能力。然而, 对于诸如计算机这样的机器来说, 怎样才能像人和动物一样观察目标, 甚至比人和动物观察得更好、 检测识别得更快, 这成为计算机视觉和模式识别领域的主要热点问题。对于从事该领域研究的教师、 学生以及科研人员而言, 一本全面翔实、 富有实践价值的参考书是十分必要的。本书是波兰AGH科技大学电子学系研究员及讲师Bogus?aw Cyganek博士在2009年3月出版其知名著作《三维计算机视觉技术及算法导论》(An Introduction to 3D Computer Vision Techniques and Algorithms)之后于2013年8月出版的又一力作。本书出版后, 因其内容系统全面, 理论体系严谨, 讲解深入浅出, 理论与实践结合紧密, 获得了读者的普遍好评。本书具有以下几个特色。首先, 本书内容全面、 重点突出。本书从张量的基本定义开始, 介绍了应用于计算机视觉和模式识别任务的张量方法, 并概述了常见的各种分类方法, 还基于波兰道路场景中的路标识别应用阐明了目标检测与跟踪、 目标识别的关键问题。全书以清晰简洁的语言, 涵盖了计算机视觉的几个关键技术: 分类、 检测、 跟踪与识别。其次, 本书的适用面广。它既适合电子工程、 计算机科学、 计算机工程等专业的本科生作为教材使用, 也适合图像、 视频信号处理, 模式识别和计算机视觉方向的硕士、 博士研究生使用, 还可以作为相关专业的科研工作者参考用书。第三, 基于作者多年从事软件开发的实践经验, 本书提供了具有很高参考价值的代码和伪代码。特别是提供了一些C++语言的完整实现和用于矩阵和张量处理的MATLAB函数, 附录中还给出用于将串行代码转换为并行版本的OpenMP库, 原书相关网站还提供了完整的软件平台、 彩色图像以及其他有用的链接, 这都便于工程应用时参考使用, 尤其适合高校的硕士、 博士研究生进行算法研究时参考使用。当然, 目标检测、 跟踪与识别是图像模式识别和计算机视觉领域的研究热点, 各种新算法和技术层出不穷, 本书只提供了迄今为止现代计算机视觉方法和算法的一个深入阐述。尽管如此, 译者仍然认为本书是一本不可多得的优秀著作。全书由中原工学院的宋晓炜、 杨蕾和瞿博阳分工翻译。其中, 前言、 第1章和第2章由宋晓炜翻译, 第3章和第4章由杨蕾翻译, 第5章和附录由瞿博阳翻译。全书由天津大学李锵教授审校。另外, 研究生吴源昭、 牛林林、 刘清丽、 杨满意、 蔡文静等也参与了书稿的部分整理准备工作。感谢Bogus�baw Cyganek博士对中文译书出版方面给予的合作。感谢国家自然科学基金项目(60902063, 61440031, 61305080)在本书翻译过程中给予的支持。感谢电子工业出版社对翻译工作的大力支持, 正是他们的严谨细致和辛勤付出, 本书才得以顺利出版。由于译者学识所限, 疏漏乃至错误在所难免, 恳请广大读者及专家不吝赐教, 提出修改意见, 我们将不胜感激。
译 者
2015年11月于郑州
前 言
我们生活在一个技术革命的时代, 在这个时代中, 某一领域的进展常常会引发另一领域的突破。类似于19世纪的工业革命, 近几十年可以称为计算机革命的新纪元。多年来,我们已经见证了微芯片技术的快速发展, 该技术造成了成本逐年降低的、 持续增长的计算能力。图形处理单元和现场可编程门阵列的并行计算系统的最新发展使之得以加强。所有这些硬件方面的成就也开启了寻求使计算机看得见并能理解它所见内容的新应用领域和可能性——这是计算机视觉领域的首要目标。然而, 虽然快速计算机在这方面有很大帮助, 但是真正产生影响的是新的、 更好的处理方法及其实现。本书给出了一些优选的目标检测和识别方法, 特别强调了统计的以及对该领域较新的基于张量的方法。然而, 有趣且重要方法的数量正在快速增长, 这使得在一本书中很难提供对这些方法的全面涵盖。因此, 本书的目标略有不同, 即这里所选择的这些方法是我自己和我的同事在很多项目中使用过的、 并且在实践中被证明是有用的方法。我们的主要领域涉及汽车应用, 其中我们尝试开发用于道路标志识别或者驾驶员监控的视觉系统。当开始写这本书的时候, 我的主要目的是: 不仅给出这些方法的综述, 还提供虽然简明但是必要的数学背景。然而, 同样重要的是所讨论方法的实现。我深信详尽理论与其实现的联系是深入理解该主题的先决条件。就这方面来说, 对实现平台的选择也不足为奇。贯穿本书并且在所附软件库中使用的C++编程语言是世界性的工业标准。这并不意味着不可以使用不同的编程平台来完成实现, 可以将所提供的代码示例用做指南或者用来直接移植。本书附有一个配套网址: www.wiley.com/go/cyganekobject, 其中包含了代码和彩图, 以及PPT、 勘误表和其他有用的链接。本书的完成是在我与合作作者J. Paul Siebert致力于三维图像处理的前一本书之后, 我对现代计算机视觉方法着迷的结果。因此, 虽然这两本书都可以单独阅读, 但在某种意义上可以将本书视为我们前一本书的延续。因此, 本书可供与计算机视觉和机器模式识别相关的所有科学家和行业从业者使用, 也可以用做对此快速发展领域感兴趣的学生的教程。
Bogus?aw Cyganek
波兰
致 谢
写一本书是一个巨大的任务。如果没有朋友、 同事、 合作伙伴以及许多其他人的帮助, 那将是不可能的, 有时我甚至不知道这些人的名字, 但我知道他们做出了杰出的工作来使本书诞生。我尤其感谢位于波兰克拉科夫(Kraków)的AGH科技大学以及学术计算机中心Cyfronet的许多同事。特别感谢Ryszard Tadeusiewicz教授和Kazimierz Wiatr教授持续的鼓励和支持。我还想要表达对来自德国柏林洪堡大学和德国航空航天中心的Ralf Reulke教授以及他所在团队的所有同事的感谢, 感谢在感兴趣的科学领域中我们富有成效的倾力合作。我非常感谢Wiley团队, 他们的帮助使这本书的出版成为可能。我想要表达对Richard Davies、 Alex King、 Nicky Skinner、 Simone Taylor、 Liz Wingett和Nur Wahidah Binte Abdul Wahid、 Shubham Dixit、 Caroline McPherson的特别感谢, 以及对我不知道他们名字但我知道他们为促使本书诞生做了杰出工作的所有其他人的特别感谢。再次非常感谢!我还要非常感谢世界各地的许多同事, 并且特别是我前一本关于三维计算机视觉的书的读者, 感谢他们的电子邮件、 提问、 建议、 缺陷报告以及我们所进行的所有讨论。所有这些都帮助我开发更好的文本和软件。在现在和将来我还要请求他们的支持。我想要好好表达对波兰共和国国家科学中心CNC的感激之情, 感谢他们对在2007-2009年以及2011-2013年在合同号no.DEC��2011/01/B/ST6/01994下进行的科研项目的经费支持, 这对本书做出了很大贡献。我还想表达对AGH科技大学出版社授权使用我前一本书的部分内容的感谢。最后, 我想要感谢我的家人: 我的妻子Magda、 我的孩子Nadia和Kamil, 以及我的母亲, 感谢他们在我完成本书的所有日子里的容忍、 支持和鼓励。
符号和缩写
B 基矩阵
C 数据类的数目
C 系数矩阵
Cx 数据集{xi}的相关矩阵
D 数据矩阵
D 距离函数
E 统计期望
i,j,k,m,n 自由坐标, 矩阵指标
1n 所有元素设置为1的n×n维矩阵
In n×n维单位矩阵
I 图像, 一幅图像的强度信号
Ix, Iy 图像I在x, y方向的空间导数
J 一系列中成分的数目
K 核矩阵
L 向量中分量的数目, 空间维度
M 聚类的数目, 图像通道的数目
N (数据)点的数目
P 概率质量函数
p 概率密度函数
P, Q, C 张量中指标的数目(张量维度)
p, q 张量的协变和逆变度
R 主成分的数目
R 实数集
T 张量
T(k) 张量T的第k个展平模式
TC 紧凑结构张量
TE 扩展结构张量
t 时间坐标
W 向量空间
W* 双向量空间
X 矩阵
XT X的转置矩阵
Xi (一系列矩阵中)第i个矩阵
x, y 空间坐标
x 列向量
xi (一系列向量中)第i个向量
{xi} 对于给定范围指标i的向量xi的集合
x(k)i 对于矩阵Xi的第k列向量
x 归一化列向量
x- 均值向量
x 正交残差向量
xi 向量x的第i个分量
∑x 数据集{xi}的协方差矩阵
ρ 直方图中的屉数目
Δ 直方图中的屉宽度
Ω 分类标记的集合
⊙ Khatri�睷ao积
�� 克罗内克(Kronecker)积
按元素的乘法[阿达马
(Hadamard)积]
按元素的除法
向量的外积
∨ 最大积
∧ 最小积
× 形态外积
�� 任意
AD 各向异性扩散
ALS 交替
数字图像目标检测与识别―理论与实践 [Object Detection and Recognition in Digital Images] 下载 mobi pdf epub txt 电子书 格式 2024
数字图像目标检测与识别―理论与实践 [Object Detection and Recognition in Digital Images] 下载 mobi epub pdf 电子书这本书不错,正好有我需要参考的内容,实例和程序也给了不少,京东送货还挺快,给好评!
评分物美价廉,加入人工智能的行列!
评分这本书不错,正好有我需要参考的内容,实例和程序也给了不少,京东送货还挺快,给好评!
评分不错不错不错不错不错不错不错不错不错
评分还没认真看完,粗看了一下,还不错
评分不错不错不错不错不错不错不错不错不错
评分这本书是正版,很不错很喜欢很实用
评分挺好的书
评分好
数字图像目标检测与识别―理论与实践 [Object Detection and Recognition in Digital Images] mobi epub pdf txt 电子书 格式下载 2024