在计算机视觉领域,模型架构的演进宛如一场精彩绝伦的技术接力赛,从早期的 CNN 逐步过渡到如今大放异彩的 Transformer,每一次关键节点的突破都为整个领域注入了强大的动力,推动着视觉任务的性能迈向新的高度。本文将沿着时间轴,梳理这一演进路径中具有里程碑意义的模型以及 Transformer 的突破性成果,展现技术迭代的脉络。
1.早期奠基:LeNet-5,CNN 的破晓之光(1998 年)
在 20 世纪 90 年代,计算机视觉领域正处于探索的关键时期,传统的模式识别方法在面对复杂的图像数据时,逐渐显露出其局限性。例如,在手写数字识别这一任务中,传统方法依赖手工设计特征提取器,难以有效应对图像中的平移、形变和扭曲等变化,识别准确率始终难以取得突破性进展 。就在这样的背景下,1998 年,Yann LeCun 等人提出了 LeNet-5,这一开创性的卷积神经网络架构,犹如一道破晓之光,为计算机视觉领域带来了新的希望和方向。
LeNet-5 的诞生,肩负着解决手写数字识别难题的使命。它的设计初衷是为了能够自动从图像中提取特征,从而摆脱对人工设计特征提取器的依赖。其网络结构简洁而精妙,虽然在如今看来相对简单,但却涵盖了 CNN 的所有基本元素,为后续更复杂的神经网络架构奠定了坚实的基础。
LeNet-5 的输入是 32x32 像素的灰度图像,这一尺寸的选择经过了精心考量,既能够保留足够的数字特征信息,又在当时有限的计算资源条件下,确保了模型能够进行有效的处理。整个网络结构犹如一座精心构建的大厦,从下往上依次由卷积层、池化层和全连接层组成。
卷积层是这座大厦的基石,LeNet-5 中包含多个卷积层,如 C1 层使用了 6 个 5x5 的卷积核,步长为 1,对输入图像进行卷积操作后,得到 6 个 28x28 的特征图。这些卷积核就像是一群勤劳的工匠,各自专注于学习图像中的不同局部特征,比如边缘、线条等。通过卷积操作,图像的局部特征被有效地提取出来,为后续的处理提供了丰富的信息。
池化层则像是大厦中的筛选器,S2 层采用 2x2 的最大池化操作,步长为 2,对 C1 层输出的特征图进行降维处理。经过池化后,特征图的大小变为 14x14 。这一操作不仅减少了数据量,降低了计算负担,还能有效地保留主要的特征信息,增强模型对图像平移、旋转等变化的鲁棒性。就好比在众多的信息中,筛选出最关键、最核心的部分,让模型能够更加聚焦于重要的特征。
全连接层位于大厦的顶层,是模型进行决策的关键部分。以 F6 层为例,它将 C5 层的输出展平后连接到 84 个神经元,这一步实现了特征的进一步整合和抽象。而输出层则由 10 个神经元组成,对应着 0 - 9 这 10 个数字类别,采用 softmax 激活函数将神经元的输出转换为每个类别的概率分布,从而确定输入图像最可能属于的数字类别。
LeNet-5 的训练算法与传统的反向传播算法相似,包括前向传播和反向传播两个阶段。在前向传播阶段,输入样本通过每一层的变换,计算实际输出;而反向传播阶段则计算实际输出与理想输出的差值,并通过链式法则反向传播误差,调整权值以最小化误差。这一过程就像是一场精心编排的舞蹈,前向传播和反向传播相互配合,使得模型能够不断学习和优化。
LeNet-5 的出现,在当时取得了令人瞩目的成果,它成功地将深度学习应用于手写数字识别领域,证明了深度学习在图像识别任务中的巨大潜力。在 MNIST 手写数字识别数据集上,LeNet-5 展现出了卓越的性能,达到了很高的识别准确率,为后来深度学习在计算机视觉领域的广泛应用奠定了基础。许多后续的研究都基于 LeNet-5 进行改进和拓展,它的基本结构和思想也被广泛应用于各种图像识别任务中,成为了深度学习发展史上的一座重要里程碑。
2.崭露头角:AlexNet,深度学习的曙光初现(2012 年)
2012 年,AlexNet 横空出世,在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中,AlexNet 以绝对优势击败其他参赛模型,取得了前 5 错误率 15.3% 的惊人成绩,而第二名的错误率高达 26.2% 。这一结果震惊了整个计算机视觉领域,也让人们重新认识到深度学习的巨大潜力。
AlexNet 的成功并非偶然,它的出现得益于多方面的突破。在硬件方面,NVIDIA 公司推出的高性能 GPU,如 GTX 580,为大规模深度学习模型的训练提供了强大的计算支持。GPU 的并行计算能力使得卷积神经网络中的大量矩阵运算能够高效完成,大大缩短了训练时间。在软件算法上,AlexNet 引入了 ReLU 激活函数,有效解决了传统 sigmoid 函数在深度网络中容易出现的梯度消失问题,使得网络的训练更加稳定和高效。同时,Dropout 正则化技术的应用,也极大地减少了模型的过拟合现象,提高了模型的泛化能力。这些创新使得 AlexNet 在图像分类任务中展现出了卓越的性能,为深度学习在计算机视觉领域的广泛应用奠定了坚实的基础。
3.持续进化:经典 CNN 模型的百花齐放(2013 - 2019 年)unsetunset
(一)ZFNet(2013 年)
在 AlexNet 取得巨大成功后,研究人员开始对其进行深入研究和改进,2013 年,ZFNet 应运而生,它由纽约大学的 Matthew Zeiler 和 Rob Fergus 提出,在当年的 ILSVRC 比赛中斩获冠军,将错误率降低至 11.2% 。从本质上讲,ZFNet 可以看作是 AlexNet 架构的微调优化版本,但其在优化性能方面提出了一些关键的想法,为后续的研究提供了重要的思路。
ZFNet 在结构上对 AlexNet 进行了一些细微的调整。它将 AlexNet 中第一个卷积层的卷积核大小从 11x11 改为 7x7,步长从 4 改为 2。这样的调整有助于更好地保留图像的原始像素信息,减少信息的丢失。同时,ZFNet 增加了第三、第四个卷积层的卷积核个数,进一步增强了网络对图像特征的提取能力。更多的卷积核意味着网络可以学习到更多不同类型的特征,从而提高模型的表达能力。
除了结构上的改进,ZFNet 还提出了一种新颖的可视化技术 ——Deconvolutional Networks(反卷积网络),这一技术为理解卷积神经网络的内部机制提供了有力的工具。