卷积神经网络的基本原理-卷积神经网络原理

原理解释 2026-06-18CST21:33:43

卷积神经网络实际上就挺有意思，它和传统的“人脑识别物体”有个挺大的区别。

你想想看，人脑仿佛是一个庞大的网状结构，信息是点状传递的，并且跑得挺慢。但神经元之间的连接是固定的，一旦摆在那儿，一辈子不变。而卷积神经网络里的每一个连接都是乱七八糟的，互相交织着。

这种结构反而比固定的网状结构要了得得多。神经网络如何学会这事儿呢？靠的就是训练。当你输入一堆图像，给它喂数据，让它输出结局，它对结局不中意，就会启动调整内部的层。

这调整有个益处：你只需求改一层，别的层可能就没啥变化了。

这就好比练琴，你手指头头多练了一次，后面的指法自然就顺了，没必要每次都从头练一遍。那得注意啥呢？第一，它不是好办的堆叠。每加一层，卷积核的数量就变多了，参数量也暴增了。

这玩意儿忒好办“过拟合”，就像是为了考满分把题库背得死记硬背，结局一换题目就瞎蒙。

故此，得加个正则化项，把那些学坏了的参数给删光。还有个难题，神经网络在处理图像的时候是个“瞎子”。出于它没见过整个的图，故此第一眼啥都认不出来。它只能从边角料里猜。

这就像一个人没看过全屋子，光盯着床底下或桌子底下看，哪见过床，也看不见桌子。

故此 CNN 得靠局部感受野。它不是先看全局，而是盯着这一小块，先把这小块结构化，变成一个小特征，比如“这里有个门框”，“那里是墙”，“这块是地板”。实际上，一个卷积核在图像上滑动的时候，它捕捉的是局部的特征。

比如一个 3x3 的卷积核，它盯着 9 个点，通过加权求和，算出一个特征值。

这个值代表它在这 9 个点上找出了啥东西。

要是这个值挺大，说明它找到了一个明确的特征；要是挺小，说明这位置没啥东西。这就相当于你说的“感受野”。1x1 的卷积核呢，它相当于把这个窗口端到端地滑那会儿，筛选掉绝大局部噪声。

比如它扫过一片草地，只有散落在草地上的几根草叶能触发它，数量极少。而 3x3 的就得多扫两次，面积大一点，但能触发更多。2x2 的则又扫了三遍。

故此，2x2 的卷积核更多是找“显著性”，3x3 找“细节”，4x4 找“更大的模式”，6x6 找“挺复杂的形状”。人工神经网络之故此复杂，是出于它想模拟人类大脑。但大脑实际上是个“稀疏”的地图。每个神经元要么就是活着的，要么就是死掉的，跟你有啥关系？故此，人工神经网络也是个“稀疏”的结构。它们里的连接大局部是空的，只有少数几个是活的。

这就削减了计算量，也下降了过拟合的风险。还有一个好理解的概念叫“偏置”。有些层，比如全连接层，每输入一个点都要算一次，得加个偏置项来微调。但卷积层不一样。卷积核滑动的时候，每个位置都算一次，但每个位置都只有一个偏置。

这就意味着，对一个卷积核来说，它只算了一次，参数量就少了。之前的神经网络，比如 ResNet，它用的是一个“跳跃连接”要么“残差块”。

这玩意儿就是把前面的输出直接抄一份扔在后面。

这就像让你背单词，直接把你刚学会的那个词重复一遍背进去。

这样你就不用死记硬背那个词了，只需求记住词根，后面出现的词就都能推导出来。这听起来好办，但确实难搞。出于要是前一层没学会，后面就算全对也废。

故此，残差块的意思是：不管前一层啥水平，你就把前一层输入输出抄一份，直接抄到后一层。

这样后一层的输入就是“前一层输出 + 前一层输出”了。

这就相当于后一层的网络只要比前一层略微强一点，就能学到东西。

要是前一层学不好，直接抄，后一层就算再强也没用。

故此，残差块就是一个挺智慧的设计，它弱化了网络在学的时候好办遇到的瓶颈。再说说“层归一化”。

这玩意儿是个“刹车片”。

你想到长啥样，那只是一瞬间的事。但神经网络得一步步去学，得记挺久。