视频字幕
神经网络是由多个神经元组成的计算模型。每个神经元接收多个输入,计算加权和,然后通过激活函数产生输出。多个神经元按层组织,形成输入层、隐藏层和输出层。前向传播就是数据从输入层逐层传递到输出层的过程。
单层神经网络的计算包括两个步骤:线性变换和激活函数。首先计算z等于权重矩阵W乘以输入向量x加上偏置向量b,然后通过激活函数得到输出a。以3个输入到4个神经元为例,权重矩阵是4乘3的矩阵,每个连接都有对应的权重。常用的激活函数包括ReLU函数和Sigmoid函数。
向量化计算是神经网络高效实现的关键。传统的标量计算需要逐个计算每个神经元,而向量化计算可以并行处理所有神经元。通过矩阵乘法Z等于W乘以X加B,我们可以一次性计算整层的输出。关键是确保矩阵维度匹配:权重矩阵W是4乘3,输入向量X是3乘1,偏置向量B是4乘1,结果Z是4乘1。这种并行计算大大提高了计算效率。
多层前向传播是将单层计算扩展到整个网络。以3-4-4-2网络为例,数据从输入层开始,逐层传播。第一层计算a1等于激活函数作用于W1乘以x加b1,第二层计算a2等于激活函数作用于W2乘以a1加b2,以此类推。每层的输出成为下一层的输入,形成完整的计算链条。维度从3变为4,再变为4,最后变为2。
批量处理是提高神经网络训练效率的关键技术。单样本处理时,输入x是n乘1的向量。批量处理时,输入X变为n乘m的矩阵,其中m是批量大小。权重矩阵W保持不变,但偏置向量b通过广播机制扩展为B矩阵。计算公式变为Z等于W乘以X加B,结果Z是h乘m的矩阵。这样可以同时处理多个样本,大大提高计算效率和训练速度。