视频字幕
传统计算机视觉依赖边缘检测、角点检测等手工特征,然后训练分类器。这种方法在面对光照变化、物体被遮挡或视角不同的时候,效果会显著下降,难以处理复杂多变的场景。
深度学习革命性地改变了视觉处理方式。卷积神经网络可以直接从数据中自动学习不同层次的特征,从低级的边缘、纹理,到高级的形状和对象,克服了手工特征的不足。
注意力机制能够让模型像人类的注意力一样,聚焦在图像的重要部分,计算不同区域的关联,从而整合全局信息,这是卷积局部感受野无法实现的提升。
Vision Transformer将图像划分成固定大小的patch,线性映射为向量后,加上位置编码输入到Transformer编码器中,多头注意力机制让每个patch与其他patch建立联系,实现强大的全局建模能力。
多模态融合让模型能够同时处理图像与语言,通过对比学习将图像和文本映射到同一个语义空间,从而建立二者的对应关系,实现真正的跨模态理解能力。
大模型依托海量数据进行自监督预训练,获得强大的泛化能力。参数规模和数据规模的提升带来性能的显著提升,并可通过指令或微调适配不同的视觉任务。
在实际应用中,大模型可以生成图像描述,回答与图片相关的问题,识别其中的文字,并理解复杂场景,实现从低层像素到高层语义的理解,这是传统方法无法相比的质变能力。