「训练优化」分类下共 4 篇文章。
深入理解 Dropout 的工作原理:为什么随机丢弃神经元反而能提升模型泛化能力,以及在实际项目中如何正确使用 Dropout。
理解对比学习的核心思想:通过拉近相似样本、推远不相似样本,让模型从海量无标注数据中学习高质量的特征表征。
探讨大语言模型在持续学习中面临的灾难性遗忘问题,以及 EWC、渐进网络、经验回放等主流解决方案的原理和实际应用。
全面对比两种最常用的归一化技术:Batch Normalization 沿 batch 维度归一化,Layer Normalization 沿特征维度归一化。理解为什么 Transformer 几乎只用 LN。