跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 卖家故事 > pytorch 梯度累积(gradient accumulation)

pytorch 梯度累积(gradient accumulation)

时间:2024-04-18 10:25:35 来源:网络cs 作者:往北 栏目:卖家故事 阅读:

标签: 累积 
阅读本书更多章节>>>>

梯度累积 - gradient accumulation

在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size只能缩小,这个时候,梯度累积(Gradient Accumulation)可以作为一种简单的解决方案来解决这个问题。

梯度累积(Gradient Accumulation)是一种不需要额外硬件资源就可以增加批量样本数量(Batch Size)的训练技巧。这是一个通过时间换空间的优化措施,它将多个Batch训练数据的梯度进行累积,在达到指定累积次数后,使用累积梯度统一更新一次模型参数,以达到一个较大Batch Size的模型训练效果。累积梯度等于多个Batch训练数据的梯度的平均值

所谓梯度累积过程,其实很简单,我们梯度下降所用的梯度,实际上是多个样本算出来的梯度的平均值,以batch_size=128为例,你可以一次性算出128个样本的梯度然后平均,我也可以每次算16个样本的平均梯度,然后缓存累加起来,算够了8次之后,然后把总梯度除以8,然后才执行参数更新。当然,必须累积到了8次之后,用8次的平均梯度才去更新参数,不能每算16个就去更新一次,不然就是batch_size=16了。

传统的深度学习

for i, (inputs, labels) in enumerate(trainloader):    optimizer.zero_grad()                   # 梯度清零    outputs = net(inputs)                   # 正向传播    loss = criterion(outputs, labels)       # 计算损失    loss.backward()                         # 反向传播,计算梯度    optimizer.step()                        # 更新参数    if (i+1) % evaluation_steps == 0:        evaluate_model()

具体流程:

optimizer.zero_grad(),将前一个batch计算之后的网络梯度清零正向传播,将数据和标签传入网络,过infer计算得到预测结果根据预测结果与label,计算损失值loss.backward() ,利用损失进行反向传播,计算参数梯度optimizer.step(),利用计算的参数梯度更新网络参数

简单的说就是进来一个batch的数据,计算一次梯度,更新一次网络。

梯度累积方式

for i, (inputs, labels) in enumerate(trainloader):    outputs = net(inputs)                   # 正向传播    loss = criterion(outputs, labels)       # 计算损失函数    loss = loss / accumulation_steps        # 梯度均值,损失标准化    loss.backward()                         # 梯度均值累加,反向传播,计算梯度    # 累加到指定的 steps 后再更新参数if (i+1) % accumulation_steps == 0:             optimizer.step()                    # 更新参数        optimizer.zero_grad()               # 梯度清零        if (i+1) % evaluation_steps == 0:            evaluate_model()

具体流程:

正向传播,将数据传入网络,得到预测结果根据预测结果与label,计算损失值利用损失进行反向传播,计算参数梯度重复1-3,不清空梯度,而是将梯度累加梯度累加达到固定次数之后,更新参数,然后将梯度清零

梯度累积时,每个batch 仍然正常前向传播以及反向传播,但是反向传播之后并不进行梯度清零,因为 PyTorch 中的backward() 执行的是梯度累加的操作,所以当我们调用N次 loss.backward() 后,这N个batch 的梯度都会累加起来。但是,我们需要的是一个平均的梯度,或者说平均的损失,所以我们应该将每次计算得到的 loss除以 accum_steps。

        总结来讲,梯度累积就是每计算一个batch的梯度,不进行清零,而是做梯度的累加,当累加到一定的次数(accumulation_steps)之后,再更新网络参数,然后将梯度清零。
        通过这种参数延迟更新的手段,可以实现与采用大batch size相近的效果。在平时的实验过程中,我一般会采用梯度累加技术,大多数情况下,采用梯度累加训练的模型效果,要比采用小batch size训练的模型效果要好很多。

注意事项:

一定条件下,batchsize越大训练效果越好,梯度累加则实现了batchsize的变相扩大,如果accumulation_steps为8,则batchsize '变相' 扩大了8倍,是实验室解决显存受限的一个不错的trick,使用时需要注意,学习率也要适当放大

阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/gushi/2024-04-18/159976.html,文章来源:网络cs,作者:往北,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论