开元棋牌-开元棋牌官方网站DeepSeek同款GRPO训练大提速！魔搭开源全流程方案

当前位置 : 首页 > 新闻资讯 > 开元棋牌新闻

开元棋牌-开元棋牌官方网站DeepSeek同款GRPO训练大提速！魔搭开源全流程方案

时间：2025-03-13 13:36:14

　　开元棋牌-开元棋牌官方网站(访问: hash.cyou 领取999USDT）

开元棋牌-开元棋牌官方网站DeepSeek同款GRPO训练大提速！魔搭开源全流程方案

　　SWIFT框架目前已经支持多模态模型（图文、视频、音频）的GRPO训练，只要在数据集中给定’images’/‘videos’/‘audios’字段，GRPO会将多模态内容输入多模态模型中进行强化训练。SWIFT目前在微调中支持的多模态模型近两百个，这些模型均天然支持GRPO训练。参考R1-V的任务设置，在多模态计数任务上进行了训练，训练数据集为CLEVR-70k-Counting(2)。训练选取的奖励函数一共有两个，一个是 Deepseek-R1 中提到的格式奖励函数，用于评估模型输出格式的准确性；另一是自定义的准确性奖励函数，用于计算模型输出的计数是否与真值一致，目前两个奖励函数都已经定义在SWIFT框架中，通过—reward_funcs external_r1v_acc format参数指定。选取Qwen2.5-VL-3B-Instruct 作为基础模型进行训练，选取 instruct 而不是base模型的主要原因是可以更快地获取 format reward。整体实验在8卡 GPU 上完成。当前SWIFT GRPO训练已支持多卡部署模型以加速rollout，因此设置num_infer_workers为2，进程数为6：即2卡vLLM部署采样，6卡模型训练。设置模型的最大输出为1024，学习率设置为1e-6，其他参数设置详见最佳实践(3)。

新闻资讯

开元棋牌-开元棋牌官方网站DeepSeek同款GRPO训练大提速！魔搭开源全流程方案