最专业的美发工作室,让您的美丽从头开始
开元棋牌-开元棋牌官方网站(访问: hash.cyou 领取999USDT)
SWIFT框架目前已经支持多模态模型(图文、视频、音频)的GRPO训练,只要在数据集中给定’images’/‘videos’/‘audios’字段,GRPO会将多模态内容输入多模态模型中进行强化训练。SWIFT目前在微调中支持的多模态模型近两百个,这些模型均天然支持GRPO训练。参考R1-V的任务设置,在多模态计数任务上进行了训练,训练数据集为CLEVR-70k-Counting(2)。训练选取的奖励函数一共有两个,一个是 Deepseek-R1 中提到的格式奖励函数,用于评估模型输出格式的准确性;另一是自定义的准确性奖励函数,用于计算模型输出的计数是否与真值一致,目前两个奖励函数都已经定义在SWIFT框架中,通过—reward_funcs external_r1v_acc format参数指定。选取Qwen2.5-VL-3B-Instruct 作为基础模型进行训练,选取 instruct 而不是base模型的主要原因是可以更快地获取 format reward。整体实验在8卡 GPU 上完成。当前SWIFT GRPO训练已支持多卡部署模型以加速rollout,因此设置num_infer_workers为2,进程数为6:即2卡vLLM部署采样,6卡模型训练。设置模型的最大输出为1024,学习率设置为1e-6,其他参数设置详见最佳实践(3)。
Copyright © 2012-2024 开元棋牌官方网站美发造型设计有限公司 版权所有 非商用版本 备案号: