华人团队为RLHF设计新算法 节省约50%内存

文章正文
发布时间:2024-09-11 12:36

华人团队为RLHF设计新算法 节省约50%内存

2023-10-20

机器之心

18

智东西10月20日消息,据机器之心报道,10月17日,来自香港中文大学(深圳)、南京大学等机构的华人团队发表论文,介绍了一种名为ReMax的新算法,专为RLHF(基于人类反馈的强化学习)而设计。ReMax在计算效率和实现简易性上超越了最常用的算法PPO,约减少50%的GPU内存,实现2倍的训练速度提升,核心部分实现只需6行代码,且性能没有损失。

论文地址:

https://arxiv.org/abs/2310.10505

开源代码:

https://github.com/liziniu/ReMax

分享至: