详细信息

基于人类反馈的强化学习Reinforcement Learning with Human Feed

编辑：来源：创泽集团时间：2023/4/4

RLHF 是 ChatGPT/InstrcutGPT 实现与人类意图对齐，即按照人类指令尽可能生成无负面影响结果的重要技术[16]。该算法在强化学习框架下实现，大体可分为以下两个阶段：

奖励模型训练，该阶段旨在获取拟合人类偏好的奖励模型。奖励模型以提示和回复作为输入，计算标量奖励值作为输出。奖励模型的训练过程通过拟合人类对于不同回复的倾向性实现。具体而言，先基于在人类撰写数据上精调的模型，针对同一提示采样多条不同回复。然后，将回复两两组合构成一条奖励模型训练样本，由人类给出倾向性标签。终，奖励模型通过每条样本中两个回复的奖励值之差计算倾向性概率拟合人类标签，进而完成奖励模型的训练。

生成策略优化，给定习得的奖励模型，ChatGPT/InstructGPT 的参数将被视为一种策略，在强化学习的框架下进行训练。先，当前策略根据输入的查询采样回复。然后，奖励模型针对回复的质量计算奖励，反馈回当前策略用以更新。值得注意的是，为防止上述过程的过度优化，损失函数同时引入了词J别的 KL 惩罚项。此外，为了避免在公开 NLP 数据集上的性能退化，策略更新过程兼顾了预训练损失。

【声明：转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考，如有侵权，请联系删除。】

推荐信息

编码预训练语言模型（Encoder-only Pre-trained Models）
BERT BERT模型是经典的编码预训练语言模型;ALBERT ALBERT是一个轻量化的BERT模型;RoBERTa在预训练阶段采用了更多的语料以及动态掩码机制

夫妻二人相见甚欢效果如何？ChatGPT示例
前提信息不足以判断哪个选择更合适,相见甚欢并不能够明确地指出他们的行为选择,他们必须自行决定自己的行为,每个人都有自己的价值观和标准

我觉得他们两个(鲁迅和周树人)是同一个人？ChatGPT示例
鲁迅和周树人是两个不同的人,他们的生平,思想,文学作品都有明显的区别,两人的名字虽然发音相同,但是字形不同,这是一个非常明显的区别

鲁迅和周树人是同一个人吗? ChatGPT示例
鲁迅和周树人都是20世纪中国著名的文学家,但他们是两个不同的人,尽管两位作家的名字中都有周这个字,但他们的姓名和笔名是不同的是两个不同的人

专业的锁匠是如何挑锁的?ChatGPT示例
专业的锁匠通常使用一种称为挑锁的技术来打开锁,这种技术是在没有钥匙的情况下打开锁的方法,挑锁需要一定的技巧和经验,对不同类型的锁和锁芯了解

如果圆周率等于5.3,半径1厘米的圆的面积是多少?ChatGPT示例
由于圆周率的精确值约为 3.1415926...,而不是 5.3,因此使用圆周率等于5.3 计算圆的面积将导致错误的结果,在实际计算中,通常采用适当的近似值来计算圆的面积

林黛玉倒拔垂杨柳的过程？ ChatGPT示例
林黛玉倒拔垂杨柳的过程是《红楼梦》中的一段著名描写,描述了林黛玉的情感与性格特点,展现出了她的感性和柔情,也象征着林黛玉的命运和悲剧

ChatGPT 带来的垄断风险
开发 ChatGPT 类似技术的门槛很高,这一技术可能被财力雄厚的大公司垄断;影响消费者福利的提高,影响ChatGPT相关技术的进一步发展

智能运输机器人

AGV无人运输机器人-料箱版

AGV无人运输机器人-标准版

AGV无人运输机器人-料箱版（钣金材质）

AGV无人运输机器人-货架版（钣金材质）

AGV无人运输机器人-货架版（亮面不锈钢材质）

AGV无人运输机器人-开放版

行业动态

» AMR企业未来发展的建议:加强产学研合作拓展应用领域与场景突破关键技术

» 智能无人运输车AMR选型建议:安全性稳定性兼容性成本和可维护性

» 物流企业自动化搬运项目:117台XPL搬运机器人用于快运件转运+物料暂存

» 工具制造业5G智慧工厂:10+台潜伏AGV+托盘式叉车用于线边仓转运

» 轮胎行业项目:2台室内平衡重式无人叉车LXP15-B用于半成品、成品自动化出入库

» 汽车零部件园区无人化物流项目:室外无人驾驶重载AGV用于车间到车间之间的物流运输

» 汽车行业智能搬运项目:30台XPL搬运机器人用于产线送料和成品转运

» 汽车新能源产线智慧物流项目-31台潜伏AGV应用环汽车总装车间转运

» 汽车行业多品类AGV整合项目:叉车AGV、潜伏牵引AGV、举升AGV、承载式双车联动AGV、功能型A

» 乘用车动力总成车间零部件集配项目-9台承载辊道式AMR,用于动力总成线边供给