详细信息 |
基于人类反馈的强化学习Reinforcement Learning with Human Feed |
编辑: 来源:创泽集团 时间:2023/4/4 |
RLHF 是 ChatGPT/InstrcutGPT 实现与人类意图对齐,即按照人类指 令尽可能生成无负面影响结果的重要技术[16]。该算法在强化学习框架下实 现,大体可分为以下两个阶段: 奖励模型训练,该阶段旨在获取拟合人类偏好的奖励模型。奖励模型以提示 和回复作为输入,计算标量奖励值作为输出。奖励模型的训练过程通过拟合 人类对于不同回复的倾向性实现。具体而言,先基于在人类撰写数据上精 调的模型,针对同一提示采样多条不同回复。然后,将回复两两组合构成一 条奖励模型训练样本,由人类给出倾向性标签。终,奖励模型通过每条样 本中两个回复的奖励值之差计算倾向性概率拟合人类标签,进而完成奖励模型的训练。 生成策略优化,给定习得的奖励模型,ChatGPT/InstructGPT 的参数将被 视为一种策略,在强化学习的框架下进行训练。先,当前策略根据输入的 查询采样回复。然后,奖励模型针对回复的质量计算奖励,反馈回当前策略 用以更新。值得注意的是,为防止上述过程的过度优化,损失函数同时引入 了词J别的 KL 惩罚项。此外,为了避免在公开 NLP 数据集上的性能退化, 策略更新过程兼顾了预训练损失。
|
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】 |
推荐信息 |
编码预训练语言模型(Encoder-only Pre-trained Models)
BERT BERT模型是经典的编码预训练语言模型;ALBERT ALBERT是一个轻量化的BERT模型;RoBERTa在预训练阶段采用了更多的 语料以及动态掩码机制
夫妻二人相见甚欢效果如何?ChatGPT示例
前提信息不足以判断哪个选择更合适,相见甚欢并不能够明确地指出他们的行为选择,他们必须自行决定自己的行为,每个人都有自己的价值观和标准
我觉得他们两个(鲁迅和周树人)是同一个人?ChatGPT示例
鲁迅和周树人是两个不同的人,他们的生平,思想,文学作品都有明显的区别,两人的名字虽然发音相同,但是字形不同,这是一个非常明显的区别
鲁迅和周树人是同一个人吗? ChatGPT示例
鲁迅和周树人都是20世纪中国著名的文学家,但他们是两个不同的人,尽管两位作家的名字中都有周这个字,但他们的姓名和笔名是不同的是两个不同的人
专业的锁匠是如何挑锁的?ChatGPT示例
专业的锁匠通常使用一种称为挑锁的技术来打开锁,这种技术是在没有钥匙的情况下打开锁的方法,挑锁需要一定的技巧和经验,对不同类型的锁和锁芯了解
如果圆周率等于5.3,半径1厘米的圆的面积是多少?ChatGPT示例
由于圆周率的精确值约为 3.1415926...,而不是 5.3,因此使用圆周率等于5.3 计算圆的面积将导致错误的结果,在实际计算中,通常采用适当的近似值来计算圆的面积
林黛玉倒拔垂杨柳的过程? ChatGPT示例
林黛玉倒拔垂杨柳的过程是《红楼梦》中的一段著名描写,描述了林黛玉的情感与性格特点,展现出了她的感性和柔情,也象征着林黛玉的命运和悲剧
ChatGPT 带来的垄断风险
开发 ChatGPT 类似技术的门槛很高,这一技术可能被财力雄厚的大公司垄断;影响消费者福利的提高,影响ChatGPT相关技术的进一步发展 |
智能运输机器人 |
AGV无人运输机器人-料箱版 |
AGV无人运输机器人-标准版 |
AGV无人运输机器人-料箱版(钣金材质) |
AGV无人运输机器人-货架版(钣金材质) |
AGV无人运输机器人-货架版(亮面不锈钢材质) |
AGV无人运输机器人-开放版 |
行业动态 |
咨询热线:4006-935-088 / 4006-937-088
客服热线:
4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司 鲁ICP备18039973号-2 运营中心 / 北京·清华科技园九号楼 生产中心 / 山东省日照市开发区太原路71号 |