详细信息 |
基于RLHF的GPT- 4训练方法由三个不同的步骤组成 |
编辑: 来源:亚信科技 时间:2023/4/26 |
RLHF 是 InstructGPT、ChatGPT、GPT-4 成功的关键之一。在 RLHF 中, 根据人类反馈来对模型的响应进行排序标注 (如,根据人类偏好选择文本简介)。 然后,用这些带标注的响应来训练偏好模型,该模型用于返回 RL 优化器的标量 奖励。后,通过强化学习训练对话代理来模拟偏好模型。基于 RLHF 的 GPT- 4 训练方法由三个不同的步骤组成
步骤 1:对基于监督学习获取的 GPT-3.5 模型进行微调,得到 SFT 模型。 微调是使用问题/答案对完成的。先会在数据集中随机抽取问题,由人类标注 人员,给出G质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型, 通过对输入和输出数据的拟合来改进网络,调整模型的参数。此时的 SFT 模型 在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。 步骤 2:标注排序数据集 ,训练奖励模型 RM:这个阶段的主要是通过人工 标注训练数据,来训练回报模型。在数据集中随机抽取问题,使用D一阶段生成 的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑 给出排名顺序。这一过程类似于教练或老师辅导。接下来,使用这个排序结果数 据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM 模 型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参 数使得G质量回答的打分比低质量的打分要G 步骤 3:使用强化学习方法 PPO 进一步微调 SFT:PPO 的核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy,即将在线学习转化为 离线学习,这个转化过程被称之为 Importance Sampling。这一阶段利用第二阶 段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取 问题,使用 PPO 模型生成回答,并用上一阶段训练好的 RM 模型给出质量分数。 把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新 PPO 模 型参数 其中,步骤 1 只进行一次,步骤 2 和步骤 3 可以进行多次迭代以得到效果更 好 RM 和 SFT 模型。
|
【声明:转载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考,如有侵权,请联系删除。】 |
推荐信息 |
GPT-4四个极为重要的能力
为人类与 LLM 之间提供了符合人类习惯的交互方式;为人类提供了跨语言及多模态交流能力;能够自动从海量数据和人类指令中学习到其中的世界知识
和ChatGPT聊天也有风险
别和ChatGPT分享个人资料,ChatGPT在隐私保护方面仍有疏漏;勿下载未经信任的第三方开发应用程式;向ChatGPT主动索取资料来源
ChatGPT有望成为新的电商流量入口
ChatGPT的自然语言交互方式,用户能够获得更为详尽的购买清单,推荐攻略;用户在类ChatGPT 的交互方式中会提供更详细的需求描述,匹配效率大幅提升
AI网文:创作效率提升,内容形式有望升维
网文平台核心功能除了识别错别字和语病,帮助作者纠错;还能基于作者当前创作的内容,以及训练集里的内容库,为作者提供可选的创作思路,帮助作者突破创作瓶颈
国内大模型公司及应用场景 模型参数量
百度“文心一言”,阿里“通义千 问”,商汤“日日新”等,括美团联合创始人王慧文的“光年之外”,搜狗创始人王小川的“百川智能”等,应用场景域相对有限
ChatGPT推动流量“再分配”,移动互联网时代的竞争格局有望重塑
微软旗下的浏览器 Bing 接入 ChatGPT一个月后移动端 DAU 破亿,有望对谷歌旗下 Chrome 浏览器 50%以上的市场份额形成挤压,重塑竞争格局
大模型是新的流量入口 商业化落地有望加速
大模型的战略地位有望比拟操作系统,成为 iOS/安卓之后的新一代流量入口,一端 承接庞大的 B端开发者需求,另一端触达万亿级别的 C端消费者生态
ChatGPT大模型是新的生产力工具 帮助企业提高生产效率
OpenAI 基 于ChatGPT,推出了收费服务 ChatGPT Plus,以及开放的应用程序编程接口OpenAI API,前者订阅制收费-每月20美元,后者按调用的token数量收费 |
智能运输机器人 |
AGV无人运输机器人-料箱版 |
AGV无人运输机器人-标准版 |
AGV无人运输机器人-料箱版(钣金材质) |
AGV无人运输机器人-货架版(钣金材质) |
AGV无人运输机器人-货架版(亮面不锈钢材质) |
AGV无人运输机器人-开放版 |
行业动态 |
咨询热线:4006-935-088 / 4006-937-088
客服热线:
4008-128-728
版权所有 @ 创泽智能机器人集团股份有限公司 鲁ICP备18039973号-2 运营中心 / 北京·清华科技园九号楼 生产中心 / 山东省日照市开发区太原路71号 |