【资料图】
Human Feedback 可以有,但这项研究却表明了「RL」的可替代性。
近来,在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而,这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的,其中一些目标和技能设定未必希望被模仿。 从模型非常广泛的知识和能力中选择其期望的响应和行为,对于构建安全、高性能和可控的人工智能系统至关重要。很多现有的方法通过使用精心策划的人类偏好集将所需的行为灌输到语言模型中,这些偏好集代表了人类认为安全和有益的行为类型,这个偏好学习阶段发生在对大型文本数据集进行大规模无监督预训练的初始阶段之后。 虽然最直接的偏好学习方法是对人类展示的高质量响应进行监督性微调,但最近相对热门的一类方法是从人类(或人工智能)反馈中进行强化学习(RLHF/RLAIF)。RLHF 方法将奖励模型与人类偏好的数据集相匹配,然后使用 RL 来优化语言模型策略,以产生分配高奖励的响应,而不过度偏离原始模型。 虽然 RLHF 产生的模型具有令人印象深刻的对话和编码能力,但 RLHF pipeline 比监督学习复杂得多,涉及训练多个语言模型,并在训练的循环中从语言模型策略中采样,产生大量的计算成本。 而最近的一项研究表明:现有方法使用的基于 RL 的目标可以用一个简单的二进制交叉熵目标来精确优化,从而大大简化偏好学习 pipeline。也就是说,完全可以直接优化语言模型以坚持人类的偏好,而不需要明确的奖励模型或强化学习。 来自斯坦福大学等机构研究者提出了直接偏好优化(Direct Preference Optimization,DPO),这种算法隐含地优化了与现有 RLHF 算法相同的目标(带有 KL - 发散约束的奖励最大化),但实施起来很简单,而且可直接训练。 实验表明,至少当用于 60 亿参数语言模型的偏好学习任务,如情感调节、摘要和对话时,DPO 至少与现有的方法一样有效,包括基于 PPO 的 RLHF。 与现有的算法一样,DPO 也依赖于理论上的偏好模型(如 Bradley-Terry 模型),以此衡量给定的奖励函数与经验偏好数据的吻合程度。然而,现有的方法使用偏好模型定义偏好损失来训练奖励模型,然后训练优化所学奖励模型的策略,而 DPO 使用变量的变化来直接定义偏好损失作为策略的一个函数。鉴于人类对模型响应的偏好数据集,DPO 因此可以使用一个简单的二进制交叉熵目标来优化策略,而不需要明确地学习奖励函数或在训练期间从策略中采样。 DPO 的更新增加了首选 response 与非首选 response 的相对对数概率,但它包含了一个动态的、每个样本的重要性权重,以防止模型退化,研究者发现这种退化会发生在一个朴素概率比目标上。 为了从机制上理解 DPO,分析损失函数 的梯度是很有用的。 关于参数 θ 的梯度可以写成: 其中 是由语言模型 和参考模型 隐含定义的奖励。 直观地说,损失函数 的梯度增加了首选补全 y_w 的可能性,减少了非首选补全 y_l 的可能性。 重要的是,这些样本的权重是由隐性奖励模型 对不喜欢的完成度的评价高低来决定的,以 β 为尺度,即隐性奖励模型对完成度的排序有多不正确,这也是 KL 约束强度的体现。 实验表明了这种加权的重要性,因为没有加权系数的这种方法的 naive 版本会导致语言模型的退化(附录表 2)。 在论文的第五章,研究者对 DPO 方法做了进一步的解释,提供了理论支持,并将 DPO 的优势与用于 RLHF 的 Actor-Critic 算法(如 PPO)的问题联系起来。具体细节可参考原论文。 在实验中,研究者评估了 DPO 直接根据偏好训练策略的能力。 首先,在一个控制良好的文本生成环境中,他们思考了这样一个问题:与 PPO 等常见偏好学习算法相比,DPO 在参考策略中权衡奖励最大化和 KL-divergence 最小化的效率如何?接着,研究者还评估了 DPO 在更大模型和更困难的 RLHF 任务 (包括摘要和对话) 上的性能。 最终发现,在几乎没有超参数调整的情况下,DPO 的表现往往与带有 PPO 的 RLHF 等强大的基线一样好,甚至更好,同时在学习奖励函数下返回最佳的 N 个采样轨迹结果。 从任务上说,研究者探索了三个不同的开放式文本生成任务。在所有实验中,算法从偏好数据集 中学习策略。 在可控情感生成中,x 是来自 IMDb 数据集的电影评论的前缀,策略必须生成具有积极情感的 y。为了进行对照评估,实验使用了预先训练好的情感分类器去生成偏好对,其中 。 对于 SFT,研究者微调了 GPT-2-large,直到收敛于 IMDB 数据集的训练分割的评论。总之,x 是来自 Reddit 的论坛帖子,该策略必须生成帖子中要点的总结。基于此前工作,实验使用了 Reddit TL;DR 摘要数据集以及 Stiennon et al. 收集的人类偏好。实验还使用了一个 SFT 模型,该模型是根据人类撰写的论坛文章摘要 2 和 RLHF 的 TRLX 框架进行微调的。人类偏好数据集是由 Stiennon et al. 从一个不同的但经过类似训练的 SFT 模型中收集的样本。 最后,在单轮对话中,x 是一个人类问题,可以是从天体物理到建立关系建议的任何问题。一个策略必须对用户的查询做出有吸引力和有帮助的响应;策略必须对用户的查询做出有意思且有帮助的响应;实验使用 Anthropic Helpful and Harmless 对话集,其中包含人类和自动化助手之间的 170k 对话。每个文本以一对由大型语言模型 (尽管未知) 生成的响应以及表示人类首选响应的偏好标签结束。在这种情况下,没有预训练的 SFT 模型可用。因此,实验只在首选完成项上微调现成的语言模型,以形成 SFT 模型。 研究者使用了两种评估方法。为了分析每种算法在优化约束奖励最大化目标方面的效率,在可控情感生成环境中,实验通过其实现奖励的边界和与参考策略的 KL-divergence 来评估每种算法。实验可以使用 ground-truth 奖励函数 (情感分类器),因此这一边界是可以计算得出的。但事实上,ground truth 奖励函数是未知的。因此研究者通过基线策略的胜率评估算法的胜率,并用 GPT-4 作为在摘要和单轮对话设置中人类评估摘要质量和响应有用性的代理。针对摘要,实验使用测试机中的参考摘要作为极限;针对对话,选用测试数据集中的首选响应作为基线。虽然现有研究表明语言模型可以成为比现有度量更好的自动评估器,但研究者进行了一项人类研究,证明了使用 GPT-4 进行评估的可行性 GPT-4 判断与人类有很强的相关性,人类与 GPT-4 的一致性通常类似或高于人类标注者之间的一致性。 除了 DPO 之外,研究者还评估了几种现有的训练语言模型来与人类偏好保持一致。最简单的是,实验在摘要任务中探索了 GPT-J 的零样本 prompt,在对话任务中探索了 的 2-shot prompt。此外,实验还评估了 SFT 模型和 Preferred-FT。Preferred-FT 是一个通过监督学习从 SFT 模型 (可控情感和摘要) 或通用语言模型 (单回合对话) 中选择的完成 y_w 进行微调的模型。另一种伪监督方法是 Unlikelihood,它简单地优化策略,使分配给 y_w 的概率最大化,分配给 y_l 的概率最小化。实验在「Unlikehood」上使用了一个可选系数 α∈[0,1]。他们还考虑了 PPO,使用从偏好数据中学习的奖励函数,以及 PPO-GT。PPO-GT 是从可控情感设置中可用的 ground truth 奖励函数学习的 oracle。在情感实验中,团队使用了 PPO-GT 的两个实现,一个是现成的版本,以及一个修改版本。后者将奖励归一化,并进一步调整超参数以提高性能 (在运行具有学习奖励的「Normal」PPO 时,实验也使用了这些修改)。最后,研究者考虑了 N 个基线中的最优值,从 SFT 模型 (或对话中的 Preferred-FT) 中采样 N 个回答,并根据从偏好数据集中学习的奖励函数返回得分最高的回答。这种高性能方法将奖励模型的质量与 PPO 优化解耦,但即使对中度 N 来说,在计算上也是不切实际的,因为它在测试时需要对每个查询进行 N 次采样完成。 图 2 展示了情绪设置中各种算法的奖励 KL 边界。 图 3 展示了 DPO 收敛到其最佳性能的速度相对较快。 ©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@
推荐内容
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好 世界快消息
当前通讯!三博脑科:持续关注脑机接口技术在医疗领域的应用和发展
中电联:1-5月全国跨区、跨省送出电量均实现同比增长|环球快资讯
项目管理能力培训暨建设工程项目数字化管理标杆观摩会在汉召开-天天热议
自曝被性侵女子:女生谨慎独自出国 基本情况讲解-天天即时
全球今日报丨“粽”享美味 哪些人要少吃?
海南岛三大机场端午假期预计运送旅客超33万人次 全球热讯
《消失的她》《我爱你!》《别叫我“赌神”》分列端午档票房前三位 当前要闻
即时:CR-V和宝马X5哪个好?外观、空间、性能、安全与价格对比
美股热门科技股持续走低,AMD跌超6%
49天南美到远东!中远海运特运运纸浆“准班轮”服务创佳绩
2023南通夏季文旅消费推广季启动
勒索病毒端口封禁_勒索病毒端口
世界消息!西方制裁背景下,俄罗斯接下来靠什么赚钱?俄媒提出5个来钱渠道
当前资讯!胡埭中心小学:榜样引领时代初心照亮未来
中国海警局新闻发言人就美“斯特拉顿”号炮舰过航台湾海峡发表谈话
巴萨名宿:中超是一流的联赛,中国球员有纪律有活力有技术!-天天新资讯
世界热推荐:整治安全隐患 引入优质企业
益盛药业亮相国家会展中心 传承人参精华促进人类健康
铁路端午小长假预计发送旅客7100万人次|天天视点
“天宫”空间站电推进发动机首次实现在轨“换气”
腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景
观速讯丨内存价格继续探底!协德DDR4 2666MHz 8GB内存低至68元
毒·戒丨武汉市司法行政戒毒系统2023年禁毒宣传月活动启动
交易创新!京东618数字人民币交易笔数同比增长254%【附数字人民币发展现状及预测】 速递
环球通讯!太惊险了!没有半点犹豫,他们抢回一条命
【全球新要闻】曝《巫师》将再次联动《堡垒之夜》 或加入希里角色捆绑包
实时焦点:夏至之时 江西高校毕业生告别校园逐梦远行
太和县水上社区开展水上消防安全应急演练和水上救援演练活动
江苏省淮安市洪泽区跟踪入伍青年思想教育不断线
四川广汉民航学院 四川广汉民航飞行学院官网
全球快讯:天天爱消除哪一关刷金币 金币还是无法打出(w9前7关金币也已收齐w1至w8也都是)
【天天速看料】在复杂的2D气泡排列中优化结构
世界新资讯:歌词有抱一抱的歌 抱一抱就当从没在一起是什么歌
刘潮:出道11年剧比人红,与肖战合作终出圈,却成了观众的意难平
交付推迟,股价大跌37%!贾跃亭微博道歉,还暗示回国?|世界报资讯
新一轮调整周期已至?酒企三季度有望加速增长!外资坚定持有产业龙头
中小学校防溺水目标责任书5篇
视频|这种红色蚂蚁有毒碰不得 这场活动让市民现场涨知识
4岁女童奶辣穿高跟惊现
山西证券:撤销3家证券营业部_天天播报
每日热点:经济日报:拓宽农村金融“可为”之路
取代iOS的系统来了?苹果visionOS Beta版上线-焦点快看
环球报道:北京:1700余场活动奉上节日文旅大餐
内马尔为孕期出轨道歉 基本信息讲解 今日热闻
美对乌军事支持估值“虚高”62亿美元
环球快看点丨温彬:下半年仍有1-2次降准可能
温彬:下半年仍有1-2次降准可能
6月21日基金净值:鹏华中证国防ETF最新净值0.781,跌1.39% 焦点热门
电子版照片自己怎么弄 ?这几个方法轻松搞定 世界今日报
百事通!世锦赛亚军 中国轮椅女篮创佳绩
无毒无悔 健康生活 娄底召开法院禁毒工作新闻发布会
生面_关于生面介绍-天天热推荐
全球热点!愿早日康复!银川爆炸事故7名伤员均无生命危险
浙江衢州:打造四省边际数字经济发展新高地_世界看热讯
新消息丨Keep继续冲刺“运动科技第一股”:2023年Q1营收4.47亿
《科学的历程:少年版》新书全国首发以科学精神助力青少年成长 全球微头条
【世界速看料】太突然!正式破产清算!
当前通讯!三博脑科:持续关注脑机接口技术在医疗领域的应用和发展
郑渝高铁开通一周年 助推三峡库区经济社会发展
火线嘉年华提前预热 端午盛典开启超强福利-全球今日讯
京东宠物618销售榜单公布 环球滚动
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好 世界快消息
环球快资讯:河南省委深改委召开第三次会议 楼阳生主持
今日聚焦!金科服务(09666)6月21日斥资约212.31万港元回购20万股
DIY手工粽,这个端午节有意义_快讯
端午追浪|当AI也过端午节
伊森新材拟在明光绿色涂料产业园总投资5亿新建年产4万吨定制类功能性树脂项目
6月21日晚间沪深上市公司重大事项公告最新快递
世界聚焦:邱礼涛编剧《猎金之旅》正式立项 聚焦金融行业
宋茜最新造型火了,扎高马尾+发带,尽显少女感,还很个性时髦!-当前独家
湖南高考评卷已近尾声 6月25日公布高考成绩
焦点资讯:博鳌莫村外提"颜值"内挖"底蕴" "物业进村"侨乡展活力
电脑启动后鼠标键盘没反应怎么回事 电脑启动后鼠标和键盘没反应-全球聚焦
樱岛火山是活火山吗 樱岛火山位于什么火山带|环球新资讯
49天南美到远东!中远海运特运运纸浆“准班轮”服务创佳绩
Allegro Days活动将于7月3日至5日举行
当前聚焦:2023成都工业学院艺术类学费多少钱一年-各专业收费标准
河北滦南:发展蔬菜种植产业 拓宽农民增收渠道-世界热门
注意出行安全!四川19个县市区地灾黄色预警生效中
我国最长深水油气管道铺设完工
天天快资讯丨国泰君安:Vision Pro震撼发布 开启空间运算新时代
世界要闻:安徽加快建设新能源汽车产业集群
六款补铁补钙家常汤,孩子爱喝长身体,家长记得常给孩子安排
首届算力互联互通大会在京召开,成立算网云协同系统工委会
这三道四川的家常菜,味道美味,非常适合下饭
援外医疗题材剧海南拍摄中 核心场景"麦乐村"曝光
《梦中的那片海》高热收官:浪漫与理想魅力永在
海南离岛免税市场有效修复 官方发放新一轮消费券|环球头条
头条焦点:首宗个人破产案执行完毕!他没还完的债,不用再还了
世界今热点:啥?在酒泉卫星发射中心种热带水果?
@毕业生!济南地铁这些站点设置了拍照打卡框和“漂流瓶”等活动
6月21日基金净值:景顺长城能源基建混合A最新净值2.116,跌0.56%
工信部发布5月打击治理“黑广播”“伪基站”情况及典型案例|环球微头条
【天天聚看点】第三十二届哈洽会闭幕 青冈县参展成果丰硕
世界速看:青岛人的口福!“国信1号"产大黄鱼“裕鲜舫”还可以这样做
焦点要闻:2023端午成都铁路预计发送旅客675万人次
相对标准偏差excel公式_相对标准偏差|当前快讯
电影《八角笼中》点映及预售总票房突破1000万 天天热闻
“小而美”的魅族旗舰——魅族20,那是相当值得购买的|当前报道
今日报丨华为Mate 50 RS保时捷首次降价 跌到11999元 此前2万+
每日观点:上海发布文旅元宇宙新赛道行动方案,力争2025年产业规模突破500亿元
粮食安全 科学植保显担当
中国天眼FAST发现轨道周期最短脉冲星系统 为经典双星演化理论提供关键证据
通讯!指南金师:6.22隔夜黄金1926抄底多,目前继续持仓看涨中
全球时讯:南京鼻祖赵联阁做鼻子好不好?看简介及价格参考对比!
安徽合肥机场端午小长假预计运送旅客11万人次 环球速看
布兰登-米勒:我是詹姆斯还在迈阿密时的热火球迷
中国“重器”,亮相巴黎!|头条
广西贵港遇强对流天气
【全球新视野】扇贝肉哪些不能吃图解图片_扇贝肉哪些不能吃图解
氢能每日报,纵览氢能天下事【2023年6月21日】
今日快看!端午送上“安全粽”!海南交警公布8起典型事故案例
热推荐:形容老师的成语诗句有哪些(形容老师的成语诗句)
卓资县首届熏鸡文化旅游节活动安排来啦!
视焦点讯!央视开除的3位主持人,第一位聚众斗殴,第三位和董卿同居6年
擦亮琼字号劳务品牌|让群众致富有路 “定安粽娘”劳务品牌打造就业“金名片”
上海加快布局文旅元宇宙新赛道_世界今日讯
女子仅与共享屏幕,就被陌生人诈骗近百万贷款债务
环球今日报丨wegame mhw,放心剁猛汉王!WeGame版MHW只需194元!
That's What You Should Gift a 16-Year-Old Boy on His Birthday: A-精彩看点
商洛市公路局古树塬治超站“四个到位”深入开展“安全生产月”活动
每日快播:祥鹏航空新推昆明=呼和浩特“畅游”航线
小观看天丨“粽子节”来啦!假期出游前必看(2023.6.21)
今年端午假期,呈现哪些新趋势?
犀牛看市0621:上证指数破3200点创业板惨跌 汽车零部件板块升温
世界热点评!神印王座:皓晨采儿门当户对,翁婿联手重创魔族大军!
打造典型示范庭审 扩大禁毒宣传效果——吉林省法院依法公开审理一起重大贩卖、运输毒品案 世界热文
震撼!实拍小浪底启动调水调沙,如白龙出洞
天天百事通!第八届中国·青海国际民族传统射箭精英赛将于6月30日在刚察县举行
股价跌停!实控人前妻减持套现,昆仑万维资本市场“泻火”
紫光展锐发布新芯片 国产5G旗舰芯片终于来了
今日立夏:摄影师镜头下的荷塘小品,最后一张真养眼
月底真爱难测,未来还没有结束,爱情浓烈如胶,生肖会陪伴你一生
和晶科技:公司2022年度的智能控制器产品营业收入为17.99亿元|当前速看
今日聚焦!玛多县乡镇干部业务能力提升培训班圆满结束
西山科技:目前公司未生产养老相关产品
宣城旌德:“旌英计划” 为企注入新活力_世界最新
喜临门:“618”大促完美收官 睡眠经济龙头霸榜Top1 环球关注
环球资讯:2023年端午档票房破亿
全球热讯:新买不到一个月特斯拉充电冒烟:女车主难过了
环球快消息!女方在哺乳期男方能起诉离婚吗?女方在哺乳期男方出轨财产怎么分配?|环球微资讯
一夫多妻如何过_一夫多妻怎样同床
每日热文:海底两万里航海日记50字_海底两万里航海日记
新疆博乐市税务局:浓情端午 “粽”享税情 热门
马苏果然是夜店女王,劲歌热舞一样不落,与黑人玩耍好嗨皮_天天观天下
2023国际(大同)美食文化季开幕:让世界品味中华美食文化
热门看点:萨尔曼·鲁西迪《午夜之子》
焦点速看:天山之歌唱响濠江
灵活就业人员养老保险怎么计算_灵活就业人员养老保险计算方法