1 Dof RL Algorithm - 搜索视频

Calculation and Design Calculate the DOF of the mechanism and... | Filo

Calculation and Design Calculate the DOF of the mechanism and... | …

已浏览 5930 次1 年前

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现：强化学习微调，为何比监督学习更“记”得好？

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现…

已浏览 989 次1 个月前

bilibili卢菁博士_北大AI博士后

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解析~大模型|LLM

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解 …

已浏览 1452 次1 个月前

bilibili爱学大模型的柒柒

大模型对齐方法综述与代码示例（二）

大模型对齐方法综述与代码示例（二）

已浏览 444 次6 个月之前

bilibiliswanmsg

RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练

RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练

已浏览 8768 次2024年11月18日

bilibili蓝斯诺特

强化学习算法工程师的年度总结：RL 训练中的 Rollout、异步与框架设计

强化学习算法工程师的年度总结：RL 训练中的 Rollout、异步与框架设计

已浏览 3422 次2 个月之前

bilibiliyang_xi_111

哈工大算法大佬亲授！《大模型算法：强化学习、微调与对齐》100 张图拆透 RLHF/DPO，大厂核心算法直接搬砖！

哈工大算法大佬亲授！《大模型算法：强化学习、微调与对齐》100 张 …

已浏览 139 次9 个月之前

bilibili博文视点阿豹Class

谷歌大佬新作 RL从入门到前沿

已浏览 264 次4 个月之前

bilibiliAI梨大谱

[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练，Forward…

已浏览 5578 次1 个月前

bilibili五道口纳什

如何让LLM通过RL又好又准地使用工具?

已浏览 3126 次10 个月之前

bilibiliNICE学术

一阶电路（RL），三要素法；期末不挂科，小白请教

已浏览 1.6万次2023年6月19日

bilibili桐桐桐童心呀

【Online RL】17 OLIVE算法（Optimism Let Iterative Value-fun…

已浏览 462 次3 个月之前

bilibiliJOJO想

基于归一化抓取空间的高效区域感知6-DoF抓取算法

已浏览 264 次2024年10月23日

bilibiliChenThree3

强化学习 (RL) 在做什么？RL原理讲解系列#1

已浏览 7149 次2023年10月31日

【大白话03】一文理清强化学习RL基本原理 | 原理图解公式推导

已浏览 10.3万次11 个月之前

bilibili吃花椒的麦

强化学习第一节（RL基本概念工具基本算法）【个人知识分享】

已浏览 2.8万次2021年12月2日

bilibili二营长向强化学习开炮

第2章一阶电路暂态响应-换路定则求初始值（RC、RL、RLC电路-例题讲 …

已浏览 1.3万次2021年9月29日

bilibili橙子3712

RL 算法大突破！多智能体协作性能飞升

已浏览 217 次10 个月之前

bilibiliAI因斯坦玩转AI

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

已浏览 2.2万次2024年6月23日

bilibili五道口纳什

编译原理第四章LR（0）DFA构造，判断能否使用SLR（1）分析表解决 …

已浏览 616 次2 个月之前

bilibili甜滋滋的巧克力豆

相比SFT为什么RL训练后的模型更不容易遗忘？RL的奥卡姆剃刀原理： …

已浏览 6150 次5 个月之前

bilibiliAI论文小小编

88.RL专题：策略中随机探索怎么实现

已浏览 1707 次10 个月之前

bilibili文言AI

豆瓣 9.4分!《大模型算法》强化学习、DPO、微调SFT、GRPO、PPO、RL…

已浏览 1万次9 个月之前

bilibili叶子哥AI

【254】具有输入仿射系统动力学的连续时间非线性最优控制问题的强化 …

已浏览 650 次2024年10月3日

bilibili既然香遇

106.RL专题：介绍下DPO执行的流程

已浏览 2016 次9 个月之前

bilibili文言AI

GPU终于不再空转 RL训练速度提取44%的黑科技

已浏览 358 次5 个月之前

bilibili哆啦K梦_Kaggle金牌

【强化学习】RL速通秘籍：AI大佬手把手教你3步速成秘籍：DQN/PPO→ …

已浏览 1726 次6 个月之前

bilibili人工智能-精品教程

【最通俗易懂】强化学习入门教程：从零构建强化学习知识框架实战逻 …

已浏览 1197 次3 个月之前

bilibili卢菁博士_北大AI博士后

Robotic 08_ Robot Simulation using matlab (DH parameter using Peter …

已浏览 11.2万次2017年4月21日

YouTubeDr. Amr Zamel

和你一起学电路:听懂扣1！解析RL零输入响应动态电路的时间常数概念！

已浏览 4701 次2020年5月30日

bilibili犹如雨下

观看更多视频