English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
Calculation and Design Calculate the DOF of the mechanism and... |
…
已浏览 5930 次
1 年前
askfilo.com
3:10
大模型微调不 “失忆” 的秘密:RL 为何比 SFT 更懂 “守旧”?MIT新发现
…
已浏览 989 次
1 个月前
bilibili
卢菁博士_北大AI博士后
19:23
手把手带你快速弄懂SFT、RLHF、DPO !从定义到适用边界全流程解
…
已浏览 1452 次
1 个月前
bilibili
爱学大模型的柒柒
14:19
大模型对齐方法综述与代码示例(二)
已浏览 444 次
6 个月之前
bilibili
swanmsg
1:10:05
RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练
已浏览 8768 次
2024年11月18日
bilibili
蓝斯诺特
4:20
强化学习算法工程师的年度总结:RL 训练中的 Rollout、异步与框架设计
已浏览 3422 次
2 个月之前
bilibili
yang_xi_111
0:52
哈工大算法大佬亲授!《大模型算法:强化学习、微调与对齐》100 张
…
已浏览 139 次
9 个月之前
bilibili
博文视点阿豹Class
0:56
谷歌大佬新作 RL从入门到前沿
已浏览 264 次
4 个月之前
bilibili
AI梨大谱
16:24
[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练,Forward
…
已浏览 5578 次
1 个月前
bilibili
五道口纳什
1:37:40
如何让LLM通过RL又好又准地使用工具?
已浏览 3126 次
10 个月之前
bilibili
NICE学术
7:05
一阶电路(RL),三要素法;期末不挂科,小白请教
已浏览 1.6万 次
2023年6月19日
bilibili
桐桐桐童心呀
1:14:20
【Online RL】17 OLIVE算法(Optimism Let Iterative Value-fun
…
已浏览 462 次
3 个月之前
bilibili
JOJO想
1:01
基于归一化抓取空间的高效区域感知6-DoF抓取算法
已浏览 264 次
2024年10月23日
bilibili
ChenThree3
18:45
强化学习 (RL) 在做什么?RL原理讲解系列#1
已浏览 7149 次
2023年10月31日
bilibili
Up-Fei
35:41
【大白话03】一文理清强化学习RL基本原理 | 原理图解 公式推导
已浏览 10.3万 次
11 个月之前
bilibili
吃花椒的麦
1:00:50
强化学习第一节(RL基本概念 工具 基本算法)【个人知识分享】
已浏览 2.8万 次
2021年12月2日
bilibili
二营长向强化学习开炮
30:43
第2章 一阶电路暂态响应-换路定则求初始值(RC、RL、RLC电路-例题讲
…
已浏览 1.3万 次
2021年9月29日
bilibili
橙子3712
0:38
RL 算法大突破!多智能体协作性能飞升
已浏览 217 次
10 个月之前
bilibili
AI因斯坦玩转AI
16:01
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
已浏览 2.2万 次
2024年6月23日
bilibili
五道口纳什
16:42
编译原理第四章LR(0)DFA构造,判断能否使用SLR(1)分析表解决
…
已浏览 616 次
2 个月之前
bilibili
甜滋滋的巧克力豆
23:15
相比SFT为什么RL训练后的模型更不容易遗忘?RL的奥卡姆剃刀原理:
…
已浏览 6150 次
5 个月之前
bilibili
AI论文小小编
6:23
88.RL专题:策略中随机探索怎么实现
已浏览 1707 次
10 个月之前
bilibili
文言AI
1:08
豆瓣 9.4分!《大模型算法》强化学习、DPO、微调SFT、GRPO、PPO、RL
…
已浏览 1万 次
9 个月之前
bilibili
叶子哥AI
3:39
【254】具有输入仿射系统动力学的连续时间非线性最优控制问题的强化
…
已浏览 650 次
2024年10月3日
bilibili
既然香遇
7:21
106.RL专题:介绍下DPO执行的流程
已浏览 2016 次
9 个月之前
bilibili
文言AI
0:49
GPU终于不再空转 RL训练速度提取44%的黑科技
已浏览 358 次
5 个月之前
bilibili
哆啦K梦_Kaggle金牌
1:31
【强化学习】RL速通秘籍:AI大佬手把手教你3步速成秘籍:DQN/PPO→
…
已浏览 1726 次
6 个月之前
bilibili
人工智能-精品教程
43:16
【最通俗易懂】强化学习入门教程:从零构建强化学习知识框架 实战逻
…
已浏览 1197 次
3 个月之前
bilibili
卢菁博士_北大AI博士后
14:19
Robotic 08_ Robot Simulation using matlab (DH parameter using Peter
…
已浏览 11.2万 次
2017年4月21日
YouTube
Dr. Amr Zamel
7:22
和你一起学电路:听懂扣1!解析RL零输入响应动态电路的时间常数概念!
已浏览 4701 次
2020年5月30日
bilibili
犹如雨下
观看更多视频
更多类似内容
反馈