国内版
国际版
网页
图片
视频
短视频
学术
词典
地图
更多
航班
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
优酷
酷6
土豆
6.cn
Joy
新浪
搜狐
CCTV
价格
全部
免费
付费
清除筛选条件
筛选器
7:18
蒋乐天 - PPO
已浏览 3249 次
2019年10月25日
bilibili
伯禹人工智能学院
25:21
L4 TRPO and PPO (Foundations of Deep RL Series)
已浏览 482 次
2021年8月30日
bilibili
深度强化学习实验室
1:12:28
【直播回放】TRPO重生:大模型时代的信任域策略优化 2025年12月20
…
已浏览 203 次
3 个月之前
bilibili
减论
58:46
【直播回放】从TRPO 到 SAPO: RL算法演进 2026年01月10日09点场
已浏览 62 次
3 个月之前
bilibili
减论
19:18
【已完结】【TRPO】第二部分 完整代码实现
已浏览 5423 次
5 个月之前
bilibili
东川路第一可爱猫猫虫
18:50
强化trpo
已浏览 171 次
2025年2月28日
bilibili
天道酬喵喵
16:26
TRPO:稳定策略优化的理论基础
已浏览 404 次
3 个月之前
bilibili
科羚AI深度学堂
13:03
从TRPO到PPO,探索强化学习的巅峰之作
已浏览 482 次
5 个月之前
bilibili
天天悅看
56:29
【青稞Talk102期】从 TRPO 到 SAPO:大模型 RL 算法演进
已浏览 2218 次
2 个月之前
bilibili
青稞社区
43:13
16.[彪哥带你学强化学习]全网讲的最系统的TRPO算法
已浏览 749 次
10 个月之前
bilibili
爱格物的彪哥
7:55
强化学习 TRPO 证明1
已浏览 437 次
2023年1月31日
bilibili
Will-HhdZ
31:11
14.[彪哥带你学强化学习]终于有人把trpo算法讲清楚了
已浏览 1636 次
11 个月之前
bilibili
爱格物的彪哥
9:48
【强化学习】TRPO算法-1 原理推导
已浏览 2301 次
2024年11月26日
bilibili
灼眼的全息坚果
21:08
【强化学习】TRPO算法-2 算法讲解
已浏览 757 次
2024年11月26日
bilibili
灼眼的全息坚果
9:24
深度强化学习第三课TRPO(2017):稳定策略优化的
…
已浏览 131 次
3 个月之前
bilibili
深度学习k学长
1:31:57
近端策略优化(PPO)算法
已浏览 1.7万 次
2025年1月8日
bilibili
蒋一讲AI
41:01
5、Natural Policy Gradients, TRPO, PPO算法
已浏览 1002 次
2022年2月13日
bilibili
Waterking丶
1:52
SAPO和TRPO,TRPO的KL约束条件和SAPO的关系 #青稞社区 #SAPO
…
2 个月之前
douyin.com
青稞社区
15:14
[Agentic RL] 02 策略梯度基础,从 PG 到 TRPO 到 PPO-Clip 核心公式简
…
已浏览 4933 次
6 个月之前
bilibili
五道口纳什
25:17
【PPO的前身】【TRPO】第一部分 直观理解与算法理论
已浏览 1.2万 次
5 个月之前
bilibili
东川路第一可爱猫猫虫
13:06
15.[彪哥带你学强化学习]TRPO算法中近似函数和原目标函数的阈值怎么
…
已浏览 906 次
10 个月之前
bilibili
爱格物的彪哥
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列#3
已浏览 8545 次
2023年12月20日
bilibili
Up-Fei
37:05
推理大模型 | TRPO求解方法论
已浏览 35 次
5 个月之前
bilibili
比尔森一撇
6:38
【DAPO算法】TRPO 太慢,GRPO 太野,强化学习算法我刚刚好(✪▽✪)
已浏览 6444 次
2 个月之前
bilibili
梗直哥丶
12:32
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
已浏览 7380 次
2024年5月25日
bilibili
五道口纳什
29:49
四、TRPO论文中参数化策略的优化方法与重要性采样的线下策略
已浏览 89 次
2025年3月12日
bilibili
茶肉酱
14:58
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
已浏览 8829 次
2024年5月3日
bilibili
五道口纳什
39:39
【TRPO系列讲解】(五)TRPO_理论推导篇
已浏览 6524 次
2022年5月17日
bilibili
机智的王小鹏
23:32
【双语】How LLMs Learn to Reason [GRPO]
已浏览 663 次
2 个月之前
bilibili
Sa神带你学AI
29:27
TRPO 置信域策略优化 (Trust Region Policy Optimization)
已浏览 149 次
2023年6月6日
bilibili
tiandiao123
观看更多视频
反馈