English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
12:36
大模型进化论15:强化学习PPO | OpenAI 的天才设计 | 大模型强化学
…
已浏览 2321 次
3 周前
bilibili
畅想EidolaAI
23:37
多智能体(无人机无人车)强化学习手把手实践-PPO算法解析
已浏览 1652 次
1 个月前
bilibili
嗯不想长大
4:19
Aligning LLM Models with Human Preferences
1 个月前
YouTube
PromptProfessional
0:10
I Will Be Replace ChatGPT From Now On
已浏览 1819 次
3 个月之前
YouTube
Yasu Ghostsu
8:31
Proximal Policy Optimization in Reinforcement Learning Simplified
已浏览 22 次
3 周前
YouTube
RITEC
4:47
Turn-PPO: LLM 에이전트 멀티턴 강화학습 최적화 및 GRPO 비교 분석
已浏览 2 次
3 个月之前
YouTube
CosmoX
8:04
LLM 강화학습에서 PPO 한계와 DPPO 제안 — Trust Region 재고찰 in LL
…
1 个月前
YouTube
CosmoX
0:17
Unlock AI's Secrets: Q-Learning, PPO & Future Rewards Explained
…
已浏览 60 次
2 个月之前
YouTube
Coder Trader
25:35
Teaching LLMs with RL: From Scratch to GRPO and Beyond
已浏览 152 次
2 个月之前
YouTube
Machine & Deep Learning Israel
2:52
AI Agents Learn to Play Soccer
已浏览 39 次
1 个月前
YouTube
Magnificent Skippy
2:03
Aligning AI
1 个月前
YouTube
PromptProfessional
9:03
Chapter 8: RLHF Reinforce Leaning by Human Feedback Step by Step
已浏览 9 次
3 周前
YouTube
LeoverseAI
1:21
This AI Soccer Team Beats Humans (Real-Time Multi-Agent Breakthro
…
3 个月之前
YouTube
CollapsedLatents
0:35
AI Learns to Skip the Line
已浏览 2322 次
1 个月前
YouTube
Artful AI
0:34
PPO Algorithm Explained 🤖 | Proximal Policy Optimization in Reinforcem
…
已浏览 2 次
4 周前
YouTube
Qybrenthak AI Pvt. Ltd.
1:04
AI Learn to Dodge Asteroids
已浏览 1184 次
2 个月之前
YouTube
ManiCo Labs
3:00
Contact-Safe Reinforcement Learning with ProMP Reparameter
…
1 个月前
YouTube
Figueredo
An Ensemble Method with Plans-Managed Policy for Proximal Polic
…
1 个月前
acm.org
#reinforcementlearning #marl #robotics #ros2 #isaacsim #pytorc
…
已浏览 4 次
1 个月前
linkedin.com
AI Agents Learn to Play Soccer | Edgar Hilton
已浏览 986 次
1 个月前
linkedin.com
Unitree Go2 Locomotion via Deep Reinforcement Learning | Jinesh
…
已浏览 4 次
3 周前
linkedin.com
Proximal Policy Optimization (PPO) with Contra
已浏览 6379 次
2021年2月21日
YouTube
Việt Nguyễn AI
Autonomous Vehicle with AI-based Adaptive Cruise Control using Car
…
已浏览 242 次
11 个月之前
YouTube
CodeCrafted with Shlok
25:51
[双语字幕] 1/3 Proximal Policy Optimization Implementation 11 C
…
已浏览 72 次
2025年3月13日
bilibili
89270639239_bili
2:12:49
北京航空航天大学张慧铭副教授:从老虎机到强化学习再到Deepseek-r1
…
已浏览 8.1万 次
5 个月之前
bilibili
狗熊会
2:15:13
【Umar Jamil】 用数学推导和Pytorch代码解释RLHF 中英字幕
已浏览 45 次
2025年2月4日
bilibili
阳冰NaN
21:56
从经典PPO到PPO-RLHF(二) InstructGPT RLHF trl代码
已浏览 3588 次
3 个月之前
bilibili
东川路第一可爱猫猫虫
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 9559 次
4 个月之前
bilibili
东川路第一可爱猫猫虫
29:08
Proximal Policy Optimization is Easy with Tensorflow 2 - PPO Tut
…
已浏览 307 次
2022年5月6日
bilibili
MrJ-Michael
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
观看更多视频
更多类似内容
反馈