Course description

Kursus ini dirancang untuk memberikan pemahaman mendalam tentang reinforcement learning (RL) lanjutan yang digunakan dalam pengembangan AI otonom. Anda akan mempelajari metode seperti Proximal Policy Optimization (PPO) untuk pelatihan agent yang lebih stabil, Deep Deterministic Policy Gradient (DDPG) untuk continuous action space, dan Multi-Agent Reinforcement Learning (MARL) untuk menangani lingkungan yang melibatkan banyak agent. Selain itu, kursus ini mencakup teknik Prioritized Experience Replay untuk meningkatkan efisiensi pelatihan serta bagaimana AlphaZero, salah satu model RL paling canggih, bekerja. Dengan materi ini, Anda akan siap mengimplementasikan teknik-teknik RL lanjutan dalam berbagai kasus penggunaan.

What will i learn?

  • Memahami dan mengimplementasikan Proximal Policy Optimization (PPO) untuk melatih agent RL.
  • Menggunakan Deep Deterministic Policy Gradient (DDPG) untuk masalah dengan continuous action space.
  • Menerapkan Multi-Agent Reinforcement Learning (MARL) untuk lingkungan multi-agent.
  • Meningkatkan efisiensi pelatihan agent dengan Prioritized Experience Replay.
  • Menguasai konsep dan implementasi AlphaZero untuk masalah kompleks.

Requirements

  • Pengetahuan dasar tentang reinforcement learning dan machine learning
  • Pengalaman menggunakan Python dan library seperti TensorFlow atau PyTorch.
  • Pemahaman tentang algoritma dasar RL seperti Q-learning dan policy gradients.

Frequently asked question

PPO adalah metode RL yang dirancang untuk menjaga stabilitas dan efisiensi saat melatih agent, dengan membatasi perubahan yang dilakukan oleh policy selama pembaruan.

DDPG cocok digunakan untuk masalah RL dengan continuous action space, di mana action yang dipilih tidak terbatas pada nilai diskrit.

MARL adalah pendekatan RL di mana beberapa agent dilatih untuk berinteraksi dan beradaptasi dalam lingkungan yang sama, memungkinkan kolaborasi atau kompetisi antara agent.

Teknik ini memungkinkan agent untuk memprioritaskan pengalaman yang lebih berharga atau informatif selama pelatihan, sehingga mempercepat proses belajar dan meningkatkan efisiensi.

AlphaZero menggabungkan deep learning dan search-based techniques untuk mencapai performa luar biasa dalam permainan kompleks seperti catur dan Go, tanpa memerlukan data pelatihan manusia.

ITS Academic

Free

Lectures

0

Skill level

Beginner

Expiry period

Lifetime

Related courses