Ushbu amaliy kodlash bo‘limida talabalar mashinalar qanday qilib sinov va xatolik orqali o‘rganishini o‘rganadilar — bu mustahkamlash o‘rganishining (Reinforcement Learning, RL) asosiy g‘oyasidir. Scratch-dan foydalanib, talabalar o‘zlarining yonma-yon harakat qiluvchi o‘yini yaratadilar, raqiblarni qo‘shadilar va vaqt o‘tishi bilan o‘rganadigan haqiqiy RL agentini integratsiya qiladilar.
Bu bo‘lim talabalarni kompyuterlar qanday qaror qabul qilishini, qoidalar va o‘rganish tizimlari qanday farq qilishini, hamda RL agentlari mukofotlardan foydalanib o‘z ishlashini qanday yaxshilashini tushunishga yordam beradi. Talabalar shuningdek, RL etikasi haqida muhokama qiladilar — masalan, tez o‘rganish yoki sekin o‘rganish qachon foydali, sinov-va-xatolik tizimlari real hayotda qachon xavfli bo‘lishi mumkinligi.
Talabalar o‘yinlarini arcade uslubida namoyish qilib, turli RL konfiguratsiyalari AI raqibining qanday o‘rganishini qanday o‘zgartirishini taqqoslaydilar.
Summary:
Mashinalar Qanday O‘rganadi? (Kodlash bilan)
1. Scratch O‘yini Yaratish va Qoidaga Asoslangan Raqib Qo‘shish (60 minutes)
Talabalar Scratch yordamida yonma-yon harakat qiluvchi o‘yin yaratadilar va oddiy qoidaga asoslangan raqib dasturlashadi. Ular inson tomonidan yaratilgan qoidalarni kompyuter qaror qabul qilish bilan taqqoslaydilar.
2. Mustahkamlash O‘rganishini Integratsiya Qilish (60 minutes)
Talabalar ichki RL raqibini faollashtiradilar, turli Q-jadvallarini sinab ko‘radilar va agentning mukofotlar orqali qanday o‘rganishini kuzatadilar. Ular sensorlar va o‘rganish tezligi ishlashga qanday ta’sir qilishini o‘rganadilar va tez vs sekin o‘rganishning afzalliklari va xavflari haqida muhokama qiladilar.
3. O‘yinlarni Namoyish Qilish, Taqqoslash va Refleksiya (60 minutes)
Talabalar arcade uslubida bir-birlarining o‘yinlarini o‘ynaydilar, qaysi RL sozlamalari eng tez yoki samarali o‘rganishini baholaydilar. Keyin ular etik savollarni o‘rganadilar: RL qachon foydali? Qachon xavfli? Turli real vaziyatlarda xatolik narxi nima?