ANALIZA PERFORMANSI ALGORITAMA UČENJA USLOVLJAVANJEM U OKVIRU STARCRAFT 2 OKRUŽENJA

Sonja Trpovski; Saša Lalić

doi:10.24867/02BE34Lalic

Sonja Trpovski
Saša Lalić

DOI: https://doi.org/10.24867/02BE34Lalic

Ključne reči: Starcraft 2, učenje uslovljavanjem, duboko učenje, A3C, Deep-Q learning

Apstrakt

Ovaj rad se bavi analizom performansi algoritama učenja uslovljavanjem pri rešavanju problema iz kompjuterske igre Starcraft 2. Algoritmi koji su implementirani i poređeni su A3C i Deep-Q Learning. Za svaki algoritam ispitan je uticaj različitih parametara obuke, kao što su broj preskočenih koraka agenta, i stopa učenja neuronske mreže. Pokazalo se da oba algoritma reaguju isto na promene parametara, i da u problemima koji ne zahtevaju česte akcije da bi dostiglo optimalno rešenje, preskakanje većeg broja akcija ubrzava obuku algoritma, i dovodi do boljeg rešenja u istom vremenskom periodu za obuku. Dok smanjenje stope učenja dovodi do lošijeg rešenja u svim slučajevima. Oba algoritma su postigli rezultate u problemima upravljanja jedinica, ali nisu postigli značajne rezultate u izgradnji baze.

Reference

[1] A. Basel, P. G. Keerthana “Asynchronous Advantage Actor-Critic Agent for Starcraft II”, 22.7.2018,
[2] Starcraft 2 Windows PC version, Blizzard Entertainment, 2010.
[3] O. Vinyals, T. Ewalds, S. Bartunov, P. Georgiev, “StarCraft II: A New Challenge for Reinforcement Learning”, 16.08.2017.
[4] S. Wender, I. Watson, “Applying Reinforcement Learning to Small Scale Combat in the Real-Time Strategy Game StarCraft:Broodwar”, 2012
[5] https://github.com/deepmind/pysc2
[6] R. Ring, “Replicating DeepMind StarCraft II Reinforcement Learning Benchmark with Actor-Critic Methods”, 2018
[7] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, “TensorFlow: Large-scale machine learning on heterogeneous systems”, 2015, Software available from tensorflow.org.
[8] NVIDIA cuDNN, https://developer.nvidia.com/cudnn
[9] L. Kaelbling, M. Littman, A. Moore, "Reinforcement Learning: A Survey", Journal of Artificial Intelligence Research. 4: 237–285, Archived from the original on 20.11.2001. (1996).
[10] A. Juliani, “Asynchronous Actor-Critic Agents (A3C)”, 17.12.2016.