우리는 수십 년 동안 알려져 온 최적화 기법인 진화 전략(Evolution Strategies, ES)이 현대적인 강화 학습(RL) 벤치마크(예: Atari/MuJoCo)에서 표준적인 강화 학습 기법의 성능에 필적하는 동시에, 강화 학습의 여러 고질적인 문제점들을 해결할 수 있다는 사실을 확인했습니다.
Programming Notes
프로그래밍과 기술 이슈를 빠르게 정리하는 개발 블로그
Programming Notes
우리는 수십 년 동안 알려져 온 최적화 기법인 진화 전략(Evolution Strategies, ES)이 현대적인 강화 학습(RL) 벤치마크(예: Atari/MuJoCo)에서 표준적인 강화 학습 기법의 성능에 필적하는 동시에, 강화 학습의 여러 고질적인 문제점들을 해결할 수 있다는 사실을 확인했습니다.