본문 바로가기

DeepLearning/BAIR

The Unsupervised Reinforcement Learning Benchmark

728x90
반응형

지도 강화학습의 단점들 (The shortcomings of supervised RL)

  • 강화 학습(Reinforcement Learning, RL)은 자율 차량 제어, 디지털 비서 (digital assistants), 리소스 할당과 같은 AI의 많은 문제를 해결하기 위한 알고리즘

  • 외부 보상 기능 (extrinsic reward function)이 제공될 때, RL 에이전트가 바둑이나 스타크래프트 같은 매우 복잡한 작업을 수행가능

  • 하지만, 이런 놀라운 결과에도 사용 범위가 매우 좁음. 오늘날 대부분의 RL 알고리즘은 훈련된 단일 작업만 해결할 수 있으며 크로스 작업 (cross-task) 또는 크로스 도메인 (cross-domain) 일반화 기능이 없음. (Even the best RL agents today are narrow.)

  • 현재 RL 에이전트는 새로운 작업을 보다 효율적으로 해결하기 위해 사전 지식 (prior knowledge)을 재사용할 수 있는 기능이 없음. 그래서, AlphaGo와 유사한 에이전트를 많은 작업에 대해 훈련시킨다면 각 에이전트는 수십억 단계의 훈련 단계가 필요. (Today's RL agents are also data inefficient.)

  • 지도학습 기반 RL은 외부보상에 과적합되서 일반화 능력이 제한받게 됨.

대안으로서 비지도 강화학습 (Unsupervised RL as a path forward)

  • 현재까지, 언어와 시각 분야에서 범용적으로 사용할만한 AI 시스템 개발의 가장 유망한 방법은 비지도 사전 훈련 (Unsupervised pre-training)을 통한 것임.
  • Masked casual 그리고 bi-directional transformer들은 유래가 없을 정도의 일반화 성능을 보여주는 사전 언어 모델에 대해 확장가능한 방법으로 부상 중. 또한, Siamese architecture들과 masked auto-encoder들도 시각 분야에서 빠른 업무 적용을 위한 첨단 기술이 되어가는 중.

  • 만일 사전 훈련이 범용 AI를 위한 방법이라면 강화학습 에이전트를 사전 훈련시켜줄 self-supervised objective이 있는지 확인하는게 자연스러움.

  • 시각/언어에 사용되는 알고리즘과 달리, RL 알고리즘은 그 자체의 데이터 분포의 영향을 주게됨.

  • 시각/언어처럼 표현학습 (representation learning)은 RL에서도 중요한 특징이만 비지도적 문제 (unsupervised problem)는 RL에게만 중요함. 다시 말해, 우리는 어떻게 지시/감독없이 쓸만한 행동을 배우고 일련의 업무 (downstream task)에 빨리 적용할 수 있는가가 비감독 RL문제임. 
    *비지도적 문제 : 어떻게 에이전트가 스스로 흥미롭고 다양한 (interesting and diverse) 데이터를 자체 감독 목표 (self-supervised objectives)를 통해 생성할 수 있는지에 관한 문제.

비지도 RL 프레임웍 (The unsupervised RL framework)

  • 비지도 강화학습은 지도강화학습 모두 Markov Decision Process (MDP)로 주어진 환경이 전체 혹은 일부라도 기술된다고 가정하며 보상을 최대화하는 것을 목표로함.

  • 가장 큰 차이는 지도강화학습은 외부보상을 통해 환경에대한 감독이 제공된다고 가정함. 반면 비지도강화학습은 자기감독업무를 통해 내재적인 보상을 규정함.

  • 자연어처리 (NLP)나 시각의 감독처럼, 지도보상들은 인간에의해 라벨로서 가공 (engineered)되거나 혹은 제공되며 범용성있는 강화학습 알고리즘 개발을 제한하게됨. 

비감독 강화학습 벤치마크

[The Unsupervised Reinforcement Learning Benchmark (URLB)]

  • 수 년동안 다양한 종류의 비지도 RL 알고리즘들이 제안됐지만, 평가/환경/최적화 과정의 차이로 공평한 평가를 하는 것이 불가능했음.
  • 이러한 이유로 저자들은 비지도 RL 알고리즘들에 대한 표준화된 평가 절차, 도메인들, 일련의 업무, 그리고 최적화를 위한 URLB를 개발함.
  • URLB는 훈련과정을 2단계 (two phases)로 구분함 
    • - 긴 시간동안의 비지도 사전 훈련 단계 (a long unsupervised pre-training phase)
    • - 짧은 지도 미세조정 단계 (a short supervised fine-tuning phase)
  • 초기 공개버전은 4개의 업무와 3개의 도메인에 대해 총 12개의 업무 (downstream task)들을 평가를 위해 구성함.

  • 대부분의 비지도 강화학습 알고리즘들은 knowledge-based, data-based, 그리고 competence-based로 분류됨.
  • Knowledge-based 방법들은 예측모델의 불확실성이나 예측 오류를 최대화함 (e.g. Curiosity, Disagreement, RND)
  • Data-based 방법들은 관측된 데이터의 다양성을 최대화함 (e.g. APT, ProtoRL)
  • competence-based 방법들은 'skill' 혹은 'task' 벡터라 불리는 latent vector와 상태 (state)간의 상호 정보 (mutual information)을 최대화함. (e.g. DIAYN, SMM, APS).
  • 이러한 알고리즘들은 다른 최적화 알고리즘 (Rainbow DQN, DDPG, PPO, SAC 등) 들과 함께 사용됨. 그래서, 비지도강화학습들은 서로 구분하기 어려웠음. 여기서 저자들은 최적화 알고리즘을 표준화하여 자기감독목표 (self-supervised objective)만 다른 상태로 만듬.


출처 : https://bair.berkeley.edu/blog/2021/12/15/unsupervised-rl/

728x90
반응형