Skip to content

Latest commit

 

History

History
19 lines (11 loc) · 473 Bytes

README.md

File metadata and controls

19 lines (11 loc) · 473 Bytes

Q-Learning - Exercício

Considere o ambiente 3 x 2 onde a posição 6 é o estado terminal

Assuma que as ações UP, DOWN, LEFT e RIGHT são determinísticas

Recompensas:

+10 no estado 6 -10 se bater na parede -1 nos outros casos

Aplicar o Q-learning sequencialmente usando as seguintes trajetórias:

Estado inicial 1, sequência U,U,U,R

Estado inicial 5: sequência R,R,L,U

Inicialize a matriz Q com zeros e assuma alpha = 0.5 e gamma = 0.8