PARCIALMENTEOBSERVABLES
DECIISONESSECUENCIALES
REINFORCEMENTLEARNING
PROGRAMACIONDINAMICA
ITERACIONPOLITICAS
DECISIONESMARKOV
ITERACIONVALOR
RECOMPENSA
QLEARNING
UTILIDAD
AMBIENTE
CASTIGO
AGENTE
ACCION
W
K
D
E
C
I
S
I
O
N
E
S
M
A
R
K
O
V
S
R
D
A
A
U
E
E
V
O
T
C
U
I
K
A
R
J
W
A
E
N
P
V
M
Z
X
E
I
W
P
X
X
G
W
J
S
L
U
L
Z
G
Y
O
I
P
E
W
A
U
S
G
C
I
U
Z
U
N
I
M
O
I
M
U
V
S
E
W
I
U
C
O
Q
J
A
E
R
I
A
P
A
I
E
W
A
R
N
O
Q
V
U
K
A
T
U
L
U
B
D
Q
L
O
I
B
I
C
E
T
E
X
Y
U
U
H
I
C
I
F
E
U
D
C
R
G
U
B
L
S
Q
R
I
Z
N
T
U
E
B
U
N
E
A
B
G
R
P
I
G
S
A
A
A
A
O
D
E
M
E
E
U
O
Y
D
C
W
L
A
Q
E
A
U
R
E
X
E
S
V
V
N
O
C
A
Z
G
S
T
E
O
E
D
Z
U
I
A
C
H
Q
E
A
C
Y
R
N
E
P
O
N
T
A
I
A
Z
O
U
E
P
A
U
A
I
B
J
Z
S
K
X
E
O
S
I
M
I
Y
K
O
A
A
O
X
B
E
O
O
M
O
C
D
I
O
U
E
S
I
S
E
P
D
D
O
A
D
O
I
N
E
G
V
H
B
N
O
D
G
E
S
E
B
C
E
U
E
N
X
Q
A
E
C
D
Y
E
Y
A
X
I
P
O
F
Q
A
S
I
O
A
C
D
N
O
A
B
A
O
I
W
O
O
T
Q
K
E
O
C
U
P
N
R
A
E
R
U
U
S
I
U
H
E
O
E
Q
V
D
O
I
I
N
L
S
V
N
C
A
X
T
E
E
A
A
C
O
Q
L
E
A
R
N
I
N
G
E
T
I
Y
S
X
X
P
W
N
T
N
E
N
A
N
A
S
Q
C
F
N
O
J
S
I
E
T
U
G
O
Z
A
T
E
I
C
A
T
M
C
C
Z
O
Q
E
U
A
Q
G
N
K
I
E
Q
Q
U
R
F
M
P
I
M
Y
A
D
C
U
G
L
S
T
R
U
O
W
E
C
C
A
W
Z
R
E
L
I
A
S
U
R
A
I
I
P
O
R
U
T
E
Z
H
M
A
M
I
X
I
Y
A
A
F
L
A
J
G
D
O
V
A
E
F
R
I
O
B
N
Y
S
J
S
R
X
G
U
I
W
E
D
U
O
I
N
J
S
U
F
U
I
A
U
A
Y
A
O
B
H
I
A
H
C
Y
S
R
N
R
L
V
J
R
E
I
N
F
O
R
C
E
M
E
N
T
L
E
A
R
N
I
N
G
P
I
H
I
Z
F
O
X
G
A
T
U
U
L
U
K
Q
A
U
I
A
U
O
F
S
U
T
C
A
S
T
I
G
O
R
V
U
O
M
A
O
U
L
Y
K
P
O
I
N
E
H
U