SARSA

Lo stato–azione–ricompensa–stato–azione (SARSA) è un algoritmo di apprendimento di una funzione di policy per i processi decisionali di Markov, usato nelle aree dell'apprendimento per rinforzo e dell'apprendimento automatico. Fu proposto da Rummery e Niranjan^[1] col nome di "Modified Connectionist Q-Learning" (MCQ-L). L'acronimo alternativo e con cui oggi è più noto l'algoritmo, SARSA, fu proposto da Rich Sutton.

Questo acronimo, infatti, sta a indicare che la funzione principale di aggiornamento dei valori di Q dipende esclusivamente dallo stato attuale s_t, dall'azione a_t che l'agente sceglie, dalla ricompensa r_t, dallo stato s_t+1 in cui si entra dopo aver effettuato a_t e dall'azione a_t+1 che l'agente sceglie nel nuovo stato; formalmente, quindi, SARSA rappresenta la quintupla (s_t, a_t, r_t, s_t+1, a_t+1)^[2].

Algoritmo[modifica | modifica wikitesto]

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha [r_{t}+\gamma Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]

L'agente interagisce con l'ambiente e aggiorna la sua funzione di comportamento basandosi sulle azioni prese e per questo motivo viene considerato un algoritmo di apprendimento on-policy. Il valore della funzione Q per una coppia stato-azione (s_t,a_t) viene aggiornato calcolando una funzione di errore e tenendo conto del tasso di apprendimento alfa. I valori della funzione Q rappresentano il valore atteso della ricompensa all'iterazione successiva, eseguendo l'azione a_t sullo stato corrente s_t; questo valore viene sommato alla ricompensa futura, quella ottenuta eseguendo a_t+1 su s_t+1 ed è possibile pesare il contributo di questa ricompensa attraverso il fattore di sconto gamma.

Iperparametri[modifica | modifica wikitesto]

Tasso di apprendimento α[modifica | modifica wikitesto]

Cambiando il valore del tasso di apprendimento è possibile modificare il contributo dell'errore stimato a ogni iterazione: un fattore pari a 0 equivale a non apprendere nulla, mentre con un valore di alfa uguale a 1 si considera solo l'osservazione più recente.

Fattore di sconto γ[modifica | modifica wikitesto]

Il fattore di sconto determina l'importanza delle ricompense future. Un valore di gamma uguale a 0 rende l'agente "opportunista", in quanto considera solo la ricompensa attuale r; al contrario, un valore di gamma prossimo a 1 permette di cercare ricompense anche a lungo termine. Per valori maggiori di 1 i valori di Q possono divergere.

Note[modifica | modifica wikitesto]

^ G. A. Rummery e M. Niranjan, On-Line Q-Learning Using Connectionist Systems, 1994. URL consultato il 7 aprile 2019.
^ 6.4 Sarsa: On-Policy TD Control, su incompleteideas.net. URL consultato il 7 aprile 2019.

Portale Informatica

Portale Matematica

Portale Statistica

[1] G. A. Rummery e M. Niranjan, On-Line Q-Learning Using Connectionist Systems, 1994. URL consultato il 7 aprile 2019.

[2] 6.4 Sarsa: On-Policy TD Control, su incompleteideas.net. URL consultato il 7 aprile 2019.

[1]

[2]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Dbscan · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Probabilistic graphical model · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico

SARSA

Indice

Algoritmo[modifica | modifica wikitesto]

Iperparametri[modifica | modifica wikitesto]

Tasso di apprendimento α[modifica | modifica wikitesto]

Fattore di sconto γ[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Menu di navigazione

SARSA

Algoritmo[modifica | modifica wikitesto]

Iperparametri[modifica | modifica wikitesto]

Tasso di apprendimento α[modifica | modifica wikitesto]

Fattore di sconto γ[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Menu di navigazione

Ricerca