Rejection sampling

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

In analisi numerica e in statistica computazionale, rejection sampling è una tecnica di base utilizzata per generare osservazioni da una distribuzione . È anche comunemente chiamato il metodo di acceptant-rejection o "algoritmo di accept-rejection".

Rejection sampling si basa sul fatto che, per campionare una variabile casuale in una dimensione, si può eseguire un campionamento uniformemente casuale del grafico cartesiano bidimensionale e mantenere i campioni nella regione sotto il grafico della sua funzione di densità.[1][2][3] Si noti che questa proprietà può essere estesa a funzioni in N-dimensioni.

Descrizione[modifica | modifica wikitesto]

Per visualizzare la motivazione alla base del rejection sampling, immagina di rappresentare graficamente la funzione di densità di una variabile casuale su una grande tavola rettangolare e di lanciare delle freccette. Supponiamo che le freccette siano distribuite uniformemente attorno al tabellone. Ora rimuovi tutte le freccette che si trovano al di fuori dell'area sotto la curva. I dardi rimanenti saranno distribuiti uniformemente all'interno dell'area sotto la curva e le posizioni lungo l'asse x di queste frecce saranno distribuite in base alla densità della variabile casuale. Questo perché c'è più spazio per le freccette per atterrare dove la curva è più alta e quindi la densità di probabilità è maggiore.

L'esempio appena descritto è una particolare forma di rejection sampling in cui la proposal distribution è uniforme (quindi il suo grafico è un rettangolo). La forma generale di rejection sampling presuppone che la tavola dell'esempio precedente non sia necessariamente rettangolare ma sia modellata secondo una certa distribuzione dalla quale il campionamento risulta facile (ad esempio, utilizzando il campionamento di inversione) e che sia almeno almeno alta come il punto più alto della distribuzione dalla quale vogliamo campionare. Se ciò non è vero, ci potrebbero essere parti dell'area che vogliamo campionare che non potranno essere raggiunte. Rejection sampling funziona come segue:

  1. Campiona un punto sull'asse x dalla proposal distribution.
  2. Traccia una linea verticale in questa posizione x, fino alla curva della proposal distribution.
  3. Campiona uniformemente lungo questa linea da 0 al massimo della funzione di densità di probabilità. Se il valore campionato è maggiore del valore della distribuzione desiderata su questa linea verticale, tornare al punto 1.

Questo algoritmo può essere utilizzato per campionare dall'area sotto qualsiasi curva, indipendentemente dal fatto che l'integrale della funzione abbia valore 1. In effetti, il ridimensionamento di una funzione con una costante non ha alcun effetto sulle posizioni x campionate. Pertanto, l'algoritmo può essere utilizzato per campionare da una distribuzione la cui costante di normalizzazione è sconosciuta, che è comune nella statistica computazionale.

Come semplice esempio geometrico, supponiamo di voler generare un punto casuale all'interno del cerchio unitario. Il primo step è generare un punto candidato () dove e sono indipendenti e uniformemente distribuiti tra -1 e 1. Se allora il punto è all'interno del cerchio unitario ed è accettato, altrimenti è rifiutato e viene generato un nuovo candidato.

Un esempio più complicato utilizzato per generare in modo efficiente numeri pseudocasuali normalmente distribuiti è l'algoritmo ziggurat.

Algoritmo[modifica | modifica wikitesto]

L'algoritmo di rejection sampling genera valori di campionamento da una distribuzione target con funzione di densità di probabilità arbitraria utilizzando una proposal distribution con densità di probabilità .

L'algoritmo (usato da John von Neumann e risalente a Buffon e al suo ago) per ottenere un campione dalla distribuzione con densità utilizzando campioni dalla distribuzione con densità è il seguente:

  • Campiona dalla distribuzione e un campione a partire da (distribuzione uniforme sull'intervallo ).
  • Controlla se con sul supporto di :
    • se ciò vale, accetta come un campione tratto da ;
    • in caso contrario, rifiuta il valore di e torna allo step precedente (fase di campionamento).

Svantaggi[modifica | modifica wikitesto]

Il problema principale dell'algoritmo di rejection sampling è che può generare un numero molto elevato di campioni che poi vengono scartati, soprattutto nel caso in cui la funzione campionata è concentrata in una certa regione. Per molte distribuzioni, questo problema può essere risolto utilizzando una versione adattiva dell'algoritmo (vedi adaptive rejection sampling). In altre dimensioni, è necessario utilizzare approcci differenti, come per esempio metodi Markov Chain Monte Carlo, tra i quali Metropolis sampling o Gibbs sampling.

Note[modifica | modifica wikitesto]

  1. ^ George Casella, Christian P. Robert e Martin T. Wells, Generalized Accept-Reject sampling schemes, Institute of Mathematical Statistics, 2004, pp. 342–347, DOI:10.1214/lnms/1196285403, ISBN 9780940600614.
  2. ^ Radford M. Neal, Slice Sampling, in Annals of Statistics, vol. 31, n. 3, 2003, pp. 705–767, DOI:10.1214/aos/1056562461.
  3. ^ Christopher Bishop, 11.4: Slice sampling, in Pattern Recognition and Machine Learning, Springer, 2006, ISBN 978-0-387-31073-2.

Voci correlate[modifica | modifica wikitesto]