Discussione:Clustering

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Credo che il clustering gerarchico, in cui si procede per aggregazione successiva di oggetti, corrisponda al botton-up, mentre quello non gerarchico, in cui si procede per divisione dell'insieme iniziale, sia quello che corrisponde al top-down. Prego di verificare. Grazie. Non è così, perché nella maggior parte degli algoritmi non gerarchici si ha in input il numero delle classi finali e il procedimento non ridiscute mai questa scelta

Ciao, sto studiando all'università questa roba, e ti posso dire che quello gerarchico parte che ogni caso è un cluster e arriva a definire un unico cluster con tutte le osservazioni: è poi l'utente che può scegliere a posteriori il livello di dettaglio, e quindi il numero di cluster, secondo parametri da lui scelti. Quello non gerarchico invece fissa a priori il numero di cluster (esempio il k-means).Rufus83 (msg) 11:53, 2 nov 2009 (CET)=[rispondi]

Da levare[modifica wikitesto]

Anzi vorrei aggiungere che la parte dell'intro sulle due filosofie mi sembra fuorviante e ridondante: per la classificazione delle tecniche di clustering c'è già una parte con dei nomi più accurati nel paragrafo "tecniche di clustering". Propongo di cancellare la parte su "approccio top-down e bottom-up", che tra l'altro non è neanche una classificazione completa delle tecniche di clustering. Rufus83 (msg) 12:07, 2 nov 2009 (CET)[rispondi]

clustering basato sulla densità[modifica wikitesto]

L'introduzione all'argomento è quantomeno fuorviante. Non è vero che TUTTE le tecniche di clustering sono basate sulla distanza. Esiste un approccio più recente, di natura più esplicitamente inferenziale, basato sul concetto di densità. Due sono i principali filoni che si sviluppano:

1) approccio parametrico: i gruppi corrispondono alle componenti di una mistura di distribuzioni (spesso gaussiane). I parametri della mistura sono di solito stimati mediante l'algoritmo EM. Si vedano, ad esempio

Banfield, J.D., Raftery, A.E. Model-based Gaussian and non-Gaussian clustering. Biometrics 49:803–821 (1993)

Fraley, C., Raftery, A.E. Model-based clustering, discriminant analysis and density estimation. J. Am. Stat. Assoc. 97:611–631 (2002)

Fraley, C., Raftery, A.E. MCLUST version 3 for R: Normal mixture modeling and model-based clustering. Tech. Rep. 504, Univ. of Washington, Dep. of Stat. (2006)

2) approccio non parametrico: i gruppi corrispondono alle massime componenti connesse associate alle regioni di una funzione di densità, stimata con metodi non parametrici. Si vedano:

Azzalini A, Torelli N 2007. Clustering via nonparametric density estimation. Stat. Comput. 17.

Cuevas A, Febrero M, Fraiman A. 2000. Cluster analysis: a further approach based on density estimation, Comput. Stat. & Data Anal., 36.

Stuetzle W 2003. Estimating the cluster tree of a density by analyzing the minimal spanning tree of a sample. J. Classif. 20.

Si noti che questo approccio non deve essere confuso, con quello, omonimo, introdotto dalla comunità informatica che, pur facendo riferimento alla densità dei dati, si basa in ogni caso sul concetto di distanza.