|
Mutua da
|
8067158 STATISTICAL LEARNING AND HIGH DIMENSIONAL DATA in Matematica Pura e Applicata LM-40 DE CANDITIIS DANIELA
(programma)
INTRODUZIONE GENERALE: Problemi supervised e problemi unsupervised. Il workflow di un problema di analisi dati. Esempi vari tratti dal Cap 1. LA REGRESSIONE: Cosa è la regressione e perché usarla. La definizione di Loss function e di Risk function. Analisi delle Loss function più comuni: L1, L2, quantile, Vapkin’s e Huber. Definizione di Bias e Varianza, discussione e primi esempi di compromesso tra Bias e Varianza (il metodo dei vicini più vicini e il metodo lineare). La maledizione della dimensionalità. (Cap 2) LA REGRESSIONE LINEARE MULTIPLA: Interpretazione algebrica ed interpretazione geometrica della soluzione ai minimi quadrati. Sotto l’ipotesi di rumore bianco dimostrazione delle proprietà distribuzionali dello stimatore ai minimi. (Par 3.2) Utilizzo delle proprietà distribuzionali dello stimatore ai minimi quadrati per la costruzione di test di ipotesi e di intervalli di confidenza e di predizione. Il teorema di Gauss-Markov (Par. 3.2.2) Dalla regressione semplice alla regressione multipla, interpretazione dei coefficienti (Par. 3.2.3) Implementazione dell’algoritmo 3.1 di pag 54. TECNICHE PER IL TRATTAMENTO DI DATI AD ALTA DIMENSIONE: Discussione delle problematiche in caso di collinearità e/o nel caso pn. Discussione generale sulle possibili tecniche da adottare nel caso di dati ad alta dimensione, specializzazione di queste tecniche al caso del modello lineare con funzione perdita L2. Discussione generale sulle possibili tecniche per fare selezione del modello, studio della Cross Validation. (Par 7.1-7.2-7.10) Accenno ai seguenti criteri di selezione del modello: C_p (Mallow’s), AIC (Akaike Information Criterion), BIC (Bayeisan Informaion Criteiron), MDL (Minimum Description Lenght). Il metodo della Best Subset Selection, vantaggi e svantaggi. Su un data set sintetico verifica della sua forte variabilità. Il metodo della Forward Stepwise Selection, vantaggi e svantaggi. Confronto con la Best Subset Selection su un data set sintetico, il comando stepwiselm di matlab. Il metodo della Forward Stagewise Regression, vantaggi e svantaggi.La tecnica della PCA (Principal Component Analysis) per la riduzione della dimensionalità di un set di dati qualsiasi. Il metodo della PC regression, vantaggi e svantaggi. I Partial Least Square, e loro confronto con la PC regression. La tecnica della supervised PC regression. La Ridge regression come metodo di penalizzazione e dal punto di vista geometrico. Il concetto generale di degree of fredom per un metodo di supervised learning. Il calcolo del df nel caso della ridge regression. Equivalenza tra la scelta del parametro di penalizzazione della Ridge e la regolarizzazione iterativa ad arresto precoce. La penalizzazione LASSO. Giustificazione numerica e geometrica della scelta della norma l_1 per avere soluzioni sparse. Soluzione esplicita del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design ortonormale. Algoritmo Pathwise coordinate optimization per la soluzione del problema di regressione lineare con penalizzazione LASSO nel caso di matrice design generale. Nota sulla normalizzazione delle colonne della matrice design e commenti sulla routine di matlab ‘lasso.m’. Interpretazione bayesiana della penalty lasso. La scelta del parametro di regolarizzazione e possibile stima dl degree of fredom per il problema di regressione lineare con penalty lasso. Proprietà teoriche dello stimatore lasso nel caso di modello lineare. Dimostrazione della slow e della fast convergence rate del prediction error. Analisi della subroutine lasso di matlab esempio di applicazione del metodo al dataset prostate cancer data e ricostruzione completa della tavola 3.3 del libro di testo. Possibili miglioramenti del metodo Lasso: elastic net, relaxed lasso, adaptive lasso. Le penalty SCAD e MCP. Commenti ed esempio sintetico per un confronto tra le possibili penalty diverse. Come utilizzare il modello lineare per lavorare con modelli non lineari sia parametrici che non parametrici. La regressione polinomiale a tratti: le regression splines e le smoothing splines.
 “1) The Elements of Statistical Learning” T. Hastie, R. Tibshirani & J. Friedman. Springer Series in Statistics (second edition) “2) Foundations of linear and generalized linear models” A. Agresti . John Wiley & Sons Inc (2015)
|