Post on 25-May-2020
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Apresentacao - MAE5898Laboratorio - Regressao Ridge e o Lasso
Pedro Faria
PPG em Bioinformatica - interunidades - USP
Disciplina: MAE5898 - Estatıstica para dados superdimensionadosDocente: Profa. Dra. Florencia Leonardi
Instituto de Matematica e EstatısticaUniversidade de Sao Paulo
9 de marco de 2016
Pedro Faria Regressao Ridge e o Lasso 1 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 2 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 3 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Algumas observacoes
Figura : Taxa de crime e 5 preditores para N = 50 cidades americanas.
Pedro Faria Regressao Ridge e o Lasso 4 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Descricao das variaveis
crime rate: taxa de crimes relatados por 1 milhao dehabitantes;
violent crime rate: taxa de crimes relatados por 100.000habitantes;
funding: financiamento anual da polıcia em $ / habitante;
hs: % de pessoas com 25 anos ou mais com 4 anos de ensinomedio;
not hs: % de pessoas de 16 a 19 anos que nao estao noensino medio e nao se formaram no ensino medio;
college: % de pessoas de 18 a 24 anos na faculdade;
college4: % de pessoas com 25 anos ou mais com pelomenos 4 anos de faculdade.
Pedro Faria Regressao Ridge e o Lasso 5 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 6 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Leitura dos dados
Pedro Faria Regressao Ridge e o Lasso 7 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Divisao dos dados
Pedro Faria Regressao Ridge e o Lasso 8 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 9 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Validacao cruzadak−fold cross validation
dividir A em k partes de tamanho (aproximadamente) iguais;fazer k rodadas de treinamento, usando k − 1 partes paratreinamento e uma para teste;quanto maior o k , melhores a estimativa de erro e a validadedas conclusoes no caso geral, mas maiores serao as exigenciascomputacionais:
compromisso “padrao”: usar k = 10 (treinamento com 90%dos dados).
Figura : Elementos do conjunto de treinamento (Si ) em azul, e os do
conjunto de teste (Ti ) em amarelo .
Pedro Faria Regressao Ridge e o Lasso 10 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 11 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Treinamento para varios valores de λCodigo
Pedro Faria Regressao Ridge e o Lasso 12 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Treinamento para varios valores de λComparacao
Pedro Faria Regressao Ridge e o Lasso 13 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Escolha de λ por 5-fold cross validation
Pedro Faria Regressao Ridge e o Lasso 14 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Escolha de λ por 5-fold cross validation
Pedro Faria Regressao Ridge e o Lasso 15 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Sumario
1 Conjunto de dados
2 Pre-processamento
3 Validacao cruzada
4 Regressao ridge
5 Lasso
Pedro Faria Regressao Ridge e o Lasso 16 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Treinamento para varios valores de λCodigo
Pedro Faria Regressao Ridge e o Lasso 17 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Treinamento para varios valores de λComparacao
Pedro Faria Regressao Ridge e o Lasso 18 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Escolha de λ por 5-fold cross validation
Pedro Faria Regressao Ridge e o Lasso 19 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Escolha de λ por 5-fold cross validation
Pedro Faria Regressao Ridge e o Lasso 20 / 21
Conjunto de dados Pre-processamento Validacao cruzada Regressao ridge Lasso
Referencias
Hastie, T.; Tibshirani, R; Wainwright, M.Statistical Learning with Sparsity: The Lasso andGeneralizations.May 7, 2015 by Chapman and Hall/CRC.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R.An Introduction to Statistical Learning - with Applications inR (secao 6.6 Lab 2: Ridge Regression and the Lasso).2013 by Springer Texts in Statistics
Pedro Faria Regressao Ridge e o Lasso 21 / 21