PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE … · PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE...
-
Upload
truonghanh -
Category
Documents
-
view
229 -
download
0
Transcript of PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE … · PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE...
PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE
AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN
KOEFISIEN REGRESI
ARUM PUSPORINI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
RINGKASAN
ARUM PUSPORINI. Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection
Operator (LASSO) dalam Penyusutan Koefisien Regresi. Dibimbing oleh AUNUDDIN dan LA
ODE ABDUL RAHMAN.
Multikolinearitas merupakan salah satu pelanggaran asumsi dalam analisis regresi linier
berganda yang dapat terjadi ketika terdapat korelasi yang tinggi antar peubah bebas.
Multikolinearitas menyebabkan penduga dengan metode kuadrat terkecil (MKT) menjadi tidak
stabil dan menghasilkan ragam yang besar. Salah satu cara untuk mengatasi masalah
multikolinearitas tersebut adalah dengan menggunakan regresi gulud (ridge regression). Regresi
gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ yang tepat. Regresi
gulud menyusutkan koefisien MKT ke arah nol tetapi tidak dapat melakukan seleksi model.
Meskipun model yang diperoleh dari regresi gulud berbias, tetapi keragaman koefisien regresi
yang dihasilkan relatif kecil. Akan tetapi, regresi gulud semakin sulit diinterpretasikan jika jumlah
peubah bebas yang digunakan sangat banyak. Least Absolute Shrinkage and Selection Operator
(LASSO) merupakan metode komputasi dengan menggunakan pemrograman kuadratik yang dapat
memerankan prinsip regresi gulud serta melakukan seleksi model. Metode LASSO mulai dikenal
setelah ditemukannya algoritma LAR pada tahun 2004. Modifikasi dari LAR untuk LASSO
menghasilkan algoritma yang lebih efisien dalam menduga solusi penduga koefisien LASSO
dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik. Metode LASSO dapat
menyusutkan koefisien MKT tepat nol sehingga dapat melakukan seleksi peubah. Dengan
demikian, model yang dihasilkan metode LASSO lebih sederhana dan secara tidak langsung bebas
dari multikolinearitas.
Kata kunci : multikolinearitas, MKT, regresi gulud, LASSO, algoritma LAR
PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE
AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN
KOEFISIEN REGRESI
ARUM PUSPORINI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2012
Judul : Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator
(LASSO) dalam Penyusutan Koefisien Regresi
Nama : Arum Pusporini
NRP : G14080086
Menyetujui :
Pembimbing I,
Prof. Dr. Ir. Aunuddin, M.Sc
NIP : 194706151971061001
Pembimbing II,
La Ode Abdul Rahman, S.Si, M.Si
Mengetahui :
Ketua Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam IPB
Dr. Ir. Hari Wijayanto, M.Si
NIP : 196504211990021001
Tanggal Lulus :
PRAKATA
Puji syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya
sehingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penerapan Regresi Gulud dan
Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi”.
Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana
Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut
Pertanian Bogor.
Terimakasih penulis ucapkan kepada semua pihak yang telah membantu dalam penulisan
karya ilmiah ini, di antaranya:
1. Bapak Prof. Dr. Ir. Aunuddin, M.Sc dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku
dosen pembimbing yang telah memberikan bimbingan, masukan serta saran selama penulisan
karya ilmiah ini.
2. Ibu Dr.Ir. Erfiani, M.Si selaku dosen penguji yang telah memberikan banyak masukan dan
saran pada penulis.
3. Kedua orang tua dan Anggun Dwi Puspo Supomo atas doa, kasih sayang, serta dukungan
kepada penulis.
4. Ibu Tri, Ibu Markonah, Pak Herman, Pak Heri, serta seluruh staf karyawan Departemen
Statistika atas segala bantuannya.
5. Rekan satu bimbingan, Hana Maretha dan Gusti Andika Puri atas diskusi, dukungan, dan
kekompakannya selama penyusunan karya ilmiah ini.
6. Ika Meilaty, Yulia Anggraeni, Endah Kurniasari, dan Opilianda atas doa dan dukungannya
kepada penulis.
7. Yogi Prakoso atas doa, diskusi, dan dukungannya kepada penulis.
8. Seluruh keluarga Statistika 45 dan semua pihak yang tidak dapat dituliskan satu per satu, atas
bantuannya penulis ucapkan terima kasih.
Penulis menyadari bahwa penulisan karya ilmiah ini masih jauh dari sempurna. Oleh karena
itu, kritik dan saran yang membangun sangat penulis harapkan untuk bisa lebih baik di masa
mendatang. Semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan.
Bogor, Oktober 2012
Arum Pusporini
RIWAYAT HIDUP
Penulis dilahirkan di Purworejo pada tanggal 3 Mei 1990 dari pasangan Bapak Supomo dan
Ibu Eko Murti Nurhayati. Penulis merupakan anak pertama dari dua bersaudara.
Tahun 2002 penulis lulus dari SD Negeri Rejosari, kemudian melanjutkan pendidikan di
SMP Negeri 3 Purworejo dan lulus tahun 2005. Selanjutnya, pada tahun 2008 penulis
menyelesaikan pendidikannya di SMA Negeri 1 Purworejo dan pada tahun yang sama lulus seleksi
masuk Institut Pertanian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri
(SNMPTN). Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan
Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor dengan mayor Statistika serta minor
Ekonomi dan Studi Pembangunan.
Selama mengikuti perkuliahan, penulis menjadi asisten dosen mata kuliah Metode Statistika
pada tahun ajaran 2010/2011. Kegiatan organisasi yang sempat diikuti adalah himpunan profesi
Gamma Sigma Beta (GSB) tahun 2011 menjadi staf divisi Sains dan Organisasi Mahasiswa
Daerah (OMDA) Purworejo, GAMAPURI. Selain itu, penulis juga aktif dalam kegiatan
kepanitiaan seperti IDEA 2010, Statistika Ria 2010, Welcome Ceremony of Statistics (WCS)
2011, Lomba Jajak Pendapat Statistika (LJPS) 2011, serta Pesta Sains Nasional 2011. Pada bulan
Februari 2012 sampai dengan April 2012, penulis melaksanakan kegiatan praktik lapang di IFF-PT
Essence Indonesia, Jakarta Timur.
DAFTAR ISI
Halaman
DAFTAR GAMBAR ............................................................................................................... viii
DAFTAR TABEL .................................................................................................................... viii
DAFTAR LAMPIRAN ............................................................................................................ viii
PENDAHULUAN.................................................................................................................... 1
Latar Belakang ................................................................................................................. 1
Tujuan .............................................................................................................................. 1
TINJAUAN PUSTAKA ........................................................................................................... 1
Analisis Regresi Linier .................................................................................................... 1
Metode Kuadrat Terkecil ................................................................................................. 1
Multikolinearitas .............................................................................................................. 2
Regresi Gulud .................................................................................................................. 2
LASSO ............................................................................................................................ 3
Algoritma LAR ................................................................................................................ 3
Validasi Silang ................................................................................................................. 4
DATA DAN METODE ........................................................................................................... 4
Data .................................................................................................................................. 4
Metode ............................................................................................................................. 4
HASIL DAN PEMBAHASAN ................................................................................................ 5
Eksplorasi Data ............................................................................................................... 5
Regresi Linier Berganda dengan Metode Kuadrat Terkecil ............................................ 5
Mendeteksi Multikolinearitas .......................................................................................... 6
Regresi Gulud .................................................................................................................. 6
LASSO ............................................................................................................................ 7
Pemilihan Model Terbaik LASSO ................................................................................... 8
Perbandingan Model Hasil MKT, Gulud, dan LASSO.................................................... 8
SIMPULAN DAN SARAN ..................................................................................................... 9
Simpulan .......................................................................................................................... 9
Saran ................................................................................................................................ 9
DAFTAR PUSTAKA .............................................................................................................. 9
LAMPIRAN ............................................................................................................................. 11
DAFTAR GAMBAR
Halaman
1 Ridge Trace .......................................................................................................................... 6
2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien
LASSO ............................................................................................................................... 7
3 Nilai validasi silang dengan menggunakan mode fraction ................................................... 8
4 Nilai validasi silang dengan menggunakan mode step ......................................................... 8
DAFTAR TABEL
Halaman
1 Analisis ragam hasil MKT .................................................................................................. 5
2 Koefisien regresi hasil MKT ................................................................................................ 5
3 Nilai VIF untuk setiap peubah bebas .................................................................................. 6
4 Koefisien regresi hasil MKT dan regresi gulud.................................................................... 6
5 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud ........................... 7
6 Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO .......... 8
7 Koefisien regresi hasil MKT, gulud, dan LASSO ................................................................ 9
DAFTAR LAMPIRAN
Halaman
1 Plot masing-masing peubah bebas (X) dan peubah respon (Y) ............................................ 12
2 Nilai korelasi antar peubah ................................................................................................... 13
3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan ............................... 14
4 Nilai ∑�β� ��/max ∑�β� �� untuk setiap tahapan LASSO ........................................................... 15
1
PENDAHULUAN
Latar Belakang
Salah satu masalah yang sering muncul
dalam regresi linier berganda adalah adanya
korelasi antar peubah bebas
(multikolinearitas). Multikolinearitas dapat
mempengaruhi ragam dari penduga kuadrat
terkecil dan pendugaan model yang dihasilkan.
Adanya multikolinearitas menyebabkan
matriks (XTX) menjadi singular atau hampir
singular, sehingga sedikit perubahan elemen X
akan berpengaruh besar terhadap matriks
(XTX)
-1 pada pendugaan dengan menggunakan
Metode Kuadrat Terkecil (MKT). Akibatnya,
penduga koefisien MKT menjadi tidak stabil
dan memiliki ragam yang cenderung lebih
besar (Izenman 2008).
Pada kenyataannya, yang diharapkan
pada sebuah penelitian adalah model yang
memiliki ragam minimum, meskipun berbias.
Dengan demikian, salah satu cara untuk
mengatasi multikolinearitas dapat dengan
menggunakan penduga berbias, seperti regresi
komponen utama, regresi kuadrat terkecil
parsial, atau regresi gulud. Pada penelitian ini,
multikolinearitas diatasi dengan menggunakan
regresi gulud.
Regresi gulud (ridge regression)
merupakan shrinkage methods atau metode
penyusutan koefisien regresi yang dapat
digunakan untuk mengatasi masalah
multikolinearitas. Meskipun model yang
diperoleh dari regresi gulud berbias, tetapi
penduga koefisien yang dihasilkan cenderung
lebih stabil dibandingkan MKT (Chatterjee &
Hadi 2006).
Seleksi peubah bebas diperlukan agar
model lebih sederhana dan mudah
diinterpretasikan. Akan tetapi, regresi gulud
tidak dapat melakukan seleksi peubah bebas
untuk memperoleh model yang terbaik. Pada
tahun 1996, Tibshirani memperkenalkan
metode Least Absolute Shrinkage and
Selection Operator (LASSO) yang dapat
memerankan prinsip regresi gulud serta
melakukan seleksi model regresi.
Tujuan
Penelitian ini bertujuan untuk
menerapkan regresi gulud dan LASSO dalam
penyusutan koefisien regresi pada data dengan
multikolinearitas.
TINJAUAN PUSTAKA
Analisis Regresi Linier
Analisis regresi merupakan suatu teknik
statistika untuk memeriksa dan memodelkan
hubungan antar peubah (Montgomery & Peck
1992). Regresi merupakan tempat kedudukan
nilai tengah dari peubah Y untuk berbagai
nilai atau selang nilai peubah X, serta
merupakan usaha untuk mengepas suatu
fungsi atau kurva terhadap pencaran titik-titik
pada sumbu X-Y (Mosteller & Tukey dalam
Aunuddin 2005). Dalam hal ini, Y adalah
peubah tak bebas/respon, sedangkan X adalah
peubah bebas/penjelas.
Regresi linier sederhana hanya
melibatkan satu peubah bebas, sedangkan
regresi linier berganda melibatkan p peubah
bebas. Regresi linier sederhana memiliki
beberapa asumsi, yaitu nilai harapan/rataan
sisaan sama dengan nol, ragam sisaan
homogen, sisaan saling bebas, sisaan
menyebar normal dengan rataan nol dan ragam
σ2, serta sisaan bebas terhadap peubah bebas.
Pada regresi linier berganda terdapat asumsi
tambahan bahwa tidak ada multikolinearitas
pada peubah bebas.
Model linier artinya linier dalam
parameter (Draper & Smith 1992). Jika
terdapat vektor input xT = (x1, x2,…,xp) dan
digunakan untuk menduga luaran nilai Y yang
berupa bilangan riil, maka model regresi linier
memiliki bentuk sebagai berikut,
y� = β + ∑ X��β����� + ε�
Keterangan:
yi : vektor peubah respon berukuran nx1
β0 : intersep
Xij : matriks peubah bebas berukuran nx(p+1)
βj : slope atau kemiringan
εi : vektor sisaan acak berukuran nx1
Metode Kuadrat Terkecil Metode kuadrat terkecil (Ordinary Least
Square) merupakan metode yang digunakan
untuk menduga koefisien regresi linier dengan
cara meminimumkan jumlah kuadrat sisaan
(Hastie et al. 2008), yaitu dengan
meminimumkan persamaan:
JKS = ∑ �y� − f�x�����
���
= ∑ �y� − β − ∑ x��β�����
�����
Penduga !" dengan MKT akan menghasilkan
penduga yang tak bias serta solusi unik
sebagai berikut,
2
!"= (XTX)
-1 X
Ty
Pendugaan koefisien regresi dengan
MKT memiliki kuadrat tengah sisaan terkecil
di antara semua penduga linier yang tak bias.
Namun, pada kondisi tertentu (misalnya
multikolinieritas dan peubah sangat banyak),
metode kuadrat terkecil sering tidak
memuaskan. Hal tersebut disebabkan karena
adanya masalah keakuratan prediksi yang
mengakibatkan penduga kuadrat terkecil
memiliki bias rendah tetapi ragam besar.
Selain itu, semakin banyak peubah bebas
maka model semakin sulit diinterpretasikan
(Tibshirani 1996).
Multikolinearitas
Multikolinearitas terjadi ketika terdapat
korelasi antara dua atau lebih peubah bebas
dalam regresi. Adanya multikolinearitas
mengakibatkan penduga koefisien regresi yang
diperoleh dari MKT akan menghasilkan ragam
yang besar, meskipun tetap tidak bias (Pasha
& Shah 2004). Selain itu, multikolinearitas
juga dapat menyebabkan tanda koefisien
regresi berbeda dengan tanda korelasi
sederhananya ( Juanda 2009).
Multikolinearitas dapat terlihat dari nilai
korelasi Pearson antar peubah bebas. Jika
korelasi antar peubah bebas sangat tinggi,
maka dapat mengindikasikan adanya masalah
multikolinearitas. Selain itu, nilai Variance
Inflation Factor (VIF) juga dapat digunakan
untuk mendeteksi adanya multikolinearitas.
Nilai VIF dirumuskan sebagai berikut,
VIF� = �1 − R���(�
R�� merupakan koefisien determinasi dari
regresi dengan X� sebagai peubah respon dan
peubah X yang lain sebagai peubah bebas. Jika
X� tidak berkorelasi dengan peubah bebas lain,
maka R�� akan bernilai kecil dan nilai VIF
mendekati 1. Sebaliknya jika X� mempunyai
korelasi dengan peubah bebas lain, maka R��
akan mendekati 1 dan nilai VIF menjadi besar.
Jika nilai VIF lebih besar dari 10, maka
menunjukkan adanya multikolinearitas
(Montgomery & Peck 1992).
Terdapat beberapa cara untuk mengatasi
masalah multikolinearitas, di antaranya adalah
membuang peubah bebas yang mempunyai
korelasi yang tinggi terhadap peubah bebas
lainnya, menambah data pengamatan, dan
melakukan transformasi terhadap peubah-
peubah bebas yang mempunyai kolinearitas
(Juanda 2009). Selain itu, multikolinearitas
juga dapat diatasi dengan menggunakan
regresi gulud, regresi kuadrat terkecil parsial,
dan regresi komponen utama (Izenman 2008).
Regresi Gulud
Regresi gulud diperkenalkan pertama kali
oleh Hoerl pada tahun 1962 untuk
mengendalikan ketidakstabilan penduga
kuadrat terkecil (Hoerl & Kennard 1970).
Regresi gulud merupakan metode pendugaan
alternatif yang dapat digunakan ketika terdapat
kolinearitas yang tinggi antar peubah bebas
(Chatterjee & Hadi 2006).
Solusi regresi gulud diperoleh dengan
cara yang sama seperti metode kuadrat
terkecil, yaitu dengan meminimumkan jumlah
kuadrat sisaan. Regresi gulud menambahkan
kendala pada kuadrat terkecil sehingga
koefisien menyusut mendekati nol (Hastie et
al. 2008). Secara spesifik, penduga koefisien
pada regresi gulud (β�)*+*,� diperoleh dengan
cara meminimumkan persamaan sebagai
berikut,
β�)*+*, = ∑ �y� − β − ∑ x��β�����
�����
dengan kendala ∑ β�� ≤ t�
��� ,
dimana t merupakan suatu besaran yang
mengontrol besarnya penyusutan dengan nilai
t ≥ 0.
Regresi gulud menghasilkan solusi unik
dalam bentuk matriks sebagai berikut,
/"01213 = �454 + 67�(8459
Keterangan:
I : matriks identitas berukuran pxp
λ : parameter gulud dengan nilai λ ≥ 0
Nilai λ berperan dalam mengontrol
besarnya penyusutan. Salah satu cara untuk
mencari nilai λ yang optimal adalah dengan
menggunakan ridge trace, yaitu simulasi plot
antara komponen β(λ) dengan nilai λ (Hoerl &
Kennard 1970). Jika λ=0, maka model menjadi
bentuk standar. Jika λ dinaikkan, maka nilai
mutlak dugaan koefisiennya menjadi semakin
kecil menuju nol untuk λ menuju tak hingga
(Draper & Smith 1992).
Selain itu, pemilihan nilai λ yang optimal
juga dapat diperoleh dengan menggunakan
validasi silang terampat atau Generalized
Cross Validation (GCV). Penduga koefisien
yang optimal diperoleh dari pemilihan nilai λ
yang menghasilkan nilai GCV paling
3
minimum (Montgomery & Peck 1992). Nilai
GCV dirumuskan sebagai berikut,
GCV = ∑ e�,>�?���
@n − B1 + tr�D>�EF�
Keterangan:
ei, λ : sisaan ke-i untuk nilai spesifik λ
H : matriks hat
Penduga yang dihasilkan oleh regresi
gulud merupakan penduga yang berbias tetapi
cenderung lebih stabil dibandingkan dengan
penduga MKT (Chatterjee & Hadi 2006).
Akan tetapi, interpretasi model pada regresi
gulud relatif lebih sulit dibandingkan metode
seleksi jika jumlah peubah bebas yang
digunakan sangat banyak.
Regresi gulud menghasilkan penduga
koefisien yang disusutkan kearah nol seiring
dengan peningkatan nilai λ. Oleh karena itu,
seleksi peubah tidak dapat dilakukan oleh
regresi gulud karena secara simultan koefisien
yang diduga mungkin tidak bernilai nol.
Metode LASSO muncul untuk memerankan
prinsip regresi gulud sekaligus seleksi peubah.
LASSO Metode Least Absolute Shrinkage and
Selection Operator (LASSO) diperkenalkan
pertama kali oleh Tibshirani pada tahun 1996.
Penduga koefisien LASSO tidak dapat
diperoleh dalam bentuk tertutup seperti pada
MKT atau regresi gulud, tetapi dengan
menggunakan pemrograman kuadratik (Hastie
et al. 2008). Metode LASSO mulai dikenal
setelah ditemukannya algoritma LAR pada
tahun 2004 oleh Effron. Penduga koefisien
pada metode LASSO (β�GHIIJ� diperoleh
dengan cara meminimumkan persamaan
sebagai berikut (Tibshirani 1996),
β�GHIIJ = ∑ �y� − β − ∑ x��β�����
�����
dengan kendala ∑ �β�� ≤ t���� .
Nilai t merupakan suatu besaran yang
mengontrol besarnya penyusutan pada
pendugaan koefisien LASSO dengan t ≥ 0.
Jika β�K merupakan penduga kuadrat terkecil
dan t = ∑ �β� ���� , maka nilai t < t0 akan
menyebabkan solusi MKT menyusut ke arah
nol, dan memungkinkan beberapa koefisien
tepat nol. Jika nilai t yang dipilih lebih besar
atau sama dengan daripada t0, maka penduga
LASSO memberikan hasil yang sama dengan
penduga kuadrat terkecil (Tibshirani 1996).
Pendugaan koefisien LASSO diperoleh
dengan menentukan batas yang dibakukan,
yaitu L = M/∑�NOK � dengan M = ∑�NOK� dan NOK
adalah penduga kuadrat terkecil untuk model
penuh atau pada gambar ditulis sebagai
|beta|/max |beta| (Dewi 2010).
Perbedaan antara regresi gulud dan
LASSO terletak pada kendala pendugaan
koefisien regresi. Kendala pada regresi gulud
adalah ∑ β�� ≤ t�
��� sedangkan kendala pada
metode LASSO adalah ∑ �β�� ≤ t���� .
Perbedaan kendala antara kedua metode
tersebut menyebabkan dugaan koefisien yang
diperoleh metode LASSO cenderung lebih
kecil dibandingkan dugaan koefisien dengan
regresi gulud. Koefisien regresi gulud hanya
disusutkan ke arah nol, sedangkan koefisien
LASSO dapat disusutkan sampai tepat nol
sehingga dapat berfungsi sebagai seleksi
peubah seperti regresi bertatar atau regresi
subset terbaik.
Algoritma LAR Least Angle Regression (LAR)
merupakan suatu metode regresi yang
algoritmanya dapat dimodifikasi menjadi
algoritma komputasi untuk metode LASSO.
Modifikasi dari LAR untuk LASSO
menghasilkan efisiensi algoritma dalam
menduga koefisien LASSO dengan komputasi
yang lebih cepat dibandingkan pemrograman
kuadratik.
Algoritma LAR adalah sebagai berikut
(Hastie et al. 2008):
1. Membakukan peubah bebas sehingga
memiliki nilai tengah nol dan ragam satu.
Dimulai dengan sisaan r = y-yP, dan β1,
β2,…, βp = 0. Pembakuan ini dimaksudkan
agar dapat membandingkan dugaan
koefisien regresi yang memiliki ragam
yang berbeda dalam suatu model.
2. Mencari peubah bebas xj yang paling
berkorelasi dengan r.
3. Mengubah nilai βj dari 0 bergerak menuju
koefisien kuadrat terkecil (xj,r), sampai
kompetitor xk yang lain memiliki korelasi
yang cukup dengan sisaan akibat xj.
4. Mengubah nilai βj dan βk bergerak ke arah
koefisien kuadrat terkecil bersama dari
sisaan sekarang dengan (xj,xk), sampai
kompetitor xl yang lain memiliki korelasi
yang cukup dengan sisaan akibat (xj,xk).
Modifikasi algoritma LAR untuk
mendapatkan solusi LASSO adalah dengan
memodifikasi langkah ke-4 menjadi:
4
4a. Jika koefisien bukan nol mencapai nilai
nol, keluarkan peubah tersebut dari gugus
peubah aktif dan hitung kembali arah
kuadrat terkecil bersama.
5. Mengulang langkah nomor 4 sampai
semua p peubah bebas dimasukkan.
Setelah min(N-1,p) langkah, solusi model
penuh untuk kuadrat terkecil diperoleh.
LAR selalu mengambil p langkah untuk
mendapatkan penduga kuadrat terkecil secara
penuh, sedangkan modifikasi LAR untuk
LASSO dapat memiliki lebih dari p langkah
untuk mendapatkannya. Algoritma LASSO
dengan memodifikasi LAR merupakan cara
yang efisien dalam komputasi solusi masalah
LASSO, terutama ketika jumlah peubah bebas
yang digunakan jauh lebih banyak daripada
data amatannya (Hastie et al. 2008).
Validasi Silang
Terdapat beberapa metode pemilihan
model terbaik, antara lain nilai Cp Mallows.
validasi silang atau Cross Validation (CV),
dan validasi silang terampat atau Generalized
Cross Validation (GCV). Validasi silang
membagi data menjadi dua bagian, yaitu data
training dan data test. Data training digunakan
untuk mengepas nilai β� , sedangkan data test
digunakan untuk menguji kebaikan prediksi
dari Xβ� . Nilai validasi silang yang diperoleh
merupakan penduga bagi sisaan prediksi
(Izenman 2008).
Salah satu metode tipe validasi silang
adalah k-fold. Metode ini memiliki kelebihan
ketika jumlah data amatan yang digunakan
sedikit. Dalam validasi silang k-fold, semua
observasi dipartisi secara acak ke dalam k sub-
contoh. Setiap sub-contoh digunakan sebagai
data test dan sisanya digunakan sebagai data
training. Proses validasi silang diulang sampai
k kali, dan setiap satu sub-contoh digunakan
hanya sekali dalam data test.
Nilai sisaan prediksi �PES� diduga oleh
validasi silang dengan menggunakan
persamaan sebagai berikut,
PES = CV = �T∑ ∑ �y� − yU(V�x���
��WX,YX�∈[
TV��
dengan yU(V�x�� adalah dugaan y untuk xi pada
saat fold ke-k tidak digunakan dalam menduga
model, dan yi adalah peubah respon ke-i pada
data test T. Menurut Izenman (2008), validasi
silang yang sebaiknya digunakan adalah
validasi silang 5-fold atau 10-fold karena
menghasilkan nilai PES dengan bias tinggi
tetapi ragam rendah.
DATA DAN METODE
Data
Respon yang digunakan dalam penelitian
ini adalah persentase balita penderita gizi
buruk di Indonesia. Terdapat lima belas
peubah bebas yang diduga berpengaruh
terhadap respon, yaitu sebagai berikut:
X1 : Persentase tingkat kemiskinan
X2 : Persentase angka melek huruf
X3 : Persentase anak umur 12-23 bulan yang
mendapatkan imunisasi dasar lengkap
X4 : Persentase Frekuensi Penimbangan
anak umur 6-59 bulan ≥ 4 kali selama
enam bulan terakhir
X5 : Persentase kepemilikan KMS anak
balita
X6 : Persentase anak umur 6-59 bulan yang
menerima kapsul vitamin A selama
enam bulan terakhir
X7 : Persentase anak balita yang ditimbang
ketika baru lahir
X8 : Persentase berat badan bayi baru lahir
anak balita (< 2500 gr)
X9 : Persentase kunjungan neonatus lengkap
(KN1, KN2, KN3)
X10 : Persentase bayi yang diberi makanan
prelakteal
X11 : Persentase anak usia 0-23 bulan yang
masih disusui
X12 : Persentase rumah tangga menurut akses
terhadap air minum ‘berkualitas’ baik
X13 : Persentase rumah tangga menurut akses
terhadap pembuangan tinja layak Sesuai
MDGs
X14 : Persentase rumah tangga dengan
penanganan sampah baik
X15 : Persentase rumah tangga dengan
kriteria rumah sehat
Data yang digunakan dalam penelitian ini
merupakan data sekunder yang diperoleh dari
Badan Pusat Statistik dan Laporan Hasil Riset
Kesehatan Dasar (Riskesdas) tahun 2010.
Riset tersebut dilakukan oleh Badan Penelitian
dan Pengembangan Kesehatan (Balitbangkes)
Kementerian Kesehatan RI yang dilaksanakan
di 33 provinsi di Indonesia. Data peubah X1
dan X2 diperoleh dari BPS, sedangkan data
peubah lain diperoleh dari Riskesdas.
Metode
Tahapan yang dilakukan dalam penelitian
ini adalah sebagai berikut:
1. Membakukan peubah bebas X sehingga
memiliki nilai tengah nol dan ragam satu,
serta dapat membandingkan koefisien
regresi setiap metode.
5
2. Eksplorasi awal berupa plot antara peubah
X dan Y, serta korelasi antar peubah.
3. Membakukan peubah bebas X sehingga
memiliki nilai tengah nol dan ragam satu.
4. Melakukan analisis regresi menggunakan
MKT.
5. Mendeteksi adanya multikolinearitas
dengan melihat nilai Variance Inflation
Factor (VIF).
6. Melakukan analisis regresi gulud.
a) Memilih nilai λ yang paling optimal
dari ridge trace dengan menggunakan
GCV.
b) Analisis regresi menggunakan regresi
gulud dengan nilai λ optimal.
7. Melakukan analisis regresi dengan metode
LASSO.
a) Menentukan penduga koefisien regresi
LASSO untuk setiap tahapan.
b) Memilih model terbaik dengan
menggunakan CV.
c) Menduga koefisien model terbaik yang
telah dipilih.
8. Membandingkan penduga koefisien regresi
yang dihasilkan oleh MKT, regresi gulud
dan LASSO.
Analisis dalam penelitian ini
menggunakan program R versi 2.15 dengan
paket tambahan MASS dan LARS. Paket
MASS digunakan untuk melakukan
pendugaan model dengan menggunakan
regresi gulud, sedangkan paket LARS
digunakan untuk melakukan pendugaan model
dengan menggunakan metode LASSO.
HASIL DAN PEMBAHASAN
Eksplorasi Data
Eksplorasi data diawali dengan membuat
plot antara peubah respon (Y) dengan setiap
peubah bebasnya (X). Berdasarkan hasil plot
terlihat bahwa pada umumnya pencaran titik
cenderung mengikuti garis lurus, sehingga
secara grafis terlihat bahwa terdapat hubungan
linier antara Y dan X (Lampiran 1).
Hubungan antar peubah bebas dapat
terlihat pada hasil korelasi antar peubah bebas.
Pada Lampiran 2 terlihat bahwa terdapat
beberapa peubah bebas yang memiliki korelasi
cukup besar dengan peubah bebas lainnya. X9
memiliki korelasi cukup besar dengan X4, X6,
dan X13, X6 memiliki korelasi cukup besar
dengan X7, sedangkan X13 memiliki korelasi
cukup besar dengan X14. Hal tersebut dapat
mengindikasikan adanya masalah
multikolinearitas pada data yang digunakan.
Regresi Linier Berganda dengan Metode
Kuadrat Terkecil
Analisis regresi linier berganda dengan
menggunakan MKT menghasilkan model
dengan nilai F-hitung sebesar 6.3926 dan
nilai-p sebesar 0.0002. Dengan demikian
model yang dihasilkan nyata pada taraf 5%.
Hasil analisis ragam dengan menggunakan
MKT dapat terlihat pada Tabel 1.
Tabel 1 Analisis ragam hasil MKT
Sumber
Keragaman db
Jumlah
Kuadrat
Kuadrat
Tengah
F-
hitung
Regresi 15 405.553 27.037 6.3926
Sisaan 17 71.900 4.229
Total 32 477.453
Dari lima belas peubah bebas yang
digunakan dalam analisis hanya persentase
anak balita yang ditimbang ketika baru lahir
(X7), persentase anak usia 0-23 bulan yang
masih disusui (X11), dan persentase rumah
tangga dengan kriteria rumah sehat (X15)
yang berpengaruh nyata terhadap balita
penderita gizi buruk di Indonesia (Tabel 2).
Hal tersebut terlihat dari nilai-p yang kurang
dari 5%.
Tabel 2 Koefisien regresi hasil MKT
Peubah Dugaan
Koefisien Nilai-p
Intersep 6.4333 1.51E-12
X1 1.1545 0.0703
X2 0.5652 0.3920
X3 1.3209 0.0982
X4 0.5645 0.4728
X5 0.5484 0.4194
X6 -0.8329 0.3199
X7 -2.6545 0.0041
X8 0.6663 0.2724
X9 -2.0980 0.1098
X10 -1.1870 0.0977
X11 1.2976 0.0344
X12 0.8187 0.2417
X13 0.9288 0.3482
X14 -0.6124 0.4248
X15 1.7600 0.0153
6
Mendeteksi Multikolinearitas
Eksplorasi data antar peubah bebas pada
Lampiran 2 menunjukkan adanya korelasi
antara beberapa peubah bebas. Adanya
masalah multikolinearitas lebih terlihat dari
nilai VIF yang dihasilkan karena terdapat nilai
VIF yang lebih besar dari 10, yaitu sebesar
11.700 pada peubah X9. Dengan demikian,
dapat diketahui bahwa terdapat korelasi antara
peubah X9 dengan peubah lainnya. Nilai VIF
untuk setiap peubah bebas ke-j dapat terlihat
pada Tabel 3.
Tabel 3 Nilai VIF untuk setiap peubah bebas
Peubah VIF
X1 2.704
X2 3.133
X3 4.312
X4 4.472
X5 3.323
X6 4.999
X7 4.845
X8 2.611
X9 11.700
X10 3.471
X11 2.409
X12 3.447
X13 7.014
X14 4.242
X15 3.223
Selain itu, masalah multikolinearitas juga
dapat terlihat dari nilai koefisien determinasi
yang cukup besar pada model regresi hasil
pendugaan dengan menggunakan MKT, yaitu
sebesar 84.94%, tetapi banyak peubah bebas
yang tidak berpengaruh nyata terhadap respon.
Adanya multikolinearitas menyebabkan tanda
beberapa koefisien regresi berbeda dengan
tanda korelasi sederhananya, seperti X2, X3,
X4, X5, X12, X13, dan X15.
Regresi Gulud Adanya multikolinearitas pada data yang
digunakan, diatasi dengan menggunakan
regresi gulud. Penduga koefisien gulud
diperoleh dari pemilihan nilai λ yang optimal.
Hasil ridge trace pada Gambar 1 menunjukkan
hasil yang bersifat subjektif dalam pemilihan
nilai λ. Hal tersebut dikarenakan sulitnya
menentukan nilai λ yang paling minimum
ketika nilai β(λ) mulai stabil pada setiap
peubah bebas.
Nilai λ yang optimal selanjutnya dapat
diperoleh dari nilai GCV yang paling
minimum, yaitu ketika λ sebesar 3.6. Pada
Gambar 1 nilai λ yang optimal digambarkan
dengan garis vertikal.
.
Gambar 1 Ridge Trace
Berdasarkan nilai λ yang dipilih, maka
penduga koefisien hasil analisis dengan
menggunakan regresi gulud dapat terlihat pada
Tabel 4. Adanya nilai λ pada regresi gulud
menyebabkan dugaan koefisien regresi yang
dihasilkan menyusut. Dugaan koefisien regresi
gulud cenderung lebih kecil dibandingkan
dengan dugaan koefisien regresi MKT.
Tabel 4 Koefisien regresi hasil MKT dan
regresi gulud
Peubah MKT Regresi gulud
Intersep 6.4333 6.4333
X1 1.1545 1.0058
X2 0.5652 0.3411
X3 1.3209 0.4354
X4 0.5645 0.5420
X5 0.5484 0.1327
X6 -0.8329 -0.8117
X7 -2.6545 -1.9402
X8 0.6663 0.7648
X9 -2.0980 -0.9426
X10 -1.1870 -0.4251
X11 1.2976 0.6637
X12 0.8187 0.4667
X13 0.9288 0.3587
X14 -0.6124 -0.3648
X15 1.7600 1.0039
0 20 40 60 80 100
-2-1
01
x$lambda
t(x$coef)
7
Keragaman koefisien regresi hasil analisis
dengan menggunakan MKT dan gulud dapat
terlihat dari nilai simpangan baku koefisien
regresi (S\]). Pada Tabel 5 terlihat bahwa
keragaman koefisien regresi yang dihasilkan
oleh regresi gulud relatif lebih kecil
dibandingkan dengan MKT. Dengan
demikian, penduga gulud cenderung lebih
stabil dibandingkan dengan penduga MKT.
Tabel 5 Simpangan baku koefisien hasil
analisis regresi dengan MKT dan
gulud
Peubah MKT Gulud
X1 0.5978 0.4062
X2 0.6435 0.4114
X3 0.7549 0.4373
X4 0.7688 0.4565
X5 0.6627 0.4252
X6 0.8129 0.4724
X7 0.8009 0.4773
X8 0.5874 0.3899
X9 1.2435 0.4756
X10 0.6773 0.4115
X11 0.5642 0.3911
X12 0.6749 0.4266
X13 0.9628 0.4801
X14 0.7488 0.4597
X15 0.6527 0.4222
Penduga koefisien regresi gulud hanya
disusutkan kearah nol sehingga tidak dapat
melakukan seleksi peubah. Dengan demikian,
interpretasi regresi gulud akan semakin sulit
ketika jumlah peubah bebas yang digunakan
sangat banyak.
LASSO Metode LASSO juga dapat digunakan
untuk mengatasi masalah multikolinearitas
yang terjadi pada analisis regresi linier
berganda. Penduga koefisien LASSO
diperoleh melalui komputasi dengan
memodifikasi algoritma LAR sehingga
menghasilkan algoritma yang lebih efisien
dibandingkan pemrograman kuadratik.
Hasil modifikasi algoritma LAR untuk
LASSO dapat terlihat pada Gambar 2. Pada
metode LASSO, tahap inisialisasi diawali
dengan menetapkan semua koefisien dengan
angka nol. Selanjutnya, peubah yang memiliki
korelasi tinggi dengan sisaan masuk ke dalam
model.
Pada iterasi pertama, peubah X7
merupakan peubah yang memiliki korelasi
yang paling tinggi dengan sisaan dibandingkan
peubah lainnya sampai ∑�β� ��/max ∑�β� �� sekitar 0.127958 masuk peubah X1. Peubah
X8 masuk berikutnya ke dalam model dengan
∑�β� ��/max ∑�β� �� sekitar 0.160727 dan
seterusnya sampai peubah X5 merupakan
peubah yang terakhir masuk ke dalam model
(Tabel 6).
Gambar 2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO
* ****** * * ** * ** *
*
0.0 0.2 0.4 0.6 0.8 1.0
-15
-10
-50
510
|beta|/max|beta|
Standardized Coefficients
* ** *** * * * ** * ** *
*
* ** *** * * * ***
** *
*
* ** *** * * *
*** ** * *
* ** *** * * * ** * ** *
*
* ** *** * * *** * ** *
*
*
** *** * * * ** * ** **
* ****** * * ** * ** * *
* ** *** * * *** *
** *
*
* ** *** * * * ** *** *
*
* ** *** ** *
** * ** *
*
* ** *** * * * ** * ** *
*
* ** *** * * * ** * ** *
*
* ** *** * * * ** * ** *
*
* ** ***** *
***
** *
*7
910
14
51
15
0 1 5 7 9 11 14 15
8
Tabel 6 Peubah bebas yang masuk dalam
model untuk setiap tahapan pada
metode LASSO
Tahap Peubah bebas yang masuk ke
dalam model
1 X7
2 X7 X1
3 X7 X1 X8
4 X7 X1 X8 X6
5 X7 X1 X8 X6 X9
6 X7 X1 X8 X6 X9 X15
7 X7 X1 X8 X6 X9 X15 X11
8 X7 X1 X8 X6 X9 X15 X11 X4
9 X7 X1 X8 X6 X9 X15 X11 X4
X12
10 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2
11 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2 X3
12 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2 X3 X10
13 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2 X3 X10 X13
14 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2 X3 X10 X13 X14
15 X7 X1 X8 X6 X9 X15 X11 X4
X12 X2 X3 X10 X13 X14 X5
Koefisien model regresi untuk setiap
tahapan dapat terlihat pada Lampiran 3. Nilai
∑�β� ��/max∑�β� �� untuk setiap tahapan dapat
terlihat pada Lampiran 4.
Pemilihan Model Terbaik LASSO
Pemilihan model terbaik dalam metode
LASSO dilakukan dengan menggunakan
kriteria validasi silang, yaitu dengan
menggunakan mode fraction dan mode step.
Pada mode fraction, nilai validasi silang
dihitung berdasarkan ∑�β� ��/max ∑�β� �� (Gambar 3).
Gambar 3 Nilai validasi silang dengan
menggunakan mode fraction
Pada Gambar 3 terlihat bahwa fraction
∑�β� ��/max ∑�β� �� sekitar 0.253796 merupakan
nilai CV yang minimum. Nilai CV minimum
tersebut dapat berbeda setiap kali melakukan
pemanggilan fungsinya. Dari beberapa
pengulangan maka diperoleh CV turun dan
kemudian naik kembali pada nilai sekitar
0.253796. Pada Lampiran 4 terlihat bahwa
nilai ∑�β� ��/max ∑�β� �� sekitar 0.253796 berada
antara tahap 7.
Mode step menghitung nilai validasi silang
pada setiap tahapan dimana satu peubah
masuk dalam model. Pemilihan model terbaik
dengan menggunakan mode step dalam
menghitung nilai CV menunjukkan bahwa
model terbaik terlihat pada tahap 7 (Gambar
4). Hal tersebut dikarenakan pada tahap 7
memberikan nilai CV yang merupakan titik
belok dari turun menjadi naik pertama.
Gambar 4 Nilai validasi silang dengan
menggunakan mode step
Berdasarkan kedua metode validasi silang
tersebut, maka model terbaik LASSO yang
terpilih pada data ini adalah model pada tahap
ke-7. Terdapat tujuh peubah bebas yang
masuk ke dalam model pada tahap ke-7, yaitu
X1, X6, X7, X8, X9, X11, dan X15.
Perbandingan Model Hasil MKT, Gulud,
dan LASSO
Adanya kendala pada regresi gulud dan
LASSO menyebabkan dugaan koefisien
regresi kedua metode tersebut menyusut.
Perbedaan kendala antara regresi gulud dan
LASSO menghasilkan dugaan koefisien
LASSO cenderung lebih kecil dibandingkan
dugaan koefisien regresi gulud. Perbandingan
koefisien regresi hasil analisis dengan
menggunakan MKT, regresi gulud, dan
LASSO dapat terlihat pada Tabel 7.
0.0 0.2 0.4 0.6 0.8 1.0
510
15
20
Fraction of final L1 norm
Cross-Validated MSE
5 10 15
510
15
20
Number of steps
Cross-Validated MSE
9
Tabel 7 Koefisien regresi hasil MKT, gulud,
dan LASSO
Peubah MKT Gulud LASSO
Intersep 6.4333 6.4333 6.4333
X1 1.1545 1.0058 0.6234
X2 0.5652 0.3411 0.0000
X3 1.3209 0.4354 0.0000
X4 0.5645 0.5420 0.0000
X5 0.5484 0.1327 0.0000
X6 -0.8329 -0.8117 -0.0907
X7 -2.6545 -1.9402 -2.3451
X8 0.6663 0.7648 0.5591
X9 -2.0980 -0.9426 -0.0230
X10 -1.1870 -0.4251 0.0000
X11 1.2976 0.6637 0.1684
X12 0.8187 0.4667 0.0000
X13 0.9288 0.3587 0.0000
X14 -0.6124 -0.3648 0.0000
X15 1.7600 1.0039 0.5073
Pada Tabel 7 terlihat bahwa regresi gulud
hanya menyusutkan koefisien hasil MKT ke
arah nol, sedangkan LASSO dapat
menyusutkan koefisien hasil MKT sampai
tepat nol sehingga secara otomatis peubah-
peubah bebas tersebut akan terseleksi dari
model yang terpilih.
Peubah-peubah bebas yang terseleksi dari
model LASSO merupakan peubah bebas yang
tidak berpengaruh nyata terhadap respon dari
hasil MKT, dan atau peubah bebas yang
memiliki korelasi dengan peubah bebas
lainnya. Dengan demikian, metode LASSO
dapat menyederhanakan model dan secara
tidak langsung masalah multikolinearitas dapat
teratasi.
Peubah-peubah bebas yang berpengaruh
nyata terhadap balita penderita gizi buruk dari
hasil MKT seperti X7, X11, dan X15 tetap
masuk dalam model LASSO yang terpilih.
Akan tetapi, tidak seluruh peubah bebas yang
tidak berpengaruh nyata dari hasil MKT
disusutkan sampai tepat nol. Hal tersebut
dikarenakan pemilihan model terbaik dengan
menggunakan validasi silang yang nilainya
dapat berbeda setiap kali melakukan
pemanggilan fungsinya.
SIMPULAN DAN SARAN
Simpulan
Regresi gulud dapat mengatasi masalah
multikolinearitas melalui pemilihan nilai λ
yang tepat. Regresi gulud tidak dapat
melakukan seleksi peubah bebas karena hanya
menyusutkan koefisien MKT ke arah nol,
sehingga interpretasi akan semakin sulit jika
peubah bebas yang digunakan semakin
banyak. Berdasarkan data yang digunakan,
metode LASSO lebih baik digunakan karena
model yang dihasilkan lebih sederhana dan
dapat memperbaiki masalah multikolinearitas
melalui penyusutan koefisien tepat nol.
Saran
Saran untuk penelitian selanjutnya
diharapkan dapat membandingkan metode
MKT, gulud, dan LASSO dengan
menggunakan simulasi untuk mengetahui
sifat-sifat dari ketiga metode tersebut.
DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan
Analisis Data. Bogor: IPB Press.
[BPS]Badan Pusat Statistik. 2011.
Perkembangan Beberapa Indikator
Utama Sosial-Ekonomi Indonesia.
http://www.bps.go.id/hasil_publikasi/flip
_2011/3101015/index11.php?pub=Perke
mbangan%20Beberapa%20Indikator%20
Utama%20SosialEkonomi%20Indonesia
%20Edisi%20November%202011 [30
Jun 2012].
Chatterjee S, Hadi AS. 2006. Regression
Analysis by Example. Ed ke-4. USA:
John Wiley & Sons, Inc.
[Depkes] Departemen Kesehatan. 2010. Riset
Kesehatan Dasar. Jakarta: Depkes RI.
Dewi YS.2010.OLS, LASSO dan PLS pada
Data Mengandung Multikolinearitas.
Jurnal Ilmu Dasar 11(1): 83-91.
Draper N, Smith H. 1992. Analisis Regresi
Terapan Edisi ke 2. Sumantri B,
penerjemah. Jakarta: Gramedia Pustaka
Utama. Terjemahan dari: Applied
Regression Analysis.
Hastie T, Tibshirani R, Friedman J. 2008. The
Elements of Statistical Learning. Data
Mining, Inference, and Prediction. Ed
ke-2. New York: Springer.
Hoerl AE, Kennard RW. 1970. Ridge
Regression: Biased Estimation for
Nonorthogonal Problems. Technometrics
12(1): 55-67.
Izenman AJ. 2008. Modern Multivariate
Statistical Techniques: Regression,
Classification, and Manifold Learning.
New York: Springer.
Juanda B. 2009. Ekonometrika: Pemodelan
dan Pendugaan. Bogor: IPB Press.
10
Montgomery DC, Peck EA. 1992.
Introduction to Linier Regression
Analysis. Ed ke-2. USA: John Wiley &
Sons, Inc.
Pasha GR, Shah AA. 2004. Application of
Ridge Regression to Multicollinear Data.
Journal of Research 15(1): 97-106.
Tibshirani R. 1996. Regression Shrinkage and
Selection via the LASSO. Journal of the
Royal Statistical Society Series B 58(1):
267-288.
LAMPIRAN
12
Lampiran 1 Plot masing-masing peubah bebas (X) dan peubah respon (Y)
40200 958575 806040 906030
20
10
0
806040
20
10
0
907560 1007550 201510
80400 604020 807264 806040
20
10
0
806040
20
10
0
80400 453015
X1
YX2 X3 X4
X5 X6 X7 X8
X9 X10 X11 X12
X13 X14 X15
13
Lampiran 2 Nilai korelasi antar peubah
Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
X1 0.525 1.000 -0.494 -0.345 0.001 0.055 -0.287 -0.5 0.21 -0.176 -0.387 0.073 -0.287 -0.438 -0.362 -0.358
X2 -0.196 -0.494 1.000 0.111 -0.150 -0.057 0.048 0.223 -0.364 -0.078 0.611 -0.205 0.165 0.277 0.202 0.369
X3 -0.494 -0.345 0.111 1.000 0.586 0.471 0.698 0.655 -0.242 0.675 0.186 -0.242 0.399 0.571 0.415 0.198
X4 -0.282 0.001 -0.150 0.586 1.000 0.624 0.679 0.494 -0.175 0.731 -0.207 0.035 0.609 0.376 0.395 -0.033
X5 -0.375 0.055 -0.057 0.471 0.624 1.000 0.658 0.490 -0.220 0.654 -0.173 -0.106 0.312 0.412 0.425 -0.045
X6 -0.631 -0.287 0.048 0.698 0.679 0.658 1.000 0.752 -0.336 0.700 0.097 -0.027 0.557 0.469 0.372 0.119
X7 -0.800 -0.500 0.223 0.655 0.494 0.490 0.752 1.000 -0.518 0.698 0.184 -0.188 0.526 0.639 0.511 0.448
X8 0.530 0.210 -0.364 -0.242 -0.175 -0.220 -0.336 -0.518 1.000 -0.508 -0.061 0.163 -0.310 -0.488 -0.362 -0.362
X9 -0.596 -0.176 -0.078 0.675 0.731 0.654 0.700 0.698 -0.508 1.000 -0.217 -0.185 0.627 0.743 0.672 0.195
X10 -0.119 -0.387 0.611 0.186 -0.207 -0.173 0.097 0.184 -0.061 -0.217 1.000 0.024 0.096 0.094 -0.080 0.400
X11 0.192 0.073 -0.205 -0.242 0.035 -0.106 -0.027 -0.188 0.163 -0.185 0.024 1.000 -0.094 -0.464 -0.443 -0.522
X12 -0.331 -0.287 0.165 0.399 0.609 0.312 0.557 0.526 -0.310 0.627 0.096 -0.094 1.000 0.606 0.603 0.298
X13 -0.503 -0.438 0.277 0.571 0.376 0.412 0.469 0.639 -0.488 0.743 0.094 -0.464 0.606 1.000 0.815 0.554
X14 -0.444 -0.362 0.202 0.415 0.395 0.425 0.372 0.511 -0.362 0.672 -0.080 -0.443 0.603 0.815 1.000 0.424
X15 -0.212 -0.358 0.369 0.198 -0.033 -0.045 0.119 0.448 -0.362 0.195 0.400 -0.522 0.298 0.554 0.424 1.000
14
Lampiran 3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan
Tahapan X1 X2 X3 X4 X5 X6 X7 X8
0 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 0.0000000 0.0000000
1 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 -2.120658 0.0000000
2 0.02793919 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 -2.148598 0.0000000
3 0.26198708 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 -2.240024 0.2319052
4 0.35890897 0.00000000 0.0000000 0.0000000 0.0000000 -0.0991065 -2.188189 0.3238946
5 0.39511371 0.00000000 0.0000000 0.0000000 0.0000000 -0.1251415 -2.163386 0.3509426
6 0.52952827 0.00000000 0.0000000 0.0000000 0.0000000 -0.0924380 -2.267452 0.4734736
7 0.62339949 0.00000000 0.0000000 0.0000000 0.0000000 -0.0907125 -2.345054 0.5591056
8 0.63871524 0.00000000 0.0000000 0.1087190 0.0000000 -0.1289478 -2.369281 0.5650357
9 0.71946600 0.00000000 0.0000000 0.4643464 0.0000000 -0.2873433 -2.435426 0.5891777
10 0.75059496 0.03717267 0.0000000 0.5266534 0.0000000 -0.3187327 -2.447390 0.6119289
11 0.82911204 0.07548259 0.1614031 0.5990276 0.0000000 -0.4246621 -2.484197 0.6153930
12 0.89386774 0.16941189 0.3272887 0.5865779 0.0000000 -0.4471272 -2.503613 0.6365250
13 0.90576624 0.17990956 0.3492921 0.5890391 0.0000000 -0.4484388 -2.504679 0.6380897
14 0.93695211 0.21606374 0.4097426 0.5972309 0.0000000 -0.4553521 -2.508435 0.6475368
15 1.15449169 0.56523828 1.3209366 0.5644759 0.5483645 -0.8328646 -2.654492 0.6663307
Tahapan X9 X10 X11 X12 X13 X14 X15
0 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
1 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
2 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
3 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
4 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
5 -0.0193468 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
6 -0.0500960 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.2573776
7 -0.0230298 0.0000000 0.1683546 0.0000000 0.0000000 0.0000000 0.5073396
8 -0.0848570 0.0000000 0.2134023 0.0000000 0.0000000 0.0000000 0.5928408
9 -0.3501723 0.0000000 0.3713824 0.1207291 0.0000000 0.0000000 0.8758591
10 -0.3748439 0.0000000 0.4085372 0.1359669 0.0000000 0.0000000 0.9286722
11 -0.4907445 0.0000000 0.4973301 0.2048559 0.0000000 0.0000000 1.0197175
12 -0.6269609 -0.1577275 0.6040460 0.2694688 0.0000000 0.0000000 1.1347230
13 -0.6620621 -0.1799704 0.6219148 0.2752517 0.0192328 0.0000000 1.1467546
14 -0.7542239 -0.2514741 0.6700121 0.2982096 0.0931897 -0.0346044 1.1834009
15 -2.0979783 -1.1869971 1.2975972 0.8186781 0.9288331 -0.6123865 1.7600484
15
Lampiran 4 Nilai ∑�β� ��/max ∑�β� �� untuk setiap tahapan LASSO
Tahapan |X1| |X2| |X3| |X4| |X5| |X6| |X7| |X8| |X9|
0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.000000 0.000000
2 0.027939 0.000000 0.000000 0.000000 0.000000 0.000000 2.148598 0.000000 0.000000
3 0.261987 0.000000 0.000000 0.000000 0.000000 0.000000 2.240024 0.231905 0.000000
4 0.358909 0.000000 0.000000 0.000000 0.000000 0.099106 2.188189 0.323895 0.000000
5 0.395114 0.000000 0.000000 0.000000 0.000000 0.125142 2.163386 0.350943 0.019347
6 0.529528 0.000000 0.000000 0.000000 0.000000 0.092438 2.267452 0.473474 0.050096
7 0.623399 0.000000 0.000000 0.000000 0.000000 0.090713 2.345054 0.559106 0.023030
8 0.638715 0.000000 0.000000 0.108719 0.000000 0.128948 2.369281 0.565036 0.084857
9 0.719466 0.000000 0.000000 0.464346 0.000000 0.287343 2.435426 0.589178 0.350172
10 0.750595 0.037173 0.000000 0.526653 0.000000 0.318733 2.447390 0.611929 0.374844
11 0.829112 0.075483 0.161403 0.599028 0.000000 0.424662 2.484197 0.615393 0.490744
12 0.893868 0.169412 0.327289 0.586578 0.000000 0.447127 2.503613 0.636525 0.626961
13 0.905766 0.179910 0.349292 0.589039 0.000000 0.448439 2.504679 0.638090 0.662062
14 0.936952 0.216064 0.409743 0.597231 0.000000 0.455352 2.508435 0.647537 0.754224
15 1.154492 0.565238 1.320937 0.564476 0.548365 0.832865 2.654492 0.666331 2.097978
Tahapan |X10| |X11| |X12| |X13| |X14| |X15| sum |beta| |beta|/max|beta|
0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.124673
2 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.176537 0.127958
3 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.733916 0.160727
4 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.970099 0.174612
5 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 3.053931 0.179540
6 0.000000 0.000000 0.000000 0.000000 0.000000 0.257378 3.670365 0.215781
7 0.000000 0.168355 0.000000 0.000000 0.000000 0.507340 4.316996 0.253796
8 0.000000 0.213402 0.000000 0.000000 0.000000 0.592841 4.701799 0.276418
9 0.000000 0.371382 0.120729 0.000000 0.000000 0.875859 6.213902 0.365315
10 0.000000 0.408537 0.135967 0.000000 0.000000 0.928672 6.540493 0.384515
11 0.000000 0.497330 0.204856 0.000000 0.000000 1.019718 7.401925 0.435159
12 0.157728 0.604046 0.269469 0.000000 0.000000 1.134723 8.357338 0.491327
13 0.179970 0.621915 0.275252 0.019233 0.000000 1.146755 8.520401 0.500914
14 0.251474 0.670012 0.298210 0.093190 0.034604 1.183401 9.056428 0.532427
15 1.186997 1.297597 0.818678 0.928833 0.612387 1.760048 17.009713 1.000000