PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE … · PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE...

PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE

AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN

KOEFISIEN REGRESI

ARUM PUSPORINI

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

RINGKASAN

ARUM PUSPORINI. Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection

Operator (LASSO) dalam Penyusutan Koefisien Regresi. Dibimbing oleh AUNUDDIN dan LA

ODE ABDUL RAHMAN.

Multikolinearitas merupakan salah satu pelanggaran asumsi dalam analisis regresi linier

berganda yang dapat terjadi ketika terdapat korelasi yang tinggi antar peubah bebas.

Multikolinearitas menyebabkan penduga dengan metode kuadrat terkecil (MKT) menjadi tidak

stabil dan menghasilkan ragam yang besar. Salah satu cara untuk mengatasi masalah

multikolinearitas tersebut adalah dengan menggunakan regresi gulud (ridge regression). Regresi

gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ yang tepat. Regresi

gulud menyusutkan koefisien MKT ke arah nol tetapi tidak dapat melakukan seleksi model.

Meskipun model yang diperoleh dari regresi gulud berbias, tetapi keragaman koefisien regresi

yang dihasilkan relatif kecil. Akan tetapi, regresi gulud semakin sulit diinterpretasikan jika jumlah

peubah bebas yang digunakan sangat banyak. Least Absolute Shrinkage and Selection Operator

(LASSO) merupakan metode komputasi dengan menggunakan pemrograman kuadratik yang dapat

memerankan prinsip regresi gulud serta melakukan seleksi model. Metode LASSO mulai dikenal

setelah ditemukannya algoritma LAR pada tahun 2004. Modifikasi dari LAR untuk LASSO

menghasilkan algoritma yang lebih efisien dalam menduga solusi penduga koefisien LASSO

dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik. Metode LASSO dapat

menyusutkan koefisien MKT tepat nol sehingga dapat melakukan seleksi peubah. Dengan

demikian, model yang dihasilkan metode LASSO lebih sederhana dan secara tidak langsung bebas

dari multikolinearitas.

Kata kunci : multikolinearitas, MKT, regresi gulud, LASSO, algoritma LAR

PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE

AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN

KOEFISIEN REGRESI

ARUM PUSPORINI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Statistika pada Departemen Statistika

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

2012

Judul : Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator

(LASSO) dalam Penyusutan Koefisien Regresi

Nama : Arum Pusporini

NRP : G14080086

Menyetujui :

Pembimbing I,

Prof. Dr. Ir. Aunuddin, M.Sc

NIP : 194706151971061001

Pembimbing II,

La Ode Abdul Rahman, S.Si, M.Si

Mengetahui :

Ketua Departemen Statistika

Fakultas Matematika dan Ilmu Pengetahuan Alam IPB

Dr. Ir. Hari Wijayanto, M.Si

NIP : 196504211990021001

Tanggal Lulus :

PRAKATA

Puji syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya

sehingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penerapan Regresi Gulud dan

Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi”.

Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana

Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut

Pertanian Bogor.

Terimakasih penulis ucapkan kepada semua pihak yang telah membantu dalam penulisan

karya ilmiah ini, di antaranya:

1. Bapak Prof. Dr. Ir. Aunuddin, M.Sc dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku

dosen pembimbing yang telah memberikan bimbingan, masukan serta saran selama penulisan

karya ilmiah ini.

2. Ibu Dr.Ir. Erfiani, M.Si selaku dosen penguji yang telah memberikan banyak masukan dan

saran pada penulis.

3. Kedua orang tua dan Anggun Dwi Puspo Supomo atas doa, kasih sayang, serta dukungan

kepada penulis.

4. Ibu Tri, Ibu Markonah, Pak Herman, Pak Heri, serta seluruh staf karyawan Departemen

Statistika atas segala bantuannya.

5. Rekan satu bimbingan, Hana Maretha dan Gusti Andika Puri atas diskusi, dukungan, dan

kekompakannya selama penyusunan karya ilmiah ini.

6. Ika Meilaty, Yulia Anggraeni, Endah Kurniasari, dan Opilianda atas doa dan dukungannya

kepada penulis.

7. Yogi Prakoso atas doa, diskusi, dan dukungannya kepada penulis.

8. Seluruh keluarga Statistika 45 dan semua pihak yang tidak dapat dituliskan satu per satu, atas

bantuannya penulis ucapkan terima kasih.

Penulis menyadari bahwa penulisan karya ilmiah ini masih jauh dari sempurna. Oleh karena

itu, kritik dan saran yang membangun sangat penulis harapkan untuk bisa lebih baik di masa

mendatang. Semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan.

Bogor, Oktober 2012

Arum Pusporini

RIWAYAT HIDUP

Penulis dilahirkan di Purworejo pada tanggal 3 Mei 1990 dari pasangan Bapak Supomo dan

Ibu Eko Murti Nurhayati. Penulis merupakan anak pertama dari dua bersaudara.

Tahun 2002 penulis lulus dari SD Negeri Rejosari, kemudian melanjutkan pendidikan di

SMP Negeri 3 Purworejo dan lulus tahun 2005. Selanjutnya, pada tahun 2008 penulis

menyelesaikan pendidikannya di SMA Negeri 1 Purworejo dan pada tahun yang sama lulus seleksi

masuk Institut Pertanian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri

(SNMPTN). Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan

Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor dengan mayor Statistika serta minor

Ekonomi dan Studi Pembangunan.

Selama mengikuti perkuliahan, penulis menjadi asisten dosen mata kuliah Metode Statistika

pada tahun ajaran 2010/2011. Kegiatan organisasi yang sempat diikuti adalah himpunan profesi

Gamma Sigma Beta (GSB) tahun 2011 menjadi staf divisi Sains dan Organisasi Mahasiswa

Daerah (OMDA) Purworejo, GAMAPURI. Selain itu, penulis juga aktif dalam kegiatan

kepanitiaan seperti IDEA 2010, Statistika Ria 2010, Welcome Ceremony of Statistics (WCS)

2011, Lomba Jajak Pendapat Statistika (LJPS) 2011, serta Pesta Sains Nasional 2011. Pada bulan

Februari 2012 sampai dengan April 2012, penulis melaksanakan kegiatan praktik lapang di IFF-PT

Essence Indonesia, Jakarta Timur.

DAFTAR ISI

Halaman

DAFTAR GAMBAR ............................................................................................................... viii

DAFTAR TABEL .................................................................................................................... viii

DAFTAR LAMPIRAN ............................................................................................................ viii

PENDAHULUAN.................................................................................................................... 1

Latar Belakang ................................................................................................................. 1

Tujuan .............................................................................................................................. 1

TINJAUAN PUSTAKA ........................................................................................................... 1

Analisis Regresi Linier .................................................................................................... 1

Metode Kuadrat Terkecil ................................................................................................. 1

Multikolinearitas .............................................................................................................. 2

Regresi Gulud .................................................................................................................. 2

LASSO ............................................................................................................................ 3

Algoritma LAR ................................................................................................................ 3

Validasi Silang ................................................................................................................. 4

DATA DAN METODE ........................................................................................................... 4

Data .................................................................................................................................. 4

Metode ............................................................................................................................. 4

HASIL DAN PEMBAHASAN ................................................................................................ 5

Eksplorasi Data ............................................................................................................... 5

Regresi Linier Berganda dengan Metode Kuadrat Terkecil ............................................ 5

Mendeteksi Multikolinearitas .......................................................................................... 6

Regresi Gulud .................................................................................................................. 6

LASSO ............................................................................................................................ 7

Pemilihan Model Terbaik LASSO ................................................................................... 8

Perbandingan Model Hasil MKT, Gulud, dan LASSO.................................................... 8

SIMPULAN DAN SARAN ..................................................................................................... 9

Simpulan .......................................................................................................................... 9

Saran ................................................................................................................................ 9

DAFTAR PUSTAKA .............................................................................................................. 9

LAMPIRAN ............................................................................................................................. 11

DAFTAR GAMBAR

Halaman

1 Ridge Trace .......................................................................................................................... 6

2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien

LASSO ............................................................................................................................... 7

3 Nilai validasi silang dengan menggunakan mode fraction ................................................... 8

4 Nilai validasi silang dengan menggunakan mode step ......................................................... 8

DAFTAR TABEL

Halaman

1 Analisis ragam hasil MKT .................................................................................................. 5

2 Koefisien regresi hasil MKT ................................................................................................ 5

3 Nilai VIF untuk setiap peubah bebas .................................................................................. 6

4 Koefisien regresi hasil MKT dan regresi gulud.................................................................... 6

5 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud ........................... 7

6 Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO .......... 8

7 Koefisien regresi hasil MKT, gulud, dan LASSO ................................................................ 9

DAFTAR LAMPIRAN

Halaman

1 Plot masing-masing peubah bebas (X) dan peubah respon (Y) ............................................ 12

2 Nilai korelasi antar peubah ................................................................................................... 13

3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan ............................... 14

4 Nilai ∑�β� ��/max ∑�β� �� untuk setiap tahapan LASSO ........................................................... 15

1

PENDAHULUAN

Latar Belakang

Salah satu masalah yang sering muncul

dalam regresi linier berganda adalah adanya

korelasi antar peubah bebas

(multikolinearitas). Multikolinearitas dapat

mempengaruhi ragam dari penduga kuadrat

terkecil dan pendugaan model yang dihasilkan.

Adanya multikolinearitas menyebabkan

matriks (XTX) menjadi singular atau hampir

singular, sehingga sedikit perubahan elemen X

akan berpengaruh besar terhadap matriks

(XTX)

-1 pada pendugaan dengan menggunakan

Metode Kuadrat Terkecil (MKT). Akibatnya,

penduga koefisien MKT menjadi tidak stabil

dan memiliki ragam yang cenderung lebih

besar (Izenman 2008).

Pada kenyataannya, yang diharapkan

pada sebuah penelitian adalah model yang

memiliki ragam minimum, meskipun berbias.

Dengan demikian, salah satu cara untuk

mengatasi multikolinearitas dapat dengan

menggunakan penduga berbias, seperti regresi

komponen utama, regresi kuadrat terkecil

parsial, atau regresi gulud. Pada penelitian ini,

multikolinearitas diatasi dengan menggunakan

regresi gulud.

Regresi gulud (ridge regression)

merupakan shrinkage methods atau metode

penyusutan koefisien regresi yang dapat

digunakan untuk mengatasi masalah

multikolinearitas. Meskipun model yang

diperoleh dari regresi gulud berbias, tetapi

penduga koefisien yang dihasilkan cenderung

lebih stabil dibandingkan MKT (Chatterjee &

Hadi 2006).

Seleksi peubah bebas diperlukan agar

model lebih sederhana dan mudah

diinterpretasikan. Akan tetapi, regresi gulud

tidak dapat melakukan seleksi peubah bebas

untuk memperoleh model yang terbaik. Pada

tahun 1996, Tibshirani memperkenalkan

metode Least Absolute Shrinkage and

Selection Operator (LASSO) yang dapat

memerankan prinsip regresi gulud serta

melakukan seleksi model regresi.

Tujuan

Penelitian ini bertujuan untuk

menerapkan regresi gulud dan LASSO dalam

penyusutan koefisien regresi pada data dengan

multikolinearitas.

TINJAUAN PUSTAKA

Analisis Regresi Linier

Analisis regresi merupakan suatu teknik

statistika untuk memeriksa dan memodelkan

hubungan antar peubah (Montgomery & Peck

1992). Regresi merupakan tempat kedudukan

nilai tengah dari peubah Y untuk berbagai

nilai atau selang nilai peubah X, serta

merupakan usaha untuk mengepas suatu

fungsi atau kurva terhadap pencaran titik-titik

pada sumbu X-Y (Mosteller & Tukey dalam

Aunuddin 2005). Dalam hal ini, Y adalah

peubah tak bebas/respon, sedangkan X adalah

peubah bebas/penjelas.

Regresi linier sederhana hanya

melibatkan satu peubah bebas, sedangkan

regresi linier berganda melibatkan p peubah

bebas. Regresi linier sederhana memiliki

beberapa asumsi, yaitu nilai harapan/rataan

sisaan sama dengan nol, ragam sisaan

homogen, sisaan saling bebas, sisaan

menyebar normal dengan rataan nol dan ragam

σ2, serta sisaan bebas terhadap peubah bebas.

Pada regresi linier berganda terdapat asumsi

tambahan bahwa tidak ada multikolinearitas

pada peubah bebas.

Model linier artinya linier dalam

parameter (Draper & Smith 1992). Jika

terdapat vektor input xT = (x1, x2,…,xp) dan

digunakan untuk menduga luaran nilai Y yang

berupa bilangan riil, maka model regresi linier

memiliki bentuk sebagai berikut,

y� = β + ∑ X��β�� + ε�

Keterangan:

yi : vektor peubah respon berukuran nx1

β0 : intersep

Xij : matriks peubah bebas berukuran nx(p+1)

βj : slope atau kemiringan

εi : vektor sisaan acak berukuran nx1

Metode Kuadrat Terkecil Metode kuadrat terkecil (Ordinary Least

Square) merupakan metode yang digunakan

untuk menduga koefisien regresi linier dengan

cara meminimumkan jumlah kuadrat sisaan

(Hastie et al. 2008), yaitu dengan

meminimumkan persamaan:

JKS = ∑ �y� − f�x��

��

= ∑ �y� − β − ∑ x��β��

��

Penduga !" dengan MKT akan menghasilkan

penduga yang tak bias serta solusi unik

sebagai berikut,

2

!"= (XTX)

-1 X

Ty

Pendugaan koefisien regresi dengan

MKT memiliki kuadrat tengah sisaan terkecil

di antara semua penduga linier yang tak bias.

Namun, pada kondisi tertentu (misalnya

multikolinieritas dan peubah sangat banyak),

metode kuadrat terkecil sering tidak

memuaskan. Hal tersebut disebabkan karena

adanya masalah keakuratan prediksi yang

mengakibatkan penduga kuadrat terkecil

memiliki bias rendah tetapi ragam besar.

Selain itu, semakin banyak peubah bebas

maka model semakin sulit diinterpretasikan

(Tibshirani 1996).

Multikolinearitas

Multikolinearitas terjadi ketika terdapat

korelasi antara dua atau lebih peubah bebas

dalam regresi. Adanya multikolinearitas

mengakibatkan penduga koefisien regresi yang

diperoleh dari MKT akan menghasilkan ragam

yang besar, meskipun tetap tidak bias (Pasha

& Shah 2004). Selain itu, multikolinearitas

juga dapat menyebabkan tanda koefisien

regresi berbeda dengan tanda korelasi

sederhananya ( Juanda 2009).

Multikolinearitas dapat terlihat dari nilai

korelasi Pearson antar peubah bebas. Jika

korelasi antar peubah bebas sangat tinggi,

maka dapat mengindikasikan adanya masalah

multikolinearitas. Selain itu, nilai Variance

Inflation Factor (VIF) juga dapat digunakan

untuk mendeteksi adanya multikolinearitas.

Nilai VIF dirumuskan sebagai berikut,

VIF� = �1 − R��(�

R�� merupakan koefisien determinasi dari

regresi dengan X� sebagai peubah respon dan

peubah X yang lain sebagai peubah bebas. Jika

X� tidak berkorelasi dengan peubah bebas lain,

maka R�� akan bernilai kecil dan nilai VIF

mendekati 1. Sebaliknya jika X� mempunyai

korelasi dengan peubah bebas lain, maka R��

akan mendekati 1 dan nilai VIF menjadi besar.

Jika nilai VIF lebih besar dari 10, maka

menunjukkan adanya multikolinearitas

(Montgomery & Peck 1992).

Terdapat beberapa cara untuk mengatasi

masalah multikolinearitas, di antaranya adalah

membuang peubah bebas yang mempunyai

korelasi yang tinggi terhadap peubah bebas

lainnya, menambah data pengamatan, dan

melakukan transformasi terhadap peubah-

peubah bebas yang mempunyai kolinearitas

(Juanda 2009). Selain itu, multikolinearitas

juga dapat diatasi dengan menggunakan

regresi gulud, regresi kuadrat terkecil parsial,

dan regresi komponen utama (Izenman 2008).

Regresi Gulud

Regresi gulud diperkenalkan pertama kali

oleh Hoerl pada tahun 1962 untuk

mengendalikan ketidakstabilan penduga

kuadrat terkecil (Hoerl & Kennard 1970).

Regresi gulud merupakan metode pendugaan

alternatif yang dapat digunakan ketika terdapat

kolinearitas yang tinggi antar peubah bebas

(Chatterjee & Hadi 2006).

Solusi regresi gulud diperoleh dengan

cara yang sama seperti metode kuadrat

terkecil, yaitu dengan meminimumkan jumlah

kuadrat sisaan. Regresi gulud menambahkan

kendala pada kuadrat terkecil sehingga

koefisien menyusut mendekati nol (Hastie et

al. 2008). Secara spesifik, penduga koefisien

pada regresi gulud (β�)*+*,� diperoleh dengan

cara meminimumkan persamaan sebagai

berikut,

β�)*+*, = ∑ �y� − β − ∑ x��β��

��

dengan kendala ∑ β�� ≤ t�

�� ,

dimana t merupakan suatu besaran yang

mengontrol besarnya penyusutan dengan nilai

t ≥ 0.

Regresi gulud menghasilkan solusi unik

dalam bentuk matriks sebagai berikut,

/"01213 = �454 + 67�(8459

Keterangan:

I : matriks identitas berukuran pxp

λ : parameter gulud dengan nilai λ ≥ 0

Nilai λ berperan dalam mengontrol

besarnya penyusutan. Salah satu cara untuk

mencari nilai λ yang optimal adalah dengan

menggunakan ridge trace, yaitu simulasi plot

antara komponen β(λ) dengan nilai λ (Hoerl &

Kennard 1970). Jika λ=0, maka model menjadi

bentuk standar. Jika λ dinaikkan, maka nilai

mutlak dugaan koefisiennya menjadi semakin

kecil menuju nol untuk λ menuju tak hingga

(Draper & Smith 1992).

Selain itu, pemilihan nilai λ yang optimal

juga dapat diperoleh dengan menggunakan

validasi silang terampat atau Generalized

Cross Validation (GCV). Penduga koefisien

yang optimal diperoleh dari pemilihan nilai λ

yang menghasilkan nilai GCV paling

3

minimum (Montgomery & Peck 1992). Nilai

GCV dirumuskan sebagai berikut,

GCV = ∑ e�,>�?��

@n − B1 + tr�D>�EF�

Keterangan:

ei, λ : sisaan ke-i untuk nilai spesifik λ

H : matriks hat

Penduga yang dihasilkan oleh regresi

gulud merupakan penduga yang berbias tetapi

cenderung lebih stabil dibandingkan dengan

penduga MKT (Chatterjee & Hadi 2006).

Akan tetapi, interpretasi model pada regresi

gulud relatif lebih sulit dibandingkan metode

seleksi jika jumlah peubah bebas yang

digunakan sangat banyak.

Regresi gulud menghasilkan penduga

koefisien yang disusutkan kearah nol seiring

dengan peningkatan nilai λ. Oleh karena itu,

seleksi peubah tidak dapat dilakukan oleh

regresi gulud karena secara simultan koefisien

yang diduga mungkin tidak bernilai nol.

Metode LASSO muncul untuk memerankan

prinsip regresi gulud sekaligus seleksi peubah.

LASSO Metode Least Absolute Shrinkage and

Selection Operator (LASSO) diperkenalkan

pertama kali oleh Tibshirani pada tahun 1996.

Penduga koefisien LASSO tidak dapat

diperoleh dalam bentuk tertutup seperti pada

MKT atau regresi gulud, tetapi dengan

menggunakan pemrograman kuadratik (Hastie

et al. 2008). Metode LASSO mulai dikenal

setelah ditemukannya algoritma LAR pada

tahun 2004 oleh Effron. Penduga koefisien

pada metode LASSO (β�GHIIJ� diperoleh

dengan cara meminimumkan persamaan

sebagai berikut (Tibshirani 1996),

β�GHIIJ = ∑ �y� − β − ∑ x��β��

��

dengan kendala ∑ �β�� ≤ t�� .

Nilai t merupakan suatu besaran yang

mengontrol besarnya penyusutan pada

pendugaan koefisien LASSO dengan t ≥ 0.

Jika β�K merupakan penduga kuadrat terkecil

dan t = ∑ �β� �� , maka nilai t < t0 akan

menyebabkan solusi MKT menyusut ke arah

nol, dan memungkinkan beberapa koefisien

tepat nol. Jika nilai t yang dipilih lebih besar

atau sama dengan daripada t0, maka penduga

LASSO memberikan hasil yang sama dengan

penduga kuadrat terkecil (Tibshirani 1996).

Pendugaan koefisien LASSO diperoleh

dengan menentukan batas yang dibakukan,

yaitu L = M/∑�NOK � dengan M = ∑�NOK� dan NOK

adalah penduga kuadrat terkecil untuk model

penuh atau pada gambar ditulis sebagai

|beta|/max |beta| (Dewi 2010).

Perbedaan antara regresi gulud dan

LASSO terletak pada kendala pendugaan

koefisien regresi. Kendala pada regresi gulud

adalah ∑ β�� ≤ t�

�� sedangkan kendala pada

metode LASSO adalah ∑ �β�� ≤ t�� .

Perbedaan kendala antara kedua metode

tersebut menyebabkan dugaan koefisien yang

diperoleh metode LASSO cenderung lebih

kecil dibandingkan dugaan koefisien dengan

regresi gulud. Koefisien regresi gulud hanya

disusutkan ke arah nol, sedangkan koefisien

LASSO dapat disusutkan sampai tepat nol

sehingga dapat berfungsi sebagai seleksi

peubah seperti regresi bertatar atau regresi

subset terbaik.

Algoritma LAR Least Angle Regression (LAR)

merupakan suatu metode regresi yang

algoritmanya dapat dimodifikasi menjadi

algoritma komputasi untuk metode LASSO.

Modifikasi dari LAR untuk LASSO

menghasilkan efisiensi algoritma dalam

menduga koefisien LASSO dengan komputasi

yang lebih cepat dibandingkan pemrograman

kuadratik.

Algoritma LAR adalah sebagai berikut

(Hastie et al. 2008):

1. Membakukan peubah bebas sehingga

memiliki nilai tengah nol dan ragam satu.

Dimulai dengan sisaan r = y-yP, dan β1,

β2,…, βp = 0. Pembakuan ini dimaksudkan

agar dapat membandingkan dugaan

koefisien regresi yang memiliki ragam

yang berbeda dalam suatu model.

2. Mencari peubah bebas xj yang paling

berkorelasi dengan r.

3. Mengubah nilai βj dari 0 bergerak menuju

koefisien kuadrat terkecil (xj,r), sampai

kompetitor xk yang lain memiliki korelasi

yang cukup dengan sisaan akibat xj.

4. Mengubah nilai βj dan βk bergerak ke arah

koefisien kuadrat terkecil bersama dari

sisaan sekarang dengan (xj,xk), sampai

kompetitor xl yang lain memiliki korelasi

yang cukup dengan sisaan akibat (xj,xk).

Modifikasi algoritma LAR untuk

mendapatkan solusi LASSO adalah dengan

memodifikasi langkah ke-4 menjadi:

4

4a. Jika koefisien bukan nol mencapai nilai

nol, keluarkan peubah tersebut dari gugus

peubah aktif dan hitung kembali arah

kuadrat terkecil bersama.

5. Mengulang langkah nomor 4 sampai

semua p peubah bebas dimasukkan.

Setelah min(N-1,p) langkah, solusi model

penuh untuk kuadrat terkecil diperoleh.

LAR selalu mengambil p langkah untuk

mendapatkan penduga kuadrat terkecil secara

penuh, sedangkan modifikasi LAR untuk

LASSO dapat memiliki lebih dari p langkah

untuk mendapatkannya. Algoritma LASSO

dengan memodifikasi LAR merupakan cara

yang efisien dalam komputasi solusi masalah

LASSO, terutama ketika jumlah peubah bebas

yang digunakan jauh lebih banyak daripada

data amatannya (Hastie et al. 2008).

Validasi Silang

Terdapat beberapa metode pemilihan

model terbaik, antara lain nilai Cp Mallows.

validasi silang atau Cross Validation (CV),

dan validasi silang terampat atau Generalized

Cross Validation (GCV). Validasi silang

membagi data menjadi dua bagian, yaitu data

training dan data test. Data training digunakan

untuk mengepas nilai β� , sedangkan data test

digunakan untuk menguji kebaikan prediksi

dari Xβ� . Nilai validasi silang yang diperoleh

merupakan penduga bagi sisaan prediksi

(Izenman 2008).

Salah satu metode tipe validasi silang

adalah k-fold. Metode ini memiliki kelebihan

ketika jumlah data amatan yang digunakan

sedikit. Dalam validasi silang k-fold, semua

observasi dipartisi secara acak ke dalam k sub-

contoh. Setiap sub-contoh digunakan sebagai

data test dan sisanya digunakan sebagai data

training. Proses validasi silang diulang sampai

k kali, dan setiap satu sub-contoh digunakan

hanya sekali dalam data test.

Nilai sisaan prediksi �PES� diduga oleh

validasi silang dengan menggunakan

persamaan sebagai berikut,

PES = CV = �T∑ ∑ �y� − yU(V�x��

��WX,YX�∈[

TV��

dengan yU(V�x�� adalah dugaan y untuk xi pada

saat fold ke-k tidak digunakan dalam menduga

model, dan yi adalah peubah respon ke-i pada

data test T. Menurut Izenman (2008), validasi

silang yang sebaiknya digunakan adalah

validasi silang 5-fold atau 10-fold karena

menghasilkan nilai PES dengan bias tinggi

tetapi ragam rendah.

DATA DAN METODE

Data

Respon yang digunakan dalam penelitian

ini adalah persentase balita penderita gizi

buruk di Indonesia. Terdapat lima belas

peubah bebas yang diduga berpengaruh

terhadap respon, yaitu sebagai berikut:

X1 : Persentase tingkat kemiskinan

X2 : Persentase angka melek huruf

X3 : Persentase anak umur 12-23 bulan yang

mendapatkan imunisasi dasar lengkap

X4 : Persentase Frekuensi Penimbangan

anak umur 6-59 bulan ≥ 4 kali selama

enam bulan terakhir

X5 : Persentase kepemilikan KMS anak

balita

X6 : Persentase anak umur 6-59 bulan yang

menerima kapsul vitamin A selama

enam bulan terakhir

X7 : Persentase anak balita yang ditimbang

ketika baru lahir

X8 : Persentase berat badan bayi baru lahir

anak balita (< 2500 gr)

X9 : Persentase kunjungan neonatus lengkap

(KN1, KN2, KN3)

X10 : Persentase bayi yang diberi makanan

prelakteal

X11 : Persentase anak usia 0-23 bulan yang

masih disusui

X12 : Persentase rumah tangga menurut akses

terhadap air minum ‘berkualitas’ baik

X13 : Persentase rumah tangga menurut akses

terhadap pembuangan tinja layak Sesuai

MDGs

X14 : Persentase rumah tangga dengan

penanganan sampah baik

X15 : Persentase rumah tangga dengan

kriteria rumah sehat

Data yang digunakan dalam penelitian ini

merupakan data sekunder yang diperoleh dari

Badan Pusat Statistik dan Laporan Hasil Riset

Kesehatan Dasar (Riskesdas) tahun 2010.

Riset tersebut dilakukan oleh Badan Penelitian

dan Pengembangan Kesehatan (Balitbangkes)

Kementerian Kesehatan RI yang dilaksanakan

di 33 provinsi di Indonesia. Data peubah X1

dan X2 diperoleh dari BPS, sedangkan data

peubah lain diperoleh dari Riskesdas.

Metode

Tahapan yang dilakukan dalam penelitian

ini adalah sebagai berikut:

1. Membakukan peubah bebas X sehingga

memiliki nilai tengah nol dan ragam satu,

serta dapat membandingkan koefisien

regresi setiap metode.

5

2. Eksplorasi awal berupa plot antara peubah

X dan Y, serta korelasi antar peubah.

3. Membakukan peubah bebas X sehingga

memiliki nilai tengah nol dan ragam satu.

4. Melakukan analisis regresi menggunakan

MKT.

5. Mendeteksi adanya multikolinearitas

dengan melihat nilai Variance Inflation

Factor (VIF).

6. Melakukan analisis regresi gulud.

a) Memilih nilai λ yang paling optimal

dari ridge trace dengan menggunakan

GCV.

b) Analisis regresi menggunakan regresi

gulud dengan nilai λ optimal.

7. Melakukan analisis regresi dengan metode

LASSO.

a) Menentukan penduga koefisien regresi

LASSO untuk setiap tahapan.

b) Memilih model terbaik dengan

menggunakan CV.

c) Menduga koefisien model terbaik yang

telah dipilih.

8. Membandingkan penduga koefisien regresi

yang dihasilkan oleh MKT, regresi gulud

dan LASSO.

Analisis dalam penelitian ini

menggunakan program R versi 2.15 dengan

paket tambahan MASS dan LARS. Paket

MASS digunakan untuk melakukan

pendugaan model dengan menggunakan

regresi gulud, sedangkan paket LARS

digunakan untuk melakukan pendugaan model

dengan menggunakan metode LASSO.

HASIL DAN PEMBAHASAN

Eksplorasi Data

Eksplorasi data diawali dengan membuat

plot antara peubah respon (Y) dengan setiap

peubah bebasnya (X). Berdasarkan hasil plot

terlihat bahwa pada umumnya pencaran titik

cenderung mengikuti garis lurus, sehingga

secara grafis terlihat bahwa terdapat hubungan

linier antara Y dan X (Lampiran 1).

Hubungan antar peubah bebas dapat

terlihat pada hasil korelasi antar peubah bebas.

Pada Lampiran 2 terlihat bahwa terdapat

beberapa peubah bebas yang memiliki korelasi

cukup besar dengan peubah bebas lainnya. X9

memiliki korelasi cukup besar dengan X4, X6,

dan X13, X6 memiliki korelasi cukup besar

dengan X7, sedangkan X13 memiliki korelasi

cukup besar dengan X14. Hal tersebut dapat

mengindikasikan adanya masalah

multikolinearitas pada data yang digunakan.

Regresi Linier Berganda dengan Metode

Kuadrat Terkecil

Analisis regresi linier berganda dengan

menggunakan MKT menghasilkan model

dengan nilai F-hitung sebesar 6.3926 dan

nilai-p sebesar 0.0002. Dengan demikian

model yang dihasilkan nyata pada taraf 5%.

Hasil analisis ragam dengan menggunakan

MKT dapat terlihat pada Tabel 1.

Tabel 1 Analisis ragam hasil MKT

Sumber

Keragaman db

Jumlah

Kuadrat

Kuadrat

Tengah

F-

hitung

Regresi 15 405.553 27.037 6.3926

Sisaan 17 71.900 4.229

Total 32 477.453

Dari lima belas peubah bebas yang

digunakan dalam analisis hanya persentase

anak balita yang ditimbang ketika baru lahir

(X7), persentase anak usia 0-23 bulan yang

masih disusui (X11), dan persentase rumah

tangga dengan kriteria rumah sehat (X15)

yang berpengaruh nyata terhadap balita

penderita gizi buruk di Indonesia (Tabel 2).

Hal tersebut terlihat dari nilai-p yang kurang

dari 5%.

Tabel 2 Koefisien regresi hasil MKT

Peubah Dugaan

Koefisien Nilai-p

Intersep 6.4333 1.51E-12

X1 1.1545 0.0703

X2 0.5652 0.3920

X3 1.3209 0.0982

X4 0.5645 0.4728

X5 0.5484 0.4194

X6 -0.8329 0.3199

X7 -2.6545 0.0041

X8 0.6663 0.2724

X9 -2.0980 0.1098

X10 -1.1870 0.0977

X11 1.2976 0.0344

X12 0.8187 0.2417

X13 0.9288 0.3482

X14 -0.6124 0.4248

X15 1.7600 0.0153

6

Mendeteksi Multikolinearitas

Eksplorasi data antar peubah bebas pada

Lampiran 2 menunjukkan adanya korelasi

antara beberapa peubah bebas. Adanya

masalah multikolinearitas lebih terlihat dari

nilai VIF yang dihasilkan karena terdapat nilai

VIF yang lebih besar dari 10, yaitu sebesar

11.700 pada peubah X9. Dengan demikian,

dapat diketahui bahwa terdapat korelasi antara

peubah X9 dengan peubah lainnya. Nilai VIF

untuk setiap peubah bebas ke-j dapat terlihat

pada Tabel 3.

Tabel 3 Nilai VIF untuk setiap peubah bebas

Peubah VIF

X1 2.704

X2 3.133

X3 4.312

X4 4.472

X5 3.323

X6 4.999

X7 4.845

X8 2.611

X9 11.700

X10 3.471

X11 2.409

X12 3.447

X13 7.014

X14 4.242

X15 3.223

Selain itu, masalah multikolinearitas juga

dapat terlihat dari nilai koefisien determinasi

yang cukup besar pada model regresi hasil

pendugaan dengan menggunakan MKT, yaitu

sebesar 84.94%, tetapi banyak peubah bebas

yang tidak berpengaruh nyata terhadap respon.

Adanya multikolinearitas menyebabkan tanda

beberapa koefisien regresi berbeda dengan

tanda korelasi sederhananya, seperti X2, X3,

X4, X5, X12, X13, dan X15.

Regresi Gulud Adanya multikolinearitas pada data yang

digunakan, diatasi dengan menggunakan

regresi gulud. Penduga koefisien gulud

diperoleh dari pemilihan nilai λ yang optimal.

Hasil ridge trace pada Gambar 1 menunjukkan

hasil yang bersifat subjektif dalam pemilihan

nilai λ. Hal tersebut dikarenakan sulitnya

menentukan nilai λ yang paling minimum

ketika nilai β(λ) mulai stabil pada setiap

peubah bebas.

Nilai λ yang optimal selanjutnya dapat

diperoleh dari nilai GCV yang paling

minimum, yaitu ketika λ sebesar 3.6. Pada

Gambar 1 nilai λ yang optimal digambarkan

dengan garis vertikal.

.

Gambar 1 Ridge Trace

Berdasarkan nilai λ yang dipilih, maka

penduga koefisien hasil analisis dengan

menggunakan regresi gulud dapat terlihat pada

Tabel 4. Adanya nilai λ pada regresi gulud

menyebabkan dugaan koefisien regresi yang

dihasilkan menyusut. Dugaan koefisien regresi

gulud cenderung lebih kecil dibandingkan

dengan dugaan koefisien regresi MKT.

Tabel 4 Koefisien regresi hasil MKT dan

regresi gulud

Peubah MKT Regresi gulud

Intersep 6.4333 6.4333

X1 1.1545 1.0058

X2 0.5652 0.3411

X3 1.3209 0.4354

X4 0.5645 0.5420

X5 0.5484 0.1327

X6 -0.8329 -0.8117

X7 -2.6545 -1.9402

X8 0.6663 0.7648

X9 -2.0980 -0.9426

X10 -1.1870 -0.4251

X11 1.2976 0.6637

X12 0.8187 0.4667

X13 0.9288 0.3587

X14 -0.6124 -0.3648

X15 1.7600 1.0039

0 20 40 60 80 100

-2-1

01

x$lambda

t(x$coef)

7

Keragaman koefisien regresi hasil analisis

dengan menggunakan MKT dan gulud dapat

terlihat dari nilai simpangan baku koefisien

regresi (S\]). Pada Tabel 5 terlihat bahwa

keragaman koefisien regresi yang dihasilkan

oleh regresi gulud relatif lebih kecil

dibandingkan dengan MKT. Dengan

demikian, penduga gulud cenderung lebih

stabil dibandingkan dengan penduga MKT.

Tabel 5 Simpangan baku koefisien hasil

analisis regresi dengan MKT dan

gulud

Peubah MKT Gulud

X1 0.5978 0.4062

X2 0.6435 0.4114

X3 0.7549 0.4373

X4 0.7688 0.4565

X5 0.6627 0.4252

X6 0.8129 0.4724

X7 0.8009 0.4773

X8 0.5874 0.3899

X9 1.2435 0.4756

X10 0.6773 0.4115

X11 0.5642 0.3911

X12 0.6749 0.4266

X13 0.9628 0.4801

X14 0.7488 0.4597

X15 0.6527 0.4222

Penduga koefisien regresi gulud hanya

disusutkan kearah nol sehingga tidak dapat

melakukan seleksi peubah. Dengan demikian,

interpretasi regresi gulud akan semakin sulit

ketika jumlah peubah bebas yang digunakan

sangat banyak.

LASSO Metode LASSO juga dapat digunakan

untuk mengatasi masalah multikolinearitas

yang terjadi pada analisis regresi linier

berganda. Penduga koefisien LASSO

diperoleh melalui komputasi dengan

memodifikasi algoritma LAR sehingga

menghasilkan algoritma yang lebih efisien

dibandingkan pemrograman kuadratik.

Hasil modifikasi algoritma LAR untuk

LASSO dapat terlihat pada Gambar 2. Pada

metode LASSO, tahap inisialisasi diawali

dengan menetapkan semua koefisien dengan

angka nol. Selanjutnya, peubah yang memiliki

korelasi tinggi dengan sisaan masuk ke dalam

model.

Pada iterasi pertama, peubah X7

merupakan peubah yang memiliki korelasi

yang paling tinggi dengan sisaan dibandingkan

peubah lainnya sampai ∑�β� ��/max ∑�β� �� sekitar 0.127958 masuk peubah X1. Peubah

X8 masuk berikutnya ke dalam model dengan

∑�β� ��/max ∑�β� �� sekitar 0.160727 dan

seterusnya sampai peubah X5 merupakan

peubah yang terakhir masuk ke dalam model

(Tabel 6).

Gambar 2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO

* ****** * * ** * ** *

*

0.0 0.2 0.4 0.6 0.8 1.0

-15

-10

-50

510

|beta|/max|beta|

Standardized Coefficients

* ** *** * * * ** * ** *

*

* ** *** * * * ***

** *

*

* ** *** * * *

*** ** * *

* ** *** * * * ** * ** *

*

* ** *** * * *** * ** *

*

*

** *** * * * ** * ** **

* ****** * * ** * ** * *

* ** *** * * *** *

** *

*

* ** *** * * * ** *** *

*

* ** *** ** *

** * ** *

*

* ** *** * * * ** * ** *

*

* ** *** * * * ** * ** *

*

* ** *** * * * ** * ** *

*

* ** ***** *

***

** *

*7

910

14

51

15

0 1 5 7 9 11 14 15

8

Tabel 6 Peubah bebas yang masuk dalam

model untuk setiap tahapan pada

metode LASSO

Tahap Peubah bebas yang masuk ke

dalam model

1 X7

2 X7 X1

3 X7 X1 X8

4 X7 X1 X8 X6

5 X7 X1 X8 X6 X9

6 X7 X1 X8 X6 X9 X15

7 X7 X1 X8 X6 X9 X15 X11

8 X7 X1 X8 X6 X9 X15 X11 X4

9 X7 X1 X8 X6 X9 X15 X11 X4

X12

10 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2

11 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2 X3

12 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2 X3 X10

13 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2 X3 X10 X13

14 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2 X3 X10 X13 X14

15 X7 X1 X8 X6 X9 X15 X11 X4

X12 X2 X3 X10 X13 X14 X5

Koefisien model regresi untuk setiap

tahapan dapat terlihat pada Lampiran 3. Nilai

∑�β� ��/max∑�β� �� untuk setiap tahapan dapat

terlihat pada Lampiran 4.

Pemilihan Model Terbaik LASSO

Pemilihan model terbaik dalam metode

LASSO dilakukan dengan menggunakan

kriteria validasi silang, yaitu dengan

menggunakan mode fraction dan mode step.

Pada mode fraction, nilai validasi silang

dihitung berdasarkan ∑�β� ��/max ∑�β� �� (Gambar 3).

Gambar 3 Nilai validasi silang dengan

menggunakan mode fraction

Pada Gambar 3 terlihat bahwa fraction

∑�β� ��/max ∑�β� �� sekitar 0.253796 merupakan

nilai CV yang minimum. Nilai CV minimum

tersebut dapat berbeda setiap kali melakukan

pemanggilan fungsinya. Dari beberapa

pengulangan maka diperoleh CV turun dan

kemudian naik kembali pada nilai sekitar

0.253796. Pada Lampiran 4 terlihat bahwa

nilai ∑�β� ��/max ∑�β� �� sekitar 0.253796 berada

antara tahap 7.

Mode step menghitung nilai validasi silang

pada setiap tahapan dimana satu peubah

masuk dalam model. Pemilihan model terbaik

dengan menggunakan mode step dalam

menghitung nilai CV menunjukkan bahwa

model terbaik terlihat pada tahap 7 (Gambar

4). Hal tersebut dikarenakan pada tahap 7

memberikan nilai CV yang merupakan titik

belok dari turun menjadi naik pertama.

Gambar 4 Nilai validasi silang dengan

menggunakan mode step

Berdasarkan kedua metode validasi silang

tersebut, maka model terbaik LASSO yang

terpilih pada data ini adalah model pada tahap

ke-7. Terdapat tujuh peubah bebas yang

masuk ke dalam model pada tahap ke-7, yaitu

X1, X6, X7, X8, X9, X11, dan X15.

Perbandingan Model Hasil MKT, Gulud,

dan LASSO

Adanya kendala pada regresi gulud dan

LASSO menyebabkan dugaan koefisien

regresi kedua metode tersebut menyusut.

Perbedaan kendala antara regresi gulud dan

LASSO menghasilkan dugaan koefisien

LASSO cenderung lebih kecil dibandingkan

dugaan koefisien regresi gulud. Perbandingan

koefisien regresi hasil analisis dengan

menggunakan MKT, regresi gulud, dan

LASSO dapat terlihat pada Tabel 7.

0.0 0.2 0.4 0.6 0.8 1.0

510

15

20

Fraction of final L1 norm

Cross-Validated MSE

5 10 15

510

15

20

Number of steps

Cross-Validated MSE

9

Tabel 7 Koefisien regresi hasil MKT, gulud,

dan LASSO

Peubah MKT Gulud LASSO

Intersep 6.4333 6.4333 6.4333

X1 1.1545 1.0058 0.6234

X2 0.5652 0.3411 0.0000

X3 1.3209 0.4354 0.0000

X4 0.5645 0.5420 0.0000

X5 0.5484 0.1327 0.0000

X6 -0.8329 -0.8117 -0.0907

X7 -2.6545 -1.9402 -2.3451

X8 0.6663 0.7648 0.5591

X9 -2.0980 -0.9426 -0.0230

X10 -1.1870 -0.4251 0.0000

X11 1.2976 0.6637 0.1684

X12 0.8187 0.4667 0.0000

X13 0.9288 0.3587 0.0000

X14 -0.6124 -0.3648 0.0000

X15 1.7600 1.0039 0.5073

Pada Tabel 7 terlihat bahwa regresi gulud

hanya menyusutkan koefisien hasil MKT ke

arah nol, sedangkan LASSO dapat

menyusutkan koefisien hasil MKT sampai

tepat nol sehingga secara otomatis peubah-

peubah bebas tersebut akan terseleksi dari

model yang terpilih.

Peubah-peubah bebas yang terseleksi dari

model LASSO merupakan peubah bebas yang

tidak berpengaruh nyata terhadap respon dari

hasil MKT, dan atau peubah bebas yang

memiliki korelasi dengan peubah bebas

lainnya. Dengan demikian, metode LASSO

dapat menyederhanakan model dan secara

tidak langsung masalah multikolinearitas dapat

teratasi.

Peubah-peubah bebas yang berpengaruh

nyata terhadap balita penderita gizi buruk dari

hasil MKT seperti X7, X11, dan X15 tetap

masuk dalam model LASSO yang terpilih.

Akan tetapi, tidak seluruh peubah bebas yang

tidak berpengaruh nyata dari hasil MKT

disusutkan sampai tepat nol. Hal tersebut

dikarenakan pemilihan model terbaik dengan

menggunakan validasi silang yang nilainya

dapat berbeda setiap kali melakukan

pemanggilan fungsinya.

SIMPULAN DAN SARAN

Simpulan

Regresi gulud dapat mengatasi masalah

multikolinearitas melalui pemilihan nilai λ

yang tepat. Regresi gulud tidak dapat

melakukan seleksi peubah bebas karena hanya

menyusutkan koefisien MKT ke arah nol,

sehingga interpretasi akan semakin sulit jika

peubah bebas yang digunakan semakin

banyak. Berdasarkan data yang digunakan,

metode LASSO lebih baik digunakan karena

model yang dihasilkan lebih sederhana dan

dapat memperbaiki masalah multikolinearitas

melalui penyusutan koefisien tepat nol.

Saran

Saran untuk penelitian selanjutnya

diharapkan dapat membandingkan metode

MKT, gulud, dan LASSO dengan

menggunakan simulasi untuk mengetahui

sifat-sifat dari ketiga metode tersebut.

DAFTAR PUSTAKA

Aunuddin. 2005. Statistika: Rancangan dan

Analisis Data. Bogor: IPB Press.

[BPS]Badan Pusat Statistik. 2011.

Perkembangan Beberapa Indikator

Utama Sosial-Ekonomi Indonesia.

http://www.bps.go.id/hasil_publikasi/flip

_2011/3101015/index11.php?pub=Perke

mbangan%20Beberapa%20Indikator%20

Utama%20SosialEkonomi%20Indonesia

%20Edisi%20November%202011 [30

Jun 2012].

Chatterjee S, Hadi AS. 2006. Regression

Analysis by Example. Ed ke-4. USA:

John Wiley & Sons, Inc.

[Depkes] Departemen Kesehatan. 2010. Riset

Kesehatan Dasar. Jakarta: Depkes RI.

Dewi YS.2010.OLS, LASSO dan PLS pada

Data Mengandung Multikolinearitas.

Jurnal Ilmu Dasar 11(1): 83-91.

Draper N, Smith H. 1992. Analisis Regresi

Terapan Edisi ke 2. Sumantri B,

penerjemah. Jakarta: Gramedia Pustaka

Utama. Terjemahan dari: Applied

Regression Analysis.

Hastie T, Tibshirani R, Friedman J. 2008. The

Elements of Statistical Learning. Data

Mining, Inference, and Prediction. Ed

ke-2. New York: Springer.

Hoerl AE, Kennard RW. 1970. Ridge

Regression: Biased Estimation for

Nonorthogonal Problems. Technometrics

12(1): 55-67.

Izenman AJ. 2008. Modern Multivariate

Statistical Techniques: Regression,

Classification, and Manifold Learning.

New York: Springer.

Juanda B. 2009. Ekonometrika: Pemodelan

dan Pendugaan. Bogor: IPB Press.

10

Montgomery DC, Peck EA. 1992.

Introduction to Linier Regression

Analysis. Ed ke-2. USA: John Wiley &

Sons, Inc.

Pasha GR, Shah AA. 2004. Application of

Ridge Regression to Multicollinear Data.

Journal of Research 15(1): 97-106.

Tibshirani R. 1996. Regression Shrinkage and

Selection via the LASSO. Journal of the

Royal Statistical Society Series B 58(1):

267-288.

LAMPIRAN

12

Lampiran 1 Plot masing-masing peubah bebas (X) dan peubah respon (Y)

40200 958575 806040 906030

20

10

0

806040

20

10

0

907560 1007550 201510

80400 604020 807264 806040

20

10

0

806040

20

10

0

80400 453015

X1

YX2 X3 X4

X5 X6 X7 X8

X9 X10 X11 X12

X13 X14 X15

13

Lampiran 2 Nilai korelasi antar peubah

Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15

X1 0.525 1.000 -0.494 -0.345 0.001 0.055 -0.287 -0.5 0.21 -0.176 -0.387 0.073 -0.287 -0.438 -0.362 -0.358

X2 -0.196 -0.494 1.000 0.111 -0.150 -0.057 0.048 0.223 -0.364 -0.078 0.611 -0.205 0.165 0.277 0.202 0.369

X3 -0.494 -0.345 0.111 1.000 0.586 0.471 0.698 0.655 -0.242 0.675 0.186 -0.242 0.399 0.571 0.415 0.198

X4 -0.282 0.001 -0.150 0.586 1.000 0.624 0.679 0.494 -0.175 0.731 -0.207 0.035 0.609 0.376 0.395 -0.033

X5 -0.375 0.055 -0.057 0.471 0.624 1.000 0.658 0.490 -0.220 0.654 -0.173 -0.106 0.312 0.412 0.425 -0.045

X6 -0.631 -0.287 0.048 0.698 0.679 0.658 1.000 0.752 -0.336 0.700 0.097 -0.027 0.557 0.469 0.372 0.119

X7 -0.800 -0.500 0.223 0.655 0.494 0.490 0.752 1.000 -0.518 0.698 0.184 -0.188 0.526 0.639 0.511 0.448

X8 0.530 0.210 -0.364 -0.242 -0.175 -0.220 -0.336 -0.518 1.000 -0.508 -0.061 0.163 -0.310 -0.488 -0.362 -0.362

X9 -0.596 -0.176 -0.078 0.675 0.731 0.654 0.700 0.698 -0.508 1.000 -0.217 -0.185 0.627 0.743 0.672 0.195

X10 -0.119 -0.387 0.611 0.186 -0.207 -0.173 0.097 0.184 -0.061 -0.217 1.000 0.024 0.096 0.094 -0.080 0.400

X11 0.192 0.073 -0.205 -0.242 0.035 -0.106 -0.027 -0.188 0.163 -0.185 0.024 1.000 -0.094 -0.464 -0.443 -0.522

X12 -0.331 -0.287 0.165 0.399 0.609 0.312 0.557 0.526 -0.310 0.627 0.096 -0.094 1.000 0.606 0.603 0.298

X13 -0.503 -0.438 0.277 0.571 0.376 0.412 0.469 0.639 -0.488 0.743 0.094 -0.464 0.606 1.000 0.815 0.554

X14 -0.444 -0.362 0.202 0.415 0.395 0.425 0.372 0.511 -0.362 0.672 -0.080 -0.443 0.603 0.815 1.000 0.424

X15 -0.212 -0.358 0.369 0.198 -0.033 -0.045 0.119 0.448 -0.362 0.195 0.400 -0.522 0.298 0.554 0.424 1.000

14

Lampiran 3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan

Tahapan X1 X2 X3 X4 X5 X6 X7 X8

0 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 0.0000000 0.0000000

1 0.00000000 0.00000000 0.0000000 0.00000000 0.00000000 0.00000000 -2.120658 0.0000000

2 0.02793919 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 -2.148598 0.0000000

3 0.26198708 0.00000000 0.0000000 0.0000000 0.0000000 0.00000000 -2.240024 0.2319052

4 0.35890897 0.00000000 0.0000000 0.0000000 0.0000000 -0.0991065 -2.188189 0.3238946

5 0.39511371 0.00000000 0.0000000 0.0000000 0.0000000 -0.1251415 -2.163386 0.3509426

6 0.52952827 0.00000000 0.0000000 0.0000000 0.0000000 -0.0924380 -2.267452 0.4734736

7 0.62339949 0.00000000 0.0000000 0.0000000 0.0000000 -0.0907125 -2.345054 0.5591056

8 0.63871524 0.00000000 0.0000000 0.1087190 0.0000000 -0.1289478 -2.369281 0.5650357

9 0.71946600 0.00000000 0.0000000 0.4643464 0.0000000 -0.2873433 -2.435426 0.5891777

10 0.75059496 0.03717267 0.0000000 0.5266534 0.0000000 -0.3187327 -2.447390 0.6119289

11 0.82911204 0.07548259 0.1614031 0.5990276 0.0000000 -0.4246621 -2.484197 0.6153930

12 0.89386774 0.16941189 0.3272887 0.5865779 0.0000000 -0.4471272 -2.503613 0.6365250

13 0.90576624 0.17990956 0.3492921 0.5890391 0.0000000 -0.4484388 -2.504679 0.6380897

14 0.93695211 0.21606374 0.4097426 0.5972309 0.0000000 -0.4553521 -2.508435 0.6475368

15 1.15449169 0.56523828 1.3209366 0.5644759 0.5483645 -0.8328646 -2.654492 0.6663307

Tahapan X9 X10 X11 X12 X13 X14 X15

0 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

1 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

2 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

3 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

4 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

5 -0.0193468 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000

6 -0.0500960 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 0.2573776

7 -0.0230298 0.0000000 0.1683546 0.0000000 0.0000000 0.0000000 0.5073396

8 -0.0848570 0.0000000 0.2134023 0.0000000 0.0000000 0.0000000 0.5928408

9 -0.3501723 0.0000000 0.3713824 0.1207291 0.0000000 0.0000000 0.8758591

10 -0.3748439 0.0000000 0.4085372 0.1359669 0.0000000 0.0000000 0.9286722

11 -0.4907445 0.0000000 0.4973301 0.2048559 0.0000000 0.0000000 1.0197175

12 -0.6269609 -0.1577275 0.6040460 0.2694688 0.0000000 0.0000000 1.1347230

13 -0.6620621 -0.1799704 0.6219148 0.2752517 0.0192328 0.0000000 1.1467546

14 -0.7542239 -0.2514741 0.6700121 0.2982096 0.0931897 -0.0346044 1.1834009

15 -2.0979783 -1.1869971 1.2975972 0.8186781 0.9288331 -0.6123865 1.7600484

15

Lampiran 4 Nilai ∑�β� ��/max ∑�β� �� untuk setiap tahapan LASSO

Tahapan |X1| |X2| |X3| |X4| |X5| |X6| |X7| |X8| |X9|

0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000

1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.000000 0.000000

2 0.027939 0.000000 0.000000 0.000000 0.000000 0.000000 2.148598 0.000000 0.000000

3 0.261987 0.000000 0.000000 0.000000 0.000000 0.000000 2.240024 0.231905 0.000000

4 0.358909 0.000000 0.000000 0.000000 0.000000 0.099106 2.188189 0.323895 0.000000

5 0.395114 0.000000 0.000000 0.000000 0.000000 0.125142 2.163386 0.350943 0.019347

6 0.529528 0.000000 0.000000 0.000000 0.000000 0.092438 2.267452 0.473474 0.050096

7 0.623399 0.000000 0.000000 0.000000 0.000000 0.090713 2.345054 0.559106 0.023030

8 0.638715 0.000000 0.000000 0.108719 0.000000 0.128948 2.369281 0.565036 0.084857

9 0.719466 0.000000 0.000000 0.464346 0.000000 0.287343 2.435426 0.589178 0.350172

10 0.750595 0.037173 0.000000 0.526653 0.000000 0.318733 2.447390 0.611929 0.374844

11 0.829112 0.075483 0.161403 0.599028 0.000000 0.424662 2.484197 0.615393 0.490744

12 0.893868 0.169412 0.327289 0.586578 0.000000 0.447127 2.503613 0.636525 0.626961

13 0.905766 0.179910 0.349292 0.589039 0.000000 0.448439 2.504679 0.638090 0.662062

14 0.936952 0.216064 0.409743 0.597231 0.000000 0.455352 2.508435 0.647537 0.754224

15 1.154492 0.565238 1.320937 0.564476 0.548365 0.832865 2.654492 0.666331 2.097978

Tahapan |X10| |X11| |X12| |X13| |X14| |X15| sum |beta| |beta|/max|beta|

0 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000

1 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.120658 0.124673

2 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.176537 0.127958

3 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.733916 0.160727

4 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 2.970099 0.174612

5 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 3.053931 0.179540

6 0.000000 0.000000 0.000000 0.000000 0.000000 0.257378 3.670365 0.215781

7 0.000000 0.168355 0.000000 0.000000 0.000000 0.507340 4.316996 0.253796

8 0.000000 0.213402 0.000000 0.000000 0.000000 0.592841 4.701799 0.276418

9 0.000000 0.371382 0.120729 0.000000 0.000000 0.875859 6.213902 0.365315

10 0.000000 0.408537 0.135967 0.000000 0.000000 0.928672 6.540493 0.384515

11 0.000000 0.497330 0.204856 0.000000 0.000000 1.019718 7.401925 0.435159

12 0.157728 0.604046 0.269469 0.000000 0.000000 1.134723 8.357338 0.491327

13 0.179970 0.621915 0.275252 0.019233 0.000000 1.146755 8.520401 0.500914

14 0.251474 0.670012 0.298210 0.093190 0.034604 1.183401 9.056428 0.532427

15 1.186997 1.297597 0.818678 0.928833 0.612387 1.760048 17.009713 1.000000

PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE … · PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE...

Documents

Transcript of PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE … · PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE...