ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM ...

i

TESIS - SS142501

ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA DNA MICROARRAY UNTUK MENANGANI KASUS MULTICLASS IMBALANCE NUR SILVIYAH RAHMI NRP. 06211650010026 DOSEN PEMBIMBING Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.

PROGRAM MAGISTER DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA

ii

2018

TESIS – SS142501

ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA DNA MICROARRAY UNTUK MENANGANI KASUS MULTICLASS IMBALANCE

NUR SILVIYAH RAHMI NRP. 06211650010026

DOSEN PEMBIMBING Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.

PROGRAM MAGISTER DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2018

iv

LAMAN JUDUL

THESIS – SS142501

ENSEMBLE SUPPORT VECTOR MACHINE RANDOM UNDERSAMPLING FOR DNA MICROARRAY CLASSIFICATION TO OVERCOME MULTICLASS IMBALANCED

NUR SILVIYAH RAHMI SN 06211650010026

SUPERVISORS Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.

MAGISTER PROGRAMME DEPARTMENT OF STATISTICS FACULTY OF MATHEMATICS, COMPUTING, AND DATA SCIENCES INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2018

vii

ENSEMBLE SUPPORT VECTOR MACHINE DENGAN

RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA

DNA MICROARRAY UNTUK MENANGANI KASUS

MULTICLASS IMBALANCE

Nama Mahasiswa : Nur Silviyah Rahmi

NRP : 06211650010026

Pembimbing : Santi Wulan Purnami, M.Si., Ph.D.

Irhamah, M.Si., Ph.D.

ABSTRAK

Teknologi microarray melakukan pengukuran dalam skala besar dan paralel untuk

mengekspresikan puluhan ribu gen. Hal ini menjadi salah satu teknologi biologi molekuler

yang banyak diterapkan untuk memprediksi fungsi gen, subtipe baru dari tumor spesifik

dan klasifikasi kanker. Namun, data microarray diketahui memiliki karakteristik fitur

seperti dimensi tinggi, sampel kecil, noise tinggi dan distribusi kelas yang tidak seimbang

(imbalance). Metode Support Vector Machine (SVM) telah banyak digunakan dan

menunjukkan keberhasilan dalam banyak aplikasi utamanya dalam meningkatkan

performansi klasifikasi. Untuk mengatasi dimensi tinggi diterapkan metode Ensemble-

SVM. Metode ini mengelompokkan fitur secara clustering hirarki complete linkage dan

setiap kelompok akan dilakukan proses klasifikasi. Sedangkan kondisi imbalance data

menjadi masalah dalam klasifikasi, karena classifier akan condong memprediksi ke kelas

mayoritas dibandingkan kelas minoritas. Oleh Karena itu, diterapkan metode Random

Undersampling atau EnSVM-RUS yang berfungsi untuk menyeimbangkan jumlah kelas

mayoritas ke dalam kelas minoritas. Penelitian ini menggunakan threefold cross-validation

dengan metode seleksi fitur yaitu Fast Correlation Based Filter (FCBF). Metode

Multiclass yang digunakan yaitu SVM One Against One (OAO). Sedangkan kriteria

evaluasi performansi klasifikasi berdasarkan nilai akurasi, F-score dan G-mean serta

running time. Penelitian ini melakukan studi simulasi dengan skenario berbagai tingkatan

imbalance ratio (IR) yaitu rasio 1, 5, dan 8 untuk mengetahui performansi metode yang

diusulkan. Sedangkan penerapan pada data riil menggunakan data DNA Microarray

dengan IR 4,22; 15,00; dan 23,17 Hasilnya menunjukkan bahwa metode EnSVM-RUS-

OAO dengan 2 cluster memiliki performansi lebih tinggi dibandingkan metode EnSVM-

OAO dan EnSVM-OAO. Adanya peningkatan imbalance rasio tidak mempengaruhi

keunggulan metode EnSVM-RUS-OAO jika dibandingkan dengan metode metode EnSVM-

OAO dan EnSVM-OAO. Sedangkan pada penggunaan kernel, kernel RBF dan polynomial

menghasilkan performansi lebih tinggi dan waktu komputasi lebih singkat dari pada kernel

linear.

Kata Kunci: Kelas Imbalance, Klasifikasi Multiclass, Random Undersampling (RUS),

Ensemble Feature Subspace

viii

(Halaman ini sengaja dikosongkan)

ix

ENSEMBLE SUPPORT VECTOR MACHINE RANDOM

UNDERSAMPLING FOR DNA MICROARRAY

CLASSIFICATION TO OVERCOME

MULTICLASS IMBALANCED

Name of Student : Nur Silviyah Rahmi

Student Number : 06211650010026

Supervisors : Santi Wulan Purnami, M.Si., Ph.D.

Irhamah, M.Si., Ph.D.

ABSTRACT

Microarray technology measure on a large and parallel scale to express tens

thousands of genes. It has widely applied to predict gene function, new subtypes of specific

tumors and cancer classification. However, microarray data are known has feature

characteristics such as high dimension, small sample, high noise and imbalanced class

distribution. Support Vector Machine (SVM) has been widely used and shows the successful

in major applications to improve classification performance. To overcome the high

dimension, this research applies Ensemble-SVM method. This method classifies features

use clustering hierarchy and each group will be classified. While the condition of

imbalance data becomes a problem in classification, because the classifier will tend to

predict majority class compared to minority class. Therefore, a Random Undersampling

or EnSVM-RUS method is used to balance size of the majority class into minority class.

This research uses threefold cross-validation with feature selection method that is Fast

Correlation Based Filter (FCBF). Multiclass method used is SVM One Against One (OAO).

While the evaluation criteria of performance classification based on the value of accuracy,

F-score and G-mean and running time. This research performs simulation study with

various scenario level of ratio imbalance (IR) that is ratio 1, 5, and 8 to know the

performance of proposed method. While the application on real data using Microarray

DNA data with IR 4.22, 15.00 and 23.17 The results showed that the EnSVM-RUS-OAO

method with 2 clusters had higher performance than the EnSVM-OAO and EnSVM-OAO

methods. Increasing the ratio imbalance doesn’t affect the advantage of EnSVM-RUS-OAO

method when compared to EnSVM-OAO and EnSVM-OAO methods. While on the use of

kernel, RBF kernel and polynomials produces higher performance and shorter

computation time than linear kernels.

Keywords: Imbalanced Class, Multiclass SVM, Random Undersampling (RUS),

Ensemble Feature Subspace

x


xi

KATA PENGANTAR

Syukur Alhamdulillah penulis panjatkan kehadirat Allah SWT yang maha

menguasai segala ilmu dan alam. Atas rahmat, ridho dan hidayah-Nya sehingga

pengerjaan serta penulisan Tesis dengan judul “Ensemble Support Vector Machine

dengan Random Undersampling Pada Klasifikasi Data DNA Microarray Untuk

Menangani Kasus Multiclass Imbalance” dapat terselesaikan dengan baik dan

lancar.

Penulisan Tesis ini adalah salah satu syarat yang harus dipenuhi dalam

memperoleh gelar Magister sesuai dengan kurikulum Departemen Statistika

FMKSD-ITS Surabaya. Dalam penyelesaian Tesis serta laporan ini penulis tidak

terlepas dari bantuan serta dukungan dari berbagai pihak. Oleh karena itu penulis

ingin mengucapkan terima kasih sebesar-besarnya kepada:

1. Dr. Suhartono, M.Sc. selaku Ketua Departemen Statistika ITS yang telah

banyak memberikan inspirasi kepada mahasiswa untuk senantiasa berkarya.

2. Santi Wulan Purnami, M.Si., Ph.D. dan Irhamah, M.Si., Ph.D. selaku dosen

pembimbing yang dengan sabar memberikan bimbingan, arahan, dan masukan

selama pengerjaan Tesis.

3. Dr. rer.pol. Dedy Dwi P, M.Si. dan Dr. Purhadi, M.Sc. selaku dosen penguji

yang telah memberikan banyak tambahan ilmu selama proses perbaikan laporan

Tesis.

4. Dr. Ir. Setiawan, MS. selaku dosen wali yang telah membimbing dan

mengarahkan semenjak awal perkuliahan.

5. Dr. rer.pol. Heri Kuswanto, M.Si. selaku Ketua Program Studi Pascasarjana

Statistika ITS yang memberikan motivasi dalam pendidikan.

6. Seluruh dosen pengajar serta karyawan di departemen Statistika ITS, yang telah

memberikan bantuan dan ilmunya sebagai bekal dalam pengerjaan Tesis.

7. Suamiku Abdul Ghofur, Anakku Shabira Sekar Arum, Bapak A. Syairozi, Ibu

Masfufah, Bapak mertua dan ibu mertuaku serta keluarga besar penulis atas

segala doa, dukungan materi, motivasi, kepercayaan dan rasa kasih sayang.

xii

8. Teman-teman S2 Statistika ITS angkatan 2016, khususnya teman seperjuangan

Atik, Zahro, Rana, Indah, Niswa, Febri, Ghozali, Rizky, dkk yang telah

membantu dalam penyelesaian laporan. Teman-teman BPS angkatan 2016 yang

senantiasa semangat belajar dan selalu menginspirasi.

9. Pihak-pihak lain yang telah mendukung dan membantu dalam penyusunan

Tesis ini yang tidak mungkin penulis sebutkan satu per satu. Terima kasih.

Penulis menyadari bahwa penyusunan Tesis ini masih jauh dari sempurna,

maka kritik dan saran yang membangun akan senantiasa penulis harapkan demi

kesempurnaan di masa mendatang. Semoga laporan ini dapat memberikan sum-

bangan yang bermanfaat bagi semua pihak.

Surabaya, Juli 2018

Penulis

xiii

DAFTAR ISI

Halaman

JUDUL ..............................................................................................................i

ABSTRAK .........................................................................................................vii

ABSTRACT ........................................................................................................ix

KATA PENGANTAR .......................................................................................xi

DAFTAR ISI ......................................................................................................xiii

DAFTAR TABEL .............................................................................................xv

DAFTAR GAMBAR .........................................................................................xvii

DAFTAR LAMPIRAN .....................................................................................xix

BAB 1 PENDAHULUAN .................................................................................1

1.1 Latar Belakang ..................................................................................1

1.2 Rumusan Masalah .............................................................................5

1.3 Tujuan Penelitian ...............................................................................6

1.4 Manfaat Penelitian .............................................................................6

1.5 Batasan Masalah ...............................................................................6

BAB 2 TINJAUAN PUSTAKA ........................................................................9

2.1 Fast Correlation Based Filter (FCBF) ...........................................9

2.2 Random Undersampling (RUS) ......................................................12

2.3 Support Vector Machine (SVM) .....................................................13

2.3.1 SVM Linierly Separable ..............................................................14

2.3.2 SVM Pada Linier Non Separable ................................................18

2.3.3 SVM Pada Nonlinier Separable...................................................20

2.4 Sequential Minimal Optimization (SMO) .......................................22

2.5 Klasifikasi Multiclass One Against One (OAO) .............................24

2.6 Ensemble Support Vector Machine (EnSVM) .................................26

2.7 Stratified K-Fold Cross Validation .................................................28

2.8 Kriteria Evaluasi Performansi Metode Klasifikasi ..........................29

2.9 Data Microarray ..............................................................................31

2.10 Penelitian Sebelumnya ..................................................................33

xiv

BAB 3 METODOLOGI PENELITIAN ......................................................... 35

3.1 Kajian Simulasi ................................................................................. 35

3.2 Aplikasi Data Microarray ................................................................. 41

3.2.1 Sumber Data ................................................................................ 41

3.2.2 Struktur Data ............................................................................... 42

3.2.3 Langkah Analisis ......................................................................... 44

3.3 Diagram Alir Penelitian .................................................................... 46

BAB 4 HASIL DAN PEMBAHASAN ............................................................ 47

4.1 Algoritma EnSVM-RUS-OAO .......................................................... 47

4.2 Penerapan Metode EnSVM-RUS-OAO ............................................. 54

4.2.1 Simulasi Skenario 1 (33:33:34) ............................................... 55



4.2.4 Perbandingan Semua Skenario Data simulasi ......................... 60

4.3 Penerapan Pada Data Microarray .................................................. 61

4.3.1 Data Leukimia (IR 4,22) .......................................................... 61

4.3.2 Data Brain Tumor (IR 15,00) .................................................. 66

4.3.3 Data Lung Cancer (IR 23,17) .................................................. 71

4.3.4 Perbandingan Semua Skenario Data Riil ................................. 77

BAB 5 KESIMPULAN DAN SARAN ............................................................ 79

5.1 Kesimpulan ....................................................................................... 79

5.2 Saran ................................................................................................. 80

DAFTAR PUSTAKA ....................................................................................... 81

LAMPIRAN ...................................................................................................... 81

BIOGRAFI PENULIS ...................................................................................... 117

xv

DAFTAR TABEL

Halaman

Tabel 2.1 Data Ilustrasi Proses MDL ..............................................................10

Tabel 2.2 Ilustrasi One Against One (OAO) ....................................................25

Tabel 2.3 Confusion Matrix Multiclass ...........................................................29

Tabel 2.4 Daftar Penelitian Sebelumnya .........................................................33

Tabel 3.1 Ilustrasi Threefold Cross Validation Skenario 3 .............................38

Tabel 3.2 Informasi Dataset DNA Microarray ...............................................41

Tabel 3.3 Struktur Data Leukimia ...................................................................43

Tabel 3.4 Struktur Data Brain Tumor .............................................................43

Tabel 3.5 Struktur Data Lung Cancer .............................................................43

Tabel 3.6 Ilustrasi Proses Validasi ..................................................................44

Tabel 4.1 Performansi Klasifikasi Rasio 1 (Skenario 1) .................................56



Tabel 4.4 Fitur Seleksi FCBF dari Data Leukimia ..........................................64

Tabel 4.5 Performansi Klasifikasi Data Leukimia ...........................................66

Tabel 4.6 Waktu Klasifikasi Data Leukimia....................................................67

Tabel 4.7 Fitur Seleksi FCBF dari Data Brain Tumor ....................................69

Tabel 4.8 Performansi Klasifikasi Data Brain Tumor .....................................70

Tabel 4.9 Waktu Klasifikasi Data Brain Tumor ..............................................72

Tabel 4.10 Pemilihan Fitur dengan FCBF Pada Dataset Lung Cancer .............74

Tabel 4.11 Performansi Klasifikasi Data Lung Cancer.....................................75

Tabel 4.12 Waktu Klasifikasi Data Lung Cancer .............................................76

xvi


xvii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Flowchart Random Undersampling (RUS) ...............................13

Gambar 2.2 Klasifikasi SVM .......................................................................14

Gambar 2.3 Bidang Pemisah Terbaik dengan Margin (d)

Terbesar Linearly Separable .....................................................15

Gambar 2.4 Bidang Pemisah Terbaik dengan Margin (d)

Linier Non Separable ................................................................18

Gambar 2.5 Pemetaan ke dalam Feature Space Tiga

Dimensi dari Data Space Dua Dimensi .....................................20

Gambar 2.6 Batas Optimasi Nilai α dengan Algoritma SMO ......................23

Gambar 2.7 Ilustrasi Multiclass One Against One (OAO) ............................26

Gambar 2.8 Ilustrasi Ensembel Learning dengan Feature Subspace ...........27

Gambar 2.9 Ilustrasi Pembagian Data Training dan

Testing dengan k-fold = 5 .........................................................28

Gambar 2.10 Proses Umum Memperoleh Data Ekspresi

Gen DNA Microarray ...............................................................31

Gambar 3.1 Algoritma SVM-OAO ................................................................39

Gambar 3.2 Algoritma EnSVM .....................................................................40

Gambar 3.3 Algoritma Random Undersampling ..........................................40

Gambar 3.4 Tahapan EnSVM-RUS-OAO......................................................46

Gambar 4.1 Waktu Komputasi Rasio 1 (Skenario 1)....................................57



Gambar 4.4 Perbandingan Performansi Semua Skenario .............................62

Gambar 4.5 Prosentase Jenis Leukimia .........................................................63

Gambar 4.6 Persebaran Data dari Beberapa Fitur pada Data Leukimia........63

Gambar 4.7 Grid Search SVM Dataset Leukimia.........................................65

Gambar 4.8 Nilai Optimum Grid Search SVM Dataset Leukimia ...............65

Gambar 4.9 Dendogram dan Perbandingan Akurasi

Ukuran Subspace Leukimia .......................................................66

xviii

Gambar 4.10 Prosentase Jenis Brain Tumor .................................................. 68

Gambar 4.11 Persebaran Data dari Beberapa Fitur pada

Data Brain Tumor ..................................................................... 68

Gambar 4.12 Grid Search SVM Dataset Brain Tumor .................................. 69

Gambar 4.13 Nilai Optimum Grid Search SVM Dataset Brain Tumor ......... 70


Ukuran Subspace Brain Tumor ................................................ 71

Gambar 4.15 Prosentase Jenis Lung Cancer .................................................. 72

Gambar 4.16 Persebaran Fitur pada Data Lung Cancer ................................. 73

Gambar 4.17 Grid Search SVM Dataset Lung Cancer .................................. 74

Gambar 4.18 Optimasi Nilai Grid Search SVM Dataset Lung Cancer ......... 75


Ukuran Subspace Lung Cancer ................................................ 76

Gambar 4.20 Perbandingan Performansi Semua Data Riil ............................ 77

Gambar 4.21 Perbandingan Waktu Komputasi Semua Data Riil .................. 78

xix

DAFTAR LAMPIRAN

Halaman

Lampiran 1 Simulasi Rasio 1 dengan 1000 Feature Kernel Linear ...............85


Lampiran 3 Simulasi Rasio 1 dengan 1000 Feature Kernel Polynomial .......86


Lampiran 5 Simulasi Rasio 1 dengan 1000 Feature Kernel RBF ..................86














Lampiran 19 Hasil Performansi Data Leukimia ................................................91

Lampiran 20 Hasil Performansi Data Brain Tumor ..........................................92

Lampiran 21 Hasil Performansi Data Lung Cancer ..........................................92

Lampiran 22 Hasil FCBF Leukimia ..................................................................93

Lampiran 23 Hasil FCBF Brain Tumor ............................................................94

Lampiran 24 Hasil FCBF Lung Cancer ............................................................95

Lampiran 25 Grid Search SVM-OAO Leukimia ...............................................96

Lampiran 26 Syntax Generate Data Simulasi ...................................................109

Lampiran 27 Syntax Grid Search SVM-OAO ...................................................110

xx

Lampiran 28 Syntax SVM-OAO ....................................................................... 111

Lampiran 29 Syntax EnSVM-OAO ................................................................... 112

Lampiran 30 Syntax EnSVM-RUS-OAO .......................................................... 114

1

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Teknologi Microarray memungkinkan suatu pengukuran dalam skala besar

dan paralel untuk mengekspresikan sekitar ribuan atau bahkan puluhan ribu gen.

Hal ini menjadi salah satu teknologi biologi molekuler paling sukses di era modern

dan banyak diterapkan untuk memprediksi fungsi gen, memberikan informasi untuk

penemuan obat, menyelidiki mekanisme peraturan gen, menemukan subtipe baru

dari tumor spesifik dan klasifikasi kanker (Puelma, 2012). Diantara teknologi

Microarray tersebut, klasifikasi kanker telah menjadi subyek penelitian ekstensif di

seluruh dunia yang sangat menjanjikan.

Beberapa penelitian tentang teknologi Microarray menyebutkan bahwa

metode Support Vector Machines (SVM) telah banyak diterapkan untuk klasifikasi

data DNA Microarray. Seeja dan Shweta (2011) mengklasifikasikan ekspresi gen

pada DNA Microarray menggunakan SVM dan didapatkan hasil bahwa SVM lebih

baik daripada Neural Network. SVM adalah salah satu teknik data mining yang

banyak diteliti dan menunjukkan keberhasilan dalam banyak aplikasi utamanya

dalam meningkatkan performansi klasifikasi (Purnami dan Andari, 2015).

Penelitian lain menggunakan SVM untuk klasifikasi kanker dengan data Microarray

(Chu, 2005). Namun, data Microarray diketahui memiliki beberapa fitur seperti

dimensi tinggi, sampel kecil, noise tinggi, redundansi tinggi dan distribusi kelas

yang tidak seimbang (imbalance) (Wang dan Simon, 2011).

Terdapat dua kondisi distribusi kelas yaitu kelas balance dan kelas

imbalance. Pada klasifikasi multiclass seringkali ditemui kondisi kelas imbalance.

Kelas imbalance terjadi ketika satu kelas melebihi jumlah kelas lainnya. Kelas data

banyak disebut kelas mayoritas atau kelas negatif sedangkan kelas data sedikit

disebut kelas minoritas atau kelas positif. Kondisi kelas imbalance menjadi masalah

dalam klasifikasi, karena classifier akan condong memprediksi ke kelas mayoritas

dibandingkan kelas minoritas (Japkowicz dan Stephen, 2002). Kondisi kelas

imbalance mengakibatkan klasifikasi dari kelas minoritas menjadi underestimate

2

serta mempengaruhi kriteria evaluasi performansi dari keseluruhan klasifikasi.

Dengan kata lain, pengembangan sistem diagnostik tumor klinis tidak ada artinya

jika kelas imbalance tidak dipertimbangkan, sehingga kasus kelas imbalance

penting untuk diperhatikan. (Pham dan Wells, 2006).

Studi terbaru telah membahas masalah klasifikasi kanker berdasarkan data

Microarray (Lin dan Chen, 2013). Namun, sebagian besar hanya

mempertimbangkan imbalance kelas biner dan mengabaikan masalah imbalance

untuk kasus multiclass. Penerapan algoritma sederhana kelas biner menghasilkan

kesalahan klasifikasi minimum tetapi memberikan hasil klasifikasi yang tidak

akurat. Sehingga, penanganan masalah imbalance multiclass lebih sulit daripada

menangani masalah imbalance kelas biner (Wang dan Yao, 2012). Secara umum,

metode SVM adalah pilihan terbaik untuk mengklasifikasikan data Microarray

kanker, karena kelebihannya seperti kemampuan generalisasi yang tinggi dan

kemampuan beradaptasi untuk data sampel berdimensi tinggi dan kecil (Abdi dan

Hosseini, 2012).

Menurut Vapnik (1998), metode SVM merupakan metode machine learning

yang berguna dan berhasil dalam melakukan prediksi baik dalam kasus klasifikasi

maupun regresi. Prinsip dasar SVM adalah linier classifier yang selanjutnya

dikembangkan untuk masalah non linier dengan memasukkan konsep kernel trick

pada ruang kerja berdimensi tinggi (Cortez dan Vapnik, 1995). Secara sederhana,

konsep SVM adalah usaha mencari hyperplane terbaik yang berfungsi sebagai

pemisah dua buah kelas pada input space (Rahman dan Purnami, 2012). Metode

SVM dikembangkan berdasarkan pada statistical learning teory dan Structural Risk

Minimization (SRM). Jika dibandingkan dengan metode machine learning lainnya,

SVM mengimplementasikan prinsip SRM dari pada Empirical Risk Minimization

(ERM) (Vapnik, 1995). Menurut teori Structural Risk Minimization (SRM), SVM

telah memperlihatkan performa sebagai metode yang bisa mengatasi masalah

overfitting dengan cara meminimalkan batas atas pada generalization error yang

menjadi alat yang kuat untuk kasus supervised learning (Guo, 2014).

Terdapat tiga pendekatan metode learning untuk mengatasi masalah kelas

imbalance. Pendekatan pertama yaitu menggunakan level data (Sampling-Based

Approach). Pendekatan kedua yaitu pada level algoritma. Pendekatan ketiga yaitu

3

dengan metode ensemble learning (Choi, 2010). Pendekatan sampling pada kelas

yang imbalance menyebabkan tingkat kelas imbalance semakin kecil dan

klasifikasi dapat dilakukan dengan tepat (Solberg, 1996). Sampling based approach

memodifikasi distribusi data training sehingga kedua kelas data (negatif maupun

positif) dipresentasikan dengan baik di dalam data training. Teknik resampling ini

meliputi oversampling dan undersampling.

Metode yang paling dasar untuk menanggulangi masalah kelas imbalance

adalah Random Oversampling (ROS) dan Random Undersampling (RUS). Metode

RUS dilakukan dengan menghapus instance dari kelas mayoritas sementara metode

ROS dilakukan dengan menduplikasi instance dari kelas minoritas. Kedua teknik

tersebut mampu menangani masalah kelas imbalance. Namun kedua metode

tersebut memiliki beberapa kelemahan. Metode ROS tidak efektif untuk

meningkatkan proses pengenalan pada kelas minoritas dan meningkatkan waktu

proses pembentukan classifier. Metode RUS berpotensi membuang instance dari

kelas mayoritas yang dianggap penting (He dan Ma 2013). Namun, penelitian

Lestarini (2012) menyebutkan bahwa metode RUS memiliki kemampuan untuk

meminimalkan dampak negatif dari hilangnya informasi sekaligus memaksimalkan

dampak positif dari data cleaning dalam proses undersampling. Selain itu, metode

RUS dapat meningkatkan performansi klasifikasi dengan cara mengekstraksi

informative sample yang penting untuk klasifikasi dan menghilangkan sejumlah

besar sampel yang redundant dan bersifat noise.

Metode RUS merupakan metode untuk menghitung selisih antara kelas

mayoritas dan minoritas kemudian dilakukan perulangan selisih hasil perhitungan,

selama perulangan data kelas mayoritas dihapus secara acak, sehingga jumlah kelas

mayoritas sama dengan minoritas (Saifudin dan Wahono, 2015). Proses ini

diharapkan mampu memindahkan peluang kesalahan klasifikasi dari kelas

minoritas ke dalam kelas mayoritas sehingga dapat meningkatkan akurasi pada

kelas minoritas (Chen, Lin dan Scholkopf, 2005). Sehingga pada penelitian ini,

metode RUS sesuai untuk mengatasi masalah kelas imbalance dengan beberapa

kelebihannya.

Permasalahan selanjutnya yaitu tentang kasus multiclass. SVM pada awalnya

dirancang untuk masalah kelas biner. Oleh karena itu, untuk menerapkan SVM ke

4

masalah multiclass, hal ini lurus dikonfigurasi ulang dengan menggunakan strategi

pengkodean yang merupakan strategi kedua untuk mengatasi masalah kelas

imbalance (Lorena dan Carvalho, 2008). Penelitian sebelumnya telah

mempresentasikan beberapa strategi pengkodean yang terkenal untuk kasus

multiclass antara lain One Against One (OAO), One Against All (OAA) dan

Decision Directed Asyclic Graph (DDAG). Strategi ini juga telah digunakan untuk

mengklasifikasikan data Microarray kanker multiclass (Ramaswamy, 2001).

Metode OAA merupakan metode yang dilakukan dengan cara membangun k buah

model SVM biner (k adalah jumlah kelas). Sedangkan metode OAO membangun

k(k-1)/2 buah model SVM biner. Setiap model diklasifikasikan ke-i data training

dengan menggunakan keseluruhan data (Sembiring, 2007).

Berikut ini merupakan beberapa penelitian yang menggunakan strategi

pengkodean. Penelitian Trapsilasiwi (2013) menyatakan bahwa klasifikasi

multiclass dengan pendekatan OAO lebih baik dibandingkan dengan menggunakan

pendekatan OAA. Menurut Statnikov (2005) menilai secara sistematis strategi ini

dengan melakukan eksperimen dan menemukan bahwa pendekatan OAO sering

menghasilkan akurasi klasifikasi yang lebih baik. Zheng (2011) menerapkan

metode LS-SVM multiclass untuk diagnosis power transformer, hasilnya

menyatakan bahwa metode LS-SVM menggunakan pendekatan OAO lebih baik

dibandingkan dengan pendekatan multiclass lainnya. Sehingga penelitian ini,

menggunakan metode multiclass OAO untuk mengatasi klasifikasi multiclass.

Pendekatan ketiga yaitu dengan metode ensemble learning. Dalam penelitian

ini, diusulkan sebuah metode untuk mengatasi kasus dimensi tinggi pada suatu data

Microarray yaitu dengan menggunakan ensemble learning. Metode ensemble

learning merupakan suatu metode yang dapat diterapkan ketika suatu classifier

menggunakan lebih dari satu classifier untuk membuat model klasifikasi. Setiap

fitur yang digunakan berisi informasi yang berbeda, sehingga fitur tersebut dilatih

dengan classifier berbeda. Ensemble learning telah digunakan untuk meningkatkan

keakuratan seleksi fitur gen dan klasifikasi kanker (Chen dan Zhao, 2008). Pada

penelitian ini, diusulkan metode Ensemble Fitur Subspace (FSS). Metode FSS akan

mengelompokkan fitur dengan metode cluster. Kluster yang digunakan yaitu

hierarchical clustering yang menggunakan euclidiance distance sebagai ukuran

5

jarak untuk menghapus redundansi dan rasio noise. Kemudian setiap kelompok fitur

akan dilakukan proses klasifikasi.

Secara umum, alur metode yang disulkan yaitu Ensemble SVM RUS adalah

sebagai berikut. Tahapan pertama yaitu membagi fitur kedalam beberapa cluster

atau yang disebut Fitur Subspace (FSS) untuk menghasilkan sejumlah subset data

training yang akurat dan beragam. Kemudian dilakukan proses untuk

menyeimbangkan jumlah kelas mayor kedalam kelas minor atau Random

Undersampling (RUS) kedalam setiap subset data training untuk mengatasi kelas

imbalance (Anand dan G. Pugalenthi, 2010). Hasil penelitian sebelumnya

menunjukkan bahwa metode yang diusulkan lebih unggul dari pada pendekatan

klasifikasi klasik karena menghasilkan hasil klasifikasi yang lebih seimbang dan

kuat (Yu dan Hong, 2013). Selanjutnya dengan strategi pengkodean yang lebih

unggul untuk kasus multiclass yaitu One Against One (OAO). Strategi ini juga telah

digunakan untuk mengklasifikasikan data Microarray kanker multiclass dengan

performansi yang lebih baik dari pada OAA (Ramaswamy, 2001). Sehingga peneliti

mengusulkan “Ensemble Support Vector Machine dengan Random Undersampling

Pada Klasifikasi Data DNA Microarray Untuk Menangani Kasus Multiclass

Imbalance”.

1.2 Rumusan Masalah

Data DNA Microarray memiliki beberapa karakteristik seperti dimensi

tinggi, sampel kecil, noise tinggi, redundansi tinggi dan distribusi kelas yang tidak

seimbang (imbalance). Kondisi kelas imbalance menjadi masalah dalam

klasifikasi, karena classifier akan condong memprediksi ke kelas mayoritas

dibandingkan kelas minoritas. Berdasarkan uraian latar belakang diatas,

permasalahan yang akan dibahas dalam penelitian ini yaitu bagaimana kajian teori

dan algoritma metode EnSVM-RUS-OAO serta performansi metode EnSVM-RUS-

OAO jika dibandingkan dengan metode EnSVM-OAO dan SVM-OAO untuk

menangani kasus multiclass imbalance. Penelitian ini menggunakan studi simulasi

dan penerapan data riil DNA Microarray dengan beberapa tingkatan rasio kelas

imbalance yang berbeda.

6

1.3 Tujuan Penelitian

Berdasarkan permasalahan yang telah dipaparkan diatas, tujuan dari

penelitian ini adalah sebagai berikut.

1. Mengkaji algoritma metode EnSVM-RUS-OAO.

2. Mendapatkan perbandingan hasil performansi metode EnSVM-RUS-OAO

jika dibandingkan dengan metode EnSVM-OAO dan metode SVM-OAO pada

data simulasi dan pada data riil yaitu DNA Microarray multiclass imbalance

dengan berbagai rasio kelas imbalance.

1.4 Manfaat Penelitian

Adapun manfaat yang ingin diperoleh dari adanya penelitian ini adalah

sebagai berikut.

1. Memberikan informasi mengenai hasil penerapan Ensemble Fitur Subspace

dengan Random Undersampling yang selanjutnya disebut EnSVM-RUS

dalam meningkatkan performansi classifier SVM. Utamanya untuk klasifikasi

data Microarray multiclass imbalance baik pada data simulasi maupun saat

menggunakan data riil.

2. Menambah keilmuan statistika dibidang klasifikasi data mining,

pengembangan metode klasifikasi dan machine learning khususnya untuk

kasus multiclass imbalance.

1.5 Batasan Masalah

Batasan masalah diperlukan dalam suatu penelitian agar pembahasan tidak

melebar dan sesuai dengan tujuan serta alur penelitian. Batasan masalah yang

digunakan dalam penelitian ini adalah sebagai berikut.

1. Studi kasus yang digunakan pada penelitian ini adalah menggunakan data

simulasi dan data riil DNA Microarray dengan permasalahan klasifikasi yaitu

multiclass imbalance.

2. Kajian simulasi hanya diaplikasikan untuk kasus multiclass dengan jumlah

kelas sebanyak 3 kelas, dimana antar kelas tidak ada perbedaan yang

signifikan dalam mean. Hubungan antara ekspresi gen (fitur) dengan label

7

dibangkitkan berdasarkan karakteristik varians dan kovarians antar kelas

label.

3. Pembagian data training dan data testing menggunakan threefold cross

validation (3 CV) secara stratifikasi.

4. Kriteria evaluasi performansi dengan menggunakan nilai Akurasi, F-score,

G-mean, dan running time.

8


9

BAB 2

TINJAUAN PUSTAKA

Bab ini akan membahas beberapa metode yang digunakan dalam penelitian

yaitu seleksi fitur dengan Fast Correlation Based Filter (FCBF), Stratified k-fold

Cross Validation, Random Undersampling (RUS). Metode klasifikasi dengan

Support Vector Machine (SVM) One Against One (OAO). Metode Ensemble Fitur

Subspace Support Vector Machine (EnSVM). Serta kriteria evaluasi performansi

dengan nilai Akurasi, F-score, G-mean dan tinjauan tentang data DNA Microarray.

2.1 Fast Correlation Based Filter (FCBF)

Seleksi fitur FCBF merupakan salah satu algoritma fitur selection yang

bersifat multivariate dan mengukur kelas fitur dan korelasi antara fitur-fitur

(Alonso, Noelia dan Veronica, 2015). Secara umum, fitur dikatakan bagus jika fitur

tersebut relevan dengan konsep kelas namun tidak redundan pada fitur yang lain.

Jika diterapkan korelasi antara dua fitur sebagai ukuran kebaikan, maka sebuah fitur

dikatakan bagus untuk klasifikasi jika berkorelasi sangat tinggi dengan kelas namun

tidak berkorelasi dengan fitur lainnya. Namun pengukuran dengan korelasi tidak

mampu menangkap korelasi yang tidak linear, selain itu korelasi mengharuskan

semua fitur dan kelas mengandung nilai numerik. Untuk mengatasi kekurangan ini,

Yu dan Liu (2009) menerapkan pendekatan lain yaitu memilih ukuran korelasi

berdasarkan konsep information theoretical entropy. Dalam mengukur korelasi non

linear, maka digunakan nilai entropy dari fitur ),...,,( 21 nxxxx dan ),...,,( 21 nyyyy

dapat didefinisikan pada Persamaan (2.1) sebagai berikut.

n

i

ii xPxPH1

2 ))((log)()(x (2.1)

n

j

n

i

jijij yxPyxPyPH1 1

2 ))|((log)|()()|( yx (2.2)

Dimana H(x) merupakan nilai entropy dari fitur x dan H(x | y) merupakan

nilai entropy dari fitur x setelah diketahui nilai fitur y diketahui. Nilai P(xi) adalah

prior probabilities dari semua nilai x dan P(xi |yi) adalah posterior probabilities dari

10

x jika y diketahui. Dari entropy tersebut selanjutnya yaitu mendapatkan nilai

Information Gain sebagai berikut.

)|()()|( yxxyx HHIG (2.3)

Berdasarkan ukuran diatas, maka fitur y berkorelasi dengan fitur x dari pada

fitur z jika nilai IG(x|y) > IG(z|y). Selanjutnya, untuk mengukur korelasi antar fitur,

maka digunakan nilai symmetrical uncertainty. Nilai symmetrical uncertainty

berkisar pada rentang nilai 0 sampai dengan 1. Nilai Symmetrical uncertainty

dirumuskan sebagai berikut.

)()(

)|(2)|(

yx

yxyx

HH

IGSU

(2.4)

Setelah mendapatkan nilai Information Gain, maka urutan fitur dari yang

memiliki korelasi terkuat hingga terlemah bisa didapatkan pula. Batas memilih fitur

mana saja yang akan dijadikan sebagai fitur penting u adalah dari nilai threshold

yang ditetapkan. (Yu dan Liu, 2003).

Berikut ini merupakan proses menurunkan skala fitur melalui proses MDL

(Minimum Description Length). Proses MDL yaitu dengan menurunkan fitur

berskala kontinyu menjadi biner berdasarkan nilai cut-point. Nilai cut-point

didapatkan setelah mengurutkan data dari fitur X untuk setiap kelas kemudian

dihitung nilai rata-ratanya sebagai cut-point. Selanjutnya akan diberikan sebuah

ilustrasi proses MDL pada data jam belajar dan mendapatkan nilai A saat tes dengan

data telah di urutkan sebagai berikut.

Tabel 2.1 Data Ilustrasi Proses MDL

Jam Belajar Mendapat Nilai A saat test

4 Tidak

5 Ya

8 Tidak

12 Ya

15 Ya

Kelas label dari data diatas yaitu mendapat nilai A saat tes. Proses pertama

dalam seleksi fitur FCBF dengan MDL yaitu mencari fitur-fitur yang relevan

11

terhadap kelas berdasarkan nilai SU setiap fitur terhadap kelas. Pada tahap pertama

dilakukan perhitungan entropy untuk H(nilai A) sebagai berikut.

971,05

2log

5

2

5

3log

5

3)nilai( 22

AH

Selanjutnya yaitu melakukan iterasi untuk mendapatkan nilai entropy dihitung dari

nilai H(nilai A, jam belajar). Nilai split merupakan nilai rata-rata dari data ke-i

dengan data ke-i+1.Perhitungan nilai entropy untuk nilai A dan jam belajar sebagai

berikut. )|( belajarjamAnilaiH adalah sebagai berikut.

Split 1 : 4,5

811,04

1log

4

1

4

3log

4

3)5,4(

00log01log1

1)5,4(

22

22

AnilaiH

AnilaiH

6488,0)811,0(5

4)0(

5

1)|( belajarjamAnilaiH

sehingga didapatkan nilai Information Gain antara jam belajar dan mendapat nilai

A saat tes dengan split 4,5 diperoleh nilai IG sebesar 0,322.

322,06488,0971,0)|( belajarjamAnilaiIG

Split 2 : 6,5

917,03

1log

3

1

3

2log

3

2)5,6(

12

1log

2

1

2

1log

2

1)5,6(

22

22

AnilaiH

AnilaiH

944,0)917,0(3

2)1(

3





Split 3 : 10

00log01log1

1)10(

917,03

2log

3

2

3

1log

3

1)10(

22

22

AnilaiH

AnilaiH

12

55,0)917,0(5

3)0(

5



A saat tes dengan split 10 diperoleh nilai IG sebesar 0,421.


Split 4 : 13,5

00log01log1

1)5,13(

11log4

2)1(log

4

2)5,13(

22

22

AnilaiH

AnilaiH

8,0)1(5

4)0(

5





Pemilihan cut-point berdasarkan nilai yang Information Gain yang mendekati

threshold = 0,5 yang artinya melakukan split data sebesar 50%. Sehingga split data

ke-3 dengan nilai split = 10 merupakan cut-point yang terpilih.

2.2 Random Undersampling (RUS)

Metode RUS merupakan metode untuk menghitung selisih antara banyaknya

kelas mayoritas dan banyaknya kelas minoritas kemudian dilakukan perulangan

selisih hasil perhitungan. Selama perulangan data kelas mayoritas dihapus secara

acak, sehingga banyaknya kelas mayoritas sama dengan banyaknya kelas minoritas

(Saifudin dan Wahono, 2015). Langkah pertama pada metode RUS adalah

pemilihan dataset kemudian dihitung selisih antara kelas mayoritas dan minoritas,

jika masih terdapat selisih antara jumlah kelas maka dataset kelas mayoritas akan

dihapus secara acak sampai banyaknya kelas mayoritas dan banyaknya kelas

minoritas. RUS dapat lebih efektif dan cepat dalam proses pelatihan prediksi kelas

imbalance sebuah kasus Microarray. Berikut ini merupakan flowchat metode RUS

yang ditampilkan pada Gambar 2.1 sebagai berikut.

13

Gambar 2.1 Flowchart Random Undersampling (RUS)

2.3 Support Vector Machine (SVM)

Metode SVM pertama kali diperkenalkan oleh Vapnik pada tahun 1995 dan

mempunyai performa yang baik dalam melakukan prediksi baik klasifikasi maupun

regresi. SVM didasarkan pada teori pembelajaran statistik atau Statistical Learning

Theory (SLT). Secara konseptual, SVM adalah linier machine yang dilengkapi

dengan fitur khusus, dan berdasarkan metode minimalisasi risiko struktural atau

structural risk minimization (Gorunescu, 2011).

Suatu data tidak dapat dipisahkan dengan garis lurus, namun SVM memiliki

kinerja baik pada masalah non linear, data sparse (jarang) dan berdimensi tinggi.

Keuntungan dari metode ini adalah bahwa pemodelan hanya berkaitan dengan

vektor pendukung dan bukan keseluruhan dataset training, sehingga ukuran dari

rangkaian training biasanya tidak menjadi masalah. Selain itu, konsekuensi dari

menggunakan vektor pendukung untuk membangun model, maka model ini kurang

terpengaruh oleh outlier.

Secara umum, cara kerja SVM adalah mencari hyperplane dengan margin

optimum. Hyperplane merupakan garis batas pemisah antar kelas, sedangkan

Input : data training

selisih = banyaknya kelas

mayoritas – banyaknya kelas

minoritas

selisih=0

Ya

Gabungkan sisa kelas mayoritas dengan kelas

minoritas data training yang seimbang

Selesai

Hapus data kelas mayoritas

secara acak

Tidak

14

margin (d) adalah jarak antara hyperplane dengan data terdekat pada masing-

masing kelas. Antara kelas satu dengan kelas lainnya dipisahkan oleh bidang

pembatas pada masing-masing kelas, dengan data yang berada pada bidang

pembatas merupakan vektor-vektor yang terdekat dengan hyperplane terbaik

disebut dengan Support Vector. Bidang pembatas terbaik tidak hanya dapat

memisahkan data tetapi juga memiliki margin paling besar (Burges, 1998). Adapun

SVM untuk klasifikasi dapat dibedakan menjadi klasifikasi linier, baik linearly

separable maupun linearly non-separable serta klasifikasi non linear. Gambar 2.2

berikut menunjukkan ilustrasi untuk pembagian SVM klasifikasi.

Gambar 2.2 Klasifikasi SVM: (a) Klasifikasi Linearly Separable; (b) Linearly Non-separable;

(c) Nonlinear (Haerdle, Prastyo dan Hafner, 2014)

2.3.1 SVM Linearly Separable

Haerdle, Prastyo dan Hafner (2014) menyatakan bahwa setiap observasi

terdiri dari sepasang p predictor dimana P

ipiii xxx Rx ),...,,( 21 dengan

ni ,...,2,1 dan dihubungkan dengan kelas label }1,1{iy , sehingga diperoleh

himpunan berikut.

)},(,),,(),,{( 2211 nnn yyy xxxD

Jika ix adalah anggota kelas (+1) maka ix diberi label (target) 1iy dan

jika tidak maka diberi label (target) 1iy sehingga data yang diberikan berupa

pasangan ),(,),,(),,( 2211 nn yyy xxx merupakan himpunan data training dari dua

kelas yang akan diklasifikasi dengan SVM (Gunn, 1998).

Sebuah konsep utama untuk mendefinisikan sebuah pemisah linier adalah dot

product, antara dua vektor yang ditetapkan sebagai

n

i

ii

T

1

wxwx . Pada Gambar

(a) (b) (c)

15

2.2, keluarga ℱ dari fungsi klasifikasi yang terdapat pada ruang data diberikan

sebagai:

ℱ = }b,,b{ RRwwx pT (2.5)

Dimana w diketahui sebagai vektor pembobot dan b disebut dengan bias.

Diberikan bidang pemisah (separating hyperplane):

0)( bxf Twx (2.6)

yang membagi ruang (space) menjadi dua daerah seperti yang terdapat pada

Gambar 2.2. Seumpulan titik 𝑥 pada 0)( bxf Twx adalah semua titik yang

tegak lurus terhadap w dan melalui konstanta b. Bentuk pada f(x) adalah sebuah

garis dalam dua dimensi, sebuah bidang pada tiga dimensi, dan secara umum berupa

hyperplane pada dimensi yang lebih tinggi. Sebuah hyperplane dikatakan linier jika

merupakan fungsi linier dalam input ix sehingga disebut linear classifier. Fungsi

pemisah untuk kedua kelas tersebut adalah sebagai berikut:

1bT wx untuk 1iy

1bT wx untuk 1iy (2.7)

Dimana w adalah vektor bobot (weight vector) yang berukuran ( 1p ), b

adalah posisi bidang relatif terhadap pusat koordinat atau lebih dikenal dengan bias

yang bernilai skalar.

Gambar 2.3 Bidang Pemisah Terbaik dengan Margin (d) Terbesar Liniarly Separable

(Haerdle, Prastyo dan Hafner, 2014)

16

Gambar 2.3 menunjukkanw

badalah jarak bidang pemisah yang tegak lurus

dari titik pusat koordinat dan w adalah jarak Euclidean (norm Euclidean) dari w.

Panjang vector w adalah𝑛𝑜𝑟𝑚 2

p

2

1

2

1

T www www . Bidang batas

pertama membatasi kelas (+1) sedangkan bidang pembatas kedua membatasi

kelas(-1). Bidang pembatas pertama 1T

i bwx mempunyai bobot w dan jarak tegak

lurus dari titik asal sebesarw

b1dan bidang pembatas kedua 1T

i bwx mempunyai

bobot dan jarak tegak lurus dari titik asal sebesarw

b1. Jarak antara margin dan

bidang pemisah (separating hyperplane) adalah 1

d d w

. Nilai maksimum

margin atau nilai margin (jarak) antara bidang pembatas adalah

ww

2)1(1

bb (2.8)

Mengoptimalkan hyperplane yaitu dengan memaksimalkan Persamaan (2.6)

atau sama dengan meminimumkan2

2

1w . Dengan menggabungkan kedua kendala

pada Persamaan (2.7) maka dapat dipresentasikan dalam pertidaksamaan sebagai

berikut:

niby T

i i ,,2,1,01)( wx (2.9)

Selanjutnya, diperoleh formulasi permasalahan optimasi SVM untuk

klasifikasi linier dalam primal space adalah

2

2

1min w (2.10)

dengan fungsi kendala niy Tii ,,2,1,1)b( wx

Pada formulasi di atas, ingin meminimalkan fungsi tujuan 2

2

1w atau sama

dengan memaksimalkan 2

w atau w . Persoalan optimasi pada Persamaan (2.10)

17

lebih mudah diselesaikan jika diubah ke dalam formula lagrange dengan fungsi

tujuan dan kendala dirumuskan sebagai berikut.

1)b(2

1),b,(L

1

2

wxwαwTii

n

i

ipri y (2.11)

dengan kendala 0i (nilai dari koefisien lagrange). Penaksir w dan b diperoleh

dengan meminimumkan priL terhadap w dan b dan disama dengankan nol yaitu

0),,(L

w

αw bpri dan 0

b

),,(L

αw bpri, sehingga diperoleh Persamaan (2.12)

sebagai berikut.

n

i

iii y

1

xw dan

n

i

ii y

1

0 (2.12)

Vektor w seringkali bernilai tak terhingga, tetapi nilai αi terhingga, maka

formula lagrange priL (primal problem) diubah ke dalam DL (dual problem).

Dengan mensubstitusikan Persamaan (2.12) ke Persamaan (2.11) diperoleh DL

yang ditunjukkan pada Persamaan (2.13).

jTiji

n

i

n

i

n

j

jiiD xxα yy2

1)(L

1 1 1

(2.13)

Persoalan pencarian bidang pemisah terbaik dapat dirumuskan pada

Persamaan (2.14) sebagai berikut.

j

T

iji

n

i

n

i

n

j

jiiD xxαα

yy2

1max)(Lmax

1 1 1

(2.14)

Nilai αi yang diperoleh nantinya akan digunakan untuk mencari nilai w.

Penyelesaian masalah primal dan dual pada Persamaan (2.11) dan (2.13)

memberikan solusi yang sama ketika masalah optimasi adalah convex. Setelah

menyelesaikan dual problem, maka suatu pengamatan baru (xnew) dapat

diklasifikasikan menggunakan aturan klasifikasi sebagai berikut:

ˆ ˆˆ( ) ,T

new newf sign b x x w (2.15)

18

dimana

n

i

iii y

1

ˆˆ xw dan

svn

1

newsv

ˆ1

n

1ˆ

i

T

iyb wx dengan xi adalah support

vector, (xnew) adalah data yang diklasifikasikan, αi adalah lagrange multiplier dan

b adalah bias dan svn adalah jumlah support vector.

2.3.2 SVM Linearly Non-separable

Pada kasus SVM linearly non separable seperti yang diilustrasikan pada

Gambar 2.3 yaitu mengklasifikasikan data linier yang tidak dapat dipisahkan, maka

kendala pada Persamaan (2.7) lurus diubah secara linier dengan penambahan

variabel slack iξ yang menunjukkan pinalti terhadap ketelitian pemisahan yang

memungkinkan suatu titik berada di dalam margin error 1ξ0 i atau 1ξ

dinamakan misclassified (Haerdle, Prastyo dan Hafner, 2014). Selanjutnya ix

diklasifikasikan menjadi:

i

T

i 1 ξb wx untuk 1iy

)1( i

T

i ξb wx untuk 1iy (2.16)

Gambar 2.4 Bidang Pemisah Terbaik dengan Margin (d) Terbesar Liniarly Non-Separable

(Haerdle, Prastyo dan Hafner, 2014)

Gambar 2.4 menunjukkan bidang pemisah terbaik dengan margin (d) terbesar

pada linier non-separable. Formula pencarian bidang pemisah terbaik atau fungsi

tujuan untuk kasus linearly non-separable berubah menjadi:

n

i

iC

1

2

2

1min w

ξw, (2.17)

19

Persamaan (2.17) dapat digabungkan ke dalam dua fungsi kendala dalam

bentuk Persamaan (2.18) sebagai berikut:

i

T

ii 1)( ξby wx (2.18)

dengan 0, 0,i C dimana C adalah parameter yang menentukan besar biaya akibat

kesalahan klasifikasi (misclassification) dari data training selama proses

pembelajaran dan nilainya ditentukan peneliti. Fungsi lagrange untuk primal

problem adalah

n

i

n

i

iii

T

ii

n

i

ipri byCbL1 11

21)(

2

1,, wxwξw (2.19)

Dimana αi ≥ 0 dan µi ≥ 0 adalah Lagrange Multiplier. Kondisi first-order adalah:

n

i

iii

n

i

iii

priyy

bL

11

0),,(

xwxww

ξw (2.20)

n

i

ii

n

i

ii

priyy

b

bL

11

00),,(

ξw

(2.21)

iiii

i

priCC

bL

0

),,( ξw (2.22)

dengan kendala sebagai berikut :

0

01)(

0

0

0

ii

i

T

ii

i

i

i

by

wx

(2.23)

Masalah primal ditransformasi ke dalam masalah dual dengan

mensubtitusikan Persamaan (2.20), (2.21), (2.22) ke fungsi Langrangian primal

pada Persamaan (2.19) sebagai berikut.

n

i

ij

n

j

jj

T

i

n

i

iij

n

i

n

j

T

ijijiD CyyyyL1111 12

1)( xxxxα

n

i

ii

n

i

ii

n

i

i

111

20

n

i

iiij

n

i

n

j

T

ijiji

n

i

i Cyya11 11 2

1 xx (2.24)

Karena komponen terakhir pada Persamaan (2.24) sama dengan nol, maka :

j

n

i

n

j

T

ijiji

n

i

iD yyL xxα

1 11 2

1)( (2.25)

yang mana menjadi masalah dual yang sama dengan pada kasus linearly separable

hanya saja fungsi kendalanya berbeda. Fungsi kendala pada masalah dual yaitu.

n

i

iii yC1

0,0 (2.26)

Permasalahan dual diatas kemudian dapat diselesaikan secara numerik

menggunakan quadratic programming untuk mencari nilai i . Pengamatan xi

untuk 0i yaitu suatu titik (support vector) yang berada di atas atau di dalam

margin ketika soft margin digunakan (Scholkopf dan Smola, 2002).

2.3.3 SVM Non-linier

Pada kenyataan atau kasus data real, tidak semua data bersifat linier sehingga

untuk mencari bidang pemisah secara linier sulit dilakukan. Menurut Haerdle,

Prastyo dan Hafner (2014) untuk mengklasifikasikan data yang tidak linear dapat

diselesaikan menggunakan SVM non-linear. Seperti pada Gambar 2.5 (kanan)

dalam kasus dimana sebuah pemisah linier tidak sesuai (tidak bisa diterapkan).

SVM bisa mentransformasikan vektor input x, ke sebuah ruang fitur berdimensi

tinggi. Sebuah transformasi non linear, dibutuhkan untuk memetakan data dari

ruang fitur asalnya ke ruang baru berdimensi yang lebih tinggi.

Gambar 2.5 Pemetaan ke dalam Fitur Space Tiga Dimensi (b) dari Data Space Dua Dimensi (a)

yaitu 32 RR (Haerdle, Prastyo dan Hafner, 2014)

21

Klasifikasi non linier pada Gambar (2.5), adalah hasil suatu pemetaan data

dengan struktur non linear melalui suatu fungsi HR p: , dimana H

merupakan suatu ruang berdimensi tinggi. Perhatikan bahwa semua vector training

x yang terdapat pada Persamaan (2.24) sebagai scalar product dari bentuk j

T

i xx .

Pada SVM non linear, scalar product tersebut ditransformasikan ke bentuk

)()( j

T

i xx . Proses transformasi tersebut disebut sebagai “Kernel Trick”

(Scholkopf dan Smola, 2002). Proyeksi HR p: , memastikan bahwa scalar

product )()( j

T

i xx bisa di sajikan oleh fungsi kernel.

)()(),( j

T

ijik xxxx (2.27)

Jika suatu fungsi kernel k pada Persamaan (2.27), dapat digunakan tanpa perlu

mengetahui fungsi transformasi secara eksplisit. Diberikan suatu kernel k dan

suatu data set ),...,,( 21 nxxx , maka matriks ijjikK xx , yang berukuran n x n

disebut sebagai matriks kernel dari k untuk suatu data ),...,,( 21 nxxx . Untuk

menghasilkan fungsi klasifikasi non linear dalam data space, sebuah bentuk yang

lebih umum dihasilkan dengan menerapkan Kernel trick ke Persamaan (2.28)

sebagai berikut :

n

i

n

i

n

j

jijijiiD kyyL1 1 1

,2

1maxmax xx

αα (2.28)

dengan fungsi kendala.

n

i

ii

i

y

niC

1

0

,....,1,0

(2.29)

Fungsi Kernel yang biasa digunakan yaitu:

1. Kernel Linier

j

T

ijik xxxx ),( (2.30)

2. Kernel Polynomial

0,)(),( d

j

T

iji rk xxxx , d adalah derajad polynomial. (2.31)

22

3. Kernel Radial Basis Function (RBF)

0),exp(),(2

jijik xxxx (2.32)

4. Kernel Sigmoid

0),tanh(),( rk j

T

iji xxxx (2.33)

Dimana dr,, adalah parameter Kernel. Fungsi kernel yang digunakan adalah

Radial Basis Function (RBF) dengan Persamaan sebagai berikut.

0;exp),(K2

jiji xxxx (2.34)

dimana 𝑑, 𝑟 ∈ 𝑁 dan 𝛾 ∈ ℝ+ adalah konstanta. Selanjutnya satu diantara fungsi

tersebut membentuk classifier akhir SVM yaitu

n

1i

i b),(Kˆsign)( jiiyxf xx (2.35)

Pemilihan fungsi Kernel yang tepat merupakan hal yang sangat penting

karena akan menentukan ruang fitur dimana fungsi classifier akan dicari. Sepanjang

fungsi kernelnya sesuai, SVM akan beroperasi secara benar meskipun tidak tahu

pemetaan yang digunakan (Santosa, 2007). Menurut Hsu, Chang dan Lin (2003),

fungsi Kernel yang direkomendasikan untuk diuji pertama kali adalah fungsi Kernel

RBF karena dapat memetakan hubungan tidak linier, RBF lebih robust terhadap

outlier karena fungsi Kernel RBF berada antara selang (−∞, ∞) sedangkan fungsi

kernel yang lain memiliki rentang antara (-1 sampai dengan 1). Gaussian RBF juga

efektif menghindari overfitting dengan memilih nilai yang tepat untuk parameter C

dan γ dan RBF baik digunakan ketika tidak ada pengetahuan terdahulu.

2.4 Sequential Minimal Optimization (SMO)

Data training pada SVM bertujuan untuk mencari solusi permasalahan

optimasi dengan fungsi kendala yang telah dijelaskan pada persamaan 2.28.

Berbagai teknik optimasi telah banyak dikembangkan yang pada dasarnya secara

interatif mencari solusi maksimum dari fungsi objektif. Akan tetapi, teknik-teknik

tersebut memerlukan data disimpan pada memori dalam bentuk matriks kernel. Hal

ini akan mengakibatkan kompleksitas data training meningkat dengan

bertambahnya ukuran matriks sehingga penggunaan teknik ini dibatasi oleh jumlah

23

data yang dapat diproses. Untuk dataset yang lebih besar digunakan teknik yang

didasarkan pada metode Sequential Minimal Optimization (SMO).

n

i

n

i

n

j

jijijiiD kyyL1 1 1

,2

1maxmax xx

αα

Dengan fungsi kendala:

n

i

ii

i

y

niC

1

0

,....,1,0

Mengoptimasi nilai 1 dan 2 dengan memberikan nilai inisiasi αold=0, dimana

},,,,{ 311 N

oldoldold α . Karena nilai

n

i

ii y1

0 , maka

oldold yyyy 21112211 (2.36)

Batas optimasi dapat dilihat pada Gambar berikut.

Gambar 2.6 Batas Optimasi Nilai α dengan Algoritma SMO

Berdasarkan Gambar batas optimasi diatas, maka

2121 yy (2.37)

2121 yy (2.38)

Mendapatkan nilai 1 dengan cara mengkalikan persamaan (2.36)

oldold yyyy 21112211 dengan y1, sehingga :

21 s (2.39)

Dimisalkan 21yys dan

oldold sy 21

2

1 dimana 12

1 y karena menunjukkan

label +1 ataupun -1. Mencari nilai 2 dengan persamaan LD sebagai berikut.

)(2

2(2

1

222111

3

212121

2

22222

2

1111121

cyyy

yyyyyycL

N

i

T

iii

TTT

D

xxx

xxxxxx

24

Misalkan 211222221111 ,, xxxxxxTTT KKK

j

Told

j

Toldoldold

j

j

N

i

T

iiij

yybu

yv

xxxx

xx

222111

3

Dimana oldoldT

j

old

j bu wx adalah output parameter daru xj

cvyvysKsKsKKK

cvyvysKKKLD

222121211

2

2121112

2221112112

2

222

2

11121

)1()2(2

1

)222(2

1

Kemudian 1211122 KKK

cEEyL oldoldold

D 2

22212

2

2 ))((2

1

Turunan pertama dan kedua didapatkan hasil sebagai berikut.

))(( 22122

2

oldoldoldD EEyL

2

2

DL

Sebagai catatan bahwa 02 121112 KKK

Sehingga 0)()(2

121212 xxxxxx T

Menetapkan turunan kedua =0

0

2

2DL

sehingga

)( 122

22

oldold

oldnew EEy (2.40)

Jika η < 0 maka perlu dilakukan dilakukan evaluasi fungsi objektif pada endpoint

dan menetapkan new

2 sebagai nilai terbesar dari fungsi tujuan. Proses iteratif ini

diulang sampai konvergen.

2.5 Klasifikasi Multiclass One Against One (OAO)

Klasifikasi multiclass dapat diselesaikan dengan menggunakan One Against

One (OAO). Dengan metode OAO, diperlukan untuk menemukan fungsi pemisah

sebanyak k(k−1)/2, dimana masing-masing fungsi pemisah di training dengan

25

sampel dari dua kelas. Misalkan, terdapat persoalan klasifikasi dengan 3 kelas

berarti dapat ditentukan 3 fungsi pemisah p yaitu p12, p13, dan p23. Ketika p12

ditraining, semua sampel pada kelas 1 diberi label positif (+1) dan semua sampel

pada kelas 2 diberi label negatif (-1). Hal ini juga dilakukan pada p13 dan p23.

Sebagai Gambaran, diberikan data training dari kelas i dan j, untuk persoalan ini

akan diselesaikan dengan Persamaan berikut.

n

r

ij

r

ijTij

bC

ijijij

1,, 2

1)(

2

1min ww

ξw (2.41)

Dengan

ij

r

ij

i

ij b 1)(xw ,jika yr=i (2.42)

ij

r

ij

i

ij b 1)(xw ,jika yr=j (2.43)

0ij

r

dimana r menunjukkan indeks data dari setiap kelas. Setelah semua fungsi pemisah

k(k−1)/2 ditemukan, ada beberapa metode untuk melakukan testing pada data baru.

Kemudian diterapkan strategi max voting untuk mendapatkan keputusan dari kelas

terbanyak (Santosa, 2007). Berikut ini merupakan Tabel ilustrasi metode OAO

dengan jumlah kelas sebanyak 4.

Tabel 2.2 Ilustrasi One Against One (OAO)

yi = 1 yi = - 1 Hipotesis

Kelas 1 Kelas 2 121212 )()( bxf xw






Berdasarkan pada strategi max voting, untuk pemisah pij, jika tanda positif

dari suatu data x adalah di kelas i, maka voting untuk kelas i ditambah satu.

Sebaliknya, jika tanda positif dari suatu data x adalah di kelas j, maka voting untuk

kelas j ditambah satu. Kemudian, diletakkan di kelas mana berdasarkan nilai voting

tertinggi. Penentuan kelas dari suatu obyek baru dapat dilihat pada Gambar 2.6.

26

Gambar 2.7 Ilustrasi Multiclass One Against One (OAO)

2.6 Ensemble Support Vector Machine (EnSVM)

Sebuah klasifikasi ensemble adalah himpunan beberapa pengklasifikasi,

dimana keputusan dari tiap pengklasifikasi dikombinasikan dengan suatu cara (pada

umumnya menggunakan voting dengan atau tanpa menggunakan bobot) untuk

mengklasifikasikan data baru (Dietterich, 2001). Metode Ensemble Fitur Subspace

mempunyai performansi yang berkaitan dengan dua faktor yaitu akurasi dan

keragaman kluster dasar. Kluster yang digunakan pada ensemble ini adalah

hierarchical clustering complete linkage yang menggunakan euclidian distance

sebagai ukuran jarak untuk menghapus redundansi dan rasio noise. Metode

ensemble ini melakukan clustering terhadap variabel. Misalkan terdapat variabel

nxxx ,,, 21 x dan nzzz ,,, 21 z maka nilai jarak antar variabel yaitu.

22

22

2

11 )()()(),( nn zxzxzxd zx (2.44)

Salah satu algoritma ensemble SVM yang dikembangkan adalah berbasis

cluster. Algoritma ini dikenalkan oleh Yu dan Hong (2013). Misalkan terdapat

variabel nxxx ,,, 21 x kemudian dilakukan partisi menjadi 𝑞 cluster,

misalkan {𝐶1, . . . , 𝐶𝑞} dengan algoritma cluster hierarchical clustering complete

linkage. Model klasifikasi akhir didefinisikan sebagai fungsi sebagai berikut.

q

l

llT Cxf

1

,)( x1wx (2.45)

Kelas 1

xi

f 34(x)

f 24(x)

f 23(x)

f 14(x)

f 13(x)

f 12(x)

Kelas 3

Kelas 4

Kelas 2

Kelas 1

Kelas 1

Kelas 1

27

dengan 1 merupakan vektor yang semua nilainya berupa 1 dengan ukuran l. Pada

kasus ini tidak menggunakan bias 𝑏. Sehingga formulasi cluster SVM yaitu.

q

l

n

i

li

q

l

lww

l

lil

C

1 11

22

,, 2

1

2

1min

www (2.46)

Algoritma ensemble SVM adalah sebagai berikut.

1. Data Microarray Multiclass Imbalance dengan proses input sebagai berikut.

Data training set (T), Fitur set (F), ukuran fitur sebanyak K, ukuran fitur

subspace sebanyak D dan jumlah fitur subspace sebanyak L.

2. Membagi data training set (T) yang memuat fitur set (F) dengan

menggunakan kluster hirarki complete linkage sebanyak K kluster.

3. Membagi Fitur set (F) yang terbentuk kedalam fitur subspace (D) sebanyak

L secara random, untuk mengatasi kondisi redundansi. Dalam proses ini fitur

yang sudah terambil untuk fitur subspace 1 tidak akan menjadi sampel untuk

fitur subspace lainnya.

4. Mengklasifikan data fitur subspace yang terkoreksi tersebut dengan

menggunakan SVM.

5. Menghitung keputusan setiap fitur subspace dengan menggunakan majority

voting, dimana data akan diklasifikasikan dalam kelas hasil voting terbanyak.

(Yu dan Hong, 2013). Berikut merupakan ilustrasinya.

Gambar 2.8 Ilustrasi Ensemble Learning dengan Fitur Subspace

28

2.7 Stratified K-Fold Cross Validation

Cross-validation adalah metode statistik untuk mengevaluasi dan

membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian

yaitu data training yang digunakan untuk training dan data testing yang digunakan

untuk memvalidasi model. Dalam cross-validation, pelatihan dan validasi lurus

diatur cross-over secara berturut-turut sehingga setiap poin data memiliki

kesempatan untuk divalidasi. Bentuk dasar cross-validation, adalah k- fold cross-

validation. Dalam k-fold cross-validation, data dipartisi menjadi k bagian yang

sama (atau hampir sama), biasanya k dibagi 5 atau 10. Misalkan k = 5, pembagian

data training dan data testing ditunjukkan pada Gambar 2.8 sebagai berikut.

1 2 3 4 5

Testing Training Training Training Training

1 2 3 4 5

Training Testing Training Training Training

1 2 3 4 5

Training Training Testing Training Training

1 2 3 4 5

Training Training Training Testing Training

1 2 3 4 5

Training Training Training Training Testing Gambar 2.9 Ilustrasi Pembagian Data Training dan Testing dengan k-fold = 5

K-fold cross validation akan membagi data ke dalam k subset yang saling

bebas yaitu kSSS1 ,,, 2 dengan jumlah data tiap subset hampir sama, selanjutnya

jika satu subset menjadi data testing maka k-1 subset yang akan menjadi data

training (Han, Kamber dan Jian, 2006). Data biasanya distratifikasi sebelum

dipecah kedalam k-fold .

Stratifikasi adalah proses penyusunan ulang data untuk memastikan setiap

fold merupakan representasi yang baik dari keseluruhan data. Misalnya dalam

masalah klasifikasi biner dimana masing-masing kelas terdiri dari 50% data, cara

yang terbaik adalah dengan mengatur data sedemikian rupa sehingga dalam setiap

fold , setiap kelasnya terdapat sekitar setengah sampel. Proses ini diulangi sebanyak

k subsets dan hasil akurasi klasifikasi yaitu hasil rata-rata dari setiap data training

dan testing. k-fold s yang biasa digunakan adalah 3, 5, 10 dan 20 (Bolon, Sanchez,

dan Alonso, 2015).

29

2.8 Kriteria Evaluasi Performansi Metode Klasifikasi

Data aktual dan data hasil prediksi dari model klasifikasi disajikan dengan

menggunakan Tabulasi silang (Confusion matrix), yang mengandung informasi

tentang kelas data yang actual direpresentasikan pada baris matriks dan kelas data

hasil prediksi pada kolom (Jiawei, 2006).

Tabel 2.3 Confusion Matrix Multiclass

Pengelompokan

Aktual

Kelompok Prediksi Total

1 2 3 … L

1 𝑛11 𝑛12 𝑛13 … 𝑛1𝑙 n1.

2 𝑛21 𝑛22 𝑛23 … 𝑛2𝑙 n2.

3 𝑛31 𝑛32 𝑛33 … 𝑙 ⋮ ⋮

K 𝑛𝑘1 𝑛𝑘2 𝑛𝑘3 … 𝑛𝑘𝑙 nk.

Total n.1 n.2 n.3 … n.l Ntotal

K

k

kknTP1

kk2211 n + … + n + n

L

l

li TPnFP1

L

l

il TPnFN1

L

l

K

k

lk FPTPnTN

1. True Postive (TP) menunjukan bahwa kelas yang dihasilkan prediksi klasifikasi

adalah positif dan kelas sebenarnya adalah positif

2. True Negatif (TN) menunjukan bahwa kelas yang dihasilkan dari prediksi

klasifikasi adalah negatif dan kelas sebenarnya adalah negatif.

3. False Positif (FP) menunjukan bahwa kelas yang dihasilkan dari prediksi

klasifikasi adalah negatif dan kelas sebenarnya adalah positif

4. False Negatif (FN) menunjukan bahwa kelas yang dihasilkan dari prediksi

klasifikasi adalah positif dan kelas sebenarnya adalah negatif.

Ketepatan klasifikasi dapat dilihat dari akurasi klasifikasi. Akurasi klasifikasi

menunjukkan performansi model klasifikasi secara keseluruhan, dimana semakin

tinggi akurasi klasifikasi hal ini berarti semakin baik performansi model klasifikasi.

Jumlah prediksi benarAkurasi Total 100%

Jumlah totalprediksi

30

11 22 kk

total

X +X + +XAkurasi Total 100%

N

(2.47)

Untuk mendapatkan klasifikasi yang optimal dan lebih spesifik maka dapat

diuji Sensitivity dan Specificity. Sensitivity adalah tingkat positif benar atau ukuran

performansi untuk mengukur kelas yang positif (minor) sedangkan Specificity

adalah tingkat negatif benar atau ukuran performansi untuk mengukur kelas yang

negatif (mayor). Rumus Sensitivity dan Specificity adalah sebagai berikut.

100%

( )

TPSensitivity

TP FN

(2.48)

100%

( )

TNSpecificity

TN FP

(2.49)

Selain itu evaluasi performansi model klasifikasi dapat dilakukan dengan

menggunakan G-mean dan F-measure. Berikut ini merupakan penjelasan tentang

G-mean dan F-measure. G-mean merupakan rata-rata geometrik Sensitivity dan

Specificity. Apabila semua kelas psoitif tidak dapat diprediksi maka G-mean akan

bernilai nol sehingga diharapkan suatu algoritma klasifikasi mencapai nilai G-mean

yang tinggi (Kubat dan Matwin dalam Sain, 2013).

ySpecitifitySensitivitGmean (2.50)

kategori ditemukan benar TP= = ×100%

Total kategori ditemukan (TP + FN)Recall / Sensitivity

(2.51)

kategori ditemukan benar TP= ×100%

Total kategori benar (TP + FP)Precision= (2.52)

2×= ×100%

Sensitivity× PrecisionF - Measure

Sensitivity+ Precision (2.53)

Pengukuran akurasi dari kelas imbalance dapat dilakukan dengan

menggunakan perhitungan nilai recall, precision dan F-measure. Recall dihitung

untuk mengevaluasi seberapa coverage suatu model dalam memprediksi suatu kelas

tertentu yaitu kelas positif (minor). Nilai recall sama dengan nilai Sensitivity.

Precision dihitung untuk mengevaluasi seberapa baik ketepatan model dalam

memprediksi suatu kelas positif. Nilai F-measure dihitung untuk menentukan hasil

prediksi yang paling baik, yang merupakan kombinasi dari nilai recall dan

precision. (Sain, 2013).

31

2.9 Data Microarray

Teknologi Microarray memungkinkan suatu pengukuran dalam skala besar

dan paralel untuk mengekspresikan sekitar ribuan bahkan mungkin puluhan ribu

gen. Hal ini telah menjadi salah satu teknologi biologi molekuler paling sukses di

era modern dan telah banyak diterapkan untuk memprediksi fungsi gen,

memberikan informasi yang tak ternilai untuk penemuan obat, menyelidiki

mekanisme peraturan gen, menemukan subtipe baru dari tumor spesifik dan

klasifikasi kanker (Puelma, 2012). Diantara teknologi Microarray tersebut,

klasifikasi kanker telah menjadi subyek penelitian ekstensif di seluruh dunia yang

sangat menjanjikan.

Microarray adalah serangkaian Short Sequence Tag (EST) yang dibuat dari

cDNA. EST terlihat dari pelat kaca penutup-slip berukuran array 8x12, berlapis

sekian ribu. Data disiapkan dari jaringan perlakuan atau kondisi eksperimental,

misalkan ikan yang diberi diet tinggi protein, atau individu dengan kanker

payudara. Data kontrol adalah data tidak diberi perlakuan kemudian diberikan

simbol berupa warna hijau. Sedangkan data eksperiment adalah data yang diberikan

perlakuan dan diberikan symbol berupa warna merah. Setelah itu dilakukan proses

hibridisasi ke data Microarray dengan laser. Laser Dual-Channel menggerakkan

pewarna yang sesuai intensitas fluoresensi. Ekspresi gen relatif diukur sebagai rasio

dari dua panjang gelombang fluoresensi. Gambar 2.10 menampilkan proses umum

memperoleh data ekspresi gen dari Microarray DNA.

Gambar 2.10 Proses Umum Memperoleh Data Ekspresi Gen DNA Microarray

(Diperoleh dari Canedo, Marono, Betanzos, Benitez dan Herrera, 2014)

32

Jenis data ini digunakan untuk mengumpulkan informasi dari jaringan dan sel

sampel mengenai perbedaan ekspresi gen yang dapat berguna untuk diagnosis

penyakit atau untuk membedakan jenis tertentu dari tumor. Klasifikasi data

Microarray menimbulkan tantangan serius bagi teknik komputasi, karena dimensi

yang besar (hingga beberapa puluhan ribu gen) dengan ukuran sampel yang kecil.

Masalah umum dalam data Microarray adalah yang disebut masalah imbalance

class. Hal ini terjadi ketika sebuah dataset didominasi oleh kelas utama atau kelas

yang telah secara signifikan lebih banyak contoh dari kelas langka/minoritas

lainnya dalam data. (Canedo, Marono, Betanzos, Benitez dan Herrera, 2014)

33

2.10 Penelitian Sebelumnya

Penelitian sebelumnya mengenai klasifikasi ensemble-SVM multiclass kelas

imbalance adalah sebagai berikut.

Tabel 2.4 Daftar Penelitian Sebelumnya

Peneliti, Tahun Ringkasan

Elhassan, 2016 Metode undersampling digunakan untuk

menghilangkan noise sebelum menggunakan metode

klasifikasi seperti SVM, Neural Network, Random

Forest dan Logistic Regression. Hasilnya

menunjukkan keunggulan dalam hal performansi

dibandingkan teknik oversampling.

Yu dan Hong, 2013 Metode ensemble (EnSVM-OAO) membantu

memperbaiki akurasi klasifikasi secara keseluruhan,

yang berarti bahwa klasifikasi akurasi antara kelas

mayoritas dan minoritas semakin meningkat

dibandingkan Metode SVM-OAA.

Mediana Aryuni, 2013 Ensemble fitur selection mampu mengurangi waktu

komputasi dan memiliki akurasi yang relatif lebih baik

dibandingkan dengan pengklasifikasi tunggal.

Lin dan Chen, 2012 Pengklasifikasian berbasis SVM Random

Undersampling (SVM-RUS) digunakan mengatasi

masalah klasifikasi imbalance. SVM-ensemble

memberikan hasil performansi paling baik

dibandigkan tanpa menggunakan koreksi ensemble.

34


35

BAB 3

METODOLOGI PENELITIAN

Pada Bab 3 akan dijelaskan mengenai tahapan-tahapan penelitian yang

meliputi kajian simulasi dan kajian terapan pada data Microarray. Selain itu, akan

dipaparkan juga mengenai sumber data, variabel penelitian, struktur data serta

algoritma metode EnSVM-RUS-OAO.

3.1 Kajian Simulasi

Kajian simulasi dilakukan untuk mengetahui performa metode EnSVM-

RUS-OAO, EnSVM-OAO dan SVM-OAO dalam klasifikasi data multiclass

imbalance dengan berbagai rasio. Kemudian dilakukan perbandingan performa

ketiga model berdasarkan kriteria Akurasi, F-score dan G-mean. Tahapan simulasi

yaitu sebagai berikut.

1. Menetapkan data Leukimia (sumber:http://www.gems-system.org/) sebagai

data acuan untuk mendapatkan karakteristik vektor mean dan matriks varians

kovarian. Data Leukimia ditetapkan sebagai acuan karena memiliki nilai

imbalance rasio (IR) sebesar 4,22 dengan jumlah kelas sebanyak 3. Pada

penelitian ini, studi simulasi hanya dibatasi untuk skenario multiclass dengan

jumlah kelas sebanyak 3. Selain itu, nilai IR yang kecil memudahkan untuk

disimulasikan sesuai skenario yang ditetapkan. Sehingga data Leukimia

sesuai untuk dijadikan sebagai acuan data simulasi.

2. Mendapatkan karakteristik data yaitu vektor mean dan matriks varians

kovarians berdasarkan data Leukimia. Data Leukimia memiliki jumlah fitur

sebanyak 5327 fitur. Berikut ini merupakan vektor mean dari data Leukimia.

]48,282764112,233[ˆ3

]22,222144022,186[ˆ2

]92,332450128,161[ˆ1

)]()()([ˆ,,2,1

3

2

1

k

μ

μ

μ

μ

kuntuk

kuntuk

kuntuk

xExExEkpkk

Vektor mean diatas memuat nilai mean dari data leukemia setiap kelas.

Matriks berisi vektor mean itu memiliki ukuran sebesar 1 × 5327 atau dengan

36

ukuran jumlah kelas × jumlah fitur. Selanjutnya yaitu matriks varians setiap

kelas sebagai berikut.

2

,,2,1

,2

2

2,21

,1,12

2

,1

ˆ

kpkpkp

kpk

kpkk

sss

sss

sss

k

913,222998,98137834,327

98,981370815,14,121057

834,3274,12105786,9042

ˆ1

Ekuntuk 1

56,162614,94730819,829

14,94730087,7826,844

819,829826,84469,13940

ˆ2

Ekuntuk 2

67,97615807285,718

1580720835,1118079

185,71811807953,15198

ˆ3

Ekuntuk 3

Matriks diatas memuat nilai varians kovarians dari data leukemia untuk kelas 1,2

dan 3 yang memiliki ukuran sebesar 5327 × 5327 atau jumlah fitur ×jumlah fitur.

3. Setelah mendapatkan karakteristik data Leukimia berupa vektor mean dan

matriks varians kovarians, selanjutnya yaitu membangkitkan data. Data

dibangkitkan mengikuti distribusi multivariate normal dan disesuaikan

dengan skenario yang akan dicobakan. Peneliti merancang 3 buah skenario

berdasarkan rasio imbalance dan jumlah fitur yang berbeda-beda. Rasio

dihitung dari jumlah kelas negatif (mayor) dibagi dengan jumlah kelas positif

(minor).

a. Skenario 1

Pada skenario pertama yaitu membangkitkan jumlah fitur sebanyak 5000

fitur dan 1000 fitur dengan jumlah sampel sebanyak 100. Sampel terbagi

37

menjadi 3 kelas. Pembagian kelas pada skenario 1 merupakan data dalam

perbandingan rasio 1, sehingga perbandingannya yaitu 33:33:34. Berikut ini

merupakan matriks dataset untuk skenario 1.

81,8958,24656,556

49,7091,32362,610

18,13348,12428,78

6,31693,37711,552

61,17693,23255,26

62,1167,21461,185

54,1609,22676,470

26,3624,40164,996

21,18381,10645,355

2

2

2

1

1

1

0

0

0

100

68

67

66

35

34

33

2

1

/ 5000100021

xxxxY

b. Skenario 2

Membangkitkan jumlah fitur sebanyak 5000 fitur dan 1000 fitur dengan jumlah

sampel sebanyak 100 terbagi menjadi 3 kelas. Pembagian kelas pada skenario 2

merupakan rasio 5, sehingga perbandingannya yaitu 10:40:50. Berikut ini

merupakan matriks dataset untuk skenario 2.

31,23656,9564,1042

08,3314,9975,276

38,27621,7229,280

27,42769,2949,953

39,2211,4521,403

19,30867,6822,720

65,571720,35,158

27,253790,5461,184

12,255280,3381,121

2

2

2

2

1

1

1

0

0

100

53

52

51

50

12

11

10

1

/ 5000100021

xxxxY

38

c. Skenario 3

Membangkitkan jumlah fitur sebanyak 5000 dan 1000 dengan jumlah sampel

sebanyak 100 terbagi menjadi 3 kelas. Pembagian kelas pada skenario 2 merupakan

rasio 8, sehingga perbandingannya yaitu 10:10:80. Berikut ini merupakan matriks

dataset untuk skenario 3.

12,43187,846839,209

175,41001,994153,205

92,4262,4284142,8

38,6654,866958,370

27,7184,692933,145

33,3353,9258941,70

6,46811041950,41

79,3837,8092210,305

12,3351,10314470,579

2

2

2

2

2

1

1

0

0

100

24

23

22

21

20

11

10

1

/ 5000100021

xxxxY

4. Membagi data ke dalam data training dan data testing dengan

menggunakan threefold cross validation dengan stratifikasi. Misalkan

diilustrasikan dengan skenario 3 yaitu pembagian kelas 10:10:80.

Tabel 3.1 Ilustrasi Threefold Cross Validation Skenario 3

Fold 1 Fold 2 Fold 3

Kelas 0=3, kelas 1=3,

Kelas 2=27


Kelas 2=27


Kelas 2=26


Kelas 2=27


Kelas 2=27


Kelas 2=26


Kelas 2=27


Kelas 2=27


Kelas 2=26

*)blok berwarna abu-abu menunjukkan fold sebagai data testing

5. Menghitung performansi 3 skenario dengan 2 macam dataset tersebut

dengan menggunakan SVM-OAO. Kernel yang digunakan yaitu linear,

polynomial dan RBF. Untuk mendapatkan parameter yang optimum,

digunakan metode grid search dengan nilai C=2-5 sampai 215 dan γ=2-15

sampai 23. Nilai parameter tersebut ditentukan berdasarkan penelitian

39

Hsu, Chang dan Lin (2016). Berikut ini merupakan algoritma SVM-OAO

(algoritma 3.1) sebagai berikut.

Gambar 3.1 Algoritma SVM-OAO

6. Melakukan seleksi fitur untuk ketiga skenario dengan dua macam

dataset yaitu 1000 dan 5000 fitur dengan menggunakan algoritma FCBF

(Fast Correlation Based Filter). Metode ini akan merangking fitur

berdasarkan nilai symmetrical uncertainly dengan sebelumnya

dilakukan bining menggunakan metode MDL (Minimal Description

Length). Sehingga waktu komputasi atau running time menjadi lebih

cepat tanpa menghilangkan informasi yang penting.

7. Menghitung kembali performansi 3 skenario dengan 2 macam dataset

yaitu 1000 dan 5000 fitur tersebut dengan menggunakan SVM-OAO

Input: nnii yy ,,...,, xx dimana }1,1{ iy

1. Menentukan jumlah persamaan hyperplane : k(k − 1) /2

For i= 1: k, j = i+1 : k

misal ada 3 kelas, maka fungsi pemisah p yaitu p12, p13, dan p23

2. Meminimumkan permasalahan optimasi klasifikasi SVM biner, sesuai dengan

persamaan :

n

r

ijr

ijijb

C1,, 2

1

2

1min

ijTij

ijw

ww

dengan

iyb rijr

ij jika,1)( jij xw

jyb rijr

ij jika,1)( jij xw

3. Hitung nilai (α, b) dengan Optimasi dengan Karush Kuhn Tucker (KKT)

4. Membentuk persamaan construct hyperplane :

0)()( ijijij bsignfT

xwx

5. Initial voting pada setiap kelas


Persamaan kelas 1 : f 1 (x) = (w1)x + b1

Persamaan kelas k : f k (x) = (wk)x + bk

7. Jika data x dimasukkan dalam ke dalam persamaan construct dan hasilnya

menyatakan x adalah kelas k

Kemudian : Voting (i)= voting (i) +1

Else : Voting (j) = voting (j)+1

End if : Kelas dari x ditentukan dari jumlah voting terbanyak.

j = class of x = arg max wi x + bi, dimana j S, i=1,2,…,k

40

dengan data yang telah dilakukan fitur seleksi FCBF. Selanjutnya

disebut SVM-OAO (FCBF).

8. Melakukan klasterisasi fitur dengan menggunakan metode Ensemble

Fitur Subspace (FSS) dengan jumlah cluster ditentukan sebanyak 2

cluster. Kemudian setiap cluster terdapat classifier SVM sehingga

didapatkan performansi untuk 3 skenario dengan 2 macam dataset

tersebut dengan menggunakan EnSVM-OAO. Berikut ini merupakan

algoritma Fitur Subspace (FSS) (algoritma 3.2).

Gambar 3.2 Algoritma EnSVM

9. Menghapus data kelas mayor sehingga sama dengan kelas minor

menggunakan Random Undersampling (RUS). Kemudian Menghitung

kembali performansi 3 skenario dengan 2 macam dataset tersebut

dengan menggunakan EnSVM-RUS-OAO. Berikut ini merupakan

algoritma Random Undersampling (algoritma 3.3).

Gambar 3.3 Algoritma Random Undersampling

Input: nxxx ,,, 21 x , nzzz ,,, 21 z

1. Tentukan k jumlah cluster yang ingin dibentuk

2. Hitung matrik jarak antar data dengan jarak Euclidean.

n

i

ii zxd1

2)(),( zx

3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan

yang ditentukan dddd xzxzxz ,max

4. Update nilai jarak Euclidean yang telah terbentuk menjadi cluster.

5. Jika nilai jarak Euclidean untuk semua fitur sudah tercluster, maka

terbentuk output L fitur subspace.

Input: nnii yy ,,...,, xx dimana }1,1{ iy

1. Identifikasi kelas negative/mayor (yi=-1) dan data kelas positif/minor

(yi=1)

2. Hitung jumlah anggota tiap kelas (yi=-1) dan data kelas (yi=1)

If length(yi=-1) > length(yi=1), maka anggota kelas x dihapus secara acak

Output: jumlah kelas (yi=-1) = kelas (yi=1) atau length(yi=-1) = length(yi=1)

41

10. Membandingkan hasil performansi klasifikasi metode EnSVM-RUS-

OAO, EnSVM-OAO dan SVM-OAO untuk setiap skenario dengan

kriteria akurasi, F-score dan G-mean serta running time.

11. Mendapatkan performansi terbaik.

3.2 Aplikasi Data Microarray

Setelah melakukan studi simulasi, selanjutnya yaitu penerapan pada data riil

DNA Microarray. Berikut ini merupakan sumber data, struktur data dan tahapan

penelitian dari data Microarray.

3.2.1 Sumber Data

Data yang digunakan dalam penelitian diperoleh melalui http://www.gems-

system.org/. Terdapat tiga set data Microarray kanker multiclass imbalance yang

digunakan untuk memverifikasi metode ensemble-SVM yang diusulkan.

Karakteristik data menunjukkan terdapat dataset yang memiliki 3 sampai 5 kelas,

72 sampai 203 jumlah sampel, 5327 sampai 12600 gen, dan rasio imbalance dalam

kisaran 4,22 sampai 23,17. Kumpulan data dan informasi rinci tentang data ini

ditunjukkan pada Tabel 3.2.

Tabel 3.2 Informasi Dataset DNA Microarray

Dataset Jumlah

Sampel

Banyak

Kelas

Jumlah

Gen

Rasio

Imbalance Kategori

Leukimia 72 3 5327 4,22

ALL B-cell (1) = 38

ALL T-cell (2) = 9

AML (3) = 25

Brain Tumor 90 5 5920 15,00

Medulloblastoma (1) = 60

Malignant glioma (2) = 10

AT/RT (3) = 10

Normal cerebellum (4) = 4

PNET (5) = 6

Lung Cancer 203 5 12600 23,17

Adeno (1) = 139

Normal (2) = 17

Squamous (3) = 21

COID (4) = 20

SMCL (5) = 6

*Rasio Imbalance = jumlah data kelas negatif/jumlah data kelas positif

42

a. Data Leukimia

Sampel pada data Leukimia diklasifikasikan kedalam tiga jenis penyakit

Leukimia, yaitu Acute Lymphoblastic Leukimia B-Cell (ALL B-Cell) sebanyak 38

data, Acute Lymphoblastic Leukimia T-Cell (ALL T-Cell) sebanyak 9 data dan

Acute Myelogenous Leukimia (AML) sebanyak 25 data. Data Leukimia diperoleh

dari website http://www.gems-system.org/ Total gen Leukimia adalah 5327 dan

jumlah sampel datanya adalah 72 data dengan rasio imbalance yaitu 4,22.

b. Data Brain Tumor

Sampel pada Data Brain tumor diklasifikasikan kedalam lima jenis penyakit

Brain Tumor, yaitu Medulloblastoma sebanyak 60 data, Malignant glioma

sebanyak 10 data, AT/RT sebanyak 10 data, Normal cerebellum sebanyak 4 data

dan PNET sebanyak 6 data. Data Brain tumor diperoleh dari website

http://www.gems-system.org/ Total gen Brain tumor adalah 5920 dan jumlah

sampel datanya adalah 90 data dengan rasio imbalance yaitu 15,00.

c. Data Lung Cancer

Sampel pada Data Lung Cancer diklasifikasikan kedalam lima jenis penyakit

Lung Cancer, yaitu Adeno sebanyak 203 data, Normal sebanyak 17 data, Squamous

sebanyak 21 data, COID cerebellum sebanyak 21 data dan SMCL sebanyak 6 data.

Data Lung Cancer diperoleh dari website http://www.gems-system.org/ Total gen

Lung Cancer adalah 12600 dan jumlah sampel datanya adalah 90 data dengan rasio

imbalance yaitu 23,17. IR merupakan hasil bagi antara jumlah kelas negatif

(mayoritas) dengan kelas positif (minoritas).

3.2.2 Struktur Data

Berikut ini diberikan struktur data untuk masing-masing data. Struktur data

Leukimia ditunjukkan pada Tabel 3.3. Struktur data digunakan untuk mengetahui

bagaimana susunan suatu data dengan karakteristiknya berupa variabel dan sampel.

Adanya struktur data dalam bentuk Tabel memudahkan pembaca memahami suatu

data yang diteliti.

43

Tabel 3.3 Struktur Data Leukimia

Sampel Gen 1 Gen 2 Gen 3 ... Gen

5326

Gen

5327

Jenis

Leukimia

1 88 15091 7 ... 191 -37 ALL B-cell

2 283 11038 37 ... 76 -14 ALL T-cell

3 309 16692 183 ... 228 -41 ALL T-cell

... ... ... ... ... ... ... ...

36 318 23865 -38 ... 246 23 AML

... ... ... ... ... ... ... ...

72 211 23462 30 ... 237 -2 ALL B-cell

Tabel 3.3 menunjukkan Sampel pada data Leukimia diklasifikasikan kedalam

tiga jenis penyakit dengan total gen Leukimia adalah 5327 dan jumlah sampel

datanya adalah 72 data. Berikut ini struktur data Brain tumor ditunjukkan pada

Tabel 3.4.

Tabel 3.4 Struktur Data Brain Tumor


5919

Gen

5920

Jenis

Brain Tumor

1 22 -20 16690 ... -25 56 Medulloblastoma

2 -16 15 22266 ... -750 -45 Medulloblastoma

3 -11 17 36398 ... 11 2 Medulloblastoma

... ... ... ... ... ... ... ...

63 136 -49 48403 ... -145 396 Malignant glioma

... ... ... ... ... ... ... ...

90 262 -93 23425 ... 23 -39 PNET

Tabel 3.4 menunjukkan Sampel pada data Brain tumor diklasifikasikan

kedalam lima jenis penyakit dengan total gen Leukimia adalah 5920 dan jumlah

sampel datanya adalah 90 data. Struktur data untuk Lung Cancer ditunjukkan pada

Tabel 3.5.

Tabel 3.5 Struktur Data Lung Cancer


12599

Gen

12600 Jenis Lung Cancer

1 -18,6 10,54 0,01 ... -103,49 76,98 Adeno 2 9,12 9,12 10,18 ... -34,41 105,73 Adeno 3 -2,175 -2,21 -0,06 ... -42,63 73735 Adeno ... ... ... ... ... ... ... ...

173 -12,55 -8,02 -17,07 ... -82,67 66 Squamous ... ... ... ... ... ... ... ...

203 -18,37 -1,03 -8,26 ... 74,17 -24,87 COID

44

Tabel 3.5 menunjukkan Sampel pada data Lung Cancer diklasifikasikan

kedalam lima jenis penyakit dengan total gen Leukimia adalah 12600 dan jumlah

sampel datanya adalah 203 data.

3.2.3 Langkah Analisis

Berikut ini langkah analisis untuk mengetahui performa metode EnSVM-

RUS-OAO, EnSVM-OAO dan SVM-OAO dalam klasifikasi data multiclass

imbalance dengan berbagai rasio imbalance. Kemudian dilakukan perbandingan

performa ketiga model berdasarkan kriteria Akurasi, F-score dan G-mean. Tahapan

penerapan data riil yaitu sebagai berikut.:

1. Membagi data ke dalam data training dan data testing dengan menggunakan

threefold cross validation dengan stratifikasi dimana komposisi dari masing-

masing fold berisi 33% dari jumlah data mayor dan 33% dari jumlah data

minor. Ilustrasi proses validasi untuk salah satu data Microarray akan

ditunjukan sebagai berikut: pada data Leukimia diketahui jumlah kelas mayor

yaitu 38, dan jumlah kelas minor yaitu 9. Kemudian dibentuk 3 fold untuk

masing-masing kelas sehingga ketiga fold untuk kelas mayor berisi 12,13,13

pengamatan dan ketiga fold untuk kelas minor masing-masing berisi 3,3,3

pengamatan. Proses pemilihan anggota fold dilakukan dengan acak dan

pengamatan-pengamatan disetiap fold tidak tumpang tindih.

Tabel 3.6 Ilustrasi Proses Validasi

Validasi Fold

1 2 3

1 Testing

(k1=12, k2=8, k3=3)

Training

(k1=13, k2=8, k3=3)

Training

(k1=13, k2=9, k3=3)

2 Training

(k1=13, k2=8, k3=3)

Testing

(k1=12, k2=9, k3=3)

Training

(k1=13, k2=8, k3=3)

3 Training

(k1=13, k2=9, k3=3)

Training

(k1=13, k2=8, k3=3)

Testing

(k1=12, k2=8, k3=3) *) k1= jumlah pengamatan kelas mayor; k2= jumlah pengamatan kelas lainnya, k3= jumlah

pengamatan kelas minor

2. Berdasarkan Tabel 3.6, pada validasi pertama fold pertama digunakan

sebagai data testing dan gabungan fold kedua dan ketiga digunakan sebagai

data training sehingga jumlah pengamatan pada data testing dan training pada

validasi pertama masing-masing yaitu 23 dan 49 pengamatan.

45

3. Menghitung performansi 3 dataset tersebut dengan menggunakan SVM-OAO

sesuai dengan algoritma 3.1. Kernel yang digunakan yaitu linear, polynomial

dan RBF. Untuk mendapatkan parameter yang optimum, digunakan metode

grid search dengan nilai C=2-5 sampai 215 dan γ=2-15 sampai 23. Nilai

parameter tersebut ditentukan berdasarkan penelitian sebelumnya yaitu Hsu,

Chang dan Lin (2016).

4. Melakukan seleksi fitur untuk ketiga dataset dengan menggunakan algoritma

FCBF (Fast Correlation Based Filter) dengan threshold = 0.2. Kemudian

menghitung performansi ketiga dataset dengan SVM-OAO.

5. Melakukan klasterisasi fitur dengan menggunakan metode Ensemble Fitur

Subspace (FSS) sesuai dengan algortima 3.2 dengan jumlah cluster

ditentukan sebanyak 2 dan 5 cluster. Kemudian setiap cluster terdapat

classifier SVM sehingga didapatkan performansi untuk 3 dataset tersebut

dengan menggunakan EnSVM-OAO. Jumlah cluster untuk ensemble feature

subspace ditentukan berdasarkan grafik dendogram clustering hirarki

complete linkage dari ketiga dataset. Garis pemisah dendogram yang mampu

membedakan feature-feature dalam satu kelompok cluster adalah pada 2

cluster dan 5 cluster. Sehingga peneliti menetapkan penelitian ini

menggunakan EnSVM dengan ukuran cluster sebanyak 2 dan 5 cluster.

6. Menghapus data jumlah kelas mayor yang sehingga sama dengan kelas minor

dengan menggunakan Random Undersampling (RUS) sesuai pada algoritma

3.3. Kemudian Menghitung kembali performansi 3 skenario dengan 2 macam

dataset tersebut dengan metode EnSVM-RUS-OAO.

7. Membandingkan hasil performansi klasifikasi metode EnSVM-RUS-OAO,

EnSVM-OAO dan SVM-OAO untuk setiap skenario dengan kriteria akurasi,

F-score dan G-mean.

8. Mendapatkan performansi terbaik.

46

3.3 Diagram Alir Penelitian

Berikut ini merupakan diagram alir penelitian yang ditunjukkan pada

Gambar 3.4 sebagai berikut.

Gambar 3.4 Tahapan Metode EnSVM-RUS-OAO

Fitur Seleksi dengan FCBF

Menentukan range parameter C=2-5 : 215 dan =2-15 : 23

Untuk setiap pasangan C dan optimum

Membagi data ke dalam training dan testing

menggunakan threefold cross validation

Membangun model SVM-OAO pada

tiap validasi

Membangun model EnSVM-OAO dengan

klasterisasi fitur

Menghapus data mayor menjadi sama

dengan data minor dengan RUS sehingga

modelnya EnSVM-RUS-OAO

Mengklasifikasikan data testing dan menghitung performansi

Akurasi, Fscore, Gmean pada tiap validasi

Membandingkan hasil performansi metode yang optimum

Menarik kesimpulan

Data

47

BAB 4

HASIL DAN PEMBAHASAN

Pada bab ini menjelaskan tentang algoritma EnSVM-RUS-OAO jika

dibandingkan dengan EnSVM-OAO dan SVM-OAO dalam klasifikasi data

multiclass dengan berbagai rasio imbalance. Kemudian membandingkan

performansi metode dengan menggunakan kriteria Akurasi, F-score, G-mean pada

tiap validasi. Selanjutnya mencari parameter C dan γ optimum berdasarkan nilai

rata-rata akurasi terbesar dengan metode grid search. Penerapan dilakukan dengan

menggunakan studi simulasi dan penerapan terhadap data riil DNA Microarray.

4.1 Algoritma EnSVM-RUS-OAO

Pada penelitian ini menggunakan metode EnSVM-RUS-OAO untuk

mengatasi kondisi multiclass kelas imbalance DNA Microarray. Berikut ini

merupakan algoritma Ensemble Fitur Subspace Support Vector Machine One

Against One (OAO) atau yang selanjutnya disebut EnSVM-OAO. Random

Undersampling (RUS) atau selanjutnya disebut EnSVM-RUS-OAO. Secara umum,

metode EnSVM-RUS-OAO dapat di Gambarkan melalui algoritma berikut ini.

Algoritma 1. SVM-OAO

Input : sampel training : nixxx p

ipiii ,...,2,1,),...,,( 21 Rx

label training : }1,1{ iy

parameter kernel (), konstanta cost (C)

Output : Akurasi, F-score, G-mean, γ, waktu, parameter (C, )

Begin :

Tahap Training :

1. Membagi data menjadi data training dan data testing, dengan menerapkan

prinsip threefold cross validation by class secara proporsional :

training 75% data per class }1,1{ iy

training 25% data per class }1,1{ iy

misal untuk fold-1 :

2. Membagi data multiclass menjadi multiple binary class sebanyak k kelas

48

3. Membuat label training baru

}1,1{ iy

Label baru sebanyak k kelas

4. Menentukan parameter fungsi kernel, pada penelitian ini menggunakan

fungsi kernel linear, polynomial dan RBF.

0;exp),(2

jiji γγ xxxxK

5. Menghitung matriks kernel RBF dan menentukan parameter penalti C,

metode grid search dengan nilai C=2-5 sampai 215 dan =2-15 sampai 23

6. Meminimumkan permasalahan optimasi klasifikasi SVM biner, sesuai dengan

Persamaan :

n

i

iC1

2

, 2

1min w

ξw

7. Hitung nilai (α, b) dengan Optimasi dengan Karush Kuhn Tucker (KKT)

8. Membentuk Persamaan construct hyperplane :

0)()( klklkl bsignfT

xwx

Tahap Testing :


Persamaan kelas 1 :

f 1 (x) = (w1)x + b1

Persamaan kelas k :

f k (x) = (wk)x + bk

2. Jika data x dimasukkan dalam ke dalam Persamaan construct dan hasilnya

menyatakan x adalah kelas k

Kelas dari x ditentukan dari jumlah voting terbanyak.

j = class of x = arg max wi x + bi, dimana j S, i=1,2,…,k

Algoritma 2. Random Undersampling (RUS)

Input : data kelas mayor (yi=-1); data kelas minor (yi=1)

Output : data eliminasi kelas mayor yang merupakan kasus Random

Undersampling (RUS)

49

Begin :

1. Mengidentifikasi kelas negatif/mayor (yi=-1) dan data kelas positif/minor

(yi=1)

2. Menghitung jumlah anggota tiap kelas negatif/mayor (yi=-1) dan data kelas

positif/minor (yi=1)

If length(yi=-1) > length(yi=1), maka anggota kelas x dihapus secara acak

3. Sehingga didapatkan jumlah kelas negatif/mayor (yi=-1) sama dengan data

kelas positif/minor (yi=1), length(yi=-1) = length(yi=1).

Algoritma 3. Ensemble Fitur Subspace (FSS)

Input : data training (T); fitur set (F); ukuran fitur (K); ukuran

fitur subspace (D); jumlah fitur subspace (L)

Output : L fitur subspace training subset

Begin :

1. Tentukan k jumlah cluster yang ingin dibentuk.

2. Membuat fitur set (F) kedalam K cluster dengan clustering hirarki

berdasarkan jarak Euclidian.

3. Hitung matrik jarak antar data dengan jarak Euclidean.

n

i

ii zxd1

2)(),( zx

4. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang

ditentukan dddd xzxzxz },max{

5. Update nilai jarak Euclidean yang telah terbentuk menjadi cluster.

6. Jika nilai jarak Euclidean untuk semua fitur sudah tercluster, maka

terbentuk output L fitur subspace.

Berikut merupakan kajian untuk menemukan hyperplane pemisah yang

optimal, maka perlu untuk menyelesaikan masalah optimasi kuadrat pada

Persamaan (2.13). Fungsi tujuan dan fungsi kendala terlebih dahulu diubah kedalam

bentuk fungsi lagrange pada Persamaan (2.14), dimana αi dan µi adalah non negatif

lagrange multiplier. Solusi optimal memenuhi Karush-Kuhn-Tucker (KKT) yang

50

ditunjukkan pada Persamaan (2.23), (2.24) dan (2.25). Untuk turunan terhadap w

ditunjukkan sebagai berikut.

0),,(

w

μα,ξ,w bL

0

)1))('(('2

1

1 1 1

w

xwwwn

i

n

i

n

i

iiiiiii byC

w

xw

ww

ww

n

i

iii

n

i

i yC11

)(''2

1

0

)1(11

ww

n

i

ii

n

i

iii by

000)(0.2.2

1

1

n

i

iii y xw

0)(1

n

i

iii y xw

n

i

iii y1

)(xw

Setelah diturunkan terhadap w maka didapatkan hasil

n

i

iii y1

)(xw .

Kemudian dengan cara yang sama, fungsi lagrange primal problem diturunkan

terhadap b.

0),,(

b

bL μα,ξ,w

0

)1))('(('2

1

1 1 1

b

byCn

i

n

i

n

i

iiiiiii xwww

51

0

1)('(('2

1

111

bb

by

b

C

b

n

i

ii

n

i

iiii

n

i

i xwww

b

by

b

y

b

C

b

n

i

ii

n

i

iii

n

i

i

111

)(''2

1 xwww

0

)1(11

bb

n

i

ii

n

i

ii

0000001

n

i

ii y

01

n

i

ii y

Setelah diturunkan terhadap b didapatkan hasil 01

n

i

ii y dan yang terakhir yaitu

diturunkan terhadap ξ sebagai berikut.

0),,(

i

bL

μα,ξ,w

0

)1))('(('2

1

1 1 1

i

n

i

n

i

n

i

iiiiiii byC

xwww

0

1)('(('2

1

111

i

n

i

ii

i

n

i

iiii

i

n

i

i

i

byC

xwww

i

n

i

iii

i

n

i

i

i

byC

11

)1))('(('2

1xwww

011

i

n

i

ii

i

n

i

ii

000 iiC

Cii

52

Setelah diturunkan terhadap ξ didapatkan hasil Cii . Masing-masing kondisi

KKT yang telah didapatkan yaitu Persamaan (2.46), (2.47) dan (2.48) kemudian

disubstitusikan pada Persamaan (2.41) sebagai berikut.

n

i

n

i

n

i

iiiiiii byCL1 1 1

)1))('(('2

1 xwww

n

i

i

n

i

iii

n

i

iii Cyy11

'

1

)()(2

1 xx

n

i

iii

n

i

i

n

i

iiiii byy11

'

1

)1)()(( xx

)()()()(2

1'

1111 1

i

n

i

iii

n

i

ii

n

i

ijijij

n

i

n

j

i yyyy xxxx

n

i

n

i

ii

n

i

iii

n

i

ii by1 111

)()()()()(2

1

1 111 1

jijij

n

i

n

j

i

n

i

iiijijij

n

i

n

j

i yyyy xxxx

n

i

n

i

ii

n

i

iii

n

i

ii yb1 111

)()()()(2

1

1 11 1

jijij

n

i

n

j

ijijij

n

i

n

j

i yyyy xxxx

n

i

i

n

i

ii

n

i

ii

n

i

ii

n

i

ii

n

i

ii yb111111

n

j

ijijij

n

i

n

j

i byy11 1

0.00)()(2

1 xx

)()(2

1

1 11

jijij

n

i

n

j

i

n

j

i yy xx

Selanjutnya, digunakan SMO algoritma untuk mencari feasible region dari kondisi

dual dan memaksimalkan fungsi objektif berikut.

jijij

n

i

n

j

i

n

i

iD yyL xx

1 11 2

1 dengan ii C ,0

Langkah 1 : Mengoptimasi nilai 1 dan 2 dengan memberikan nilai inisiasi

53

αold=0, dimana },,,,{ 311 N

oldoldold α . Karena nilai

n

i

ii ya1

0 , maka

oldold yyyy 21112211

Batas optimasi menjadi

2121 yy

2121 yy

Langkah 2 : Mendapatkan nilai 1 dengan cara mengakalikan persamaan (2.36)

oldold yyyy 21112211 dengan y1, sehingga :

oldold

oldold

yyyyyy

yyyyyy

2211

2

12211

2

1

1211112211 )()(

21

21

2121

21

2

121

2

1

s

s

ss

sysy

oldold

oldold

Dimisalkan 21yys dan oldold sy 21

2

1 dimana 12

1 y karena menunjukkan

label +1 ataupun -1. Sehingga didapatkan 21 s .

Langkah 3 : Mencari nilai 2 dengan persamaan LD sebagai berikut.

)(2

2(2

1

222111

3

212121

2

22222

2

1111121

cyyy

yyyyyycL

N

i

T

iii

TTT

D

xxx

xxxxxx

Misalkan 211222221111 ,, xxxxxxTTT KKK

j

Told

j

Toldoldold

j

j

Told

j

ToldoldoldoldT

j

j

Told

j

ToldoldT

j

j

N

i

T

iiij

yybu

yybb

yy

yv

xxxx

xxxxwx

xxxxwx

xx

222111

222111

222111

3

)(

Dimana oldoldT

j

old

j bu wx adalah output parameter daru xj

54

cvysvy

ssKKsKs

cvysvy

ssKKsKs

cvyvysKKKLD

222211

2212

2

222

2

2112

222211

2212

2

222

2

21122

2221112112

2

222

2

11121

)(

)(2

1)(

2

1)1(

2)(2

)(2)(2

1

2222

1

cvyvysKsKsKKK

cvyvysKsKsKKK

cvyvyKsKKKsKs

cvyvsyvy

KssKKsKsKKs

222121211

2

2121112

222121211

2

2122211

222212

2

212212

2

222

2

2112112

22221111

2

212

2

212

2

222

2

2

2

11211

2

112

)1()2(2

1

)1(2

1

2

1

2

1

2

1)1(

2

1

2

1

2

1)1(

Kemudian 1211122 KKK dimana koefisien dari 2 adalah

oldoldold

oldoldold

oldoldold

oldoldold

oldoldoldold

oldoldoldoldold

oldoldoldoldoldoldold

oldoldoldoldold

oldoldoldoldoldoldold

EEy

yuyuy

uuyyy

uuysKKKyyy

uuyKKKsKsKsKsKs

KsKbyuyK

sKbyuyKsKKsKs

KyKybuyKy

KybuyssKssKs

vyvysKsKs

2212

222112

221122

212222121121

2

2

2122221211112111211

222112222212

111212211112211111

22221211221222

11111221122111

22121211

)(

))()((

)(

)()2(

)()2()(1

1

)()

()()(1

1

Sehingga fungsi objektif menjadi.

cEEyL oldoldold

D 2

22212

2

2 ))((2

1

Turunan pertama dan kedua didapatkan hasil sebagai berikut.

))(( 22122

2

oldoldoldD EEyL

55

2

2

DL

Sebagai catatan bahwa 02 121112 KKK

Sebagai bukti 211222221111 ,, xxxxxxTTT KKK

Sehingga 0)()(2

121212 xxxxxx T

Langkah 4 : Menetapkan turunan kedua =0

0

2

2DL

sehingga

)(

)(

1222

22122

oldoldold

oldoldoldnew

EEy

EEy

Jika η < 0 maka perlu dilakukan dilakukan evaluasi fungsi objektif pada endpoint

dan menetapkan new

2 sebagai nilai terbesar dari fungsi tujuan. Proses iteratif ini

diulang sampai konvergen. Selanjutnya yaitu fungsi hyperplane jika menggunakan

kernel RBF dalam proses klasifikasinya.

n

i

iii bKyxf1

),()( xx , dimana ),exp(),(2

xxxx iiK

n

i

iii byxf1

2),exp()( xx

4.2 Penerapan Metode EnSVM-RUS-OAO Data Simulasi

Setelah dilakukan kajian mengenai metode En-SVM-RUS-OAO, maka

langkah selanjutnya yaitu melakukan penerapan metode terhadap data simulasi

sesuai dengan skenario yang telah di tetapkan. Penerapan metode En-SVM-RUS-

OAO juga diterapkan pada data riil DNA microarray dengan berbagai rasio

perbandingan kelas mayor dan minor. Kemudian dilakukan perbandingan untuk

setiap metode dengan nilai performansi untuk kelas imbalance yaitu nilai akurasi,

F-score dan G-mean serta waktu komputasi.

Studi simulasi dalam penelitian ini menggunakan metode EnSVM-RUS-OAO,

EnSVM-OAO dan SVM-OAO. Kemudian, hasil simulasi akan dibandingkan untuk

56

mengetahui metode klasifikasi manakah yang lebih baik dalam skenario kelas

imbalance. Data simulasi dibangkitkan mengikuti pola data Leukimia yaitu

mengambil nilai mean dan covarians untuk setiap kelas. Jumlah kelas dibatasi

sebanyak 3 kelas yang menunjukkan multiclass. Kemudian ukuran fitur

dibangkitkan sebanyak 1000 dan 5000 fitur.

4.2.1 Simulasi Skenario 1 (33:33:34)

Berikut ini merupakan hasil rata-rata dari threefold cross validation untuk

skenario 1 dengan pembagian jumlah kelas yaitu 33:33:34 yang selanjutnya

dikategorikan dalam rasio 1. Hasilnya ditampilkan pada Tabel 4.1 sebagai berikut.

Tabel 4.1 Performansi Klasifikasi Rasio 1 (Skenario 1)

Kernel Metode 1000 fitur 5000 fitur

Akurasi F-score G-mean Akurasi F-score G-mean

Linear SVM-OAO 95,00 95,04 94,93 95,5 95,01 95,5

SVM-OAO (FCBF) 95,18 95,16 95,12 96,18 95,83 96,66

EnSVM-OAO 95,31 95,01 95,35 96,45 96,42 97,03

EnSVM-RUS-OAO 95,33 95,05 95,33 96,40 96,34 97,05

Polynomial SVM-OAO 94,73 95,17 95,25 95,32 94,79 94,98

SVM-OAO (FCBF) 95,69 96,01 96,06 95,96 95,04 96,28

EnSVM-OAO 95,74 97,20 96,42 96,22 95,10 96,65

EnSVM-RUS-OAO 95,72 97,19 96,45 96,25 95,08 96,62

RBF SVM-OAO 95,17 95,14 94,96 95,12 95,15 94,64

SVM-OAO (FCBF) 95,81 95,84 95,2 95,81 96,06 95,14

EnSVM-OAO 96,83 96,29 96,62 96,67 96,61 96,89

EnSVM-RUS-OAO 96,82 96,28 96,63 96,68 96,68 96,91

Berdasarkan Tabel 4.1 dapat diketahui bahwa studi simulasi dengan

menggunakan 1000 fitur menunjukkan hasil bahwa metode EnSVM-RUS-OAO

memiliki performansi yang tidak berbeda signifikan dibandingkan dengan metode

EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-

RUS-OAO sebesar 95,33%, nilai F-score sebesar 95,05% dan nilai G-mean sebesar

95,35%. Pada kernel polynomial dengan γ=0,001, cost=1 dan degree=3

menghasilkan nilai akurasi sebesar 95,74%, nilai F-score sebesar 97,20% dan nilai

G-mean sebesar 96,45%. Sedangkan pada kernel RBF, performansi akurasi

EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi sebesar

96,82%, nilai F-score sebesar 96,28% dan nilai G-mean sebesar 96,63%. Secara

keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan

57

menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel

linear dan polynomial.

Studi simulasi dengan 5000 fitur menunjukkan hasil bahwa metode EnSVM-

RUS-OAO memiliki performansi yang tidak berbeda signifikan dibandingkan

dengan metode EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi

akurasi EnSVM-RUS-OAO sebesar 96,45%, nilai F-score sebesar 96,42% dan nilai

G-mean sebesar 96,65%. Pada kernel polynomial dengan γ=0,0002, cost=1 dan

degree=3 menghasilkan nilai akurasi sebesar 96,25%, nilai F-score sebesar 95,10%

dan nilai G-mean sebesar 91,21%. Sedangkan pada kernel RBF, performansi

akurasi EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi

sebesar 96,68%, nilai F-score sebesar 96,68% dan nilai G-mean sebesar 96,91%.

Secara keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan

menggunakan kernel RBF dan linear memberikan hasil yang lebih tinggi daripada

kernel polynomial.

Setelah mendapatkan nilai performansi akurasi, F-score dan G-mean, tahap

selanjutnya yaitu mengukur performansi metode dari segi waktu komputasi. Waktu

komputasi diatur hanya menghitung proses klasifikasi saja, agar comparable untuk

dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.1 sebagai

berikut.

Gambar 4.1 Waktu Komputasi Rasio 1 (Skenario 1)

Secara visual, waktu komputasi dari proses klasifikasi ditampilkan pada

Gambar bar chart 4.1 diatas. Secara keseluruhan, dengan menggunakan 5000 fitur

membutuhkan waktu komputasi yang lebih lama dibandingkan dengan 1000 fitur.

Hal tersebut karena fitur yang sangat tinggi atau high dimensional data membuat

0.32

0.49

0.56

0.64

0.5

0.6

0.17

0.24

0.36

0.39

0.34

0.39

0.2

0.16

0.25

0.29

0.22

0.27

0.14

0.14

0.11

0.13

0.12

0.15

1000 feature

5000 feature

1000 feature

5000 feature

1000 feature

5000 feature

Lin

ear

Po

lyn

om

ial

RB

F

SVM-OAO SVM-OAO (FCBF) EnSVM-OAO EnSVM-RUS-OAO

58

proses klasifikasi lebih lama. Perbandingan waktu klasifikasi antar kernel

menunjukkan hasil bahwa kernel linear memiliki waktu komputasi yang lebih kecil

dibandingkan dengan kernel polynomial dan RBF. Hal tersebut karena

mendapatkan hyperplane dengan 2 dimensi lebih mudah dibandingkan dengan 3

dimensi.


Selanjutnya yaitu hasil rata-rata threefold cross validation untuk simulasi


dikategorikan dalam rasio 5. Berdasarkan Tabel 4.2 dapat diketahui bahwa studi

simulasi dengan menggunakan 1000 fitur menunjukkan hasil bahwa metode

EnSVM-RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan

metode EnSVM-OAO dan SVM-OAO.

Tabel 4.2 Performansi Klasfikasi Rasio 5 (Skenario 2)



Linear SVM-OAO 89,87 89,51 90,44 90,24 90,14 90,14

SVM-OAO (FCBF) 90,41 89,93 90,69 90,51 90,32 90,26

EnSVM-OAO 90,72 90,4 90,78 90,77 90,88 90,72

EnSVM-RUS-OAO 90,83 90,61 90,98 91,05 91,13 90,99


SVM-OAO (FCBF) 89,95 91,96 90,57 90,51 90,32 90,78

EnSVM-OAO 91,31 91,99 90,97 90,77 90,88 91,10

EnSVM-RUS-OAO 91,73 92,19 91,36 91,84 91,13 91,21

RBF SVM-OAO 91,92 92,37 91,74 90,67 92,06 91,13

SVM-OAO (FCBF) 92,22 92,69 91,90 91,14 92,17 92,44

EnSVM-OAO 92,62 93,36 92,03 92,01 93,43 93,52

EnSVM-RUS-OAO 93,02 93,83 93,94 93,50 94,61 94,21

Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar 90,83%,

nilai F-score sebesar 90,61% dan nilai G-mean sebesar 90,98%. Pada kernel

polynomial dengan γ=0,001, cost=1 dan degree=3 menghasilkan nilai akurasi


Sedangkan pada kernel RBF, performansi akurasi EnSVM-RUS-OAO dengan

γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 93.02%, nilai F-score sebesar

93,83% dan nilai G-mean sebesar 93,94%. Secara keseluruhan, dapat disimpulkan

59

bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF memberikan

hasil yang lebih tinggi daripada kernel linear dan polynomial.


RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan metode




menghasilkan nilai akurasi sebesar 91.84%, nilai F-score sebesar 92,13% dan nilai







Gambar 4.2 Waktu Komputasi Rasio 5 (Skenario 2)




dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.3 diatas.

Secara keseluruhan, dengan menggunakan 5000 fitur membutuhkan waktu

komputasi yang lebih lama dibandingkan dengan 1000 fitur. Hal tersebut karena

fitur yang sangat tinggi atau high dimensional data membuat proses klasifikasi lebih

lama. Perbandingan waktu klasifikasi antar kernel menunjukkan hasil bahwa kernel

linear memiliki waktu komputasi yang lebih kecil dibandingkan dengan kernel

0.2

0.21

0.23

0.36

0.3

0.32

0.14

0.17

0.18

0.25

0.23

0.24

0.08

0.14

0.15

0.19

0.17

0.19

0.06

0.07

0.1

0.13

0.12

0.18

1000 feature

5000 feature

1000 feature

5000 feature

1000 feature

5000 feature

Lin

ear

Po

lyn

om

ial

RB

F


60

polynomial dan RBF. Selain itu hyperplane dengan 2 dimensi lebih mudah

dibandingkan dengan 3 dimensi, namun tidak mendapatkan akurasi yang lebih

tinggi.


Selanjutnya yaitu hasil rata-rata threefold cross validation untuk simulasi


dikategorikan dalam Rasio 8. Berdasarkan Tabel 4.3 dapat diketahui bahwa studi

simulasi dengan menggunakan 1000 fitur menunjukkan hasil bahwa metode

EnSVM-RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan

metode EnSVM-OAO dan SVM-OAO.

Tabel 4.3 Performansi Klasifikasi Rasio 8 (Skenario 3)



Linear SVM-OAO 89,84 89,3 89,39 88,78 89,11 88,83

SVM-OAO (FCBF) 90,65 89,92 90,14 90,56 90,37 90,13

EnSVM-OAO 91,00 90,94 90,26 91,00 90,89 90,22

EnSVM-RUS-OAO 91,50 91,26 91,16 91,36 91,14 91,48


SVM-OAO (FCBF) 89,61 89,99 89,89 90,05 89,69 90,06

EnSVM-OAO 90,25 90,44 90,40 90,21 89,94 90,29

EnSVM-RUS-OAO 91,70 91,72 91,87 92,09 92,06 92,31

RBF SVM-OAO 88,87 88,95 88,69 89,40 88,65 89,96

SVM-OAO (FCBF) 89,93 90,16 90,26 89,96 89,53 90,26

EnSVM-OAO 90,06 90,19 90,85 90,37 90,37 90,39

EnSVM-RUS-OAO 92,45 92,53 92,29 92,78 92,53 92,62

Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar 91,50%,

nilai F-score sebesar 91,26% dan nilai G-mean sebesar 91,16%. Pada kernel




γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 92,45%, nilai F-score sebesar

92,53% dan nilai G-mean sebesar 92,29%. Secara keseluruhan, dapat disimpulkan

bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF memberikan

hasil yang lebih tinggi daripada kernel linear dan polynomial.


RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan metode

61




menghasilkan nilai akurasi sebesar 92,09%, nilai F-score sebesar 92,06% dan nilai







Gambar 4.3 Waktu Komputasi Imbalance Tinggi (Skenario 3)




dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.3 diatas

yang menunjukkan secara visual waktu komputasi dari proses klasifikasi. Secara

keseluruhan, dengan menggunakan 5000 fitur membutuhkan waktu komputasi

yang lebih lama dibandingkan dengan dataset 1000 fitur.

Hal tersebut karena fitur yang sangat tinggi atau high dimensional data

membuat proses klasifikasi lebih lama. Perbandingan waktu klasifikasi antar kernel

menunjukkan hasil bahwa kernel linear memiliki waktu komputasi yang lebih kecil

dibandingkan dengan kernel polynomial dan RBF. Hal tersebut karena

mendapatkan hyperplane dengan 2 dimensi lebih mudah dibandingkan dengan 3

dimensi, namun tidak mendapatkan akurasi yang lebih tinggi.

0.46

0.6

0.46

0.57

0.42

0.64

0.21

0.26

0.25

0.28

0.32

0.39

0.15

0.19

0.19

0.2

0.28

0.24

0.08

0.08

0.12

0.13

0.14

0.1

1000 feature

5000 feature

1000 feature

5000 feature

1000 feature

5000 feature

Lin

ear

Po

lyn

om

ial

RB

F


62

4.2.4 Perbandingan Semua Skenario Data Simulasi

Berikut ini merupakan perbandingan hasil studi simulasi dengan

menggunakan metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hasil

performansi akurasi, F-score dan G-mean dapat ditunjukkan pada grafik 4.4

sebagai berikut.

Gambar 4.4 Perbandingan Performansi Semua Skenario Data Simulasi

Berdasarkan Gambar 4.4 dapat diketahui bahwa, pada kondisi rasio 1 yaitu

perbandingan kelas 33:33:34 menunjukkan tidak ada perbedaan yang signifikan

antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hal tersebut

dikarenakan pada saat proses RUS, hanya menghapus 1 data saja, letak perbedaan

berada pada saat proses FCBF. Pada saat kondisi rasio 5 yaitu perbandingan kelas

10:40:50 dan rasio 8 yaitu perbandingan kelas 10:10:80, terlihat perbedaan antar

metode utamanya setelah dilakukan fitur seleksi FCBF. Sehingga metode EnSVM-

RUS-OAO sesuai jika diterapkan pada klasifikasi data imbalance. Semakin tinggi

rasio imbalance membuat performansi semakin menurun. Akan tetapi metode

EnSVM-RUS-OAO memberikan performansi yang lebih unggul dibandingkan

dengan metode EnSVM-OAO dan SVM-OAO.

4.3 Penerapan Pada Data Microarray

84

86

88

90

92

94

96

98

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

rasio 1 rasio 5 rasio 8

(%)

63

Berikut ini merupakan hasil penerapan metode EnSVM-RUS-OAO pada data

DNA Microarray. Data terdiri atas 3 dataset yaitu data Leukimia (IR 4,22), data

Brain tumor (IR 15,00) dan data Lung Cancer (IR 23,17).

4.3.1 Data Leukimia (IR 4,22)

Data pertama merupakan data Microarray yang terdiri dari ekspresi gen

pasien yang menderita Leukimia. Pengamatan pada data Leukimia diperoleh dari 72

pasien pengidap Leukimia yang terbagi menjadi tiga jenis, yaitu Acute

Lymphoblastic Leukimia B-Cell (ALL B-Cell), Acute Lymphoblastic Leukimia T-

Cell (ALL T-Cell) dan Myelogenous Leukimia (AML). Prosentase jenis Leukimia

dapat diketahui melalui Gambar pie chart berikut ini.

Gambar 4.5 Prosentase Jenis Leukimia

Gambar 4.5 menunjukkan bahwa dari 72 pengamatan pasien pengidap

Leukimia terdapat 38 pengamatan (53%) merupakan pasien pengidap ALL B-Cell,

sebanyak 9 pengamatan (12%) merupakan pasien pengidap ALL T-Cell dan

sebanyak 25 pengamatan (35%) lainnya merupakan pasien pengidap AML.

Sehingga rasio kelas imbalance adalah jumlah data kelas mayor (38) dibagi dengan

jumlah data kelas minor (9) yaitu 4,22. Pola nilai ekspresi gen dari beberapa fitur

yang terdapat pada data Leukimia ditunjukkan melalui persebaran data pada

Gambar 4.6 berikut.

Gambar 4.6 Persebaran Data dari Beberapa Fitur pada Data Leukimia

Scatter Plot Matrix

A1200300400

200 400

0100200

0 200

A2400005000060000

40000

100002000030000

10000

A3-200

200-200

-800

-400-800

A4200400

200

-2000

-200

A550

10050

-50

0-50 0

A61000

2000

1000

-1000

0-1000

Klasifikasi Data Leukimia1ALL Bcell ALL Tcell AML

64

Berdasarkan Gambar 4.6 Nilai ekspresi gen dari kelas ALL B-Cell (lingkaran

biru), kelas ALL T-Cell (lingkaran ungu) dan kelas AML (lingkaran hijau) pada

beberapa fitur memiliki nilai yang cenderung sama. Berdasarkan Gambar 4.6,

didapatkan bahwa data untuk masing-masing kelas tersebar secara merata, hal

tersebut akan mempersulit dalam melakukan proses klasifikasi, sehingga

diperlukan fungsi pemisah atau hyperplane metode kernel untuk mempermudah

proses klasifikasi data.

Langkah pertama dalam penerapan metode ini yaitu seleksi fitur. Proses

pemilihan fitur terbaik atau biasa disebut fitur selection mempunyai konsep

memilih fitur-fitur yang berpengaruh terhadap klasifikasi data sehingga diharapkan

dapat meningkatkan hasil akurasi klasifikasi dengan waktu yang efektif dan biaya

yang lebih sedikit. Hasil FCBF ditampilkan pada Tabel berikut.

Tabel 4.4 Seleksi fitur FCBF dari Data Leukimia

Nomor Fitur Nama Fitur Gain

Information Seleksi fitur

Gain

Information

1 A1 0,016 A1426 0,634

2 A2 0,145 A5142 0,563

3 A3 0,017 A1999 0,541

… … … … …

97 A97 … A3190 0,200

… … …

5327 A5327 0,321

Jumlah fitur 5920 97

waktu 0,513 menit 0,063 menit

Pemilihan fitur untuk klasifikasi dihitung melalui analisis korelasi pada fitur

(serta kelas) melibatkan dua aspek yaitu (1) menentukan apakah suatu fitur relevan

dengan kelas atau tidak, dan (2) memutuskan apakah suatu fitur yang relevan

tersebut redundant (berlebihan). Berdasarkan hasil perhitungan yang telah

dilakukan, jumlah fitur yang relevant untuk data Leukimia dengan threshold = 0,2

terpilih sebanyak 97 fitur. Waktu komputasi 0,063 menit lebih cepat dibandingkan

tanpa dilakukan seleksi fitur FCBF yaitu 0,513 menit.

Selanjutnya yaitu tahapan pencarian parameter yang optimal untuk dapat

meningkatkan performansi klasifikasi. Berikut ini merupakan hasil optimasi

parameter RBF menggunakan metode grid search dengan nilai cost 2-5 sampai 215

dan nilai γ = 2-15 sampai 2-3. Nilai parameter ditentukan berdasarkan penelitian Hsu,

Chang dan Lin (2016).

65

Gambar 4.7 Grid search SVM Data Leukimia

Gambar 4.7 merupakan performansi akurasi, F-score dan G-mean secara

visual. Grid berwarna putih menunjukkan nilai performansi yang semakin baik,

sedangkan grid yang berwarna biru menunjukkan nilai performansi yang semakin

buruk. Parameter cost terbaik terletak pada grid 21 sampai 215 sedangkan parameter

γ terbaik terletak pada grid 2-8 sampai 2-15.

Gambar 4.8 Nilai Optimum Grid search SVM Data Leukimia

Secara spesifik, nilai parameter cost dan γ terbaik dapat ditunjukkan pada

multiple line plot pada Gambar 4.8 diatas. Puncak tertinggi terletak pada nilai cost

23 dan nilai γ = 2-10 yang selanjutnya diterapkan untuk menghitung performansi

metode SVM-OAO, EnSVM-OAO dan EnSVM-OAO (RUS). Berikut ini merupakan

hasil performansi klasifikasi yang dinyatakan dalam nilai akurasi, F-score dan G-

mean dari metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO pada data

Leukimia.

66

Tabel 4.5 Performansi Klasifikasi Data Leukimia (IR 4,22)

Kernel Metode Akurasi F-score G-mean

Linear SVM-OAO 95,83 97,43 97,48

SVM-OAO (FCBF) 95,83 97,44 97,44

EnSVM-OAO 95,83 98,67 98,69

EnSVM-RUS-OAO 100 100 100

Polynomial SVM-OAO 55,56 70,41 73,73

SVM-OAO (FCBF) 73,61 80,11 81,77

EnSVM-OAO 75,00 80,93 82,45

EnSVM-RUS-OAO 88,89 86,90 88,02

RBF SVM-OAO 70,83 78,38 80,29

SVM-OAO (FCBF) 95,83 97,44 97,44

EnSVM-OAO 97,22 100 100

EnSVM-RUS-OAO 100 100 100

Berdasarkan Tabel 4.5 dapat diketahui bahwa metode EnSVM-RUS-OAO

memiliki performansi yang lebih tinggi dibandingkan dengan metode EnSVM-OAO

dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar

100%, nilai F-score sebesar 100% dan nilai G-mean sebesar 100%. Pada kernel




γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 100%, nilai F-score sebesar

100% dan nilai G-mean sebesar 100%. Secara keseluruhan, dapat disimpulkan

bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF dan linear

memberikan hasil yang lebih tinggi dari pada kernel polynomial.

Gambar 4.9 Dendogram (a) dan Perbandingan Akurasi untuk Ukuran Subspace Leukimia (b)

Gambar 4.9 hasil dendogram untuk data leukemia dan menunjukkan

performansi akurasi dari ukuran subspace data Leukimia. Pemilihan jumlah cluster

sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan garis horizontal yang

0.7

0.75

0.8

0.85

0.9

0.95

1

F S S 2 F S S 5 F S S 2 R U S

F S S 5 R U S

AK

UR

ASI

(%

)

UKURAN CLUSTER-METODE

Linear Polynomial RBF(a) (b)

67

memotong garis cluster yang dihasilkan oleh dendogram. Perbandingan akurasi

menunjukkan bahwa pada kernel RBF dengan EnSVM-OAO ukuran subspace 2

mempunyai nilai akurasi 86,04%, dengan ukuran subspace 5 nilainya turun menjadi

82,04%. Sedangkan jika menggunakan metode EnSVM-RUS-OAO dengan ukuran

subspace 2 mempunyai nilai akurasi 96,29% dan dengan ukuran subspace 5

nilainya turun menjadi 80,65%. Secara keseluruhan, ukuran subspace yang

optimum adalah 2 cluster baik pada kernel linear, polynomial maupun RBF.

Semakin banyak ukuran subspace tidak menunjukkan performa yang lebih tinggi.

Selanjutnya akan dibahas performansi dari waktu klasifikasi pada Tabel berikut.

Tabel 4.6 Waktu Klasifikasi Data Leukimia (IR 4,22)

Metode Linear Polynomial RBF

SVM-OAO 1,649 1,611 1,494

SVM-OAO (FCBF) 0,104 0,094 0,042

EnSVM-OAO 0,133 0,142 0,148

EnSVM-RUS-OAO 0,114 0,096 0,048

Tabel 4.6 menunjukkan waktu komputasi dari proses klasifikasi.

Pengukuran waktu dilakukan pada tahap membentuk model klasifikasi, dalam hal

ini yaitu model SVM-OAO. Hasilnya menunjukkan bahwa kernel RBF dan kernel

polynomial mempunyai waktu komputasi relatif lebih cepat dan comparable

dibandingkan dengan kernel linear. Metode FCBF mampu mengurangi komputasi

karena mengurangi banyak fitur sehingga lebih efektif dalam membentuk model

classifier. Metode RUS juga mengurangi waktu komputasi karena menghapus kelas

mayor sehingga sama dengan kelas minor.

4.3.2 Data Brain tumor (IR 15,00)

Data kedua merupakan data Microarray yang terdiri dari ekspresi gen pasien

yang menderita Brain Tumor. Pengamatan pada data Brain tumor diperoleh dari 90

pasien pengidap Brain tumor yang terbagi menjadi lima jenis, yaitu

Medulloblastoma, Malignant glioma, AT/RT, Normal cerebellum dan PNET.

Prosentase jenis Brain tumor dapat diketahui melalui Gambar pie chart berikut ini.

68

Gambar 4.10 Prosentase Jenis Brain Tumor


Brain tumor terdapat 60 pengamatan (67%) merupakan pasien pengidap

Medulloblastoma, sebanyak 10 pengamatan (11%) merupakan pasien pengidap

Malignant glioma, sebanyak 10 pengamatan (11%) merupakan pasien pengidap

AT/RT, sebanyak 4 pengamatan (4%) merupakan pasien pengidap Normal

cerebellum dan sebanyak 6 pengamatan (7%) lainnya merupakan pasien pengidap

PNET. Sehingga rasio kelas imbalance adalah jumlah data kelas mayor (60) dibagi

dengan jumlah data kelas minor (4) yaitu 15. Berikut persebaran Brain Tumor.

Gambar 4.11 Persebaran Data dari Beberapa Fitur pada Data Brain Tumor

Berdasarkan Gambar 4.11 Nilai ekspresi gen dari kelas Medulloblastoma

(lingkaran biru), kelas Malignant glioma (lingkaran ungu), kelas AT/RT (lingkaran

hijau), kelas Normal cerebellum (lingkaran merah) dan kelas PNET (lingkaran

kuning) pada beberapa fitur memiliki nilai yang cenderung sama.

Berdasarkan Gambar 4.12, dapat diketahui bahwa bahwa data untuk masing-

masing kelas tersebar secara merata, hal tersebut akan mempersulit dalam

melakukan proses klasifikasi, sehingga diperlukan fungsi pemisah atau hyperplane

metode kernel untuk mempermudah proses klasifikasi data. Selanjutnya yaitu

Scatter Plot Matrix

A10200400

0 400

-400-200

0-400 0

A2200400600200 600

-2000

200-200200

A3100000150000200000

100000

050000

1000000 100000

A4-1000

0-1000

-2500

-1500-2500

A5-5000500-500 500

-1500-1000-500

-1500

A6-100

100-100200

-400

-200-400-100

Klasifikasi Data Brain Tumor1MedulloblastomaMalignant glioma

AT/RTNormal cerebellum

PNET

69

seleksi fitur dengan menggunkan metode FCBF. Metode FCBF mampu

menunjukkan hasil yang lebih baik dengan waktu komputasi yang lebih cepat

dibandingkan metode lain. Berikut merupakan hasil seleksi fitur FCBF pada data

Brain Tumor. Tabel 4.7 akan menggambarkan fitur mana saja yang memiliki

informasi yang penting untuk dilakukan analisis dengan klasifikasi SVM.

Tabel 4.7 Seleksi fitur FCBF dari Data Brain Tumor

Nomor Fitur Fitur Gain


Gain

Information

1 A1 0,216 A5453 0,642

2 A2 0,312 A2493 0,613

3 A3 0 A1048 0,606

… … … … …

118 A118 … A3094 0,200

… … …

5920 A5920 0,198



Tabel 4.7 diatas menunjukkan hasil seleksi fitur FCBF dari data Brain Tumor.

Jumlah fitur yang relevant untuk data Brain tumor dengan threshold = 0,2 terpilih

sebanyak 118 fitur. Waktu komputasi 0,253 menit lebih cepat dibandingkan tanpa

dilakukan seleksi fitur FCBF yaitu 0,663 menit. Adanya seleksi fitur membuat

waktu komputasi menjadi lebih cepat. Setelah dilakukan tahapan fitur seleksi,

kemudian dilakukan tahap optimasi parameter. Tahap optimasi parameter RBF

menggunakan metode grid search dengan nilai cost 2-5 sampai 215 dan nilai γ=2-15

sampai 2-3. Nilai tersebut ditetapkan sesuai dengan metodologi penelitian. Hasilnya

ditunjukkan pada Gambar 4.12 sebagai berikut ini.

Gambar 4.12 Grid search SVM Dataset Brain Tumor

70

Gambar 4.12 menunjukkan performansi akurasi, F-score dan G-mean

secara visual. Grid berwarna putih menunjukkan nilai performansi yang semakin

baik, sedangkan grid yang berwarna biru menunjukkan nilai performansi yang

semakin buruk. Parameter cost terbaik terletak pada grid 22 sampai 215 sedangkan

parameter γ terbaik terletak pada grid 2-10 sampai 2-15. Namun pada dataset Brain

Tumor, optimasi parameter RBF hanya mencapai kisaran 90% saja.

Gambar 4.13 Nilai Optimum Grid search SVM Dataset Brain Tumor



213 dan nilai γ=2-12 yang selanjutnya diterapkan untuk menghitung performansi



mean dari metode EnSVM-RUS-OAO jika dibandingkan dengan EnSVM-OAO dan

SVM-OAO pada data Brain tumor dengan IR sebesar 15,00.

Tabel 4.8 Performansi Klasifikasi Data Brain tumor (IR 15,00)


Linear SVM-OAO 92,08 92,17 92,27

SVM-OAO (FCBF) 96,55 97,52 97,54

EnSVM-OAO 96,06 97,18 97,21

EnSVM-RUS-OAO 96,56 97,54 97,55


SVM-OAO (FCBF) 88,2 92,34 92,57

EnSVM-OAO 83,77 90 90,46

EnSVM-RUS-OAO 82,79 89,43 89,95

RBF SVM-OAO 68,48 81,29 82,75

SVM-OAO (FCBF) 96,06 97,16 97,17

EnSVM-OAO 96,05 97,18 97,2

EnSVM-RUS-OAO 93,11 95,1 95,15

71



dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-OAO sebesar

87,88%, nilai F-score sebesar 94,09% dan nilai G-mean sebesar 94,18%. Pada

kernel polynomial metode SVM-OAO (FCBF) dengan γ=0,000169, cost=1 dan

degree=3 menghasilkan nilai akurasi sebesar 85.39%, nilai F-score sebesar 92,67%







Gambar 4.14 Dendogram (a) dan Perbandingan Akurasi Ukuran Subspace Brain Tumor (b)

Gambar 4.14 merupakan hasil dendogram untuk data Brain Tumor dan

menunjukkan performansi akurasi dari ukuran subspace data Brain Tumor.

Pemilihan jumlah cluster sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan

garis horizontal yang memotong garis cluster yang dihasilkan oleh dendogram.

Perbandingan ukuran cluster menunjukkan performansi akurasi dari ukuran

subspace data Brain Tumor. Hasilnya menunjukkan bahwa pada kernel RBF

dengan EnSVM-OAO ukuran subspace 2 mempunyai nilai akurasi 66,72%, dengan

ukuran subspace 5 nilainya menjadi 66,76%. Sedangkan jika menggunakan metode

EnSVM-RUS-OAO dengan ukuran subspace 2 mempunyai nilai akurasi 87,78% dan

dengan ukuran subspace 5 nilainya turun menjadi 66,72%. Secara keseluruhan,

0

10

20

30

40

50

60

70

80

90

100

FSS 2 FSS 5 FSS 2 RUS FSS 5 RUS

AK

UR

ASI

(%

)



72

ukuran subspace yang optimum adalah 2 cluster baik pada kernel linear, polynomial

maupun RBF. Selanjutnya akan dibahas performansi dari waktu klasifikasi.

Tabel 4.9 Waktu Klasifikasi Data Brain tumor (IR 15,00)


SVM-OAO 3,10 0,28 0,32

SVM-OAO (FCBF) 3,08 0,24 0,30

EnSVM-OAO 1,20 0,39 0,33

EnSVM-RUS-OAO 3,10 0,28 0,32

Tabel 4.9 menunjukkan waktu komputasi dari proses klasifikasi. Hasilnya

menunjukkan bahwa kernel RBF dan kernel polynomial mempunyai waktu

komputasi lebih cepat dibandingkan dengan linear. Metode FCBF mampu

mengurangi komputasi karena mengurangi banyak fitur sehingga lebih efektif

dalam membentuk model classifier. Metode RUS juga mengurangi waktu

komputasi karena menghapus kelas mayor sehingga sama dengan kelas minor.

4.3.3 Data Lung Cancer (IR 23,17)

Data ketiga merupakan data Microarray yang terdiri dari ekspresi gen

pasien yang menderita Lung Cancer. Pengamatan pada data Lung Cancer diperoleh

dari 203 pasien pengidap Lung Cancer yang terbagi menjadi lima jenis, yaitu

Adeno, Normal, Squamous, COID dan SMCL. Prosentase jenis Lung Cancer dapat

diketahui melalui Gambar pie chart berikut ini.

Gambar 4.15 Prosentase Jenis Lung Cancer


Lung Cancer terdapat 139 pengamatan (68%) merupakan pasien pengidap Adeno,

sebanyak 17 pengamatan (8%) merupakan pasien pengidap Normal, sebanyak 21

pengamatan (10%) merupakan pasien pengidap Squamous, sebanyak 21

pengamatan (10%) merupakan pasien pengidap COID dan sebanyak 6 pengamatan

73

(3%) lainnya merupakan pasien pengidap SMCL. Sehingga rasio kelas imbalance

adalah jumlah data kelas mayor (139) dibagi dengan jumlah data kelas minor (6)

yaitu 23,17. Pola nilai ekspresi gen dari beberapa fitur yang terdapat pada data Lung

Cancer ditunjukkan melalui persebaran data pada Gambar 4.16 berikut.

Gambar 4.16 Persebaran Fitur pada Data Lung Cancer

Berdasarkan Gambar 4.16 Nilai ekspresi gen dari kelas Adeno (lingkaran

biru), kelas Normal (lingkaran ungu), kelas Squamous (lingkaran hijau), kelas

COID (lingkaran merah) dan kelas SMCL (lingkaran kuning) pada beberapa fitur

memiliki nilai yang cenderung sama. Hal tersebut akan mempersulit dalam

melakukan proses klasifikasi, sehingga diperlukan fungsi pemisah atau hyperplane

untuk mempermudah proses klasifikasi data. Proses pemisahan data Lung Cancer

tidak bisa dipisahkan secara linear, sehingga diperlukan pemisah untuk data secara

tidak linier dengan menggunakan metode kernel.

Nilai ekspresi gen pada data Lung Cancer akan digunakan untuk membuat

model SVM yang dapat memisahkakan data ke dalam lima kelas, yaitu Adeno,

Normal, Squamous, COID dan SMCL. Selanjutnya yaitu seleksi fitur dengan

menggunakan metode FCBF. Beberapa penelitian menunjukkan bahwa metode

FCBF mampu menunjukkan hasil yang lebih baik dengan waktu komputasi yang

lebih cepat dibandingkan metode lain. Berikut merupakan hasil seleksi fitur FCBF

pada data Lung Cancer yang ditunjukkan pada Tabel 4.10 sebagai berikut.

74

Tabel 4.10 Pemilihan Fitur dengan FCBF Pada Dataset Lung Cancer

Nomor Fitur Fitur Gain


Gain

Information

1 A1 0,192 A3191 0,801

2 A2 0,436 A10175 0,784

3 A3 0,126 A1048 0,722

… … … … …

252 A252 … A7568 0,229

… … …

12600 A12600 0,285



Berdasarkan hasil perhitungan yang telah dilakukan, jumlah fitur yang

relevant untuk Lung Cancer dataset dengan threshold = 0,2 terpilih sebanyak 252

fitur. Waktu komputasi 0,009 menit lebih cepat dibandingkan tanpa dilakukan

seleksi fitur FCBF yaitu 1,02 menit. Sehingga, adanya seleksi fitur membuat waktu

komputasi menjadi lebih cepat. Tahap selanjutnya yaitu melakukan optimasi

parameter kernel RBF menggunakan metode grid search dengan nilai cost 2-5

sampai 215 dan nilai γ=2-15 sampai 2-3. Hasilnya ditunjukkan pada Gambar grid

search berikut.

Gambar 4.17 Grid search SVM Dataset Lung Cancer

Gambar 4.17 merupakan performansi akurasi, F-score dan G-mean secara

visual. Grid berwarna putih menunjukkan nilai performansi yang semakin baik,

sedangkan grid yang berwarna biru menunjukkan nilai performansi yang semakin

buruk. Parameter cost terbaik terletak pada grid 22 sampai 215 sedangkan parameter

γ terbaik terletak pada grid 2-10 sampai 2-15. Namun pada dataset Brain Tumor,

optimasi parameter RBF hanya mencapai kisaran 95% saja.

75

Gambar 4.18 Optimasi Nilai Grid search SVM Dataset Lung Cancer



25 dan nilai γ= 2-12 yang selanjutnya diterapkan untuk menghitung performansi



mean dari metode EnSVM-RUS-OAO jika dibandingkan dengan EnSVM-OAO dan

SVM-OAO pada data Lung Cancer dengan IR sebesar 23,17.

Tabel 4.11 Performansi Klasifikasi Data Lung Cancer (IR 23,17)


Linear SVM-OAO 92,08 92,17 92,27

SVM-OAO (FCBF) 92,59 94,64 94,65

EnSVM-OAO 92,61 94,61 94,71

EnSVM-RUS-OAO 94,09 95,77 95,79


SVM-OAO (FCBF) 88,62 92,36 92,61

EnSVM-OAO 92,11 94,38 94,48

EnSVM-RUS-OAO 91,63 93,98 94,00

RBF SVM-OAO 68,48 81,29 82,75

SVM-OAO (FCBF) 94,10 95,78 95,83

EnSVM-OAO 94,58 96,15 96,18

EnSVM-RUS-OAO 94,57 96,15 96,21



dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-OAO sebesar

94,09%, nilai F-score sebesar 95,77% dan nilai G-mean sebesar 95,79%. Pada

kernel polynomial metode SVM-OAO (FCBF) dengan γ=0.0000793, cost=1 dan

degree=3 menghasilkan nilai akurasi sebesar 85,39%, nilai F-score sebesar 92,11%


76






Gambar 4.19 Dendogram (a) Perbandingan Akurasi Ukuran Subspace Lung Cancer (b)

Gambar 4.19 merupakan hasil dendogram untuk data Lung Cancer dan

menunjukkan performansi akurasi dari ukuran subspace data Lung Cancer.

Pemilihan jumlah cluster sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan

garis horizontal yang memotong garis cluster yang dihasilkan oleh dendogram.

Perbandingan ukuran cluster menunjukkan bahwa pada kernel RBF dengan

EnSVM-OAO ukuran subspace 2 mempunyai nilai akurasi 94,58%, dengan ukuran

subspace 5 nilainya menjadi 68,47%. Sedangkan jika menggunakan metode

EnSVM-RUS-OAO dengan ukuran subspace 2 mempunyai nilai akurasi 94,57% dan

dengan ukuran subspace 5 nilainya turun menjadi 68,47%. Secara keseluruhan,

ukuran subspace yang optimum adalah 2 cluster baik pada kernel linear, polynomial

maupun RBF. Selanjutnya akan dibahas performansi dari waktu klasifikasi sebagai

salah satu ukuran performansi suatu metode.

Tabel 4.12 Waktu Klasifikasi Data Lung Cancer (IR 23,17)


SVM-OAO 4,33 0,29 0,57

SVM-OAO (FCBF) 4,37 0,28 0,45

EnSVM-OAO 5,45 0,36 0,12

EnSVM-RUS-OAO 4,33 0,29 0,57

0

20

40

60

80

100

F S S 2 F S S 5 F S S 2 R U S F S S 5 R U S

AK

UR

ASI

(%)



77

Tabel 4.12 menunjukkan waktu komputasi dari proses klasifikasi. Hasilnya

menunjukkan bahwa kernel RBF dan kernel polynomial mempunyai waktu

komputasi lebih cepat dibandingkan dengan linear. Metode FCBF mampu

mengurangi komputasi karena mengurangi banyak fitur sehingga lebih efektif

dalam membentuk model classifier. Metode RUS juga mengurangi waktu

komputasi karena menghapus kelas mayor sehingga sama dengan kelas minor.

4.3.4 Perbandingan Performansi Semua Data Riil

Berikut ini merupakan perbandingan hasil penerapan data riil dengan

menggunakan metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hasil

performansi akurasi, F-score dan G-mean ditunjukkan pada grafik 4.20 sebagai

berikut.

Gambar 4.20 Perbandingan Performansi Semua Data Riil

Berdasarkan Gambar 4.20 dapat diketahui bahwa, pada kondisi data

leukemia dengan IR 4,22 menunjukkan hasil tidak ada perbedaan yang signifikan

antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO baik sebelum dan

sesudah dilakukan seleksi fitur FCBF. Sedangkan pada kondisi data brain tumor

dengan IR 15,00 dan data Lung Cancer dengan IR 23,17 menunjukkan adanya

perbedaan yang signifikan antara metode SVM-OAO sebelum dan sesudah

dilakukan seleksi fitur FCBF. Pada saat menggunakan metode EnSVM-OAO

hasilnya tidak menunjukkan kenaikan performansi. Namun dengan adanya Random

Undersampling dalam mengatasi kelas imbalance, membuat metode EnSVM-RUS-

OAO memberikan performansi lebih tinggi dibandingkan metode EnSVM-OAO dan

0

20

40

60

80

100

120

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

SVM

-OA

O

SVM

-OA

O (

FCB

F)

EnSV

M-O

AO

EnSV

M-R

US-

OA

O

Leukimia (Rasio 4,22) Brain Tumor (Rasio 15,00) Lung Cancer (Rasio 23,17)

(%)

78

SVM-OAO. Sehingga metode EnSVM-RUS-OAO sesuai jika diterapkan pada

klasifikasi data imbalance, baik tinggi maupun rendah.

Gambar 4.21 Perbandingan Waktu Komputasi Semua Data Riil

Gambar 4.21 menunjukkan waktu komputasi dari proses klasifikasi. Pada

data leukimia dengan IR sebesar 4,22 menunjukkan antara kernel linear, RBF dan

polynomial tidak menujukkan perbedaan. Pada data Brain Tumor dengan IR sebesar

15,00 menunjukkan kernel RBF dan polynomial yang lebih unggul secara waktu

komputasi dibandingkan kernel linear. Begitu pula data Lung Cancer dengan IR

sebesar 23,17 menunjukkan kernel RBF dan polynomial yang lebih unggul secara

waktu komputasi dibandingkan kernel linear. Secara keseluruhan dapat

disimpulkan bahwa kernel RBF dan polynomial yang lebih unggul secara waktu

komputasi dibandingkan kernel linear dengan menggunakan metode klasifikasi

yaitu EnSVM-OAO-RUS.

0

1

2

3

4

5

6Li

ne

ar

Po

lyn

om

ial

RB

F

Lin

ear

Po

lyn

om

ial

RB

F

Lin

ear

Po

lyn

om

ial

RB

F

Leukimia (IR 4,22) Brain Tumor (IR 15,00) Lung Cancer (IR 23,17)

(me

nit

)


79

BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Kesimpulan dari hasil dan pembahasan tentang studi simulasi dan penerapan

data riil DNA Microarray menggunakan metode EnSVM-RUS-OAO adalah sebagai

berikut.

1. Studi simulasi rasio 1 yaitu perbandingan kelas 33:33:34 menunjukkan hasil

tidak ada perbedaan yang signifikan antara metode EnSVM-RUS-OAO,

EnSVM-OAO dan SVM-OAO. Hal tersebut dikarenakan pada saat proses

RUS, hanya menghapus 1 data saja, letak perbedaan berada pada saat proses

FCBF. Pada simulasi rasio 5 yaitu perbandingan kelas 10:40:50 dan rasio 8

yaitu perbandingan kelas 10:10:80, terlihat perbedaan yang signifikan antar

metode. Sehingga metode EnSVM-RUS-OAO sesuai jika diterapkan pada

klasifikasi data imbalance.

2. Pada data leukemia dengan IR 4,22 menunjukkan hasil tidak ada perbedaan

yang signifikan antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-

OAO baik sebelum dan sesudah dilakukan seleksi fitur FCBF. Sedangkan

pada kondisi data brain tumor dengan IR 15 dan data Lung Cancer dengan IR

23,17 menunjukkan adanya perbedaan yang signifikan antara metode SVM-

OAO sebelum dan sesudah dilakukan seleksi fitur FCBF. Pada saat

menggunakan metode EnSVM-OAO hasilnya tidak menunjukkan kenaikan

performansi. Namun dengan adanya Random Undersampling dalam

mengatasi kelas imbalance, membuat metode EnSVM-RUS-OAO

memberikan hasil yang lebih unggul. Sehingga metode EnSVM-RUS-OAO

sesuai jika diterapkan pada klasifikasi data imbalance.

5.2 Saran

Berdasarkan kesimpulan yang diperoleh, saran yang dapat dipertimbangkan

untuk penelitian selanjutnya adalah sebagai berikut.

80

1. Menggunakan metode untuk mengatasi kelas imbalance lain seperti

undersampling dengan pembobot atau metode sampling lainnya seperti

oversampling dan combine sampling.

2. Pengembangan metode ensemble lainnya seperti bagging, boosting dan

stacking untuk membuat model lebih kuat sebagai classifier.

3. Menggunakan metode multiclass lainnya seperti SVM-OAA, DDAG dan

ECOC dalam mengatasi masalah multiclass.

4. Pada studi simulasi, penelitian selanjutnya diharapkan dapat melakukan

simulasi sesuai dengan kriteria rasio imbalance yaitu rendah, medium dan

tinggi.

81

DAFTAR PUSTAKA

Abdi, M.J., Hosseini, S. M., and Rezghi, M. (2012). “A novel weighted support

vector machine based on particle swarm optimization for gene selection and

tumor classification,” Computational and Mathematical Methods in

Medicine, vol.2012, Article ID 320698, 7 pages.

Akbani, R., Kwek, S., and Japkowicz, N. (2004). Applying Support Vector

Machines to Kelas imbalanceset. European Conference on Machine

Learning, Springer, 39-50.

Alonso, A., Noelia, S., and Veronica, B. (2015). Fitur Selection for High

dimensional Data. Artificial Intelligence: Fondations, Theory, and

Algorthms. Springel International Publishing Switzerland.

Anand, G., Pugalenthi, G. Fogel, B., and Suganthan. (2010) “An Approach for

Classification of Highly Class imbalance Using Weighting and

Undersampling,” Amino Acids, vol. 39, no.5, pp.1385–1391..

Burges, C. (1998). “A Tutorial On Support Vector Machine for Pattern

Recognition”. Data Mining and Knowledge Discovery, Vol. 2, No. 2,

Hal.955-974.

Canedo, V. B., Marono, N. S., Betanzos, A. A., Benitez, J., and Herrera, F. (2014).

A Review of Microarray Dataset and Applied Fitur Selection Methods.

information Science, 111-135.

Chen,Y., and Zhao, Y. (2008). “A novel ensemble of classifiers for Microarray data

classification,” Applied Soft Computing Journal, vol. 8, no. 4, pp. 1664–

1669.

Chen, P.H., Lin, C.J., and Scholkopf, B. (2005). “A Tutuorial on v-Support Vector

Machines Applied Stochastic Model in Business and Industry, Vol 21, Hal.

111-136.

Choi, J. (2010). A Selective Sampling Method for Class Imbalance Learning on

Support Vector Machines. Graduate Theses and Dissertations, Paper 11529.

Chu, F., and Lipo, W. (2005). Applications of Support Vector Machines to Cancer

Classification with Microarray Data. International Journal of Neiral System,

475-484.

Cortez, C., and Vapnik, V. (1995). “Support Vector Networks”, Machine Learning,

Vol. 20, No. 3, Hal. 273–297.

82

Gunn, S. (1998). Support vector Machines for Classification and Regression.

Technical Report, ISIS.

Guo, J., Yi, P., Wang, R., Ye, Q. and Zhao, C. (2014). Fitur Selection for Least

Square Projection Twin Support Vector Machine . Neurocomputing, Vol. 14,

Hal. 174-183.

Guyon, I., Weston, J., Barnhill, S. and Vapnik, V. (2002). Gene Selection for

Cancer Classification using Support Vector Machines. Machine Learning,

389-422.

Haerdle, W.K., Prastyo, D.D., and Hafner, C.M. (2014).”Support Vector Machines

with Evolutionary Model Selection for Default Prediction," in Racine, JS, Su,

L, and Ullah, A eds.,The Oxford Handbook of Applied Nonparametric and

Semiparametric Econometrics and Statistics, Oxford University Press, 346-

373.

Han, J., Kamber, M., and Jian, P. (2006). Data Mining: Concept and Techniques

(3th ed). San Fransisco: Morgan Kaufmaan.

Hsu, C.W., Chang, C.C., and Lin, C.J. (2004). “A Practical Guide to Support Vector

Classification”, Department of Computer Scinece an Information

Engineering, National Taiwan University.

Lestarini, R., Brotoharsono, T., and Hidayati, H. (2012). Implementasi dan Analisis

Granular SVM dengan Repetitive Undersampling Untuk E-mail Spam

Filtering. ITB : Bandung.

Lin, W.J., and Chen, J.J. (2013). “Class-Imbalance Classifiers for High-

Dimensional Data,” Brieings in Bioinformatics, vol.14,no.1,pp.13–26.

Lorena, A.C.P.L.F.De Carvalho, and J.M.P.Gama. (2008). “A Review on The

Combination of Binary Classiiers in Multiclass Problems,” Artificial

Intelligence Review, vol.30, no.1–4, pp.19–37.

Mercer, J. (1909). “Foundations of Positive and Negatif Type, and Their

Connection with the Theory of Integral Equations”, Philosophical

Transactions of the Royal Society of London, Vol. 25, Hal. 3-23.

Pham, C., Wells, C., and Grane, D.I. (2006). “Analysis of Microarray gene

expression data,” Current Bioinformatics, vol. 1, no. 1, pp.37–53.

Puelma, T., Gutierrez, R. A., and Soto, A. (2012). “Discriminative Local Subspaces

in Gene Expression Data for Efective Gene Function Prediction,”

Bioinformatics, vol.28, no.17, pp.2256–2264.

83

Purnami, S.W., and Andari, S. (2015). High-Dimensional Data Classification

Based on Smooth Support Vector Machines. Procedia Computer Science 72-

477– 484. Institut Teknologi Sepuluh Nopember Surabaya.

Rahman, F., and Purnami, S.W. (2012). Perbandingan Klasifikasi Tingkat

Keganasan Breast Cancer Dengan Menggunakan Regresi Logistik Ordinal

Dan Support Vector Machine (SVM), Jurnal SAINS dan Seni ITS, Vol.1,

No.1, (September 2012) ISSN : 2301-928X.

Ramaswamy, S., Tamayo, P., Rifkin, R., Mukherjee, S., Chen-Hsiang, Y., Angelo,

M. (2001). Multiclass Cancer Diagnosis Using Tumor Gene Expression

Signatures. PNAS, 15149-15154.

Robandi, I., and Wahyudie, P. (2008). Peramalan Beban Jangka Pendek Untuk

Hari-hari Libur Dengan Metode Support Vector Machine, Tugas Akhir, ITS,

Surabaya.

Saifudin, A., and Wahono, R. S. (2015). Penerapan Teknik Ensemble untuk

Menangani Ketidakseimbangan Kelas pada Prediksi Cacat Software.

Sain, H., and Purnami, S.W. (2013). Combine sampling Support Vector Machine

Untuk Klasifikasi Data Imbalance , Tesis, Statistika-FMIPA ITS, Surabaya.

Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data Untuk Keperluan

Bisnis, Teori dan Aplikasi, Graha Ilmu.

Scholkopf, B., and Smola, A. (2002). Learning with Kernel :Support Vector

Machines, Regulerizatiom, Optimization, and Beyond, Cambridge, MA : MIT

Press

Seeja, K.R., and Shweta. (2011). Microarray Data Classification Using Support

Vector Machine. International Journal of Biometrics and Bioinformatics

(IJBB), Volume (5) : Issue (1) : 10-15.

Solberg, A., and Solberg, R. (1996). “A Large-Scale Evaluationof Fiturs for

Automatic Detection of Oil Spills in ERS SAR Images”,InInternational

Geoscience and Remote Sensing Symposium, Hal. 1484–1486, Lincoln, NE.

Statnikov, C., Aliferis, I., Tsamardinos, D., Hardin and Levy, S. (2005) “A

Comprehensive Evaluation of Multicategory Classification Methods for

Microarray Gene Expression Cancer Diagnosis,” Bio informatics, vol.21,

no.5, pp.631–643.

Tan, P. N., Steinbach, M., and Kumar, V. (2006). Introduction to Data Mining (4th

ed.), Pearson Addison Wesley, Boston.

84

Trapsilasiwi, R.K., and Purnami, S.W. (2013). Klasifikasi Multiclass untuk Kelas

imbalance Menggunakan SMOTE Least Square Support Vector Machine.

Program Pascasarjana, Institut Teknologi Sepuluh Nopember, Surabaya.

Vapnik, V. (1998). The Nature of Statistical Learning , menit ed., Springer, New

York.

Wang, X., and Simon, R. (2011). “Microarray-Based Cancer Prediction Using

Single Genes,” BMC Bioinformatics, vol.12,article391.

Wang, S., and Yao, X. (2012). “Multiclass Imbalance Problems: Analysis and

Potential Solutions,” IEEE Transactions on Systems, Man and Cybernetics

B, vol. 42, no. 4, pp. 1119–1130.

Yu, H., and Hong, S. (2013). Recognition of Multiple Imbalance Cancer Types

Based on DNA Microarray Data Using Ensemble Classifier. BioMed

Research International: Hindawi Publishing Corporation.

Yu, H., and Mu, C. (2014). Support Vector Machine-Based Optimized Decision

Threshold Adjustment Strategy for Classifying Kelas imbalance. University

Nanjing: China.

Zheng, H.B., Liao, R.J., Grzybowski, S., and Yang, L.J.,(2011). “Fault Diagnosis

of Power Transformers Using Multi-Class Least Square Support Vector

Machines Classifier With Particle Swarm Optimisation”. IET Elect. Power

Appl. Vol 5, Iss 9, Hal 691-696, doi : 10.1049/iet-epa. 2010. 0298.

85

LAMPIRAN

Lampiran 1. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel Linear

Metode Fold Akurasi F-score G-mean waktu

SVM-OAO Fold 1 0,953 0,951 0,949 0,320

Fold 2 0,949 0,950 0,950 0,420

Fold 3 0,947 0,950 0,949 0,220

SVM-OAO (FCBF) Fold 1 0,955 0,952 0,953 0,199

Fold 2 0,952 0,953 0,950 0,120

Fold 3 0,949 0,950 0,951 0,200

EnSVM-OAO Fold 1 0,955 0,950 0,951 0,199

Fold 2 0,949 0,950 0,950 0,200

Fold 3 0,955 0,951 0,958 0,201

EnSVM-RUS-OAO Fold 1 0,952 0,951 0,952 0,012

Fold 2 0,958 0,953 0,958 0,201

Fold 3 0,950 0,948 0,950 0,199



SVM-OAO Fold 1 0,950 0,950 0,965 0,520

Fold 2 0,965 0,950 0,950 0,620

Fold 3 0,950 0,950 0,950 0,320

SVM-OAO (FCBF) Fold 1 0,950 0,950 0,975 0,320

Fold 2 0,970 0,975 0,975 0,200

Fold 3 0,965 0,950 0,950 0,200

EnSVM-OAO Fold 1 0,986 0,985 0,961 0,120

Fold 2 0,950 0,958 0,968 0,200

Fold 3 0,957 0,950 0,981 0,170


Fold 2 0,953 0,975 0,960 0,180

Fold 3 0,965 0,965 0,971 0,081

86

Lampiran 3. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel Polynomial


SVM-OAO Fold 1 0,948 0,955 0,973 0,631

Fold 2 0,956 0,956 0,955 0,530

Fold 3 0,939 0,944 0,929 0,530

SVM-OAO (FCBF) Fold 1 0,954 0,944 0,963 0,293

Fold 2 0,958 0,962 0,955 0,429

Fold 3 0,958 0,975 0,964 0,351

EnSVM-OAO Fold 1 0,942 0,973 0,964 0,292

Fold 2 0,965 0,984 0,955 0,129

Fold 3 0,965 0,959 0,974 0,318


Fold 2 0,942 0,970 0,960 0,023

Fold 3 0,966 0,970 0,963 0,302



SVM-OAO Fold 1 0,955 0,947 0,950 0,733

Fold 2 0,953 0,949 0,950 0,640

Fold 3 0,951 0,948 0,949 0,534

SVM-OAO (FCBF) Fold 1 0,965 0,954 0,965 0,321

Fold 2 0,965 0,951 0,974 0,431

Fold 3 0,949 0,947 0,949 0,428

EnSVM-OAO Fold 1 0,965 0,953 0,975 0,312

Fold 2 0,975 0,950 0,975 0,220

Fold 3 0,947 0,950 0,950 0,325


Fold 2 0,947 0,951 0,970 0,034

Fold 3 0,965 0,954 0,956 0,255

Lampiran 5. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel RBF


SVM-OAO Fold 1 0,955 0,950 0,949 0,430

Fold 2 0,951 0,956 0,947 0,530

Fold 3 0,950 0,948 0,952 0,530

SVM-OAO (FCBF) Fold 1 0,955 0,965 0,954 0,302

Fold 2 0,955 0,965 0,955 0,430

Fold 3 0,965 0,945 0,947 0,295

EnSVM-OAO Fold 1 0,975 0,957 0,968 0,130

Fold 2 0,965 0,966 0,965 0,230

Fold 3 0,965 0,965 0,965 0,295


Fold 2 0,970 0,972 0,967 0,113

Fold 3 0,975 0,961 0,957 0,130

87



SVM-OAO Fold 1 0,950 0,953 0,946 0,532

Fold 2 0,951 0,950 0,950 0,631

Fold 3 0,953 0,952 0,943 0,630

SVM-OAO (FCBF) Fold 1 0,965 0,953 0,949 0,430

Fold 2 0,965 0,964 0,947 0,398

Fold 3 0,944 0,964 0,958 0,350

EnSVM-OAO Fold 1 0,975 0,975 0,968 0,304

Fold 2 0,958 0,976 0,969 0,229

Fold 3 0,968 0,947 0,970 0,291


Fold 2 0,975 0,985 0,964 0,130

Fold 3 0,975 0,950 0,957 0,133



SVM-OAO Fold 1 0,902 0,878 0,897 0,267

Fold 2 0,898 0,912 0,921 0,165

Fold 3 0,896 0,896 0,896 0,186

SVM-OAO (FCBF) Fold 1 0,905 0,895 0,908 0,209

Fold 2 0,906 0,904 0,912 0,190

Fold 3 0,901 0,899 0,900 0,121

EnSVM-OAO Fold 1 0,901 0,892 0,905 0,169

Fold 2 0,911 0,912 0,908 0,196

Fold 3 0,910 0,908 0,911 0,049


Fold 2 0,918 0,910 0,907 0,090

Fold 3 0,895 0,904 0,919 0,120



SVM-OAO Fold 1 0,908 0,898 0,897 0,204

Fold 2 0,904 0,901 0,901 0,189

Fold 3 0,895 0,905 0,906 0,213

SVM-OAO (FCBF) Fold 1 0,917 0,912 0,905 0,182

Fold 2 0,885 0,901 0,903 0,119

Fold 3 0,913 0,896 0,900 0,122

EnSVM-OAO Fold 1 0,893 0,908 0,901 0,008

Fold 2 0,900 0,909 0,902 0,026

Fold 3 0,930 0,910 0,919 0,220


Fold 2 0,909 0,922 0,909 0,019

Fold 3 0,903 0,903 0,912 0,151

88



SVM-OAO Fold 1 0,904 0,915 0,878 0,265

Fold 2 0,884 0,920 0,883 0,249

Fold 3 0,866 0,924 0,949 0,178

SVM-OAO (FCBF) Fold 1 0,852 0,918 0,904 0,255

Fold 2 0,902 0,921 0,905 0,130

Fold 3 0,944 0,920 0,908 0,152

EnSVM-OAO Fold 1 0,922 0,915 0,911 0,208

Fold 2 0,923 0,922 0,910 0,160

Fold 3 0,895 0,923 0,908 0,093


Fold 2 0,919 0,926 0,947 0,083

Fold 3 0,913 0,921 0,876 0,096



SVM-OAO Fold 1 0,908 0,898 0,897 0,427

Fold 2 0,904 0,901 0,901 0,465

Fold 3 0,895 0,905 0,906 0,186

SVM-OAO (FCBF) Fold 1 0,917 0,912 0,905 0,209

Fold 2 0,885 0,901 0,909 0,422

Fold 3 0,913 0,896 0,909 0,121

EnSVM-OAO Fold 1 0,893 0,908 0,910 0,169

Fold 2 0,900 0,909 0,911 0,196

Fold 3 0,930 0,910 0,912 0,205


Fold 2 0,917 0,922 0,919 0,019

Fold 3 0,914 0,903 0,912 0,151



SVM-OAO Fold 1 0,918 0,916 0,922 0,418

Fold 2 0,926 0,921 0,911 0,319

Fold 3 0,914 0,935 0,919 0,231

SVM-OAO (FCBF) Fold 1 0,926 0,924 0,915 0,204

Fold 2 0,916 0,928 0,920 0,314

Fold 3 0,924 0,928 0,922 0,205

EnSVM-OAO Fold 1 0,922 0,941 0,922 0,177

Fold 2 0,926 0,921 0,917 0,189

Fold 3 0,930 0,939 0,922 0,212


Fold 2 0,923 0,942 0,942 0,182

Fold 3 0,943 0,924 0,952 0,171

89



SVM-OAO Fold 1 0,867 0,931 0,904 0,231

Fold 2 0,924 0,920 0,919 0,416

Fold 3 0,929 0,911 0,911 0,240

SVM-OAO (FCBF) Fold 1 0,876 0,929 0,901 0,224

Fold 2 0,933 0,919 0,949 0,243

Fold 3 0,926 0,918 0,923 0,234

EnSVM-OAO Fold 1 0,925 0,931 0,949 0,142

Fold 2 0,907 0,924 0,923 0,174

Fold 3 0,928 0,948 0,934 0,179


Fold 2 0,924 0,949 0,943 0,082

Fold 3 0,934 0,959 0,942 0,178



SVM-OAO Fold 1 0,905 0,889 0,899 0,421

Fold 2 0,889 0,898 0,892 0,622

Fold 3 0,901 0,891 0,891 0,322

SVM-OAO (FCBF) Fold 1 0,906 0,900 0,890 0,212

Fold 2 0,909 0,902 0,906 0,209

Fold 3 0,905 0,895 0,908 0,213

EnSVM-OAO Fold 1 0,909 0,902 0,898 0,120

Fold 2 0,916 0,916 0,895 0,102

Fold 3 0,905 0,911 0,915 0,213


Fold 2 0,914 0,906 0,915 0,208

Fold 3 0,916 0,916 0,895 0,011



SVM-OAO Fold 1 0,867 0,886 0,899 0,630

Fold 2 0,900 0,895 0,884 0,631

Fold 3 0,896 0,893 0,883 0,531

SVM-OAO (FCBF) Fold 1 0,888 0,918 0,904 0,233

Fold 2 0,919 0,895 0,898 0,313

Fold 3 0,909 0,898 0,901 0,232

EnSVM-OAO Fold 1 0,909 0,909 0,921 0,131

Fold 2 0,911 0,909 0,881 0,131

Fold 3 0,910 0,909 0,905 0,320


Fold 2 0,916 0,909 0,922 0,093

Fold 3 0,916 0,916 0,895 0,031

90



SVM-OAO Fold 1 0,896 0,899 0,887 0,430

Fold 2 0,896 0,879 0,884 0,529

Fold 3 0,878 0,890 0,882 0,429

SVM-OAO (FCBF) Fold 1 0,898 0,897 0,898 0,309

Fold 2 0,896 0,898 0,901 0,130

Fold 3 0,894 0,904 0,897 0,313

EnSVM-OAO Fold 1 0,901 0,902 0,901 0,212

Fold 2 0,906 0,908 0,910 0,231

Fold 3 0,901 0,903 0,901 0,129


Fold 2 0,915 0,914 0,921 0,032

Fold 3 0,917 0,922 0,921 0,307



SVM-OAO Fold 1 0,908 0,887 0,889 0,543

Fold 2 0,883 0,872 0,897 0,531

Fold 3 0,890 0,894 0,892 0,629

SVM-OAO (FCBF) Fold 1 0,904 0,895 0,904 0,300

Fold 2 0,898 0,899 0,899 0,276

Fold 3 0,899 0,897 0,899 0,272

EnSVM-OAO Fold 1 0,903 0,897 0,905 0,132

Fold 2 0,905 0,903 0,904 0,183

Fold 3 0,898 0,898 0,899 0,283


Fold 2 0,915 0,915 0,922 0,129

Fold 3 0,932 0,931 0,932 0,131



SVM-OAO Fold 1 0,882 0,891 0,887 0,502

Fold 2 0,901 0,894 0,873 0,431

Fold 3 0,884 0,883 0,901 0,333

SVM-OAO (FCBF) Fold 1 0,896 0,901 0,901 0,146

Fold 2 0,905 0,903 0,907 0,386

Fold 3 0,897 0,901 0,900 0,439

EnSVM-OAO Fold 1 0,900 0,903 0,905 0,227

Fold 2 0,900 0,903 0,919 0,250

Fold 3 0,903 0,899 0,902 0,360


Fold 2 0,916 0,915 0,913 0,112

Fold 3 0,942 0,942 0,941 0,172

91



SVM-OAO Fold 1 0,888 0,872 0,898 0,652

Fold 2 0,890 0,893 0,902 0,527

Fold 3 0,904 0,894 0,899 0,741

SVM-OAO (FCBF) Fold 1 0,899 0,895 0,900 0,391

Fold 2 0,903 0,898 0,909 0,342

Fold 3 0,897 0,893 0,899 0,424

EnSVM-OAO Fold 1 0,905 0,903 0,909 0,179

Fold 2 0,901 0,905 0,904 0,422

Fold 3 0,906 0,903 0,899 0,133


Fold 2 0,916 0,915 0,913 0,107

Fold 3 0,952 0,942 0,951 0,034

Lampiran 19. Hasil Performansi Data Leukimia

Kernel Keterangan Akurasi F-score G-mean Waktu

Linear 5327 Fitur 0,8056 0,8712 0,8759 1,649

97 Fitur 0,9167 0,9379 0,9387 0,104

FSS 2 0,945 0,961 0,9617 0,133

FSS 5 0,9165 0,9589 0,9591 0,242

FSS 2 RUS 0,9444 0,9743 0,9748 0,114

FSS 5 RUS 0,9028 0,9372 0,9392 0,384

Polynomial 5327 Fitur 0,8194 0,8699 0,8764 1,611

97 Fitur 0,8472 0,9378 0,939 0,094

FSS 2 0,8731 0,9257 0,9292 0,142

FSS 5 0,8616 0,9 0,9037 0,331

FSS 2 RUS 0,9032 0,9598 0,9606 0,096

FSS 5 RUS 0,8333 0,8833 0,8874 0,388

RBF 5327 Fitur 0,4583 0,6241 0,6742 1,494

97 Fitur 0,9167 0,9249 0,927 0,042

FSS 2 0,8604 0,894 0,8994 0,148

FSS 5 0,8204 0,8517 0,8588 0,321

FSS 2 RUS 0,9629 0,9743 0,9753 0,048

FSS 5 RUS 0,8065 0,8512 0,8582 0,068

92

Lampiran 20. Hasil Performansi Data Brain Tumor

kernel Keterangan Akurasi F-score G-mean Waktu

Linear 5327 Fitur 86,73 92,21 92,4 3,1

97 Fitur 86,56 92,52 92,56 0,28

FSS 2 87,88 94,09 94,18 0,32

FSS 5 76,67 86,25 86,29 0,72

FSS 2 RUS 86,69 93,57 93,64 0,5

FSS 5 RUS 77,65 90 90 0,89


97 Fitur 85,39 92,67 92,77 0,24

FSS 2 81,24 88,23 88,43 0,3

FSS 5 71,11 82,84 83,01 0,88

FSS 2 RUS 83,62 91,34 91,49 0,48

FSS 5 RUS 64,34 80,73 80,74 0,79

RBF 5327 Fitur 66,72 80,02 81,67 1,2

97 Fitur 86,67 91,5 91,76 0,39

FSS 2 66,72 80,02 81,67 0,33

FSS 5 66,67 80 81,65 0,47

FSS 2 RUS 87,78 92,75 92,87 0,03

FSS 5 RUS 66,72 80,02 81,67 0,84

Lampiran 21. Hasil Performansi Data Lung Cancer

kernel Keterangan Akurasi F-score G-mean Waktu

Linear 5327 Fitur 92,08 92,17 92,27 4,33

97 Fitur 92,59 94,64 94,65 0,29

FSS 2 92,61 94,61 94,71 0,57

FSS 5 82,76 87,99 88,09 1,4

FSS 2 RUS 94,09 95,77 95,79 1,33

FSS 5 RUS 88,67 92,49 92,54 32,19


97 Fitur 88,62 92,36 92,61 0,28

FSS 2 92,11 94,38 94,48 0,45

FSS 5 84,24 89,27 89,35 1,49

FSS 2 RUS 91,63 93,98 94 0,53

FSS 5 RUS 82,78 88,01 88,06 1,32

RBF 5327 Fitur 68,48 81,29 82,75 5,45

97 Fitur 94,1 95,78 95,83 0,36

FSS 2 94,58 96,15 96,18 0,12

FSS 5 68,47 81,29 82,75 1,42

FSS 2 RUS 94,57 96,15 96,21 0,66

FSS 5 RUS 68,47 81,29 82,75 1,19

93

Lampiran 22. Hasil FCBF Leukimia

No Biomarker Information Gain No Biomarker Information Gain

1 A1426 0,606538 41 A3187 0,303466

2 A5142 0,596989 42 A2508 0,302825

3 A1999 0,584324 43 A1237 0,302421

4 A1770 0,546994 44 A4374 0,300365

5 A4805 0,53849 45 A426 0,296022

6 A618 0,514008 46 A4142 0,29464

7 A3669 0,48791 47 A2822 0,293754

8 A1386 0,486917 48 A1604 0,293209

9 A2460 0,48475 49 A2396 0,293105

10 A4009 0,484246 50 A2266 0,292641

11 A3549 0,484166 51 A5217 0,290355

12 A3911 0,456765 52 A2962 0,288918

13 A1680 0,45143 53 A2904 0,28728

14 A620 0,450974 54 A2852 0,286099

15 A2143 0,436098 55 A1464 0,285168

16 A1271 0,434898 56 A4919 0,278703

17 A1342 0,433239 57 A963 0,277625

18 A2621 0,418431 58 A848 0,277577

19 A1617 0,405119 59 A4807 0,277125

20 A3289 0,400228 60 A1267 0,27607

21 A1443 0,395193 61 A4036 0,275039

22 A1786 0,393938 62 A3298 0,272051

23 A1302 0,386646 63 A3991 0,269241

24 A887 0,38521 64 A2051 0,268947

25 A4493 0,377066 65 A3385 0,266616

26 A3055 0,37677 66 A1358 0,261882

27 A1287 0,363407 67 A4534 0,259979

28 A1226 0,350415 68 A3348 0,257994

29 A1892 0,349126 69 A2433 0,256685

30 A2350 0,34401 70 A2861 0,256277

31 A1611 0,341914 71 A3381 0,254767

32 A3051 0,338715 72 A1462 0,254434

33 A3029 0,318853 73 A5319 0,250681

34 A4898 0,318674 74 A4492 0,250381

35 A1468 0,313697 75 A571 0,250253

36 A2479 0,312348 76 A3203 0,244751

37 A3726 0,311632 77 A1852 0,239137

38 A3227 0,311521 78 A4691 0,236797

39 A3272 0,304794 79 A4168 0,236062

40 A1542 0,303466 80 A2811 0,235047

94

Lampiran 22. Hasil FCBF Leukimia (Lanjutan)


81 A3860 0,231795 89 A4055 0,21517

82 A3497 0,228821 90 A5073 0,215059

83 A1893 0,224558 91 A3260 0,214741

84 A3928 0,22158 92 A1958 0,211741

85 A4566 0,216745 93 A3738 0,208915

86 A555 0,216472 94 A1537 0,206751

87 A4617 0,215989 95 A1968 0,202666

88 A3411 0,215312 96 A1046 0,200503

97 A3190 0,200431

Lampiran 23. Hasil FCBF Brain Tumor


1 0,642 A5453 30 0,495 A1298

2 0,613 A2093 31 0,492 A4680

3 0,606 A1048 32 0,491 A776

4 0,594 A2507 33 0,486 A3113

5 0,593 A1074 34 0,483 A3434

6 0,592 A2478 35 0,48 A1946

7 0,591 A227 36 0,479 A52

8 0,58 A964 37 0,478 A1773

9 0,576 A2532 38 0,477 A1245

10 0,554 A505 39 0,475 A405

11 0,553 A1373 40 0,474 A1965

12 0,55 A497 41 0,473 A5121

13 0,548 A2618 42 0,472 A206

14 0,547 A204 43 0,469 A4759

15 0,539 A1974 44 0,468 A1097

16 0,535 A4421 45 0,466 A1769

17 0,533 A1972 46 0,465 A5175

18 0,533 A2116 47 0,459 A1507

19 0,533 A5604 48 0,457 A1746

20 0,526 A124 49 0,455 A1502

21 0,524 A1449 50 0,45 A3834

22 0,522 A1251 51 0,448 A2206

23 0,521 A5517 52 0,447 A4801

24 0,518 A533 53 0,445 A4611

25 0,512 A3329 54 0,443 A3837

26 0,51 A2030 55 0,442 A1363

27 0,507 A1183 56 0,44 A2309

28 0,504 A4573 57 0,439 A3995

29 0,498 A1620 58 0,439 A1583

95

Lampiran 23. Hasil FCBF Brain tumor (Lanjutan)


59 0,438 A1854 89 0,41 A4822

60 0,435 A3767 90 0,41 A439

61 0,433 A2020 91 0,408 A5620

62 0,432 A1651 92 0,408 A1879

63 0,43 A2771 93 0,408 A4206

64 0,43 A2913 94 0,407 A642

65 0,43 A921 95 0,406 A185

66 0,429 A1453 96 0,405 A1627

67 0,429 A2695 97 0,404 A4116

68 0,426 A3489 98 0,403 A5713

69 0,424 A640 99 0,403 A237

70 0,421 A5066 100 0,403 A5617

71 0,42 A3993 101 0,403 A1930

72 0,42 A1497 102 0,403 A63

73 0,419 A4004 103 0,401 A5219

74 0,419 A635 104 0,4 A679

75 0,419 A2505 105 0,399 A2721

76 0,418 A3330 106 0,399 A2733

77 0,417 A40 107 0,398 A1818

78 0,417 A5512 108 0,398 A158

79 0,417 A549 109 0,396 A1563

80 0,413 A2338 110 0,395 A4690

81 0,413 A5554 111 0,395 A675

82 0,413 A4006 112 0,395 A16

83 0,412 A2493 113 0,395 A2295

84 0,412 A4852 114 0,394 A2357

85 0,412 A4146 115 0,394 A1026

86 0,411 A1169 116 0,393 A450

87 0,411 A1663 117 0,391 A3184

88 0,411 A3745 118 0,391 A3094

Lampiran 24. Hasil FCBF Lung Cancer


1 0,8007 A3191 9 0,6675 A5950

2 0,784 A10175 10 0,662 A8472

3 0,7215 A7568 11 0,6572 A8125

4 0,7154 A10188 12 0,6471 A5968

5 0,7117 A8890 13 0,6451 A11300

6 0,6786 A1422 14 0,645 A8156

7 0,6756 A9250 15 0,6419 A10891

8 0,6694 A8484 16 0,6391 A4983

96

Lampiran 24. Hasil FCBF Lung Cancer (Lanjutan)


17 0,6334 A6091 57 0,562 A3199

18 0,6299 A5533 58 0,5613 A6539

19 0,6277 A5207 59 0,5604 A4853

20 0,625 A3875 60 0,5604 A3227

21 0,6243 A1s0138 61 0,5594 A9470

22 0,6217 A4439 62 0,558 A8828

23 0,6172 A10139 63 0,558 A7199

24 0,6169 A10573 64 0,5577 A7750

25 0,6097 A4551 65 0,5564 A6779

26 0,6061 A5920 66 0,5564 A9989

27 0,6055 A9609 67 0,5561 A4452

28 0,6001 A9170 68 0,5547 A8683

29 0,5974 A4690 69 0,5536 A6513

30 0,5961 A7786 70 0,5516 A7700

31 0,5938 A3600 71 0,5479 A3009

32 0,593 A6385 72 0,5476 A12523

33 0,5929 A4788 73 0,5476 A12375

34 0,5925 A9093 74 0,5475 A8130

35 0,592 A4244 75 0,5448 A10892

36 0,5915 A9672 76 0,5448 A6571

37 0,5906 A5031 77 0,5442 A6185

38 0,5887 A9733 78 0,5403 A6839

39 0,5858 A7361 79 0,54 A2761

40 0,5835 A5497 80 0,5376 A3120

41 0,5835 A12511 81 0,5363 A4790

42 0,5816 A11942 82 0,5349 A12524

43 0,5813 A8294 83 0,5346 A10381

44 0,5812 A4984 84 0,5337 A1989

45 0,5808 A6422 85 0,5326 A7087

46 0,5805 A205 86 0,5321 A8306

47 0,5796 A7109 87 0,5316 A9330

48 0,5777 A8342 88 0,5301 A3692

49 0,5739 A9038 89 0,529 A9937

50 0,5725 A6547 90 0,529 A2870

51 0,5696 A4321 91 0,5281 A3216

52 0,5674 A5623 92 0,5272 A9004

53 0,5651 A6990 93 0,5263 A9843

54 0,565 A4115 94 0,5236 A11468

55 0,5642 A6125 95 0,5221 A1483

56 0,5625 A5849 96 0,522 A12052

97



97 0,5219 A9164 137 0,5018 A5357

98 0,5211 A7102 138 0,5013 A11382

99 0,521 A3020 139 0,5012 A192

100 0,5206 A6174 140 0,5009 A3278

101 0,5205 A2977 141 0,4992 A6675

102 0,5204 A8745 142 0,4991 A6620

103 0,5195 A8290 143 0,4989 A9310

104 0,5191 A9840 144 0,4989 A4943

105 0,519 A6949 145 0,4984 A9892

106 0,5188 A8694 146 0,4974 A3461

107 0,5181 A10128 147 0,4967 A3726

108 0,5173 A8429 148 0,4962 A3229

109 0,5168 A8674 149 0,4958 A4155

110 0,5168 A5996 150 0,4957 A1267

111 0,5166 A5486 151 0,4951 A6033

112 0,5158 A6381 152 0,4941 A4793

113 0,5157 A4397 153 0,492 A6060

114 0,5154 A6694 154 0,4919 A1682

115 0,5133 A10894 155 0,4915 A10862

116 0,5126 A5835 156 0,4915 A9162

117 0,5126 A8024 157 0,4907 A8516

118 0,5124 A6431 158 0,4906 A10187

119 0,512 A2586 159 0,4882 A11786

120 0,5115 A7806 160 0,488 A12009

121 0,51 A6963 161 0,4875 A8331

122 0,5095 A6814 162 0,4868 A10338

123 0,509 A4977 163 0,4866 A3667

124 0,5089 A8571 164 0,486 A6838

125 0,5086 A8457 165 0,4852 A8886

126 0,5081 A12021 166 0,4842 A7537

127 0,508 A2838 167 0,484 A6885

128 0,507 A7254 168 0,4837 A4575

129 0,5065 A12521 169 0,4833 A12368

130 0,5055 A4282 170 0,4833 A10787

131 0,5047 A9311 171 0,4813 A6987

132 0,5044 A10194 172 0,4808 A11178

133 0,5042 A4122 173 0,479 A5407

134 0,5039 A12413 174 0,4784 A8882

135 0,5034 A5108 175 0,4771 A9743

136 0,5029 A11646 176 0,4765 A4325

98



177 0,4755 A6687 215 0,4606 A9157

178 0,4754 A9910 216 0,4606 A5182

179 0,4754 A5292 217 0,4605 A8808

180 0,4753 A5761 218 0,4602 A6655

181 0,4746 A9761 219 0,46 A7162

182 0,474 A7659 220 0,4595 A3629

183 0,4735 A7703 221 0,4595 A2536

184 0,4732 A9145 222 0,4591 A2762

185 0,4731 A2478 223 0,459 A10129

186 0,4724 A7617 224 0,4588 A5057

187 0,4721 A5469 225 0,4584 A9769

188 0,472 A3460 226 0,4581 A5982

189 0,4709 A8782 227 0,4579 A8091

190 0,4692 A7721 228 0,4579 A5371

191 0,4685 A9323 229 0,4575 A8981

192 0,4676 A4327 230 0,4575 A4823

193 0,4675 A8277 231 0,4573 A8199

194 0,4671 A2919 232 0,4571 A8633

195 0,4671 A3894 233 0,4554 A9101

196 0,4669 A11840 234 0,4548 A5260

197 0,4667 A7803 235 0,4548 A11316

198 0,4665 A11159 236 0,4547 A6319

199 0,4649 A4315 237 0,4544 A7052

200 0,4643 A7216 238 0,4544 A8132

201 0,4643 A11797 239 0,4543 A4346

202 0,4643 A11871 240 0,4539 A6573

203 0,4637 A193 241 0,4533 A4733

204 0,4634 A9364 242 0,4529 A9133

205 0,4633 A6765 243 0,4528 A3060

206 0,4629 A9412 244 0,4526 A4145

207 0,4626 A2784 245 0,4525 A12535

208 0,4625 A7984 246 0,4523 A5658

209 0,4624 A4772 247 0,4512 A5619

210 0,4622 A3761 248 0,4511 A7041

211 0,462 A3995 249 0,4511 A9770

212 0,4617 A8531 250 0,4508 A6784

213 0,4614 A7418 251 0,4504 A12472

214 0,461 A9325 252 0,4501 A7396

99

Lampiran 25. Grid search SVM-OAO Leukimia

No Cost γ Akurasi G-mean F-score time

1 2-5 2-15 0,521 0,722 0,685 0,036

2 2-4 2-15 0,521 0,722 0,685 0,024

3 2-3 2-15 0,521 0,722 0,685 0,016

4 2-2 2-15 0,521 0,722 0,685 0,016

5 2-1 2-15 0,521 0,722 0,685 0,031

6 20 2-15 0,521 0,722 0,685 0,016

7 21 2-15 0,521 0,722 0,685 0,023

8 22 2-15 0,521 0,722 0,685 0,020

9 23 2-15 0,521 0,722 0,685 0,018

10 2-5 2-14 0,521 0,722 0,685 0,029

11 2-4 2-14 0,521 0,722 0,685 0,031

12 2-3 2-14 0,521 0,722 0,685 0,097

13 2-2 2-14 0,521 0,722 0,685 0,031

14 2-1 2-14 0,521 0,722 0,685 0,022

15 20 2-14 0,521 0,722 0,685 0,038

16 21 2-14 0,521 0,722 0,685 0,024

17 22 2-14 0,521 0,722 0,685 0,046

18 2-5 2-13 0,521 0,722 0,685 0,020

19 2-4 2-13 0,521 0,722 0,685 0,020

20 2-3 2-13 0,521 0,722 0,685 0,021

21 2-2 2-13 0,521 0,722 0,685 0,031

22 2-1 2-13 0,521 0,722 0,685 0,035

23 20 2-13 0,521 0,722 0,685 0,019

24 21 2-13 0,521 0,722 0,685 0,020

25 2-5 2-12 0,521 0,722 0,685 0,016

26 2-4 2-12 0,521 0,722 0,685 0,016

27 2-3 2-12 0,521 0,722 0,685 0,016

28 2-2 2-12 0,521 0,722 0,685 0,016

29 2-1 2-12 0,521 0,722 0,685 0,016

30 20 2-12 0,521 0,722 0,685 0,016

31 2-5 2-11 0,521 0,722 0,685 0,032

32 2-4 2-11 0,521 0,722 0,685 0,022

33 2-3 2-11 0,521 0,722 0,685 0,006

34 2-2 2-11 0,521 0,722 0,685 0,019

35 2-1 2-11 0,521 0,722 0,685 0,018

36 2-5 2-10 0,521 0,722 0,685 0,016

37 2-4 2-10 0,521 0,722 0,685 0,016

38 2-3 2-10 0,521 0,722 0,685 0,016

39 2-2 2-10 0,521 0,722 0,685 0,031

40 2-1 2-10 0,521 0,722 0,685 0,016

100

Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)


41 2-5 2-9 0,521 0,722 0,685 0,016

42 2-4 2-9 0,521 0,722 0,685 0,016

43 2-3 2-9 0,521 0,722 0,685 0,016

44 2-2 2-9 0,521 0,722 0,685 0,022

45 2-5 2-8 0,521 0,722 0,685 0,016

46 2-4 2-8 0,521 0,722 0,685 0,016

47 2-3 2-8 0,521 0,722 0,685 0,016

48 2-2 2-8 0,521 0,722 0,685 0,016

49 2-5 2-7 0,521 0,722 0,685 0,023

50 2-4 2-7 0,521 0,722 0,685 0,017

51 2-3 2-7 0,521 0,722 0,685 0,026

52 2-2 2-7 0,521 0,722 0,685 0,006

53 2-5 2-6 0,521 0,722 0,685 0,016

54 2-4 2-6 0,521 0,722 0,685 0,016

55 2-3 2-6 0,521 0,722 0,685 0,041

56 2-2 2-6 0,521 0,722 0,685 0,016

57 2-5 2-5 0,521 0,722 0,685 0,018

58 2-4 2-5 0,521 0,722 0,685 0,017

59 2-3 2-5 0,521 0,722 0,685 0,016

60 2-2 2-5 0,521 0,722 0,685 0,016

61 2-1 2-5 0,521 0,722 0,685 0,016

62 2-5 2-4 0,521 0,722 0,685 0,016

63 2-4 2-4 0,521 0,722 0,685 0,016

64 2-3 2-4 0,521 0,722 0,685 0,016

65 2-2 2-4 0,521 0,722 0,685 0,016

66 2-1 2-4 0,521 0,722 0,685 0,031

67 20 2-4 0,521 0,722 0,685 0,016

68 21 2-4 0,521 0,722 0,685 0,026

69 22 2-4 0,521 0,722 0,685 0,022

70 23 2-4 0,521 0,722 0,685 0,031

71 24 2-4 0,521 0,722 0,685 0,016

72 25 2-4 0,521 0,722 0,685 0,016

73 26 2-4 0,521 0,722 0,685 0,016

74 27 2-4 0,521 0,722 0,685 0,016

75 28 2-4 0,521 0,722 0,685 0,017

76 29 2-4 0,521 0,722 0,685 0,031

77 210 2-4 0,521 0,722 0,685 0,019

78 211 2-4 0,521 0,722 0,685 0,016

79 212 2-4 0,521 0,722 0,685 0,016

80 213 2-4 0,521 0,722 0,685 0,016

101



81 214 2-4 0,521 0,722 0,685 0,016

82 215 2-4 0,521 0,722 0,685 0,014

83 2-5 2-3 0,521 0,722 0,685 0,031

84 2-4 2-3 0,521 0,722 0,685 0,022

85 2-3 2-3 0,521 0,722 0,685 0,016

86 2-2 2-3 0,521 0,722 0,685 0,016

87 2-1 2-3 0,521 0,722 0,685 0,016

88 20 2-3 0,521 0,722 0,685 0,038

89 21 2-3 0,521 0,722 0,685 0,002

90 22 2-3 0,521 0,722 0,685 0,016

91 23 2-3 0,521 0,722 0,685 0,016

92 24 2-3 0,521 0,722 0,685 0,016

93 25 2-3 0,521 0,722 0,685 0,031

94 26 2-3 0,521 0,722 0,685 0,031

95 27 2-3 0,521 0,722 0,685 0,023

96 28 2-3 0,521 0,722 0,685 0,031

97 29 2-3 0,521 0,722 0,685 0,016

98 210 2-3 0,521 0,722 0,685 0,016

99 211 2-3 0,521 0,722 0,685 0,022

100 212 2-3 0,521 0,722 0,685 0,016

101 213 2-3 0,521 0,722 0,685 0,031

102 214 2-3 0,521 0,722 0,685 0,016

103 215 2-3 0,521 0,722 0,685 0,016

104 2-5 2-2 0,521 0,722 0,685 0,016

105 2-4 2-2 0,521 0,722 0,685 0,016

106 2-3 2-2 0,521 0,722 0,685 0,017

107 2-2 2-2 0,521 0,722 0,685 0,031

108 2-1 2-2 0,521 0,722 0,685 0,031

109 20 2-2 0,521 0,722 0,685 0,016

110 21 2-2 0,521 0,722 0,685 0,022

111 22 2-2 0,521 0,722 0,685 0,035

112 23 2-2 0,521 0,722 0,685 0,016

113 24 2-2 0,521 0,722 0,685 0,016

114 25 2-2 0,521 0,722 0,685 0,016

115 26 2-2 0,521 0,722 0,685 0,016

116 27 2-2 0,521 0,722 0,685 0,016

117 28 2-2 0,521 0,722 0,685 0,016

118 29 2-2 0,521 0,722 0,685 0,03

119 210 2-2 0,521 0,722 0,685 0,016

120 211 2-2 0,521 0,722 0,685 0,033

102



121 212 2-2 0,521 0,722 0,685 0,016

122 213 2-2 0,521 0,722 0,685 0,022

123 214 2-2 0,521 0,722 0,685 0,027

124 215 2-2 0,521 0,722 0,685 0,016

125 2-5 2-1 0,521 0,722 0,685 0,022

126 2-4 2-1 0,521 0,722 0,685 0,016

127 2-3 2-1 0,521 0,722 0,685 0,016

128 2-2 2-1 0,521 0,722 0,685 0,016

129 2-1 2-1 0,521 0,722 0,685 0,051

130 20 2-1 0,521 0,722 0,685 0,016

131 21 2-1 0,521 0,722 0,685 0,016

132 22 2-1 0,521 0,722 0,685 0,039

133 23 2-1 0,521 0,722 0,685 0,031

134 24 2-1 0,521 0,722 0,685 0,016

135 25 2-1 0,521 0,722 0,685 0,016

136 26 2-1 0,521 0,722 0,685 0,072

137 27 2-1 0,521 0,722 0,685 0,029

138 28 2-1 0,521 0,722 0,685 0,015

139 29 2-1 0,521 0,722 0,685 0,033

140 210 2-1 0,521 0,722 0,685 0,016

141 211 2-1 0,521 0,722 0,685 0,022

142 212 2-1 0,521 0,722 0,685 0,016

143 213 2-1 0,521 0,722 0,685 0,016

144 214 2-1 0,521 0,722 0,685 0,025

145 215 2-1 0,521 0,722 0,685 0,016

146 2-5 20 0,521 0,722 0,685 0,016

147 2-4 20 0,521 0,722 0,685 0,005

148 2-3 20 0,521 0,722 0,685 0,016

149 2-2 20 0,521 0,722 0,685 0,016

150 2-1 20 0,521 0,722 0,685 0,033

151 20 20 0,521 0,722 0,685 0,016

152 21 20 0,521 0,722 0,685 0,024

153 22 20 0,521 0,722 0,685 0,019

154 23 20 0,521 0,722 0,685 0,023

155 24 20 0,521 0,722 0,685 0,029

156 25 20 0,521 0,722 0,685 0,022

157 26 20 0,521 0,722 0,685 0,007

158 27 20 0,521 0,722 0,685 0,009

159 28 20 0,521 0,722 0,685 0,016

160 29 20 0,521 0,722 0,685 0,016

103

Lampiran 25. Grid search SVM-OAO Leukimia


161 210 20 0,521 0,722 0,685 0,016

162 211 20 0,521 0,722 0,685 0,016

163 212 20 0,521 0,722 0,685 0,021

164 213 20 0,521 0,722 0,685 0,016

165 214 20 0,521 0,722 0,685 0,031

166 215 20 0,521 0,722 0,685 0,02

167 2-5 21 0,521 0,722 0,685 0,01

168 2-4 21 0,521 0,722 0,685 0,016

169 2-3 21 0,521 0,722 0,685 0,005

170 2-2 21 0,521 0,722 0,685 0,016

171 2-1 21 0,521 0,722 0,685 0,016

172 20 21 0,521 0,722 0,685 0,026

173 21 21 0,521 0,722 0,685 0,034

174 22 21 0,521 0,722 0,685 0,022

175 23 21 0,521 0,722 0,685 0,016

176 24 21 0,521 0,722 0,685 0,016

177 25 21 0,521 0,722 0,685 0,029

178 26 21 0,521 0,722 0,685 0,005

179 27 21 0,521 0,722 0,685 0,016

180 28 21 0,521 0,722 0,685 0,016

181 29 21 0,521 0,722 0,685 0,031

182 210 21 0,521 0,722 0,685 0,016

183 211 21 0,521 0,722 0,685 0,016

184 212 21 0,521 0,722 0,685 0,02

185 213 21 0,521 0,722 0,685 0,047

186 214 21 0,521 0,722 0,685 0,01

187 215 21 0,521 0,722 0,685 0,016

188 2-5 22 0,521 0,722 0,685 0,032

189 2-4 22 0,521 0,722 0,685 0,016

190 2-3 22 0,521 0,722 0,685 0,016

191 2-2 22 0,521 0,722 0,685 0,016

192 2-1 22 0,521 0,722 0,685 0,021

193 20 22 0,521 0,722 0,685 0,032

194 21 22 0,521 0,722 0,685 0,016

195 22 22 0,521 0,722 0,685 0,016

196 23 22 0,521 0,722 0,685 0,016

197 24 22 0,521 0,722 0,685 0,022

198 25 22 0,521 0,722 0,685 0,016

199 26 22 0,521 0,722 0,685 0,016

200 27 22 0,521 0,722 0,685 0,031

104


No Cost Γ Akurasi G-mean F-score time

201 28 22 0,521 0,722 0,685 0,031

202 29 22 0,521 0,722 0,685 0,022

203 210 22 0,521 0,722 0,685 0,005

204 211 22 0,521 0,722 0,685 0,016

205 212 22 0,521 0,722 0,685 0,016

206 213 22 0,521 0,722 0,685 0,016

207 214 22 0,521 0,722 0,685 0,016

208 215 22 0,521 0,722 0,685 0,016

209 2-5 23 0,521 0,722 0,685 0,016

210 2-4 23 0,521 0,722 0,685 0,023

211 2-3 23 0,521 0,722 0,685 0,018

212 2-2 23 0,521 0,722 0,685 0,032

213 2-1 23 0,521 0,722 0,685 0,005

214 20 23 0,521 0,722 0,685 0,006

215 21 23 0,521 0,722 0,685 0,017

216 22 23 0,521 0,722 0,685 0,031

217 23 23 0,521 0,722 0,685 0,031

218 24 23 0,521 0,722 0,685 0,031

219 25 23 0,521 0,722 0,685 0,016

220 26 23 0,521 0,722 0,685 0,022

221 27 23 0,521 0,722 0,685 0,022

222 28 23 0,521 0,722 0,685 0,019

223 29 23 0,521 0,722 0,685 0,031

224 210 23 0,521 0,722 0,685 0,02

225 211 23 0,521 0,722 0,685 0,031

226 212 23 0,521 0,722 0,685 0,016

227 213 23 0,521 0,722 0,685 0,016

228 214 23 0,521 0,722 0,685 0,031

229 215 23 0,521 0,722 0,685 0,016

230 20 2-11 0,563 0,737 0,704 0,017

231 22 2-13 0,583 0,745 0,714 0,019

232 21 2-12 0,583 0,745 0,714 0,016

233 24 2-15 0,604 0,754 0,725 0,006

234 23 2-14 0,604 0,754 0,725 0,045

235 2-1 2-9 0,729 0,811 0,794 0,017

236 2-1 2-6 0,729 0,811 0,794 0,016

237 20 2-5 0,729 0,811 0,794 0,016

238 21 2-5 0,729 0,811 0,794 0,016

239 22 2-5 0,729 0,811 0,794 0,016

240 23 2-5 0,729 0,811 0,794 0,019

105


No Cost γ Akurasi G-mean F-score Time

241 24 2-5 0,729 0,811 0,794 0,016

242 25 2-5 0,729 0,811 0,794 0,016

243 26 2-5 0,729 0,811 0,794 0,016

244 27 2-5 0,729 0,811 0,794 0,016

245 28 2-5 0,729 0,811 0,794 0,016

246 29 2-5 0,729 0,811 0,794 0,022

247 210 2-5 0,729 0,811 0,794 0,017

248 211 2-5 0,729 0,811 0,794 0,022

249 212 2-5 0,729 0,811 0,794 0,016

250 213 2-5 0,729 0,811 0,794 0,016

251 214 2-5 0,729 0,811 0,794 0,038

252 215 2-5 0,729 0,811 0,794 0,017

253 20 2-10 0,833 0,87 0,862 0,031

254 20 2-6 0,833 0,884 0,877 0,016

255 22 2-12 0,854 0,884 0,877 0,016

256 21 2-11 0,854 0,884 0,877 0,004

257 2-1 2-7 0,854 0,898 0,893 0,017

258 25 2-15 0,875 0,898 0,893 0,047

259 24 2-14 0,875 0,898 0,893 0,041

260 23 2-13 0,875 0,898 0,893 0,017

261 2-1 2-8 0,875 0,898 0,893 0,016

262 21 2-6 0,875 0,913 0,909 0,026

263 22 2-6 0,875 0,913 0,909 0,016

264 23 2-6 0,875 0,913 0,909 0,016

265 24 2-6 0,875 0,913 0,909 0,032

266 25 2-6 0,875 0,913 0,909 0,016

267 26 2-6 0,875 0,913 0,909 0,038

268 27 2-6 0,875 0,913 0,909 0,022

269 28 2-6 0,875 0,913 0,909 0,016

270 29 2-6 0,875 0,913 0,909 0,022

271 210 2-6 0,875 0,913 0,909 0,017

272 211 2-6 0,875 0,913 0,909 0,022

273 212 2-6 0,875 0,913 0,909 0,006

274 213 2-6 0,875 0,913 0,909 0,006

275 214 2-6 0,875 0,913 0,909 0,022

276 215 2-6 0,875 0,913 0,909 0,016

277 20 2-9 0,896 0,913 0,909 0,014

278 22 2-7 0,917 0,941 0,941 0,016

279 23 2-7 0,917 0,941 0,941 0,016

280 24 2-7 0,917 0,941 0,941 0,016

106



281 25 2-7 0,917 0,941 0,941 0,031

282 26 2-7 0,917 0,941 0,941 0,031

283 27 2-7 0,917 0,941 0,941 0,016

284 28 2-7 0,917 0,941 0,941 0,016

285 29 2-7 0,917 0,941 0,941 0,031

286 210 2-7 0,917 0,941 0,941 0,016

287 211 2-7 0,917 0,941 0,941 0,016

288 212 2-7 0,917 0,941 0,941 0,037

289 213 2-7 0,917 0,941 0,941 0,016

290 214 2-7 0,917 0,941 0,941 0,016

291 215 2-7 0,917 0,941 0,941 0,016

292 21 2-10 0,938 0,945 0,943 0,031

293 20 2-7 0,938 0,962 0,962 0,003

294 21 2-7 0,938 0,962 0,962 0,016

295 26 2-15 0,958 0,962 0,962 0,016

296 25 2-14 0,958 0,962 0,962 0,067

297 24 2-13 0,958 0,962 0,962 0,016

298 23 2-12 0,958 0,962 0,962 0,016

299 22 2-11 0,958 0,962 0,962 0,016

300 23 2-9 0,958 0,98 0,98 0,016

301 24 2-9 0,958 0,98 0,98 0,016

302 25 2-9 0,958 0,98 0,98 0,017

303 26 2-9 0,958 0,98 0,98 0,006

304 27 2-9 0,958 0,98 0,98 0,016

305 28 2-9 0,958 0,98 0,98 0,016

306 29 2-9 0,958 0,98 0,98 0,003

307 210 2-9 0,958 0,98 0,98 0,016

308 211 2-9 0,958 0,98 0,98 0,016

309 212 2-9 0,958 0,98 0,98 0,016

310 213 2-9 0,958 0,98 0,98 0,031

311 214 2-9 0,958 0,98 0,98 0,021

312 215 2-9 0,958 0,98 0,98 0,016

313 22 2-8 0,958 0,98 0,98 0,031

314 23 2-8 0,958 0,98 0,98 0,016

315 24 2-8 0,958 0,98 0,98 0,016

316 25 2-8 0,958 0,98 0,98 0,018

317 26 2-8 0,958 0,98 0,98 0,016

318 27 2-8 0,958 0,98 0,98 0,016

319 28 2-8 0,958 0,98 0,98 0,016

320 29 2-8 0,958 0,98 0,98 0,032

107



321 210 2-8 0,958 0,98 0,98 0,016

322 211 2-8 0,958 0,98 0,98 0,016

323 212 2-8 0,958 0,98 0,98 0,016

324 213 2-8 0,958 0,98 0,98 0,021

325 214 2-8 0,958 0,98 0,98 0,02

326 215 2-8 0,958 0,98 0,98 0,016

327 27 2-15 0,979 0,981 0,98 0,018

328 28 2-15 0,979 0,98 0,98 0,031

329 29 2-15 0,979 0,98 0,98 0,021

330 210 2-15 0,979 0,98 0,98 0,017

331 211 2-15 0,979 0,98 0,98 0,033

332 212 2-15 0,979 0,98 0,98 0,016

333 213 2-15 0,979 0,98 0,98 0,016

334 214 2-15 0,979 0,98 0,98 0,016

335 215 2-15 0,979 0,98 0,98 0,016

336 26 2-14 0,979 0,981 0,98 0,023

337 27 2-14 0,979 0,98 0,98 0,022

338 28 2-14 0,979 0,98 0,98 0,038

339 29 2-14 0,979 0,98 0,98 0,031

340 210 2-14 0,979 0,98 0,98 0,024

341 211 2-14 0,979 0,98 0,98 0,034

342 212 2-14 0,979 0,98 0,98 0,139

343 213 2-14 0,979 0,98 0,98 0,035

344 214 2-14 0,979 0,98 0,98 0,076

345 215 2-14 0,979 0,98 0,98 0,026

346 25 2-13 0,979 0,981 0,98 0,016

347 26 2-13 0,979 0,98 0,98 0,016

348 27 2-13 0,979 0,98 0,98 0,031

349 28 2-13 0,979 0,98 0,98 0,016

350 29 2-13 0,979 0,98 0,98 0,016

351 210 2-13 0,979 0,98 0,98 0,02

352 211 2-13 0,979 0,98 0,98 0,031

353 212 2-13 0,979 0,98 0,98 0,016

354 213 2-13 0,979 0,98 0,98 0,016

355 214 2-13 0,979 0,98 0,98 0,016

356 215 2-13 0,979 0,98 0,98 0,016

357 24 2-13 0,979 0,981 0,98 0,016

358 25 2-13 0,979 0,98 0,98 0,028

359 26 2-13 0,979 0,98 0,98 0,016

360 27 2-13 0,979 0,98 0,98 0,016

108



361 28 2-12 0,979 0,98 0,98 0,02

362 29 2-12 0,979 0,98 0,98 0,025

363 210 2-12 0,979 0,98 0,98 0,016

364 211 2-12 0,979 0,98 0,98 0,022

365 212 2-12 0,979 0,98 0,98 0,016

366 213 2-12 0,979 0,98 0,98 0,032

367 214 2-12 0,979 0,98 0,98 0,017

368 215 2-12 0,979 0,98 0,98 0,022

369 23 2-11 0,979 0,981 0,98 0,016

370 25 2-11 0,979 0,98 0,98 0,016

371 26 2-11 0,979 0,98 0,98 0,016

372 27 2-11 0,979 0,98 0,98 0,016

373 28 2-11 0,979 0,98 0,98 0,016

374 29 2-11 0,979 0,98 0,98 0,016

375 210 2-11 0,979 0,98 0,98 0,016

376 211 2-11 0,979 0,98 0,98 0,016

377 212 2-11 0,979 0,98 0,98 0,016

378 213 2-11 0,979 0,98 0,98 0,016

379 214 2-11 0,979 0,98 0,98 0,016

380 215 2-11 0,979 0,98 0,98 0,016

381 22 2-10 0,979 0,981 0,98 0,016

382 24 2-10 0,979 0,98 0,98 0,031

383 25 2-10 0,979 0,98 0,98 0,031

384 26 2-10 0,979 0,98 0,98 0,016

385 27 2-10 0,979 0,98 0,98 0,031

386 28 2-10 0,979 0,98 0,98 0,014

387 29 2-10 0,979 0,98 0,98 0,016

388 210 2-10 0,979 0,98 0,98 0,016

389 211 2-10 0,979 0,98 0,98 0,031

390 212 2-10 0,979 0,98 0,98 0,016

391 213 2-10 0,979 0,98 0,98 0,016

392 214 2-10 0,979 0,98 0,98 0,016

393 215 2-10 0,979 0,98 0,98 0,016

394 21 2-9 0,979 0,981 0,98 0,004

395 22 2-9 0,979 1 1 0,006

396 20 2-8 0,979 0,981 0,98 0,031

397 21 2-8 0,979 1 1 0,031

398 24 2-11 1 1 1 0,016

399 23 2-10 1 1 1 0,016

109

Lampiran 26. Syntax Generate Data Simulasi library(MASS)

library(data.table)

library(dplyr)

library(gmum.r)

library(caret)

library(MLmetrics)

Dataset=fread("D:/Leukimia1.csv")

n_fiturs = 1000; class_1 = 0.1; class_2 = 0.4; class_3 = 0.5

varn=sample(x = seq(1,5327),size = n_fiturs, replace = F)

Dataset1=cbind(select(Dataset,varn),Dataset$klasifikasi)

#Memperoleh matrix varian dan kovarian untuk masing-masing dataset

dan kategori

Cov_1_1=cov(subset(Dataset1,V2==0,select=-V2))



#Memperoleh mean vector untuk masing-masing dataset dan kategori

mean_1_1=colMeans(subset(Dataset1,V2==0,select=-V2))



#Memperoleh 'n' masing-masing kategori

n1_1=class_1*100

n1_2=class_2*100

n1_3=class_3*100

Datasim1_1=mvrnorm(n1_1, mean_1_1, Cov_1_1, empirical = FALSE)



Datasim1=as.data.frame(rbind(Datasim1_1,Datasim1_2,Datasim1_3))

y1=c(rep('kelas1',n1_1),rep('kelas2',n1_2),rep('kelas3',n1_3))

Datasim1=cbind(Datasim1, y1)

write.csv(Datasim1, "D:/Datasim1000_401050.csv")

110

Lampiran 27. Syntax Grid search SVM-OAO library(e1071)

library(MLmetrics)

library(caret)

Data_Thesis <- read.csv("D:/dataset3FCBF.csv")

Data_train<-list()

Data_test<-list()

for (i in 1:3) {

sampel <- createFold s(factor(Data_Thesis$y1), k = 3, list =

FALSE)

testIndexes <- which(sampel==i,arr.ind=TRUE)

Data_train[[i]]<-Data_Thesis[testIndexes,]

Data_test[[i]]<-Data_Thesis[-testIndexes,]}

Akurasi<-matrix(ncol=1,nrow=10)

G-mean<-matrix(ncol=1,nrow=10)

time<-matrix(ncol=1,nrow=10)

F-score<-matrix(ncol=1,nrow=10)

input_cost_SVM<-2seq(-5,15, by=1)

input_param_SVM<-2seq(-15,3,by=1)

comb_param_SVM<-expand.grid(input_cost_SVM,input_param_SVM)

Mat_hasil_test_SVM<-

matrix(ncol=ncol(comb_param_SVM)+4,nrow=nrow(comb_param_SVM))

for (j in 1:nrow(comb_param_SVM)){

for (i in 1:3) {

start.time1 = Sys.time()

model_SVM<-SVM(y1~.,data= Data_train[[i]] ,type="C

classification",cost=comb_param_SVM[j,1],

gamma=comb_param_SVM[j,2])

end.time1 = Sys.time()

prediksi<-predict(model_SVM,Data_test[[i]])

Akurasi[i]<-Accuracy(prediksi,Data_test[[i]]$y1)

G-

mean[i]=sqrt(Precision(prediksi,Data_test[[i]]$y1)*Recall(prediksi

,Data_test[[i]]$y1))

F-score[i]=F1_Score(prediksi,Data_test[[i]]$y1)

time[i]=end.time1-start.time1}

Akurasi<-mean(Akurasi[i])

G-mean<-mean(G-mean[i])

F-score=mean(F-score[i])

time<-mean(time[i])

hasil_test<-

as.numeric(c(comb_param_SVM[j,1],comb_param_SVM[j,2],Akurasi, G-

mean,F-score, time))

Mat_hasil_test_SVM[j,]<-hasil_test}

Mat_hasil_test_SVM<-

Mat_hasil_test_SVM[order(Mat_hasil_test_SVM[,3]),]

colnames(Mat_hasil_test_SVM)=c("nilaicost", "nilaigamma",

"akurasi", "G-mean", "F-score", "time")

hasilnya=data.frame(Mat_hasil_test_SVM)

head(hasilnya)

write.csv(hasilnya, "D:/7 Mei 2018/RBF.csv")

hasilnya=read.csv("D:/7 Mei 2018/RBF dataset3FCBF.csv")

hm <- ggplot(hasilnya, aes(x=as.character(cost),

y=as.character(gamma)))

hm + geom_tile(aes(fill=akurasi), colour = 'white') +

scale_fill_gradient2(low='blue', midpoint=1, high='blue')

111

Lampiran 28. Syntax SVM-OAO library(rminer)

library(data.table)

library(MLmetrics)

library(Biocomb)

library(e1071)

library(dplyr)

datasetFCBF1=fread("D:/dataset2FCBF.csv")

y1=datasetFCBF1$y1

FCBF1=select.fast.filter(dataset1,disc.method="MDL",threshold =

0.2)

write.csv(FCBF1, "D:/FCBF1.csv")

datasetFCBF1=select(dataset1,FCBF1$NumberFitur);

datasetFCBF1=cbind(datasetFCBF1,y1)

write.csv(datasetFCBF1, "D:/datasetFCBF1.csv")

fold s1 <- createFold s(factor(datasetFCBF1$y1), k = 3, list =

FALSE)

time1=rep(0,3)

f1score_1=rep(0,3)

Akurasi1=rep(0,3)

G-means1=rep(0,3)

for(i in 1:3)

{

print(i)

testIndexes <- which(fold s1==i,arr.ind=TRUE)

testData <- datasetFCBF1[testIndexes, ]

trainData <- datasetFCBF1[-testIndexes, ]


model1<-SVM(y1~.,data = trainData,type="C-classification",

gamma=0.000122,cost=8)


prediksi1=predict(model1, testData[,-98])

f1score_1[i]=F1_Score(testData$y1,prediksi1)

Akurasi1[i]=Accuracy(testData$y1,prediksi1)

Gmeans1[i]=sqrt(Precision(testData$y1,prediksi1)*Recall(testData$y

1,prediksi1))

time1[i]=end.time1-start.time1

}

mean(f1score_1)

mean(Akurasi1)

mean(G-means1)

mean(time1)

write.csv(list(akurasi=Akurasi1, F-score=f1score_1, G-mean=G-

means1, waktu=time1),"D:/list.csv")

112

Lampiran 29. Syntax EnSVM-OAO library(rminer)

library(data.table)

library(MLmetrics)

library(Biocomb)

library(dplyr)

library(ClustOfVar)

dataset1=fread("D:/silvvv/Leukimia1.csv")

y1=datasetFCBF1$y1


0.8)


datasetFCBF1=select(dataset1,FCBF1$Biomarker)




dendogram1=hclustvar(X.quanti = datasetFCBF1)

win.graph(); plot(dendogram1)

clusterset1=cutreevar(dendogram1,2)

###Cluster variabel

var1_1=names(which(clusterset1$cluster==1))


###Ambil Cluster

cluster1_1=cbind(select(datasetFCBF1,var1_1),y1)


#SVM dataset 1

fold s1 <- createFold s(factor(datasetFCBF1$y1), k = 3, list =

FALSE)

time1=rep(0,3)

f1score_1=rep(0,3)

Akurasi1=rep(0,3)

G-means1=rep(0,3)

for(i in 1:3)

{

print(i)


testData <- datasetFCBF1[testIndexes, ]

trainData <- datasetFCBF1[-testIndexes, ]

train1_1=cluster1_1[-testIndexes, ];

test1_1=subset(cluster1_1[testIndexes, ],select = -c(y1));

y1_1train=cluster1_1[-testIndexes, ]$y1;

y1_1test=cluster1_1[testIndexes, ]$y1






model1_1=SVM(y=as.factor(y1_1train), x=subset(train1_1,select =

-c(y1)),type="C-classification",gamma=0.000977, cost=8)




prediksi1_1=predict(model1_1, test1_1)


113

f1score_1_1=F1_Score(y1_1test,prediksi1_1);

Akurasi1_1=Accuracy(y1_1test,prediksi1_1); G-

means1_1=sqrt(Precision(y1_1test,prediksi1_1)*Recall(y1_1test,pred

iksi1_1))




iksi1_2))

f1score_1[i]=mean(f1score_1_1, f1score_1_2)

Akurasi1[i]=mean(Akurasi1_1,Akurasi1_2)

G-means1[i]=mean(G-means1_1,G-means1_2)


}

mean(f1score_1)

mean(Akurasi1)

mean(G-means1)

mean(time1)



114

Lampiran 30. Syntax EnSVM-RUS-OAO library(rminer)

library(data.table)

library(MLmetrics)

library(Biocomb)

library(dplyr)

library(ClustOfVar)

dataset1=fread("D:/silvvv/Leukimia1.csv")

y1=dataset1$klasifikasi


0.8)


datasetFCBF1=select(dataset1,FCBF1$Biomarker)




datasetFCBF1=read.csv("D:/dataset1FCBF.csv")

y1=datasetFCBF1$y1

#Random Undersampling

RUS <- function(y,x,n){

fin=NULL

for (i in unique(y)) {

sub=subset(x, y==i)

sam=sub[sample(nrow(sub), n), ]

fin=rbind(fin, sam)}

return(fin)

}

RUSFCBF1=RUS(y=y1,x=datasetFCBF1,n=9)

dendogram1=hclustvar(X.quanti = RUSFCBF1)

win.graph(); plot(dendogram1)

clusterset1=cutreevar(dendogram1,2)

###Cluster variabel



###Ambil Cluster



#SVM dataset 1

fold s1 <- createFold s(factor(RUSFCBF1$y1), k = 3, list = FALSE)

time1=rep(0,3)

f1score_1=rep(0,3)

Akurasi1=rep(0,3)

G-means1=rep(0,3)

for(i in 1:3)

{

print(i)


testData <- RUSFCBF1[testIndexes, ]

trainData <- RUSFCBF1[-testIndexes, ]





115
















iksi1_1))




iksi1_2))

f1score_1[i]=mean(f1score_1_1, f1score_1_2)

Akurasi1[i]=mean(Akurasi1_1,Akurasi1_2)

G-means1[i]=mean(G-means1_1,G-means1_2)


}

mean(f1score_1)

mean(Akurasi1)

mean(G-means1)

mean(time1)



117

BIOGRAFI PENULIS

ur Silviyah Rahmi atau dengan panggilan Silvi, lahir

di Gresik pada tanggal 04 November 1991. Penulis

merupakan anak pertama dari enam bersaudara. Penulis

menyelesaikan Sekolah Dasar di MI Ma’arif Sidomukti

tahun 2004, SMPN 1 Gresik tahun 2007, SMAN 1

Kebomas tahun 2010, masuk kuliah di D3-Statistika ITS

pada tahun 2010 dan melanjutkan studi S1 Lintas Jalur

Statistika ITS tahun 2013.

Setelah menempuh pendidikan Sarjana selama 5 tahun, penulis melanjutkan ke

jenjang Magister Statistika ITS pada tahun 2016 dengan Beasiswa Fresh Graduate.

Sembari kuliah Pascasarjana, penulis bekerja di Badan Penanaman Modal Kota

Surabaya selama 1 tahun. Karya yang telah dibuat oleh penulis meliputi bidang

pemetaan data dengan metode analisis Chernoff Face, analisis multivariate data

dengan Structural Equation Modelling (SEM), analisis deret waktu yaitu Vector

Autoregressive (VAR) dan Generalized Space Time Autoregressive (GSTAR),

serta machine learning yaitu Support Vector Machine. Penulis mempunyai prinsip

dalam hidup, yaitu “Man Jadda Wajada”. Komunikasi lebih lanjut dengan penulis

dapat melalui email [email protected].

N

ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM ...

Documents

Transcript of ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM ...