ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM ...
Transcript of ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM ...
i
TESIS - SS142501
ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA DNA MICROARRAY UNTUK MENANGANI KASUS MULTICLASS IMBALANCE NUR SILVIYAH RAHMI NRP. 06211650010026 DOSEN PEMBIMBING Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.
PROGRAM MAGISTER DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA
ii
2018
TESIS – SS142501
ENSEMBLE SUPPORT VECTOR MACHINE DENGAN RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA DNA MICROARRAY UNTUK MENANGANI KASUS MULTICLASS IMBALANCE
NUR SILVIYAH RAHMI NRP. 06211650010026
DOSEN PEMBIMBING Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.
PROGRAM MAGISTER DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2018
iii
iv
LAMAN JUDUL
THESIS – SS142501
ENSEMBLE SUPPORT VECTOR MACHINE RANDOM UNDERSAMPLING FOR DNA MICROARRAY CLASSIFICATION TO OVERCOME MULTICLASS IMBALANCED
NUR SILVIYAH RAHMI SN 06211650010026
SUPERVISORS Santi Wulan Purnami, M.Si., Ph.D. Irhamah, M.Si., Ph.D.
MAGISTER PROGRAMME DEPARTMENT OF STATISTICS FACULTY OF MATHEMATICS, COMPUTING, AND DATA SCIENCES INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2018
v
vi
vii
ENSEMBLE SUPPORT VECTOR MACHINE DENGAN
RANDOM UNDERSAMPLING PADA KLASIFIKASI DATA
DNA MICROARRAY UNTUK MENANGANI KASUS
MULTICLASS IMBALANCE
Nama Mahasiswa : Nur Silviyah Rahmi
NRP : 06211650010026
Pembimbing : Santi Wulan Purnami, M.Si., Ph.D.
Irhamah, M.Si., Ph.D.
ABSTRAK
Teknologi microarray melakukan pengukuran dalam skala besar dan paralel untuk
mengekspresikan puluhan ribu gen. Hal ini menjadi salah satu teknologi biologi molekuler
yang banyak diterapkan untuk memprediksi fungsi gen, subtipe baru dari tumor spesifik
dan klasifikasi kanker. Namun, data microarray diketahui memiliki karakteristik fitur
seperti dimensi tinggi, sampel kecil, noise tinggi dan distribusi kelas yang tidak seimbang
(imbalance). Metode Support Vector Machine (SVM) telah banyak digunakan dan
menunjukkan keberhasilan dalam banyak aplikasi utamanya dalam meningkatkan
performansi klasifikasi. Untuk mengatasi dimensi tinggi diterapkan metode Ensemble-
SVM. Metode ini mengelompokkan fitur secara clustering hirarki complete linkage dan
setiap kelompok akan dilakukan proses klasifikasi. Sedangkan kondisi imbalance data
menjadi masalah dalam klasifikasi, karena classifier akan condong memprediksi ke kelas
mayoritas dibandingkan kelas minoritas. Oleh Karena itu, diterapkan metode Random
Undersampling atau EnSVM-RUS yang berfungsi untuk menyeimbangkan jumlah kelas
mayoritas ke dalam kelas minoritas. Penelitian ini menggunakan threefold cross-validation
dengan metode seleksi fitur yaitu Fast Correlation Based Filter (FCBF). Metode
Multiclass yang digunakan yaitu SVM One Against One (OAO). Sedangkan kriteria
evaluasi performansi klasifikasi berdasarkan nilai akurasi, F-score dan G-mean serta
running time. Penelitian ini melakukan studi simulasi dengan skenario berbagai tingkatan
imbalance ratio (IR) yaitu rasio 1, 5, dan 8 untuk mengetahui performansi metode yang
diusulkan. Sedangkan penerapan pada data riil menggunakan data DNA Microarray
dengan IR 4,22; 15,00; dan 23,17 Hasilnya menunjukkan bahwa metode EnSVM-RUS-
OAO dengan 2 cluster memiliki performansi lebih tinggi dibandingkan metode EnSVM-
OAO dan EnSVM-OAO. Adanya peningkatan imbalance rasio tidak mempengaruhi
keunggulan metode EnSVM-RUS-OAO jika dibandingkan dengan metode metode EnSVM-
OAO dan EnSVM-OAO. Sedangkan pada penggunaan kernel, kernel RBF dan polynomial
menghasilkan performansi lebih tinggi dan waktu komputasi lebih singkat dari pada kernel
linear.
Kata Kunci: Kelas Imbalance, Klasifikasi Multiclass, Random Undersampling (RUS),
Ensemble Feature Subspace
viii
(Halaman ini sengaja dikosongkan)
ix
ENSEMBLE SUPPORT VECTOR MACHINE RANDOM
UNDERSAMPLING FOR DNA MICROARRAY
CLASSIFICATION TO OVERCOME
MULTICLASS IMBALANCED
Name of Student : Nur Silviyah Rahmi
Student Number : 06211650010026
Supervisors : Santi Wulan Purnami, M.Si., Ph.D.
Irhamah, M.Si., Ph.D.
ABSTRACT
Microarray technology measure on a large and parallel scale to express tens
thousands of genes. It has widely applied to predict gene function, new subtypes of specific
tumors and cancer classification. However, microarray data are known has feature
characteristics such as high dimension, small sample, high noise and imbalanced class
distribution. Support Vector Machine (SVM) has been widely used and shows the successful
in major applications to improve classification performance. To overcome the high
dimension, this research applies Ensemble-SVM method. This method classifies features
use clustering hierarchy and each group will be classified. While the condition of
imbalance data becomes a problem in classification, because the classifier will tend to
predict majority class compared to minority class. Therefore, a Random Undersampling
or EnSVM-RUS method is used to balance size of the majority class into minority class.
This research uses threefold cross-validation with feature selection method that is Fast
Correlation Based Filter (FCBF). Multiclass method used is SVM One Against One (OAO).
While the evaluation criteria of performance classification based on the value of accuracy,
F-score and G-mean and running time. This research performs simulation study with
various scenario level of ratio imbalance (IR) that is ratio 1, 5, and 8 to know the
performance of proposed method. While the application on real data using Microarray
DNA data with IR 4.22, 15.00 and 23.17 The results showed that the EnSVM-RUS-OAO
method with 2 clusters had higher performance than the EnSVM-OAO and EnSVM-OAO
methods. Increasing the ratio imbalance doesn’t affect the advantage of EnSVM-RUS-OAO
method when compared to EnSVM-OAO and EnSVM-OAO methods. While on the use of
kernel, RBF kernel and polynomials produces higher performance and shorter
computation time than linear kernels.
Keywords: Imbalanced Class, Multiclass SVM, Random Undersampling (RUS),
Ensemble Feature Subspace
x
(Halaman ini sengaja dikosongkan)
xi
KATA PENGANTAR
Syukur Alhamdulillah penulis panjatkan kehadirat Allah SWT yang maha
menguasai segala ilmu dan alam. Atas rahmat, ridho dan hidayah-Nya sehingga
pengerjaan serta penulisan Tesis dengan judul “Ensemble Support Vector Machine
dengan Random Undersampling Pada Klasifikasi Data DNA Microarray Untuk
Menangani Kasus Multiclass Imbalance” dapat terselesaikan dengan baik dan
lancar.
Penulisan Tesis ini adalah salah satu syarat yang harus dipenuhi dalam
memperoleh gelar Magister sesuai dengan kurikulum Departemen Statistika
FMKSD-ITS Surabaya. Dalam penyelesaian Tesis serta laporan ini penulis tidak
terlepas dari bantuan serta dukungan dari berbagai pihak. Oleh karena itu penulis
ingin mengucapkan terima kasih sebesar-besarnya kepada:
1. Dr. Suhartono, M.Sc. selaku Ketua Departemen Statistika ITS yang telah
banyak memberikan inspirasi kepada mahasiswa untuk senantiasa berkarya.
2. Santi Wulan Purnami, M.Si., Ph.D. dan Irhamah, M.Si., Ph.D. selaku dosen
pembimbing yang dengan sabar memberikan bimbingan, arahan, dan masukan
selama pengerjaan Tesis.
3. Dr. rer.pol. Dedy Dwi P, M.Si. dan Dr. Purhadi, M.Sc. selaku dosen penguji
yang telah memberikan banyak tambahan ilmu selama proses perbaikan laporan
Tesis.
4. Dr. Ir. Setiawan, MS. selaku dosen wali yang telah membimbing dan
mengarahkan semenjak awal perkuliahan.
5. Dr. rer.pol. Heri Kuswanto, M.Si. selaku Ketua Program Studi Pascasarjana
Statistika ITS yang memberikan motivasi dalam pendidikan.
6. Seluruh dosen pengajar serta karyawan di departemen Statistika ITS, yang telah
memberikan bantuan dan ilmunya sebagai bekal dalam pengerjaan Tesis.
7. Suamiku Abdul Ghofur, Anakku Shabira Sekar Arum, Bapak A. Syairozi, Ibu
Masfufah, Bapak mertua dan ibu mertuaku serta keluarga besar penulis atas
segala doa, dukungan materi, motivasi, kepercayaan dan rasa kasih sayang.
xii
8. Teman-teman S2 Statistika ITS angkatan 2016, khususnya teman seperjuangan
Atik, Zahro, Rana, Indah, Niswa, Febri, Ghozali, Rizky, dkk yang telah
membantu dalam penyelesaian laporan. Teman-teman BPS angkatan 2016 yang
senantiasa semangat belajar dan selalu menginspirasi.
9. Pihak-pihak lain yang telah mendukung dan membantu dalam penyusunan
Tesis ini yang tidak mungkin penulis sebutkan satu per satu. Terima kasih.
Penulis menyadari bahwa penyusunan Tesis ini masih jauh dari sempurna,
maka kritik dan saran yang membangun akan senantiasa penulis harapkan demi
kesempurnaan di masa mendatang. Semoga laporan ini dapat memberikan sum-
bangan yang bermanfaat bagi semua pihak.
Surabaya, Juli 2018
Penulis
xiii
DAFTAR ISI
Halaman
JUDUL ..............................................................................................................i
ABSTRAK .........................................................................................................vii
ABSTRACT ........................................................................................................ix
KATA PENGANTAR .......................................................................................xi
DAFTAR ISI ......................................................................................................xiii
DAFTAR TABEL .............................................................................................xv
DAFTAR GAMBAR .........................................................................................xvii
DAFTAR LAMPIRAN .....................................................................................xix
BAB 1 PENDAHULUAN .................................................................................1
1.1 Latar Belakang ..................................................................................1
1.2 Rumusan Masalah .............................................................................5
1.3 Tujuan Penelitian ...............................................................................6
1.4 Manfaat Penelitian .............................................................................6
1.5 Batasan Masalah ...............................................................................6
BAB 2 TINJAUAN PUSTAKA ........................................................................9
2.1 Fast Correlation Based Filter (FCBF) ...........................................9
2.2 Random Undersampling (RUS) ......................................................12
2.3 Support Vector Machine (SVM) .....................................................13
2.3.1 SVM Linierly Separable ..............................................................14
2.3.2 SVM Pada Linier Non Separable ................................................18
2.3.3 SVM Pada Nonlinier Separable...................................................20
2.4 Sequential Minimal Optimization (SMO) .......................................22
2.5 Klasifikasi Multiclass One Against One (OAO) .............................24
2.6 Ensemble Support Vector Machine (EnSVM) .................................26
2.7 Stratified K-Fold Cross Validation .................................................28
2.8 Kriteria Evaluasi Performansi Metode Klasifikasi ..........................29
2.9 Data Microarray ..............................................................................31
2.10 Penelitian Sebelumnya ..................................................................33
xiv
BAB 3 METODOLOGI PENELITIAN ......................................................... 35
3.1 Kajian Simulasi ................................................................................. 35
3.2 Aplikasi Data Microarray ................................................................. 41
3.2.1 Sumber Data ................................................................................ 41
3.2.2 Struktur Data ............................................................................... 42
3.2.3 Langkah Analisis ......................................................................... 44
3.3 Diagram Alir Penelitian .................................................................... 46
BAB 4 HASIL DAN PEMBAHASAN ............................................................ 47
4.1 Algoritma EnSVM-RUS-OAO .......................................................... 47
4.2 Penerapan Metode EnSVM-RUS-OAO ............................................. 54
4.2.1 Simulasi Skenario 1 (33:33:34) ............................................... 55
4.2.2 Simulasi Skenario 2 (10:40:50) ............................................... 57
4.2.3 Simulasi Skenario 3 (10:10:80) ............................................... 58
4.2.4 Perbandingan Semua Skenario Data simulasi ......................... 60
4.3 Penerapan Pada Data Microarray .................................................. 61
4.3.1 Data Leukimia (IR 4,22) .......................................................... 61
4.3.2 Data Brain Tumor (IR 15,00) .................................................. 66
4.3.3 Data Lung Cancer (IR 23,17) .................................................. 71
4.3.4 Perbandingan Semua Skenario Data Riil ................................. 77
BAB 5 KESIMPULAN DAN SARAN ............................................................ 79
5.1 Kesimpulan ....................................................................................... 79
5.2 Saran ................................................................................................. 80
DAFTAR PUSTAKA ....................................................................................... 81
LAMPIRAN ...................................................................................................... 81
BIOGRAFI PENULIS ...................................................................................... 117
xv
DAFTAR TABEL
Halaman
Tabel 2.1 Data Ilustrasi Proses MDL ..............................................................10
Tabel 2.2 Ilustrasi One Against One (OAO) ....................................................25
Tabel 2.3 Confusion Matrix Multiclass ...........................................................29
Tabel 2.4 Daftar Penelitian Sebelumnya .........................................................33
Tabel 3.1 Ilustrasi Threefold Cross Validation Skenario 3 .............................38
Tabel 3.2 Informasi Dataset DNA Microarray ...............................................41
Tabel 3.3 Struktur Data Leukimia ...................................................................43
Tabel 3.4 Struktur Data Brain Tumor .............................................................43
Tabel 3.5 Struktur Data Lung Cancer .............................................................43
Tabel 3.6 Ilustrasi Proses Validasi ..................................................................44
Tabel 4.1 Performansi Klasifikasi Rasio 1 (Skenario 1) .................................56
Tabel 4.2 Performansi Klasifikasi Rasio 5 (Skenario 2) .................................58
Tabel 4.3 Performansi Klasifikasi Rasio 8 (Skenario 3) .................................60
Tabel 4.4 Fitur Seleksi FCBF dari Data Leukimia ..........................................64
Tabel 4.5 Performansi Klasifikasi Data Leukimia ...........................................66
Tabel 4.6 Waktu Klasifikasi Data Leukimia....................................................67
Tabel 4.7 Fitur Seleksi FCBF dari Data Brain Tumor ....................................69
Tabel 4.8 Performansi Klasifikasi Data Brain Tumor .....................................70
Tabel 4.9 Waktu Klasifikasi Data Brain Tumor ..............................................72
Tabel 4.10 Pemilihan Fitur dengan FCBF Pada Dataset Lung Cancer .............74
Tabel 4.11 Performansi Klasifikasi Data Lung Cancer.....................................75
Tabel 4.12 Waktu Klasifikasi Data Lung Cancer .............................................76
xvi
(Halaman ini sengaja dikosongkan)
xvii
DAFTAR GAMBAR
Halaman
Gambar 2.1 Flowchart Random Undersampling (RUS) ...............................13
Gambar 2.2 Klasifikasi SVM .......................................................................14
Gambar 2.3 Bidang Pemisah Terbaik dengan Margin (d)
Terbesar Linearly Separable .....................................................15
Gambar 2.4 Bidang Pemisah Terbaik dengan Margin (d)
Linier Non Separable ................................................................18
Gambar 2.5 Pemetaan ke dalam Feature Space Tiga
Dimensi dari Data Space Dua Dimensi .....................................20
Gambar 2.6 Batas Optimasi Nilai α dengan Algoritma SMO ......................23
Gambar 2.7 Ilustrasi Multiclass One Against One (OAO) ............................26
Gambar 2.8 Ilustrasi Ensembel Learning dengan Feature Subspace ...........27
Gambar 2.9 Ilustrasi Pembagian Data Training dan
Testing dengan k-fold = 5 .........................................................28
Gambar 2.10 Proses Umum Memperoleh Data Ekspresi
Gen DNA Microarray ...............................................................31
Gambar 3.1 Algoritma SVM-OAO ................................................................39
Gambar 3.2 Algoritma EnSVM .....................................................................40
Gambar 3.3 Algoritma Random Undersampling ..........................................40
Gambar 3.4 Tahapan EnSVM-RUS-OAO......................................................46
Gambar 4.1 Waktu Komputasi Rasio 1 (Skenario 1)....................................57
Gambar 4.2 Waktu Komputasi Rasio 5 (Skenario 2)....................................59
Gambar 4.3 Waktu Komputasi Rasio 8 (Skenario 3)....................................61
Gambar 4.4 Perbandingan Performansi Semua Skenario .............................62
Gambar 4.5 Prosentase Jenis Leukimia .........................................................63
Gambar 4.6 Persebaran Data dari Beberapa Fitur pada Data Leukimia........63
Gambar 4.7 Grid Search SVM Dataset Leukimia.........................................65
Gambar 4.8 Nilai Optimum Grid Search SVM Dataset Leukimia ...............65
Gambar 4.9 Dendogram dan Perbandingan Akurasi
Ukuran Subspace Leukimia .......................................................66
xviii
Gambar 4.10 Prosentase Jenis Brain Tumor .................................................. 68
Gambar 4.11 Persebaran Data dari Beberapa Fitur pada
Data Brain Tumor ..................................................................... 68
Gambar 4.12 Grid Search SVM Dataset Brain Tumor .................................. 69
Gambar 4.13 Nilai Optimum Grid Search SVM Dataset Brain Tumor ......... 70
Gambar 4.14 Dendogram dan Perbandingan Akurasi
Ukuran Subspace Brain Tumor ................................................ 71
Gambar 4.15 Prosentase Jenis Lung Cancer .................................................. 72
Gambar 4.16 Persebaran Fitur pada Data Lung Cancer ................................. 73
Gambar 4.17 Grid Search SVM Dataset Lung Cancer .................................. 74
Gambar 4.18 Optimasi Nilai Grid Search SVM Dataset Lung Cancer ......... 75
Gambar 4.19 Dendogram dan Perbandingan Akurasi
Ukuran Subspace Lung Cancer ................................................ 76
Gambar 4.20 Perbandingan Performansi Semua Data Riil ............................ 77
Gambar 4.21 Perbandingan Waktu Komputasi Semua Data Riil .................. 78
xix
DAFTAR LAMPIRAN
Halaman
Lampiran 1 Simulasi Rasio 1 dengan 1000 Feature Kernel Linear ...............85
Lampiran 2 Simulasi Rasio 1 dengan 5000 Feature Kernel Linear ...............85
Lampiran 3 Simulasi Rasio 1 dengan 1000 Feature Kernel Polynomial .......86
Lampiran 4 Simulasi Rasio 1 dengan 5000 Feature Kernel Polynomial .......86
Lampiran 5 Simulasi Rasio 1 dengan 1000 Feature Kernel RBF ..................86
Lampiran 6 Simulasi Rasio 1 dengan 5000 Feature Kernel RBF ..................87
Lampiran 7 Simulasi Rasio 5 dengan 1000 Feature Kernel Linear ...............87
Lampiran 8 Simulasi Rasio 5 dengan 5000 Feature Kernel Linear ...............87
Lampiran 9 Simulasi Rasio 5 dengan 1000 Feature Kernel Polynomial .......88
Lampiran 10 Simulasi Rasio 5 dengan 5000 Feature Kernel Polynomial .......88
Lampiran 11 Simulasi Rasio 5 dengan 1000 Feature Kernel RBF ..................88
Lampiran 12 Simulasi Rasio 5 dengan 5000 Feature Kernel RBF ..................89
Lampiran 13 Simulasi Rasio 5 dengan 1000 Feature Kernel Linear ...............89
Lampiran 14 Simulasi Rasio 5 dengan 5000 Feature Kernel Linear ...............89
Lampiran 15 Simulasi Rasio 8 dengan 1000 Feature Kernel Polynomial .......90
Lampiran 16 Simulasi Rasio 8 dengan 5000 Feature Kernel Polynomial .......90
Lampiran 17 Simulasi Rasio 8 dengan 1000 Feature Kernel RBF ..................90
Lampiran 18 Simulasi Rasio 8 dengan 5000 Feature Kernel RBF ..................91
Lampiran 19 Hasil Performansi Data Leukimia ................................................91
Lampiran 20 Hasil Performansi Data Brain Tumor ..........................................92
Lampiran 21 Hasil Performansi Data Lung Cancer ..........................................92
Lampiran 22 Hasil FCBF Leukimia ..................................................................93
Lampiran 23 Hasil FCBF Brain Tumor ............................................................94
Lampiran 24 Hasil FCBF Lung Cancer ............................................................95
Lampiran 25 Grid Search SVM-OAO Leukimia ...............................................96
Lampiran 26 Syntax Generate Data Simulasi ...................................................109
Lampiran 27 Syntax Grid Search SVM-OAO ...................................................110
xx
Lampiran 28 Syntax SVM-OAO ....................................................................... 111
Lampiran 29 Syntax EnSVM-OAO ................................................................... 112
Lampiran 30 Syntax EnSVM-RUS-OAO .......................................................... 114
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Teknologi Microarray memungkinkan suatu pengukuran dalam skala besar
dan paralel untuk mengekspresikan sekitar ribuan atau bahkan puluhan ribu gen.
Hal ini menjadi salah satu teknologi biologi molekuler paling sukses di era modern
dan banyak diterapkan untuk memprediksi fungsi gen, memberikan informasi untuk
penemuan obat, menyelidiki mekanisme peraturan gen, menemukan subtipe baru
dari tumor spesifik dan klasifikasi kanker (Puelma, 2012). Diantara teknologi
Microarray tersebut, klasifikasi kanker telah menjadi subyek penelitian ekstensif di
seluruh dunia yang sangat menjanjikan.
Beberapa penelitian tentang teknologi Microarray menyebutkan bahwa
metode Support Vector Machines (SVM) telah banyak diterapkan untuk klasifikasi
data DNA Microarray. Seeja dan Shweta (2011) mengklasifikasikan ekspresi gen
pada DNA Microarray menggunakan SVM dan didapatkan hasil bahwa SVM lebih
baik daripada Neural Network. SVM adalah salah satu teknik data mining yang
banyak diteliti dan menunjukkan keberhasilan dalam banyak aplikasi utamanya
dalam meningkatkan performansi klasifikasi (Purnami dan Andari, 2015).
Penelitian lain menggunakan SVM untuk klasifikasi kanker dengan data Microarray
(Chu, 2005). Namun, data Microarray diketahui memiliki beberapa fitur seperti
dimensi tinggi, sampel kecil, noise tinggi, redundansi tinggi dan distribusi kelas
yang tidak seimbang (imbalance) (Wang dan Simon, 2011).
Terdapat dua kondisi distribusi kelas yaitu kelas balance dan kelas
imbalance. Pada klasifikasi multiclass seringkali ditemui kondisi kelas imbalance.
Kelas imbalance terjadi ketika satu kelas melebihi jumlah kelas lainnya. Kelas data
banyak disebut kelas mayoritas atau kelas negatif sedangkan kelas data sedikit
disebut kelas minoritas atau kelas positif. Kondisi kelas imbalance menjadi masalah
dalam klasifikasi, karena classifier akan condong memprediksi ke kelas mayoritas
dibandingkan kelas minoritas (Japkowicz dan Stephen, 2002). Kondisi kelas
imbalance mengakibatkan klasifikasi dari kelas minoritas menjadi underestimate
2
serta mempengaruhi kriteria evaluasi performansi dari keseluruhan klasifikasi.
Dengan kata lain, pengembangan sistem diagnostik tumor klinis tidak ada artinya
jika kelas imbalance tidak dipertimbangkan, sehingga kasus kelas imbalance
penting untuk diperhatikan. (Pham dan Wells, 2006).
Studi terbaru telah membahas masalah klasifikasi kanker berdasarkan data
Microarray (Lin dan Chen, 2013). Namun, sebagian besar hanya
mempertimbangkan imbalance kelas biner dan mengabaikan masalah imbalance
untuk kasus multiclass. Penerapan algoritma sederhana kelas biner menghasilkan
kesalahan klasifikasi minimum tetapi memberikan hasil klasifikasi yang tidak
akurat. Sehingga, penanganan masalah imbalance multiclass lebih sulit daripada
menangani masalah imbalance kelas biner (Wang dan Yao, 2012). Secara umum,
metode SVM adalah pilihan terbaik untuk mengklasifikasikan data Microarray
kanker, karena kelebihannya seperti kemampuan generalisasi yang tinggi dan
kemampuan beradaptasi untuk data sampel berdimensi tinggi dan kecil (Abdi dan
Hosseini, 2012).
Menurut Vapnik (1998), metode SVM merupakan metode machine learning
yang berguna dan berhasil dalam melakukan prediksi baik dalam kasus klasifikasi
maupun regresi. Prinsip dasar SVM adalah linier classifier yang selanjutnya
dikembangkan untuk masalah non linier dengan memasukkan konsep kernel trick
pada ruang kerja berdimensi tinggi (Cortez dan Vapnik, 1995). Secara sederhana,
konsep SVM adalah usaha mencari hyperplane terbaik yang berfungsi sebagai
pemisah dua buah kelas pada input space (Rahman dan Purnami, 2012). Metode
SVM dikembangkan berdasarkan pada statistical learning teory dan Structural Risk
Minimization (SRM). Jika dibandingkan dengan metode machine learning lainnya,
SVM mengimplementasikan prinsip SRM dari pada Empirical Risk Minimization
(ERM) (Vapnik, 1995). Menurut teori Structural Risk Minimization (SRM), SVM
telah memperlihatkan performa sebagai metode yang bisa mengatasi masalah
overfitting dengan cara meminimalkan batas atas pada generalization error yang
menjadi alat yang kuat untuk kasus supervised learning (Guo, 2014).
Terdapat tiga pendekatan metode learning untuk mengatasi masalah kelas
imbalance. Pendekatan pertama yaitu menggunakan level data (Sampling-Based
Approach). Pendekatan kedua yaitu pada level algoritma. Pendekatan ketiga yaitu
3
dengan metode ensemble learning (Choi, 2010). Pendekatan sampling pada kelas
yang imbalance menyebabkan tingkat kelas imbalance semakin kecil dan
klasifikasi dapat dilakukan dengan tepat (Solberg, 1996). Sampling based approach
memodifikasi distribusi data training sehingga kedua kelas data (negatif maupun
positif) dipresentasikan dengan baik di dalam data training. Teknik resampling ini
meliputi oversampling dan undersampling.
Metode yang paling dasar untuk menanggulangi masalah kelas imbalance
adalah Random Oversampling (ROS) dan Random Undersampling (RUS). Metode
RUS dilakukan dengan menghapus instance dari kelas mayoritas sementara metode
ROS dilakukan dengan menduplikasi instance dari kelas minoritas. Kedua teknik
tersebut mampu menangani masalah kelas imbalance. Namun kedua metode
tersebut memiliki beberapa kelemahan. Metode ROS tidak efektif untuk
meningkatkan proses pengenalan pada kelas minoritas dan meningkatkan waktu
proses pembentukan classifier. Metode RUS berpotensi membuang instance dari
kelas mayoritas yang dianggap penting (He dan Ma 2013). Namun, penelitian
Lestarini (2012) menyebutkan bahwa metode RUS memiliki kemampuan untuk
meminimalkan dampak negatif dari hilangnya informasi sekaligus memaksimalkan
dampak positif dari data cleaning dalam proses undersampling. Selain itu, metode
RUS dapat meningkatkan performansi klasifikasi dengan cara mengekstraksi
informative sample yang penting untuk klasifikasi dan menghilangkan sejumlah
besar sampel yang redundant dan bersifat noise.
Metode RUS merupakan metode untuk menghitung selisih antara kelas
mayoritas dan minoritas kemudian dilakukan perulangan selisih hasil perhitungan,
selama perulangan data kelas mayoritas dihapus secara acak, sehingga jumlah kelas
mayoritas sama dengan minoritas (Saifudin dan Wahono, 2015). Proses ini
diharapkan mampu memindahkan peluang kesalahan klasifikasi dari kelas
minoritas ke dalam kelas mayoritas sehingga dapat meningkatkan akurasi pada
kelas minoritas (Chen, Lin dan Scholkopf, 2005). Sehingga pada penelitian ini,
metode RUS sesuai untuk mengatasi masalah kelas imbalance dengan beberapa
kelebihannya.
Permasalahan selanjutnya yaitu tentang kasus multiclass. SVM pada awalnya
dirancang untuk masalah kelas biner. Oleh karena itu, untuk menerapkan SVM ke
4
masalah multiclass, hal ini lurus dikonfigurasi ulang dengan menggunakan strategi
pengkodean yang merupakan strategi kedua untuk mengatasi masalah kelas
imbalance (Lorena dan Carvalho, 2008). Penelitian sebelumnya telah
mempresentasikan beberapa strategi pengkodean yang terkenal untuk kasus
multiclass antara lain One Against One (OAO), One Against All (OAA) dan
Decision Directed Asyclic Graph (DDAG). Strategi ini juga telah digunakan untuk
mengklasifikasikan data Microarray kanker multiclass (Ramaswamy, 2001).
Metode OAA merupakan metode yang dilakukan dengan cara membangun k buah
model SVM biner (k adalah jumlah kelas). Sedangkan metode OAO membangun
k(k-1)/2 buah model SVM biner. Setiap model diklasifikasikan ke-i data training
dengan menggunakan keseluruhan data (Sembiring, 2007).
Berikut ini merupakan beberapa penelitian yang menggunakan strategi
pengkodean. Penelitian Trapsilasiwi (2013) menyatakan bahwa klasifikasi
multiclass dengan pendekatan OAO lebih baik dibandingkan dengan menggunakan
pendekatan OAA. Menurut Statnikov (2005) menilai secara sistematis strategi ini
dengan melakukan eksperimen dan menemukan bahwa pendekatan OAO sering
menghasilkan akurasi klasifikasi yang lebih baik. Zheng (2011) menerapkan
metode LS-SVM multiclass untuk diagnosis power transformer, hasilnya
menyatakan bahwa metode LS-SVM menggunakan pendekatan OAO lebih baik
dibandingkan dengan pendekatan multiclass lainnya. Sehingga penelitian ini,
menggunakan metode multiclass OAO untuk mengatasi klasifikasi multiclass.
Pendekatan ketiga yaitu dengan metode ensemble learning. Dalam penelitian
ini, diusulkan sebuah metode untuk mengatasi kasus dimensi tinggi pada suatu data
Microarray yaitu dengan menggunakan ensemble learning. Metode ensemble
learning merupakan suatu metode yang dapat diterapkan ketika suatu classifier
menggunakan lebih dari satu classifier untuk membuat model klasifikasi. Setiap
fitur yang digunakan berisi informasi yang berbeda, sehingga fitur tersebut dilatih
dengan classifier berbeda. Ensemble learning telah digunakan untuk meningkatkan
keakuratan seleksi fitur gen dan klasifikasi kanker (Chen dan Zhao, 2008). Pada
penelitian ini, diusulkan metode Ensemble Fitur Subspace (FSS). Metode FSS akan
mengelompokkan fitur dengan metode cluster. Kluster yang digunakan yaitu
hierarchical clustering yang menggunakan euclidiance distance sebagai ukuran
5
jarak untuk menghapus redundansi dan rasio noise. Kemudian setiap kelompok fitur
akan dilakukan proses klasifikasi.
Secara umum, alur metode yang disulkan yaitu Ensemble SVM RUS adalah
sebagai berikut. Tahapan pertama yaitu membagi fitur kedalam beberapa cluster
atau yang disebut Fitur Subspace (FSS) untuk menghasilkan sejumlah subset data
training yang akurat dan beragam. Kemudian dilakukan proses untuk
menyeimbangkan jumlah kelas mayor kedalam kelas minor atau Random
Undersampling (RUS) kedalam setiap subset data training untuk mengatasi kelas
imbalance (Anand dan G. Pugalenthi, 2010). Hasil penelitian sebelumnya
menunjukkan bahwa metode yang diusulkan lebih unggul dari pada pendekatan
klasifikasi klasik karena menghasilkan hasil klasifikasi yang lebih seimbang dan
kuat (Yu dan Hong, 2013). Selanjutnya dengan strategi pengkodean yang lebih
unggul untuk kasus multiclass yaitu One Against One (OAO). Strategi ini juga telah
digunakan untuk mengklasifikasikan data Microarray kanker multiclass dengan
performansi yang lebih baik dari pada OAA (Ramaswamy, 2001). Sehingga peneliti
mengusulkan “Ensemble Support Vector Machine dengan Random Undersampling
Pada Klasifikasi Data DNA Microarray Untuk Menangani Kasus Multiclass
Imbalance”.
1.2 Rumusan Masalah
Data DNA Microarray memiliki beberapa karakteristik seperti dimensi
tinggi, sampel kecil, noise tinggi, redundansi tinggi dan distribusi kelas yang tidak
seimbang (imbalance). Kondisi kelas imbalance menjadi masalah dalam
klasifikasi, karena classifier akan condong memprediksi ke kelas mayoritas
dibandingkan kelas minoritas. Berdasarkan uraian latar belakang diatas,
permasalahan yang akan dibahas dalam penelitian ini yaitu bagaimana kajian teori
dan algoritma metode EnSVM-RUS-OAO serta performansi metode EnSVM-RUS-
OAO jika dibandingkan dengan metode EnSVM-OAO dan SVM-OAO untuk
menangani kasus multiclass imbalance. Penelitian ini menggunakan studi simulasi
dan penerapan data riil DNA Microarray dengan beberapa tingkatan rasio kelas
imbalance yang berbeda.
6
1.3 Tujuan Penelitian
Berdasarkan permasalahan yang telah dipaparkan diatas, tujuan dari
penelitian ini adalah sebagai berikut.
1. Mengkaji algoritma metode EnSVM-RUS-OAO.
2. Mendapatkan perbandingan hasil performansi metode EnSVM-RUS-OAO
jika dibandingkan dengan metode EnSVM-OAO dan metode SVM-OAO pada
data simulasi dan pada data riil yaitu DNA Microarray multiclass imbalance
dengan berbagai rasio kelas imbalance.
1.4 Manfaat Penelitian
Adapun manfaat yang ingin diperoleh dari adanya penelitian ini adalah
sebagai berikut.
1. Memberikan informasi mengenai hasil penerapan Ensemble Fitur Subspace
dengan Random Undersampling yang selanjutnya disebut EnSVM-RUS
dalam meningkatkan performansi classifier SVM. Utamanya untuk klasifikasi
data Microarray multiclass imbalance baik pada data simulasi maupun saat
menggunakan data riil.
2. Menambah keilmuan statistika dibidang klasifikasi data mining,
pengembangan metode klasifikasi dan machine learning khususnya untuk
kasus multiclass imbalance.
1.5 Batasan Masalah
Batasan masalah diperlukan dalam suatu penelitian agar pembahasan tidak
melebar dan sesuai dengan tujuan serta alur penelitian. Batasan masalah yang
digunakan dalam penelitian ini adalah sebagai berikut.
1. Studi kasus yang digunakan pada penelitian ini adalah menggunakan data
simulasi dan data riil DNA Microarray dengan permasalahan klasifikasi yaitu
multiclass imbalance.
2. Kajian simulasi hanya diaplikasikan untuk kasus multiclass dengan jumlah
kelas sebanyak 3 kelas, dimana antar kelas tidak ada perbedaan yang
signifikan dalam mean. Hubungan antara ekspresi gen (fitur) dengan label
7
dibangkitkan berdasarkan karakteristik varians dan kovarians antar kelas
label.
3. Pembagian data training dan data testing menggunakan threefold cross
validation (3 CV) secara stratifikasi.
4. Kriteria evaluasi performansi dengan menggunakan nilai Akurasi, F-score,
G-mean, dan running time.
8
(Halaman ini sengaja dikosongkan)
9
BAB 2
TINJAUAN PUSTAKA
Bab ini akan membahas beberapa metode yang digunakan dalam penelitian
yaitu seleksi fitur dengan Fast Correlation Based Filter (FCBF), Stratified k-fold
Cross Validation, Random Undersampling (RUS). Metode klasifikasi dengan
Support Vector Machine (SVM) One Against One (OAO). Metode Ensemble Fitur
Subspace Support Vector Machine (EnSVM). Serta kriteria evaluasi performansi
dengan nilai Akurasi, F-score, G-mean dan tinjauan tentang data DNA Microarray.
2.1 Fast Correlation Based Filter (FCBF)
Seleksi fitur FCBF merupakan salah satu algoritma fitur selection yang
bersifat multivariate dan mengukur kelas fitur dan korelasi antara fitur-fitur
(Alonso, Noelia dan Veronica, 2015). Secara umum, fitur dikatakan bagus jika fitur
tersebut relevan dengan konsep kelas namun tidak redundan pada fitur yang lain.
Jika diterapkan korelasi antara dua fitur sebagai ukuran kebaikan, maka sebuah fitur
dikatakan bagus untuk klasifikasi jika berkorelasi sangat tinggi dengan kelas namun
tidak berkorelasi dengan fitur lainnya. Namun pengukuran dengan korelasi tidak
mampu menangkap korelasi yang tidak linear, selain itu korelasi mengharuskan
semua fitur dan kelas mengandung nilai numerik. Untuk mengatasi kekurangan ini,
Yu dan Liu (2009) menerapkan pendekatan lain yaitu memilih ukuran korelasi
berdasarkan konsep information theoretical entropy. Dalam mengukur korelasi non
linear, maka digunakan nilai entropy dari fitur ),...,,( 21 nxxxx dan ),...,,( 21 nyyyy
dapat didefinisikan pada Persamaan (2.1) sebagai berikut.
n
i
ii xPxPH1
2 ))((log)()(x (2.1)
n
j
n
i
jijij yxPyxPyPH1 1
2 ))|((log)|()()|( yx (2.2)
Dimana H(x) merupakan nilai entropy dari fitur x dan H(x | y) merupakan
nilai entropy dari fitur x setelah diketahui nilai fitur y diketahui. Nilai P(xi) adalah
prior probabilities dari semua nilai x dan P(xi |yi) adalah posterior probabilities dari
10
x jika y diketahui. Dari entropy tersebut selanjutnya yaitu mendapatkan nilai
Information Gain sebagai berikut.
)|()()|( yxxyx HHIG (2.3)
Berdasarkan ukuran diatas, maka fitur y berkorelasi dengan fitur x dari pada
fitur z jika nilai IG(x|y) > IG(z|y). Selanjutnya, untuk mengukur korelasi antar fitur,
maka digunakan nilai symmetrical uncertainty. Nilai symmetrical uncertainty
berkisar pada rentang nilai 0 sampai dengan 1. Nilai Symmetrical uncertainty
dirumuskan sebagai berikut.
)()(
)|(2)|(
yx
yxyx
HH
IGSU
(2.4)
Setelah mendapatkan nilai Information Gain, maka urutan fitur dari yang
memiliki korelasi terkuat hingga terlemah bisa didapatkan pula. Batas memilih fitur
mana saja yang akan dijadikan sebagai fitur penting u adalah dari nilai threshold
yang ditetapkan. (Yu dan Liu, 2003).
Berikut ini merupakan proses menurunkan skala fitur melalui proses MDL
(Minimum Description Length). Proses MDL yaitu dengan menurunkan fitur
berskala kontinyu menjadi biner berdasarkan nilai cut-point. Nilai cut-point
didapatkan setelah mengurutkan data dari fitur X untuk setiap kelas kemudian
dihitung nilai rata-ratanya sebagai cut-point. Selanjutnya akan diberikan sebuah
ilustrasi proses MDL pada data jam belajar dan mendapatkan nilai A saat tes dengan
data telah di urutkan sebagai berikut.
Tabel 2.1 Data Ilustrasi Proses MDL
Jam Belajar Mendapat Nilai A saat test
4 Tidak
5 Ya
8 Tidak
12 Ya
15 Ya
Kelas label dari data diatas yaitu mendapat nilai A saat tes. Proses pertama
dalam seleksi fitur FCBF dengan MDL yaitu mencari fitur-fitur yang relevan
11
terhadap kelas berdasarkan nilai SU setiap fitur terhadap kelas. Pada tahap pertama
dilakukan perhitungan entropy untuk H(nilai A) sebagai berikut.
971,05
2log
5
2
5
3log
5
3)nilai( 22
AH
Selanjutnya yaitu melakukan iterasi untuk mendapatkan nilai entropy dihitung dari
nilai H(nilai A, jam belajar). Nilai split merupakan nilai rata-rata dari data ke-i
dengan data ke-i+1.Perhitungan nilai entropy untuk nilai A dan jam belajar sebagai
berikut. )|( belajarjamAnilaiH adalah sebagai berikut.
Split 1 : 4,5
811,04
1log
4
1
4
3log
4
3)5,4(
00log01log1
1)5,4(
22
22
AnilaiH
AnilaiH
6488,0)811,0(5
4)0(
5
1)|( belajarjamAnilaiH
sehingga didapatkan nilai Information Gain antara jam belajar dan mendapat nilai
A saat tes dengan split 4,5 diperoleh nilai IG sebesar 0,322.
322,06488,0971,0)|( belajarjamAnilaiIG
Split 2 : 6,5
917,03
1log
3
1
3
2log
3
2)5,6(
12
1log
2
1
2
1log
2
1)5,6(
22
22
AnilaiH
AnilaiH
944,0)917,0(3
2)1(
3
1)|( belajarjamAnilaiH
sehingga didapatkan nilai Information Gain antara jam belajar dan mendapat nilai
A saat tes dengan split 6,5 diperoleh nilai IG sebesar 0,027.
027,0944,0971,0)|( belajarjamAnilaiIG
Split 3 : 10
00log01log1
1)10(
917,03
2log
3
2
3
1log
3
1)10(
22
22
AnilaiH
AnilaiH
12
55,0)917,0(5
3)0(
5
2)|( belajarjamAnilaiH
sehingga didapatkan nilai Information Gain antara jam belajar dan mendapat nilai
A saat tes dengan split 10 diperoleh nilai IG sebesar 0,421.
421,055,0971,0)|( belajarjamAnilaiIG
Split 4 : 13,5
00log01log1
1)5,13(
11log4
2)1(log
4
2)5,13(
22
22
AnilaiH
AnilaiH
8,0)1(5
4)0(
5
1)|( belajarjamAnilaiH
sehingga didapatkan nilai Information Gain antara jam belajar dan mendapat nilai
A saat tes dengan split 13,5 diperoleh nilai IG sebesar 0,171.
171,08,0971,0)|( belajarjamAnilaiIG
Pemilihan cut-point berdasarkan nilai yang Information Gain yang mendekati
threshold = 0,5 yang artinya melakukan split data sebesar 50%. Sehingga split data
ke-3 dengan nilai split = 10 merupakan cut-point yang terpilih.
2.2 Random Undersampling (RUS)
Metode RUS merupakan metode untuk menghitung selisih antara banyaknya
kelas mayoritas dan banyaknya kelas minoritas kemudian dilakukan perulangan
selisih hasil perhitungan. Selama perulangan data kelas mayoritas dihapus secara
acak, sehingga banyaknya kelas mayoritas sama dengan banyaknya kelas minoritas
(Saifudin dan Wahono, 2015). Langkah pertama pada metode RUS adalah
pemilihan dataset kemudian dihitung selisih antara kelas mayoritas dan minoritas,
jika masih terdapat selisih antara jumlah kelas maka dataset kelas mayoritas akan
dihapus secara acak sampai banyaknya kelas mayoritas dan banyaknya kelas
minoritas. RUS dapat lebih efektif dan cepat dalam proses pelatihan prediksi kelas
imbalance sebuah kasus Microarray. Berikut ini merupakan flowchat metode RUS
yang ditampilkan pada Gambar 2.1 sebagai berikut.
13
Gambar 2.1 Flowchart Random Undersampling (RUS)
2.3 Support Vector Machine (SVM)
Metode SVM pertama kali diperkenalkan oleh Vapnik pada tahun 1995 dan
mempunyai performa yang baik dalam melakukan prediksi baik klasifikasi maupun
regresi. SVM didasarkan pada teori pembelajaran statistik atau Statistical Learning
Theory (SLT). Secara konseptual, SVM adalah linier machine yang dilengkapi
dengan fitur khusus, dan berdasarkan metode minimalisasi risiko struktural atau
structural risk minimization (Gorunescu, 2011).
Suatu data tidak dapat dipisahkan dengan garis lurus, namun SVM memiliki
kinerja baik pada masalah non linear, data sparse (jarang) dan berdimensi tinggi.
Keuntungan dari metode ini adalah bahwa pemodelan hanya berkaitan dengan
vektor pendukung dan bukan keseluruhan dataset training, sehingga ukuran dari
rangkaian training biasanya tidak menjadi masalah. Selain itu, konsekuensi dari
menggunakan vektor pendukung untuk membangun model, maka model ini kurang
terpengaruh oleh outlier.
Secara umum, cara kerja SVM adalah mencari hyperplane dengan margin
optimum. Hyperplane merupakan garis batas pemisah antar kelas, sedangkan
Input : data training
selisih = banyaknya kelas
mayoritas – banyaknya kelas
minoritas
selisih=0
Ya
Gabungkan sisa kelas mayoritas dengan kelas
minoritas data training yang seimbang
Selesai
Hapus data kelas mayoritas
secara acak
Tidak
14
margin (d) adalah jarak antara hyperplane dengan data terdekat pada masing-
masing kelas. Antara kelas satu dengan kelas lainnya dipisahkan oleh bidang
pembatas pada masing-masing kelas, dengan data yang berada pada bidang
pembatas merupakan vektor-vektor yang terdekat dengan hyperplane terbaik
disebut dengan Support Vector. Bidang pembatas terbaik tidak hanya dapat
memisahkan data tetapi juga memiliki margin paling besar (Burges, 1998). Adapun
SVM untuk klasifikasi dapat dibedakan menjadi klasifikasi linier, baik linearly
separable maupun linearly non-separable serta klasifikasi non linear. Gambar 2.2
berikut menunjukkan ilustrasi untuk pembagian SVM klasifikasi.
Gambar 2.2 Klasifikasi SVM: (a) Klasifikasi Linearly Separable; (b) Linearly Non-separable;
(c) Nonlinear (Haerdle, Prastyo dan Hafner, 2014)
2.3.1 SVM Linearly Separable
Haerdle, Prastyo dan Hafner (2014) menyatakan bahwa setiap observasi
terdiri dari sepasang p predictor dimana P
ipiii xxx Rx ),...,,( 21 dengan
ni ,...,2,1 dan dihubungkan dengan kelas label }1,1{iy , sehingga diperoleh
himpunan berikut.
)},(,),,(),,{( 2211 nnn yyy xxxD
Jika ix adalah anggota kelas (+1) maka ix diberi label (target) 1iy dan
jika tidak maka diberi label (target) 1iy sehingga data yang diberikan berupa
pasangan ),(,),,(),,( 2211 nn yyy xxx merupakan himpunan data training dari dua
kelas yang akan diklasifikasi dengan SVM (Gunn, 1998).
Sebuah konsep utama untuk mendefinisikan sebuah pemisah linier adalah dot
product, antara dua vektor yang ditetapkan sebagai
n
i
ii
T
1
wxwx . Pada Gambar
(a) (b) (c)
15
2.2, keluarga ℱ dari fungsi klasifikasi yang terdapat pada ruang data diberikan
sebagai:
ℱ = }b,,b{ RRwwx pT (2.5)
Dimana w diketahui sebagai vektor pembobot dan b disebut dengan bias.
Diberikan bidang pemisah (separating hyperplane):
0)( bxf Twx (2.6)
yang membagi ruang (space) menjadi dua daerah seperti yang terdapat pada
Gambar 2.2. Seumpulan titik 𝑥 pada 0)( bxf Twx adalah semua titik yang
tegak lurus terhadap w dan melalui konstanta b. Bentuk pada f(x) adalah sebuah
garis dalam dua dimensi, sebuah bidang pada tiga dimensi, dan secara umum berupa
hyperplane pada dimensi yang lebih tinggi. Sebuah hyperplane dikatakan linier jika
merupakan fungsi linier dalam input ix sehingga disebut linear classifier. Fungsi
pemisah untuk kedua kelas tersebut adalah sebagai berikut:
1bT wx untuk 1iy
1bT wx untuk 1iy (2.7)
Dimana w adalah vektor bobot (weight vector) yang berukuran ( 1p ), b
adalah posisi bidang relatif terhadap pusat koordinat atau lebih dikenal dengan bias
yang bernilai skalar.
Gambar 2.3 Bidang Pemisah Terbaik dengan Margin (d) Terbesar Liniarly Separable
(Haerdle, Prastyo dan Hafner, 2014)
16
Gambar 2.3 menunjukkanw
badalah jarak bidang pemisah yang tegak lurus
dari titik pusat koordinat dan w adalah jarak Euclidean (norm Euclidean) dari w.
Panjang vector w adalah𝑛𝑜𝑟𝑚 2
p
2
1
2
1
T www www . Bidang batas
pertama membatasi kelas (+1) sedangkan bidang pembatas kedua membatasi
kelas(-1). Bidang pembatas pertama 1T
i bwx mempunyai bobot w dan jarak tegak
lurus dari titik asal sebesarw
b1dan bidang pembatas kedua 1T
i bwx mempunyai
bobot dan jarak tegak lurus dari titik asal sebesarw
b1. Jarak antara margin dan
bidang pemisah (separating hyperplane) adalah 1
d d w
. Nilai maksimum
margin atau nilai margin (jarak) antara bidang pembatas adalah
ww
2)1(1
bb (2.8)
Mengoptimalkan hyperplane yaitu dengan memaksimalkan Persamaan (2.6)
atau sama dengan meminimumkan2
2
1w . Dengan menggabungkan kedua kendala
pada Persamaan (2.7) maka dapat dipresentasikan dalam pertidaksamaan sebagai
berikut:
niby T
i i ,,2,1,01)( wx (2.9)
Selanjutnya, diperoleh formulasi permasalahan optimasi SVM untuk
klasifikasi linier dalam primal space adalah
2
2
1min w (2.10)
dengan fungsi kendala niy Tii ,,2,1,1)b( wx
Pada formulasi di atas, ingin meminimalkan fungsi tujuan 2
2
1w atau sama
dengan memaksimalkan 2
w atau w . Persoalan optimasi pada Persamaan (2.10)
17
lebih mudah diselesaikan jika diubah ke dalam formula lagrange dengan fungsi
tujuan dan kendala dirumuskan sebagai berikut.
1)b(2
1),b,(L
1
2
wxwαwTii
n
i
ipri y (2.11)
dengan kendala 0i (nilai dari koefisien lagrange). Penaksir w dan b diperoleh
dengan meminimumkan priL terhadap w dan b dan disama dengankan nol yaitu
0),,(L
w
αw bpri dan 0
b
),,(L
αw bpri, sehingga diperoleh Persamaan (2.12)
sebagai berikut.
n
i
iii y
1
xw dan
n
i
ii y
1
0 (2.12)
Vektor w seringkali bernilai tak terhingga, tetapi nilai αi terhingga, maka
formula lagrange priL (primal problem) diubah ke dalam DL (dual problem).
Dengan mensubstitusikan Persamaan (2.12) ke Persamaan (2.11) diperoleh DL
yang ditunjukkan pada Persamaan (2.13).
jTiji
n
i
n
i
n
j
jiiD xxα yy2
1)(L
1 1 1
(2.13)
Persoalan pencarian bidang pemisah terbaik dapat dirumuskan pada
Persamaan (2.14) sebagai berikut.
j
T
iji
n
i
n
i
n
j
jiiD xxαα
yy2
1max)(Lmax
1 1 1
(2.14)
Nilai αi yang diperoleh nantinya akan digunakan untuk mencari nilai w.
Penyelesaian masalah primal dan dual pada Persamaan (2.11) dan (2.13)
memberikan solusi yang sama ketika masalah optimasi adalah convex. Setelah
menyelesaikan dual problem, maka suatu pengamatan baru (xnew) dapat
diklasifikasikan menggunakan aturan klasifikasi sebagai berikut:
ˆ ˆˆ( ) ,T
new newf sign b x x w (2.15)
18
dimana
n
i
iii y
1
ˆˆ xw dan
svn
1
newsv
ˆ1
n
1ˆ
i
T
iyb wx dengan xi adalah support
vector, (xnew) adalah data yang diklasifikasikan, αi adalah lagrange multiplier dan
b adalah bias dan svn adalah jumlah support vector.
2.3.2 SVM Linearly Non-separable
Pada kasus SVM linearly non separable seperti yang diilustrasikan pada
Gambar 2.3 yaitu mengklasifikasikan data linier yang tidak dapat dipisahkan, maka
kendala pada Persamaan (2.7) lurus diubah secara linier dengan penambahan
variabel slack iξ yang menunjukkan pinalti terhadap ketelitian pemisahan yang
memungkinkan suatu titik berada di dalam margin error 1ξ0 i atau 1ξ
dinamakan misclassified (Haerdle, Prastyo dan Hafner, 2014). Selanjutnya ix
diklasifikasikan menjadi:
i
T
i 1 ξb wx untuk 1iy
)1( i
T
i ξb wx untuk 1iy (2.16)
Gambar 2.4 Bidang Pemisah Terbaik dengan Margin (d) Terbesar Liniarly Non-Separable
(Haerdle, Prastyo dan Hafner, 2014)
Gambar 2.4 menunjukkan bidang pemisah terbaik dengan margin (d) terbesar
pada linier non-separable. Formula pencarian bidang pemisah terbaik atau fungsi
tujuan untuk kasus linearly non-separable berubah menjadi:
n
i
iC
1
2
2
1min w
ξw, (2.17)
19
Persamaan (2.17) dapat digabungkan ke dalam dua fungsi kendala dalam
bentuk Persamaan (2.18) sebagai berikut:
i
T
ii 1)( ξby wx (2.18)
dengan 0, 0,i C dimana C adalah parameter yang menentukan besar biaya akibat
kesalahan klasifikasi (misclassification) dari data training selama proses
pembelajaran dan nilainya ditentukan peneliti. Fungsi lagrange untuk primal
problem adalah
n
i
n
i
iii
T
ii
n
i
ipri byCbL1 11
21)(
2
1,, wxwξw (2.19)
Dimana αi ≥ 0 dan µi ≥ 0 adalah Lagrange Multiplier. Kondisi first-order adalah:
n
i
iii
n
i
iii
priyy
bL
11
0),,(
xwxww
ξw (2.20)
n
i
ii
n
i
ii
priyy
b
bL
11
00),,(
ξw
(2.21)
iiii
i
priCC
bL
0
),,( ξw (2.22)
dengan kendala sebagai berikut :
0
01)(
0
0
0
ii
i
T
ii
i
i
i
by
wx
(2.23)
Masalah primal ditransformasi ke dalam masalah dual dengan
mensubtitusikan Persamaan (2.20), (2.21), (2.22) ke fungsi Langrangian primal
pada Persamaan (2.19) sebagai berikut.
n
i
ij
n
j
jj
T
i
n
i
iij
n
i
n
j
T
ijijiD CyyyyL1111 12
1)( xxxxα
n
i
ii
n
i
ii
n
i
i
111
20
n
i
iiij
n
i
n
j
T
ijiji
n
i
i Cyya11 11 2
1 xx (2.24)
Karena komponen terakhir pada Persamaan (2.24) sama dengan nol, maka :
j
n
i
n
j
T
ijiji
n
i
iD yyL xxα
1 11 2
1)( (2.25)
yang mana menjadi masalah dual yang sama dengan pada kasus linearly separable
hanya saja fungsi kendalanya berbeda. Fungsi kendala pada masalah dual yaitu.
n
i
iii yC1
0,0 (2.26)
Permasalahan dual diatas kemudian dapat diselesaikan secara numerik
menggunakan quadratic programming untuk mencari nilai i . Pengamatan xi
untuk 0i yaitu suatu titik (support vector) yang berada di atas atau di dalam
margin ketika soft margin digunakan (Scholkopf dan Smola, 2002).
2.3.3 SVM Non-linier
Pada kenyataan atau kasus data real, tidak semua data bersifat linier sehingga
untuk mencari bidang pemisah secara linier sulit dilakukan. Menurut Haerdle,
Prastyo dan Hafner (2014) untuk mengklasifikasikan data yang tidak linear dapat
diselesaikan menggunakan SVM non-linear. Seperti pada Gambar 2.5 (kanan)
dalam kasus dimana sebuah pemisah linier tidak sesuai (tidak bisa diterapkan).
SVM bisa mentransformasikan vektor input x, ke sebuah ruang fitur berdimensi
tinggi. Sebuah transformasi non linear, dibutuhkan untuk memetakan data dari
ruang fitur asalnya ke ruang baru berdimensi yang lebih tinggi.
Gambar 2.5 Pemetaan ke dalam Fitur Space Tiga Dimensi (b) dari Data Space Dua Dimensi (a)
yaitu 32 RR (Haerdle, Prastyo dan Hafner, 2014)
21
Klasifikasi non linier pada Gambar (2.5), adalah hasil suatu pemetaan data
dengan struktur non linear melalui suatu fungsi HR p: , dimana H
merupakan suatu ruang berdimensi tinggi. Perhatikan bahwa semua vector training
x yang terdapat pada Persamaan (2.24) sebagai scalar product dari bentuk j
T
i xx .
Pada SVM non linear, scalar product tersebut ditransformasikan ke bentuk
)()( j
T
i xx . Proses transformasi tersebut disebut sebagai “Kernel Trick”
(Scholkopf dan Smola, 2002). Proyeksi HR p: , memastikan bahwa scalar
product )()( j
T
i xx bisa di sajikan oleh fungsi kernel.
)()(),( j
T
ijik xxxx (2.27)
Jika suatu fungsi kernel k pada Persamaan (2.27), dapat digunakan tanpa perlu
mengetahui fungsi transformasi secara eksplisit. Diberikan suatu kernel k dan
suatu data set ),...,,( 21 nxxx , maka matriks ijjikK xx , yang berukuran n x n
disebut sebagai matriks kernel dari k untuk suatu data ),...,,( 21 nxxx . Untuk
menghasilkan fungsi klasifikasi non linear dalam data space, sebuah bentuk yang
lebih umum dihasilkan dengan menerapkan Kernel trick ke Persamaan (2.28)
sebagai berikut :
n
i
n
i
n
j
jijijiiD kyyL1 1 1
,2
1maxmax xx
αα (2.28)
dengan fungsi kendala.
n
i
ii
i
y
niC
1
0
,....,1,0
(2.29)
Fungsi Kernel yang biasa digunakan yaitu:
1. Kernel Linier
j
T
ijik xxxx ),( (2.30)
2. Kernel Polynomial
0,)(),( d
j
T
iji rk xxxx , d adalah derajad polynomial. (2.31)
22
3. Kernel Radial Basis Function (RBF)
0),exp(),(2
jijik xxxx (2.32)
4. Kernel Sigmoid
0),tanh(),( rk j
T
iji xxxx (2.33)
Dimana dr,, adalah parameter Kernel. Fungsi kernel yang digunakan adalah
Radial Basis Function (RBF) dengan Persamaan sebagai berikut.
0;exp),(K2
jiji xxxx (2.34)
dimana 𝑑, 𝑟 ∈ 𝑁 dan 𝛾 ∈ ℝ+ adalah konstanta. Selanjutnya satu diantara fungsi
tersebut membentuk classifier akhir SVM yaitu
n
1i
i b),(Kˆsign)( jiiyxf xx (2.35)
Pemilihan fungsi Kernel yang tepat merupakan hal yang sangat penting
karena akan menentukan ruang fitur dimana fungsi classifier akan dicari. Sepanjang
fungsi kernelnya sesuai, SVM akan beroperasi secara benar meskipun tidak tahu
pemetaan yang digunakan (Santosa, 2007). Menurut Hsu, Chang dan Lin (2003),
fungsi Kernel yang direkomendasikan untuk diuji pertama kali adalah fungsi Kernel
RBF karena dapat memetakan hubungan tidak linier, RBF lebih robust terhadap
outlier karena fungsi Kernel RBF berada antara selang (−∞, ∞) sedangkan fungsi
kernel yang lain memiliki rentang antara (-1 sampai dengan 1). Gaussian RBF juga
efektif menghindari overfitting dengan memilih nilai yang tepat untuk parameter C
dan γ dan RBF baik digunakan ketika tidak ada pengetahuan terdahulu.
2.4 Sequential Minimal Optimization (SMO)
Data training pada SVM bertujuan untuk mencari solusi permasalahan
optimasi dengan fungsi kendala yang telah dijelaskan pada persamaan 2.28.
Berbagai teknik optimasi telah banyak dikembangkan yang pada dasarnya secara
interatif mencari solusi maksimum dari fungsi objektif. Akan tetapi, teknik-teknik
tersebut memerlukan data disimpan pada memori dalam bentuk matriks kernel. Hal
ini akan mengakibatkan kompleksitas data training meningkat dengan
bertambahnya ukuran matriks sehingga penggunaan teknik ini dibatasi oleh jumlah
23
data yang dapat diproses. Untuk dataset yang lebih besar digunakan teknik yang
didasarkan pada metode Sequential Minimal Optimization (SMO).
n
i
n
i
n
j
jijijiiD kyyL1 1 1
,2
1maxmax xx
αα
Dengan fungsi kendala:
n
i
ii
i
y
niC
1
0
,....,1,0
Mengoptimasi nilai 1 dan 2 dengan memberikan nilai inisiasi αold=0, dimana
},,,,{ 311 N
oldoldold α . Karena nilai
n
i
ii y1
0 , maka
oldold yyyy 21112211 (2.36)
Batas optimasi dapat dilihat pada Gambar berikut.
Gambar 2.6 Batas Optimasi Nilai α dengan Algoritma SMO
Berdasarkan Gambar batas optimasi diatas, maka
2121 yy (2.37)
2121 yy (2.38)
Mendapatkan nilai 1 dengan cara mengkalikan persamaan (2.36)
oldold yyyy 21112211 dengan y1, sehingga :
21 s (2.39)
Dimisalkan 21yys dan
oldold sy 21
2
1 dimana 12
1 y karena menunjukkan
label +1 ataupun -1. Mencari nilai 2 dengan persamaan LD sebagai berikut.
)(2
2(2
1
222111
3
212121
2
22222
2
1111121
cyyy
yyyyyycL
N
i
T
iii
TTT
D
xxx
xxxxxx
24
Misalkan 211222221111 ,, xxxxxxTTT KKK
j
Told
j
Toldoldold
j
j
N
i
T
iiij
yybu
yv
xxxx
xx
222111
3
Dimana oldoldT
j
old
j bu wx adalah output parameter daru xj
cvyvysKsKsKKK
cvyvysKKKLD
222121211
2
2121112
2221112112
2
222
2
11121
)1()2(2
1
)222(2
1
Kemudian 1211122 KKK
cEEyL oldoldold
D 2
22212
2
2 ))((2
1
Turunan pertama dan kedua didapatkan hasil sebagai berikut.
))(( 22122
2
oldoldoldD EEyL
2
2
DL
Sebagai catatan bahwa 02 121112 KKK
Sehingga 0)()(2
121212 xxxxxx T
Menetapkan turunan kedua =0
0
2
2DL
sehingga
)( 122
22
oldold
oldnew EEy (2.40)
Jika η < 0 maka perlu dilakukan dilakukan evaluasi fungsi objektif pada endpoint
dan menetapkan new
2 sebagai nilai terbesar dari fungsi tujuan. Proses iteratif ini
diulang sampai konvergen.
2.5 Klasifikasi Multiclass One Against One (OAO)
Klasifikasi multiclass dapat diselesaikan dengan menggunakan One Against
One (OAO). Dengan metode OAO, diperlukan untuk menemukan fungsi pemisah
sebanyak k(k−1)/2, dimana masing-masing fungsi pemisah di training dengan
25
sampel dari dua kelas. Misalkan, terdapat persoalan klasifikasi dengan 3 kelas
berarti dapat ditentukan 3 fungsi pemisah p yaitu p12, p13, dan p23. Ketika p12
ditraining, semua sampel pada kelas 1 diberi label positif (+1) dan semua sampel
pada kelas 2 diberi label negatif (-1). Hal ini juga dilakukan pada p13 dan p23.
Sebagai Gambaran, diberikan data training dari kelas i dan j, untuk persoalan ini
akan diselesaikan dengan Persamaan berikut.
n
r
ij
r
ijTij
bC
ijijij
1,, 2
1)(
2
1min ww
ξw (2.41)
Dengan
ij
r
ij
i
ij b 1)(xw ,jika yr=i (2.42)
ij
r
ij
i
ij b 1)(xw ,jika yr=j (2.43)
0ij
r
dimana r menunjukkan indeks data dari setiap kelas. Setelah semua fungsi pemisah
k(k−1)/2 ditemukan, ada beberapa metode untuk melakukan testing pada data baru.
Kemudian diterapkan strategi max voting untuk mendapatkan keputusan dari kelas
terbanyak (Santosa, 2007). Berikut ini merupakan Tabel ilustrasi metode OAO
dengan jumlah kelas sebanyak 4.
Tabel 2.2 Ilustrasi One Against One (OAO)
yi = 1 yi = - 1 Hipotesis
Kelas 1 Kelas 2 121212 )()( bxf xw
Kelas 1 Kelas 3 131313 )()( bxf xw
Kelas 1 Kelas 4 141414 )()( bxf xw
Kelas 2 Kelas 3 232323 )()( bxf xw
Kelas 2 Kelas 4 242424 )()( bxf xw
Kelas 3 Kelas 4 343434 )()( bxf xw
Berdasarkan pada strategi max voting, untuk pemisah pij, jika tanda positif
dari suatu data x adalah di kelas i, maka voting untuk kelas i ditambah satu.
Sebaliknya, jika tanda positif dari suatu data x adalah di kelas j, maka voting untuk
kelas j ditambah satu. Kemudian, diletakkan di kelas mana berdasarkan nilai voting
tertinggi. Penentuan kelas dari suatu obyek baru dapat dilihat pada Gambar 2.6.
26
Gambar 2.7 Ilustrasi Multiclass One Against One (OAO)
2.6 Ensemble Support Vector Machine (EnSVM)
Sebuah klasifikasi ensemble adalah himpunan beberapa pengklasifikasi,
dimana keputusan dari tiap pengklasifikasi dikombinasikan dengan suatu cara (pada
umumnya menggunakan voting dengan atau tanpa menggunakan bobot) untuk
mengklasifikasikan data baru (Dietterich, 2001). Metode Ensemble Fitur Subspace
mempunyai performansi yang berkaitan dengan dua faktor yaitu akurasi dan
keragaman kluster dasar. Kluster yang digunakan pada ensemble ini adalah
hierarchical clustering complete linkage yang menggunakan euclidian distance
sebagai ukuran jarak untuk menghapus redundansi dan rasio noise. Metode
ensemble ini melakukan clustering terhadap variabel. Misalkan terdapat variabel
nxxx ,,, 21 x dan nzzz ,,, 21 z maka nilai jarak antar variabel yaitu.
22
22
2
11 )()()(),( nn zxzxzxd zx (2.44)
Salah satu algoritma ensemble SVM yang dikembangkan adalah berbasis
cluster. Algoritma ini dikenalkan oleh Yu dan Hong (2013). Misalkan terdapat
variabel nxxx ,,, 21 x kemudian dilakukan partisi menjadi 𝑞 cluster,
misalkan {𝐶1, . . . , 𝐶𝑞} dengan algoritma cluster hierarchical clustering complete
linkage. Model klasifikasi akhir didefinisikan sebagai fungsi sebagai berikut.
q
l
llT Cxf
1
,)( x1wx (2.45)
Kelas 1
xi
f 34(x)
f 24(x)
f 23(x)
f 14(x)
f 13(x)
f 12(x)
Kelas 3
Kelas 4
Kelas 2
Kelas 1
Kelas 1
Kelas 1
27
dengan 1 merupakan vektor yang semua nilainya berupa 1 dengan ukuran l. Pada
kasus ini tidak menggunakan bias 𝑏. Sehingga formulasi cluster SVM yaitu.
q
l
n
i
li
q
l
lww
l
lil
C
1 11
22
,, 2
1
2
1min
www (2.46)
Algoritma ensemble SVM adalah sebagai berikut.
1. Data Microarray Multiclass Imbalance dengan proses input sebagai berikut.
Data training set (T), Fitur set (F), ukuran fitur sebanyak K, ukuran fitur
subspace sebanyak D dan jumlah fitur subspace sebanyak L.
2. Membagi data training set (T) yang memuat fitur set (F) dengan
menggunakan kluster hirarki complete linkage sebanyak K kluster.
3. Membagi Fitur set (F) yang terbentuk kedalam fitur subspace (D) sebanyak
L secara random, untuk mengatasi kondisi redundansi. Dalam proses ini fitur
yang sudah terambil untuk fitur subspace 1 tidak akan menjadi sampel untuk
fitur subspace lainnya.
4. Mengklasifikan data fitur subspace yang terkoreksi tersebut dengan
menggunakan SVM.
5. Menghitung keputusan setiap fitur subspace dengan menggunakan majority
voting, dimana data akan diklasifikasikan dalam kelas hasil voting terbanyak.
(Yu dan Hong, 2013). Berikut merupakan ilustrasinya.
Gambar 2.8 Ilustrasi Ensemble Learning dengan Fitur Subspace
28
2.7 Stratified K-Fold Cross Validation
Cross-validation adalah metode statistik untuk mengevaluasi dan
membandingkan algoritma pembelajaran dengan membagi data menjadi dua bagian
yaitu data training yang digunakan untuk training dan data testing yang digunakan
untuk memvalidasi model. Dalam cross-validation, pelatihan dan validasi lurus
diatur cross-over secara berturut-turut sehingga setiap poin data memiliki
kesempatan untuk divalidasi. Bentuk dasar cross-validation, adalah k- fold cross-
validation. Dalam k-fold cross-validation, data dipartisi menjadi k bagian yang
sama (atau hampir sama), biasanya k dibagi 5 atau 10. Misalkan k = 5, pembagian
data training dan data testing ditunjukkan pada Gambar 2.8 sebagai berikut.
1 2 3 4 5
Testing Training Training Training Training
1 2 3 4 5
Training Testing Training Training Training
1 2 3 4 5
Training Training Testing Training Training
1 2 3 4 5
Training Training Training Testing Training
1 2 3 4 5
Training Training Training Training Testing Gambar 2.9 Ilustrasi Pembagian Data Training dan Testing dengan k-fold = 5
K-fold cross validation akan membagi data ke dalam k subset yang saling
bebas yaitu kSSS1 ,,, 2 dengan jumlah data tiap subset hampir sama, selanjutnya
jika satu subset menjadi data testing maka k-1 subset yang akan menjadi data
training (Han, Kamber dan Jian, 2006). Data biasanya distratifikasi sebelum
dipecah kedalam k-fold .
Stratifikasi adalah proses penyusunan ulang data untuk memastikan setiap
fold merupakan representasi yang baik dari keseluruhan data. Misalnya dalam
masalah klasifikasi biner dimana masing-masing kelas terdiri dari 50% data, cara
yang terbaik adalah dengan mengatur data sedemikian rupa sehingga dalam setiap
fold , setiap kelasnya terdapat sekitar setengah sampel. Proses ini diulangi sebanyak
k subsets dan hasil akurasi klasifikasi yaitu hasil rata-rata dari setiap data training
dan testing. k-fold s yang biasa digunakan adalah 3, 5, 10 dan 20 (Bolon, Sanchez,
dan Alonso, 2015).
29
2.8 Kriteria Evaluasi Performansi Metode Klasifikasi
Data aktual dan data hasil prediksi dari model klasifikasi disajikan dengan
menggunakan Tabulasi silang (Confusion matrix), yang mengandung informasi
tentang kelas data yang actual direpresentasikan pada baris matriks dan kelas data
hasil prediksi pada kolom (Jiawei, 2006).
Tabel 2.3 Confusion Matrix Multiclass
Pengelompokan
Aktual
Kelompok Prediksi Total
1 2 3 … L
1 𝑛11 𝑛12 𝑛13 … 𝑛1𝑙 n1.
2 𝑛21 𝑛22 𝑛23 … 𝑛2𝑙 n2.
3 𝑛31 𝑛32 𝑛33 … 𝑙 ⋮ ⋮
K 𝑛𝑘1 𝑛𝑘2 𝑛𝑘3 … 𝑛𝑘𝑙 nk.
Total n.1 n.2 n.3 … n.l Ntotal
K
k
kknTP1
kk2211 n + … + n + n
L
l
li TPnFP1
L
l
il TPnFN1
L
l
K
k
lk FPTPnTN
1. True Postive (TP) menunjukan bahwa kelas yang dihasilkan prediksi klasifikasi
adalah positif dan kelas sebenarnya adalah positif
2. True Negatif (TN) menunjukan bahwa kelas yang dihasilkan dari prediksi
klasifikasi adalah negatif dan kelas sebenarnya adalah negatif.
3. False Positif (FP) menunjukan bahwa kelas yang dihasilkan dari prediksi
klasifikasi adalah negatif dan kelas sebenarnya adalah positif
4. False Negatif (FN) menunjukan bahwa kelas yang dihasilkan dari prediksi
klasifikasi adalah positif dan kelas sebenarnya adalah negatif.
Ketepatan klasifikasi dapat dilihat dari akurasi klasifikasi. Akurasi klasifikasi
menunjukkan performansi model klasifikasi secara keseluruhan, dimana semakin
tinggi akurasi klasifikasi hal ini berarti semakin baik performansi model klasifikasi.
Jumlah prediksi benarAkurasi Total 100%
Jumlah totalprediksi
30
11 22 kk
total
X +X + +XAkurasi Total 100%
N
(2.47)
Untuk mendapatkan klasifikasi yang optimal dan lebih spesifik maka dapat
diuji Sensitivity dan Specificity. Sensitivity adalah tingkat positif benar atau ukuran
performansi untuk mengukur kelas yang positif (minor) sedangkan Specificity
adalah tingkat negatif benar atau ukuran performansi untuk mengukur kelas yang
negatif (mayor). Rumus Sensitivity dan Specificity adalah sebagai berikut.
100%
( )
TPSensitivity
TP FN
(2.48)
100%
( )
TNSpecificity
TN FP
(2.49)
Selain itu evaluasi performansi model klasifikasi dapat dilakukan dengan
menggunakan G-mean dan F-measure. Berikut ini merupakan penjelasan tentang
G-mean dan F-measure. G-mean merupakan rata-rata geometrik Sensitivity dan
Specificity. Apabila semua kelas psoitif tidak dapat diprediksi maka G-mean akan
bernilai nol sehingga diharapkan suatu algoritma klasifikasi mencapai nilai G-mean
yang tinggi (Kubat dan Matwin dalam Sain, 2013).
ySpecitifitySensitivitGmean (2.50)
kategori ditemukan benar TP= = ×100%
Total kategori ditemukan (TP + FN)Recall / Sensitivity
(2.51)
kategori ditemukan benar TP= ×100%
Total kategori benar (TP + FP)Precision= (2.52)
2×= ×100%
Sensitivity× PrecisionF - Measure
Sensitivity+ Precision (2.53)
Pengukuran akurasi dari kelas imbalance dapat dilakukan dengan
menggunakan perhitungan nilai recall, precision dan F-measure. Recall dihitung
untuk mengevaluasi seberapa coverage suatu model dalam memprediksi suatu kelas
tertentu yaitu kelas positif (minor). Nilai recall sama dengan nilai Sensitivity.
Precision dihitung untuk mengevaluasi seberapa baik ketepatan model dalam
memprediksi suatu kelas positif. Nilai F-measure dihitung untuk menentukan hasil
prediksi yang paling baik, yang merupakan kombinasi dari nilai recall dan
precision. (Sain, 2013).
31
2.9 Data Microarray
Teknologi Microarray memungkinkan suatu pengukuran dalam skala besar
dan paralel untuk mengekspresikan sekitar ribuan bahkan mungkin puluhan ribu
gen. Hal ini telah menjadi salah satu teknologi biologi molekuler paling sukses di
era modern dan telah banyak diterapkan untuk memprediksi fungsi gen,
memberikan informasi yang tak ternilai untuk penemuan obat, menyelidiki
mekanisme peraturan gen, menemukan subtipe baru dari tumor spesifik dan
klasifikasi kanker (Puelma, 2012). Diantara teknologi Microarray tersebut,
klasifikasi kanker telah menjadi subyek penelitian ekstensif di seluruh dunia yang
sangat menjanjikan.
Microarray adalah serangkaian Short Sequence Tag (EST) yang dibuat dari
cDNA. EST terlihat dari pelat kaca penutup-slip berukuran array 8x12, berlapis
sekian ribu. Data disiapkan dari jaringan perlakuan atau kondisi eksperimental,
misalkan ikan yang diberi diet tinggi protein, atau individu dengan kanker
payudara. Data kontrol adalah data tidak diberi perlakuan kemudian diberikan
simbol berupa warna hijau. Sedangkan data eksperiment adalah data yang diberikan
perlakuan dan diberikan symbol berupa warna merah. Setelah itu dilakukan proses
hibridisasi ke data Microarray dengan laser. Laser Dual-Channel menggerakkan
pewarna yang sesuai intensitas fluoresensi. Ekspresi gen relatif diukur sebagai rasio
dari dua panjang gelombang fluoresensi. Gambar 2.10 menampilkan proses umum
memperoleh data ekspresi gen dari Microarray DNA.
Gambar 2.10 Proses Umum Memperoleh Data Ekspresi Gen DNA Microarray
(Diperoleh dari Canedo, Marono, Betanzos, Benitez dan Herrera, 2014)
32
Jenis data ini digunakan untuk mengumpulkan informasi dari jaringan dan sel
sampel mengenai perbedaan ekspresi gen yang dapat berguna untuk diagnosis
penyakit atau untuk membedakan jenis tertentu dari tumor. Klasifikasi data
Microarray menimbulkan tantangan serius bagi teknik komputasi, karena dimensi
yang besar (hingga beberapa puluhan ribu gen) dengan ukuran sampel yang kecil.
Masalah umum dalam data Microarray adalah yang disebut masalah imbalance
class. Hal ini terjadi ketika sebuah dataset didominasi oleh kelas utama atau kelas
yang telah secara signifikan lebih banyak contoh dari kelas langka/minoritas
lainnya dalam data. (Canedo, Marono, Betanzos, Benitez dan Herrera, 2014)
33
2.10 Penelitian Sebelumnya
Penelitian sebelumnya mengenai klasifikasi ensemble-SVM multiclass kelas
imbalance adalah sebagai berikut.
Tabel 2.4 Daftar Penelitian Sebelumnya
Peneliti, Tahun Ringkasan
Elhassan, 2016 Metode undersampling digunakan untuk
menghilangkan noise sebelum menggunakan metode
klasifikasi seperti SVM, Neural Network, Random
Forest dan Logistic Regression. Hasilnya
menunjukkan keunggulan dalam hal performansi
dibandingkan teknik oversampling.
Yu dan Hong, 2013 Metode ensemble (EnSVM-OAO) membantu
memperbaiki akurasi klasifikasi secara keseluruhan,
yang berarti bahwa klasifikasi akurasi antara kelas
mayoritas dan minoritas semakin meningkat
dibandingkan Metode SVM-OAA.
Mediana Aryuni, 2013 Ensemble fitur selection mampu mengurangi waktu
komputasi dan memiliki akurasi yang relatif lebih baik
dibandingkan dengan pengklasifikasi tunggal.
Lin dan Chen, 2012 Pengklasifikasian berbasis SVM Random
Undersampling (SVM-RUS) digunakan mengatasi
masalah klasifikasi imbalance. SVM-ensemble
memberikan hasil performansi paling baik
dibandigkan tanpa menggunakan koreksi ensemble.
34
(Halaman ini sengaja dikosongkan)
35
BAB 3
METODOLOGI PENELITIAN
Pada Bab 3 akan dijelaskan mengenai tahapan-tahapan penelitian yang
meliputi kajian simulasi dan kajian terapan pada data Microarray. Selain itu, akan
dipaparkan juga mengenai sumber data, variabel penelitian, struktur data serta
algoritma metode EnSVM-RUS-OAO.
3.1 Kajian Simulasi
Kajian simulasi dilakukan untuk mengetahui performa metode EnSVM-
RUS-OAO, EnSVM-OAO dan SVM-OAO dalam klasifikasi data multiclass
imbalance dengan berbagai rasio. Kemudian dilakukan perbandingan performa
ketiga model berdasarkan kriteria Akurasi, F-score dan G-mean. Tahapan simulasi
yaitu sebagai berikut.
1. Menetapkan data Leukimia (sumber:http://www.gems-system.org/) sebagai
data acuan untuk mendapatkan karakteristik vektor mean dan matriks varians
kovarian. Data Leukimia ditetapkan sebagai acuan karena memiliki nilai
imbalance rasio (IR) sebesar 4,22 dengan jumlah kelas sebanyak 3. Pada
penelitian ini, studi simulasi hanya dibatasi untuk skenario multiclass dengan
jumlah kelas sebanyak 3. Selain itu, nilai IR yang kecil memudahkan untuk
disimulasikan sesuai skenario yang ditetapkan. Sehingga data Leukimia
sesuai untuk dijadikan sebagai acuan data simulasi.
2. Mendapatkan karakteristik data yaitu vektor mean dan matriks varians
kovarians berdasarkan data Leukimia. Data Leukimia memiliki jumlah fitur
sebanyak 5327 fitur. Berikut ini merupakan vektor mean dari data Leukimia.
]48,282764112,233[ˆ3
]22,222144022,186[ˆ2
]92,332450128,161[ˆ1
)]()()([ˆ,,2,1
3
2
1
k
μ
μ
μ
μ
kuntuk
kuntuk
kuntuk
xExExEkpkk
Vektor mean diatas memuat nilai mean dari data leukemia setiap kelas.
Matriks berisi vektor mean itu memiliki ukuran sebesar 1 × 5327 atau dengan
36
ukuran jumlah kelas × jumlah fitur. Selanjutnya yaitu matriks varians setiap
kelas sebagai berikut.
2
,,2,1
,2
2
2,21
,1,12
2
,1
ˆ
kpkpkp
kpk
kpkk
sss
sss
sss
k
913,222998,98137834,327
98,981370815,14,121057
834,3274,12105786,9042
ˆ1
Ekuntuk 1
56,162614,94730819,829
14,94730087,7826,844
819,829826,84469,13940
ˆ2
Ekuntuk 2
67,97615807285,718
1580720835,1118079
185,71811807953,15198
ˆ3
Ekuntuk 3
Matriks diatas memuat nilai varians kovarians dari data leukemia untuk kelas 1,2
dan 3 yang memiliki ukuran sebesar 5327 × 5327 atau jumlah fitur ×jumlah fitur.
3. Setelah mendapatkan karakteristik data Leukimia berupa vektor mean dan
matriks varians kovarians, selanjutnya yaitu membangkitkan data. Data
dibangkitkan mengikuti distribusi multivariate normal dan disesuaikan
dengan skenario yang akan dicobakan. Peneliti merancang 3 buah skenario
berdasarkan rasio imbalance dan jumlah fitur yang berbeda-beda. Rasio
dihitung dari jumlah kelas negatif (mayor) dibagi dengan jumlah kelas positif
(minor).
a. Skenario 1
Pada skenario pertama yaitu membangkitkan jumlah fitur sebanyak 5000
fitur dan 1000 fitur dengan jumlah sampel sebanyak 100. Sampel terbagi
37
menjadi 3 kelas. Pembagian kelas pada skenario 1 merupakan data dalam
perbandingan rasio 1, sehingga perbandingannya yaitu 33:33:34. Berikut ini
merupakan matriks dataset untuk skenario 1.
81,8958,24656,556
49,7091,32362,610
18,13348,12428,78
6,31693,37711,552
61,17693,23255,26
62,1167,21461,185
54,1609,22676,470
26,3624,40164,996
21,18381,10645,355
2
2
2
1
1
1
0
0
0
100
68
67
66
35
34
33
2
1
/ 5000100021
xxxxY
b. Skenario 2
Membangkitkan jumlah fitur sebanyak 5000 fitur dan 1000 fitur dengan jumlah
sampel sebanyak 100 terbagi menjadi 3 kelas. Pembagian kelas pada skenario 2
merupakan rasio 5, sehingga perbandingannya yaitu 10:40:50. Berikut ini
merupakan matriks dataset untuk skenario 2.
31,23656,9564,1042
08,3314,9975,276
38,27621,7229,280
27,42769,2949,953
39,2211,4521,403
19,30867,6822,720
65,571720,35,158
27,253790,5461,184
12,255280,3381,121
2
2
2
2
1
1
1
0
0
100
53
52
51
50
12
11
10
1
/ 5000100021
xxxxY
38
c. Skenario 3
Membangkitkan jumlah fitur sebanyak 5000 dan 1000 dengan jumlah sampel
sebanyak 100 terbagi menjadi 3 kelas. Pembagian kelas pada skenario 2 merupakan
rasio 8, sehingga perbandingannya yaitu 10:10:80. Berikut ini merupakan matriks
dataset untuk skenario 3.
12,43187,846839,209
175,41001,994153,205
92,4262,4284142,8
38,6654,866958,370
27,7184,692933,145
33,3353,9258941,70
6,46811041950,41
79,3837,8092210,305
12,3351,10314470,579
2
2
2
2
2
1
1
0
0
100
24
23
22
21
20
11
10
1
/ 5000100021
xxxxY
4. Membagi data ke dalam data training dan data testing dengan
menggunakan threefold cross validation dengan stratifikasi. Misalkan
diilustrasikan dengan skenario 3 yaitu pembagian kelas 10:10:80.
Tabel 3.1 Ilustrasi Threefold Cross Validation Skenario 3
Fold 1 Fold 2 Fold 3
Kelas 0=3, kelas 1=3,
Kelas 2=27
Kelas 0=3, kelas 1=4,
Kelas 2=27
Kelas 0=4, kelas 1=3,
Kelas 2=26
Kelas 0=3, kelas 1=3,
Kelas 2=27
Kelas 0=3, kelas 1=4,
Kelas 2=27
Kelas 0=4, kelas 1=3,
Kelas 2=26
Kelas 0=3, kelas 1=3,
Kelas 2=27
Kelas 0=3, kelas 1=4,
Kelas 2=27
Kelas 0=4, kelas 1=3,
Kelas 2=26
*)blok berwarna abu-abu menunjukkan fold sebagai data testing
5. Menghitung performansi 3 skenario dengan 2 macam dataset tersebut
dengan menggunakan SVM-OAO. Kernel yang digunakan yaitu linear,
polynomial dan RBF. Untuk mendapatkan parameter yang optimum,
digunakan metode grid search dengan nilai C=2-5 sampai 215 dan γ=2-15
sampai 23. Nilai parameter tersebut ditentukan berdasarkan penelitian
39
Hsu, Chang dan Lin (2016). Berikut ini merupakan algoritma SVM-OAO
(algoritma 3.1) sebagai berikut.
Gambar 3.1 Algoritma SVM-OAO
6. Melakukan seleksi fitur untuk ketiga skenario dengan dua macam
dataset yaitu 1000 dan 5000 fitur dengan menggunakan algoritma FCBF
(Fast Correlation Based Filter). Metode ini akan merangking fitur
berdasarkan nilai symmetrical uncertainly dengan sebelumnya
dilakukan bining menggunakan metode MDL (Minimal Description
Length). Sehingga waktu komputasi atau running time menjadi lebih
cepat tanpa menghilangkan informasi yang penting.
7. Menghitung kembali performansi 3 skenario dengan 2 macam dataset
yaitu 1000 dan 5000 fitur tersebut dengan menggunakan SVM-OAO
Input: nnii yy ,,...,, xx dimana }1,1{ iy
1. Menentukan jumlah persamaan hyperplane : k(k − 1) /2
For i= 1: k, j = i+1 : k
misal ada 3 kelas, maka fungsi pemisah p yaitu p12, p13, dan p23
2. Meminimumkan permasalahan optimasi klasifikasi SVM biner, sesuai dengan
persamaan :
n
r
ijr
ijijb
C1,, 2
1
2
1min
ijTij
ijw
ww
dengan
iyb rijr
ij jika,1)( jij xw
jyb rijr
ij jika,1)( jij xw
3. Hitung nilai (α, b) dengan Optimasi dengan Karush Kuhn Tucker (KKT)
4. Membentuk persamaan construct hyperplane :
0)()( ijijij bsignfT
xwx
5. Initial voting pada setiap kelas
6. Initial voting pada setiap kelas
Persamaan kelas 1 : f 1 (x) = (w1)x + b1
Persamaan kelas k : f k (x) = (wk)x + bk
7. Jika data x dimasukkan dalam ke dalam persamaan construct dan hasilnya
menyatakan x adalah kelas k
Kemudian : Voting (i)= voting (i) +1
Else : Voting (j) = voting (j)+1
End if : Kelas dari x ditentukan dari jumlah voting terbanyak.
j = class of x = arg max wi x + bi, dimana j S, i=1,2,…,k
40
dengan data yang telah dilakukan fitur seleksi FCBF. Selanjutnya
disebut SVM-OAO (FCBF).
8. Melakukan klasterisasi fitur dengan menggunakan metode Ensemble
Fitur Subspace (FSS) dengan jumlah cluster ditentukan sebanyak 2
cluster. Kemudian setiap cluster terdapat classifier SVM sehingga
didapatkan performansi untuk 3 skenario dengan 2 macam dataset
tersebut dengan menggunakan EnSVM-OAO. Berikut ini merupakan
algoritma Fitur Subspace (FSS) (algoritma 3.2).
Gambar 3.2 Algoritma EnSVM
9. Menghapus data kelas mayor sehingga sama dengan kelas minor
menggunakan Random Undersampling (RUS). Kemudian Menghitung
kembali performansi 3 skenario dengan 2 macam dataset tersebut
dengan menggunakan EnSVM-RUS-OAO. Berikut ini merupakan
algoritma Random Undersampling (algoritma 3.3).
Gambar 3.3 Algoritma Random Undersampling
Input: nxxx ,,, 21 x , nzzz ,,, 21 z
1. Tentukan k jumlah cluster yang ingin dibentuk
2. Hitung matrik jarak antar data dengan jarak Euclidean.
n
i
ii zxd1
2)(),( zx
3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan
yang ditentukan dddd xzxzxz ,max
4. Update nilai jarak Euclidean yang telah terbentuk menjadi cluster.
5. Jika nilai jarak Euclidean untuk semua fitur sudah tercluster, maka
terbentuk output L fitur subspace.
Input: nnii yy ,,...,, xx dimana }1,1{ iy
1. Identifikasi kelas negative/mayor (yi=-1) dan data kelas positif/minor
(yi=1)
2. Hitung jumlah anggota tiap kelas (yi=-1) dan data kelas (yi=1)
If length(yi=-1) > length(yi=1), maka anggota kelas x dihapus secara acak
Output: jumlah kelas (yi=-1) = kelas (yi=1) atau length(yi=-1) = length(yi=1)
41
10. Membandingkan hasil performansi klasifikasi metode EnSVM-RUS-
OAO, EnSVM-OAO dan SVM-OAO untuk setiap skenario dengan
kriteria akurasi, F-score dan G-mean serta running time.
11. Mendapatkan performansi terbaik.
3.2 Aplikasi Data Microarray
Setelah melakukan studi simulasi, selanjutnya yaitu penerapan pada data riil
DNA Microarray. Berikut ini merupakan sumber data, struktur data dan tahapan
penelitian dari data Microarray.
3.2.1 Sumber Data
Data yang digunakan dalam penelitian diperoleh melalui http://www.gems-
system.org/. Terdapat tiga set data Microarray kanker multiclass imbalance yang
digunakan untuk memverifikasi metode ensemble-SVM yang diusulkan.
Karakteristik data menunjukkan terdapat dataset yang memiliki 3 sampai 5 kelas,
72 sampai 203 jumlah sampel, 5327 sampai 12600 gen, dan rasio imbalance dalam
kisaran 4,22 sampai 23,17. Kumpulan data dan informasi rinci tentang data ini
ditunjukkan pada Tabel 3.2.
Tabel 3.2 Informasi Dataset DNA Microarray
Dataset Jumlah
Sampel
Banyak
Kelas
Jumlah
Gen
Rasio
Imbalance Kategori
Leukimia 72 3 5327 4,22
ALL B-cell (1) = 38
ALL T-cell (2) = 9
AML (3) = 25
Brain Tumor 90 5 5920 15,00
Medulloblastoma (1) = 60
Malignant glioma (2) = 10
AT/RT (3) = 10
Normal cerebellum (4) = 4
PNET (5) = 6
Lung Cancer 203 5 12600 23,17
Adeno (1) = 139
Normal (2) = 17
Squamous (3) = 21
COID (4) = 20
SMCL (5) = 6
*Rasio Imbalance = jumlah data kelas negatif/jumlah data kelas positif
42
a. Data Leukimia
Sampel pada data Leukimia diklasifikasikan kedalam tiga jenis penyakit
Leukimia, yaitu Acute Lymphoblastic Leukimia B-Cell (ALL B-Cell) sebanyak 38
data, Acute Lymphoblastic Leukimia T-Cell (ALL T-Cell) sebanyak 9 data dan
Acute Myelogenous Leukimia (AML) sebanyak 25 data. Data Leukimia diperoleh
dari website http://www.gems-system.org/ Total gen Leukimia adalah 5327 dan
jumlah sampel datanya adalah 72 data dengan rasio imbalance yaitu 4,22.
b. Data Brain Tumor
Sampel pada Data Brain tumor diklasifikasikan kedalam lima jenis penyakit
Brain Tumor, yaitu Medulloblastoma sebanyak 60 data, Malignant glioma
sebanyak 10 data, AT/RT sebanyak 10 data, Normal cerebellum sebanyak 4 data
dan PNET sebanyak 6 data. Data Brain tumor diperoleh dari website
http://www.gems-system.org/ Total gen Brain tumor adalah 5920 dan jumlah
sampel datanya adalah 90 data dengan rasio imbalance yaitu 15,00.
c. Data Lung Cancer
Sampel pada Data Lung Cancer diklasifikasikan kedalam lima jenis penyakit
Lung Cancer, yaitu Adeno sebanyak 203 data, Normal sebanyak 17 data, Squamous
sebanyak 21 data, COID cerebellum sebanyak 21 data dan SMCL sebanyak 6 data.
Data Lung Cancer diperoleh dari website http://www.gems-system.org/ Total gen
Lung Cancer adalah 12600 dan jumlah sampel datanya adalah 90 data dengan rasio
imbalance yaitu 23,17. IR merupakan hasil bagi antara jumlah kelas negatif
(mayoritas) dengan kelas positif (minoritas).
3.2.2 Struktur Data
Berikut ini diberikan struktur data untuk masing-masing data. Struktur data
Leukimia ditunjukkan pada Tabel 3.3. Struktur data digunakan untuk mengetahui
bagaimana susunan suatu data dengan karakteristiknya berupa variabel dan sampel.
Adanya struktur data dalam bentuk Tabel memudahkan pembaca memahami suatu
data yang diteliti.
43
Tabel 3.3 Struktur Data Leukimia
Sampel Gen 1 Gen 2 Gen 3 ... Gen
5326
Gen
5327
Jenis
Leukimia
1 88 15091 7 ... 191 -37 ALL B-cell
2 283 11038 37 ... 76 -14 ALL T-cell
3 309 16692 183 ... 228 -41 ALL T-cell
... ... ... ... ... ... ... ...
36 318 23865 -38 ... 246 23 AML
... ... ... ... ... ... ... ...
72 211 23462 30 ... 237 -2 ALL B-cell
Tabel 3.3 menunjukkan Sampel pada data Leukimia diklasifikasikan kedalam
tiga jenis penyakit dengan total gen Leukimia adalah 5327 dan jumlah sampel
datanya adalah 72 data. Berikut ini struktur data Brain tumor ditunjukkan pada
Tabel 3.4.
Tabel 3.4 Struktur Data Brain Tumor
Sampel Gen 1 Gen 2 Gen 3 ... Gen
5919
Gen
5920
Jenis
Brain Tumor
1 22 -20 16690 ... -25 56 Medulloblastoma
2 -16 15 22266 ... -750 -45 Medulloblastoma
3 -11 17 36398 ... 11 2 Medulloblastoma
... ... ... ... ... ... ... ...
63 136 -49 48403 ... -145 396 Malignant glioma
... ... ... ... ... ... ... ...
90 262 -93 23425 ... 23 -39 PNET
Tabel 3.4 menunjukkan Sampel pada data Brain tumor diklasifikasikan
kedalam lima jenis penyakit dengan total gen Leukimia adalah 5920 dan jumlah
sampel datanya adalah 90 data. Struktur data untuk Lung Cancer ditunjukkan pada
Tabel 3.5.
Tabel 3.5 Struktur Data Lung Cancer
Sampel Gen 1 Gen 2 Gen 3 ... Gen
12599
Gen
12600 Jenis Lung Cancer
1 -18,6 10,54 0,01 ... -103,49 76,98 Adeno 2 9,12 9,12 10,18 ... -34,41 105,73 Adeno 3 -2,175 -2,21 -0,06 ... -42,63 73735 Adeno ... ... ... ... ... ... ... ...
173 -12,55 -8,02 -17,07 ... -82,67 66 Squamous ... ... ... ... ... ... ... ...
203 -18,37 -1,03 -8,26 ... 74,17 -24,87 COID
44
Tabel 3.5 menunjukkan Sampel pada data Lung Cancer diklasifikasikan
kedalam lima jenis penyakit dengan total gen Leukimia adalah 12600 dan jumlah
sampel datanya adalah 203 data.
3.2.3 Langkah Analisis
Berikut ini langkah analisis untuk mengetahui performa metode EnSVM-
RUS-OAO, EnSVM-OAO dan SVM-OAO dalam klasifikasi data multiclass
imbalance dengan berbagai rasio imbalance. Kemudian dilakukan perbandingan
performa ketiga model berdasarkan kriteria Akurasi, F-score dan G-mean. Tahapan
penerapan data riil yaitu sebagai berikut.:
1. Membagi data ke dalam data training dan data testing dengan menggunakan
threefold cross validation dengan stratifikasi dimana komposisi dari masing-
masing fold berisi 33% dari jumlah data mayor dan 33% dari jumlah data
minor. Ilustrasi proses validasi untuk salah satu data Microarray akan
ditunjukan sebagai berikut: pada data Leukimia diketahui jumlah kelas mayor
yaitu 38, dan jumlah kelas minor yaitu 9. Kemudian dibentuk 3 fold untuk
masing-masing kelas sehingga ketiga fold untuk kelas mayor berisi 12,13,13
pengamatan dan ketiga fold untuk kelas minor masing-masing berisi 3,3,3
pengamatan. Proses pemilihan anggota fold dilakukan dengan acak dan
pengamatan-pengamatan disetiap fold tidak tumpang tindih.
Tabel 3.6 Ilustrasi Proses Validasi
Validasi Fold
1 2 3
1 Testing
(k1=12, k2=8, k3=3)
Training
(k1=13, k2=8, k3=3)
Training
(k1=13, k2=9, k3=3)
2 Training
(k1=13, k2=8, k3=3)
Testing
(k1=12, k2=9, k3=3)
Training
(k1=13, k2=8, k3=3)
3 Training
(k1=13, k2=9, k3=3)
Training
(k1=13, k2=8, k3=3)
Testing
(k1=12, k2=8, k3=3) *) k1= jumlah pengamatan kelas mayor; k2= jumlah pengamatan kelas lainnya, k3= jumlah
pengamatan kelas minor
2. Berdasarkan Tabel 3.6, pada validasi pertama fold pertama digunakan
sebagai data testing dan gabungan fold kedua dan ketiga digunakan sebagai
data training sehingga jumlah pengamatan pada data testing dan training pada
validasi pertama masing-masing yaitu 23 dan 49 pengamatan.
45
3. Menghitung performansi 3 dataset tersebut dengan menggunakan SVM-OAO
sesuai dengan algoritma 3.1. Kernel yang digunakan yaitu linear, polynomial
dan RBF. Untuk mendapatkan parameter yang optimum, digunakan metode
grid search dengan nilai C=2-5 sampai 215 dan γ=2-15 sampai 23. Nilai
parameter tersebut ditentukan berdasarkan penelitian sebelumnya yaitu Hsu,
Chang dan Lin (2016).
4. Melakukan seleksi fitur untuk ketiga dataset dengan menggunakan algoritma
FCBF (Fast Correlation Based Filter) dengan threshold = 0.2. Kemudian
menghitung performansi ketiga dataset dengan SVM-OAO.
5. Melakukan klasterisasi fitur dengan menggunakan metode Ensemble Fitur
Subspace (FSS) sesuai dengan algortima 3.2 dengan jumlah cluster
ditentukan sebanyak 2 dan 5 cluster. Kemudian setiap cluster terdapat
classifier SVM sehingga didapatkan performansi untuk 3 dataset tersebut
dengan menggunakan EnSVM-OAO. Jumlah cluster untuk ensemble feature
subspace ditentukan berdasarkan grafik dendogram clustering hirarki
complete linkage dari ketiga dataset. Garis pemisah dendogram yang mampu
membedakan feature-feature dalam satu kelompok cluster adalah pada 2
cluster dan 5 cluster. Sehingga peneliti menetapkan penelitian ini
menggunakan EnSVM dengan ukuran cluster sebanyak 2 dan 5 cluster.
6. Menghapus data jumlah kelas mayor yang sehingga sama dengan kelas minor
dengan menggunakan Random Undersampling (RUS) sesuai pada algoritma
3.3. Kemudian Menghitung kembali performansi 3 skenario dengan 2 macam
dataset tersebut dengan metode EnSVM-RUS-OAO.
7. Membandingkan hasil performansi klasifikasi metode EnSVM-RUS-OAO,
EnSVM-OAO dan SVM-OAO untuk setiap skenario dengan kriteria akurasi,
F-score dan G-mean.
8. Mendapatkan performansi terbaik.
46
3.3 Diagram Alir Penelitian
Berikut ini merupakan diagram alir penelitian yang ditunjukkan pada
Gambar 3.4 sebagai berikut.
Gambar 3.4 Tahapan Metode EnSVM-RUS-OAO
Fitur Seleksi dengan FCBF
Menentukan range parameter C=2-5 : 215 dan =2-15 : 23
Untuk setiap pasangan C dan optimum
Membagi data ke dalam training dan testing
menggunakan threefold cross validation
Membangun model SVM-OAO pada
tiap validasi
Membangun model EnSVM-OAO dengan
klasterisasi fitur
Menghapus data mayor menjadi sama
dengan data minor dengan RUS sehingga
modelnya EnSVM-RUS-OAO
Mengklasifikasikan data testing dan menghitung performansi
Akurasi, Fscore, Gmean pada tiap validasi
Membandingkan hasil performansi metode yang optimum
Menarik kesimpulan
Data
47
BAB 4
HASIL DAN PEMBAHASAN
Pada bab ini menjelaskan tentang algoritma EnSVM-RUS-OAO jika
dibandingkan dengan EnSVM-OAO dan SVM-OAO dalam klasifikasi data
multiclass dengan berbagai rasio imbalance. Kemudian membandingkan
performansi metode dengan menggunakan kriteria Akurasi, F-score, G-mean pada
tiap validasi. Selanjutnya mencari parameter C dan γ optimum berdasarkan nilai
rata-rata akurasi terbesar dengan metode grid search. Penerapan dilakukan dengan
menggunakan studi simulasi dan penerapan terhadap data riil DNA Microarray.
4.1 Algoritma EnSVM-RUS-OAO
Pada penelitian ini menggunakan metode EnSVM-RUS-OAO untuk
mengatasi kondisi multiclass kelas imbalance DNA Microarray. Berikut ini
merupakan algoritma Ensemble Fitur Subspace Support Vector Machine One
Against One (OAO) atau yang selanjutnya disebut EnSVM-OAO. Random
Undersampling (RUS) atau selanjutnya disebut EnSVM-RUS-OAO. Secara umum,
metode EnSVM-RUS-OAO dapat di Gambarkan melalui algoritma berikut ini.
Algoritma 1. SVM-OAO
Input : sampel training : nixxx p
ipiii ,...,2,1,),...,,( 21 Rx
label training : }1,1{ iy
parameter kernel (), konstanta cost (C)
Output : Akurasi, F-score, G-mean, γ, waktu, parameter (C, )
Begin :
Tahap Training :
1. Membagi data menjadi data training dan data testing, dengan menerapkan
prinsip threefold cross validation by class secara proporsional :
training 75% data per class }1,1{ iy
training 25% data per class }1,1{ iy
misal untuk fold-1 :
2. Membagi data multiclass menjadi multiple binary class sebanyak k kelas
48
3. Membuat label training baru
}1,1{ iy
Label baru sebanyak k kelas
4. Menentukan parameter fungsi kernel, pada penelitian ini menggunakan
fungsi kernel linear, polynomial dan RBF.
0;exp),(2
jiji γγ xxxxK
5. Menghitung matriks kernel RBF dan menentukan parameter penalti C,
metode grid search dengan nilai C=2-5 sampai 215 dan =2-15 sampai 23
6. Meminimumkan permasalahan optimasi klasifikasi SVM biner, sesuai dengan
Persamaan :
n
i
iC1
2
, 2
1min w
ξw
7. Hitung nilai (α, b) dengan Optimasi dengan Karush Kuhn Tucker (KKT)
8. Membentuk Persamaan construct hyperplane :
0)()( klklkl bsignfT
xwx
Tahap Testing :
1. Initial voting pada setiap kelas
Persamaan kelas 1 :
f 1 (x) = (w1)x + b1
Persamaan kelas k :
f k (x) = (wk)x + bk
2. Jika data x dimasukkan dalam ke dalam Persamaan construct dan hasilnya
menyatakan x adalah kelas k
Kelas dari x ditentukan dari jumlah voting terbanyak.
j = class of x = arg max wi x + bi, dimana j S, i=1,2,…,k
Algoritma 2. Random Undersampling (RUS)
Input : data kelas mayor (yi=-1); data kelas minor (yi=1)
Output : data eliminasi kelas mayor yang merupakan kasus Random
Undersampling (RUS)
49
Begin :
1. Mengidentifikasi kelas negatif/mayor (yi=-1) dan data kelas positif/minor
(yi=1)
2. Menghitung jumlah anggota tiap kelas negatif/mayor (yi=-1) dan data kelas
positif/minor (yi=1)
If length(yi=-1) > length(yi=1), maka anggota kelas x dihapus secara acak
3. Sehingga didapatkan jumlah kelas negatif/mayor (yi=-1) sama dengan data
kelas positif/minor (yi=1), length(yi=-1) = length(yi=1).
Algoritma 3. Ensemble Fitur Subspace (FSS)
Input : data training (T); fitur set (F); ukuran fitur (K); ukuran
fitur subspace (D); jumlah fitur subspace (L)
Output : L fitur subspace training subset
Begin :
1. Tentukan k jumlah cluster yang ingin dibentuk.
2. Membuat fitur set (F) kedalam K cluster dengan clustering hirarki
berdasarkan jarak Euclidian.
3. Hitung matrik jarak antar data dengan jarak Euclidean.
n
i
ii zxd1
2)(),( zx
4. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang
ditentukan dddd xzxzxz },max{
5. Update nilai jarak Euclidean yang telah terbentuk menjadi cluster.
6. Jika nilai jarak Euclidean untuk semua fitur sudah tercluster, maka
terbentuk output L fitur subspace.
Berikut merupakan kajian untuk menemukan hyperplane pemisah yang
optimal, maka perlu untuk menyelesaikan masalah optimasi kuadrat pada
Persamaan (2.13). Fungsi tujuan dan fungsi kendala terlebih dahulu diubah kedalam
bentuk fungsi lagrange pada Persamaan (2.14), dimana αi dan µi adalah non negatif
lagrange multiplier. Solusi optimal memenuhi Karush-Kuhn-Tucker (KKT) yang
50
ditunjukkan pada Persamaan (2.23), (2.24) dan (2.25). Untuk turunan terhadap w
ditunjukkan sebagai berikut.
0),,(
w
μα,ξ,w bL
0
)1))('(('2
1
1 1 1
w
xwwwn
i
n
i
n
i
iiiiiii byC
w
xw
ww
ww
n
i
iii
n
i
i yC11
)(''2
1
0
)1(11
ww
n
i
ii
n
i
iii by
000)(0.2.2
1
1
n
i
iii y xw
0)(1
n
i
iii y xw
n
i
iii y1
)(xw
Setelah diturunkan terhadap w maka didapatkan hasil
n
i
iii y1
)(xw .
Kemudian dengan cara yang sama, fungsi lagrange primal problem diturunkan
terhadap b.
0),,(
b
bL μα,ξ,w
0
)1))('(('2
1
1 1 1
b
byCn
i
n
i
n
i
iiiiiii xwww
51
0
1)('(('2
1
111
bb
by
b
C
b
n
i
ii
n
i
iiii
n
i
i xwww
b
by
b
y
b
C
b
n
i
ii
n
i
iii
n
i
i
111
)(''2
1 xwww
0
)1(11
bb
n
i
ii
n
i
ii
0000001
n
i
ii y
01
n
i
ii y
Setelah diturunkan terhadap b didapatkan hasil 01
n
i
ii y dan yang terakhir yaitu
diturunkan terhadap ξ sebagai berikut.
0),,(
i
bL
μα,ξ,w
0
)1))('(('2
1
1 1 1
i
n
i
n
i
n
i
iiiiiii byC
xwww
0
1)('(('2
1
111
i
n
i
ii
i
n
i
iiii
i
n
i
i
i
byC
xwww
i
n
i
iii
i
n
i
i
i
byC
11
)1))('(('2
1xwww
011
i
n
i
ii
i
n
i
ii
000 iiC
Cii
52
Setelah diturunkan terhadap ξ didapatkan hasil Cii . Masing-masing kondisi
KKT yang telah didapatkan yaitu Persamaan (2.46), (2.47) dan (2.48) kemudian
disubstitusikan pada Persamaan (2.41) sebagai berikut.
n
i
n
i
n
i
iiiiiii byCL1 1 1
)1))('(('2
1 xwww
n
i
i
n
i
iii
n
i
iii Cyy11
'
1
)()(2
1 xx
n
i
iii
n
i
i
n
i
iiiii byy11
'
1
)1)()(( xx
)()()()(2
1'
1111 1
i
n
i
iii
n
i
ii
n
i
ijijij
n
i
n
j
i yyyy xxxx
n
i
n
i
ii
n
i
iii
n
i
ii by1 111
)()()()()(2
1
1 111 1
jijij
n
i
n
j
i
n
i
iiijijij
n
i
n
j
i yyyy xxxx
n
i
n
i
ii
n
i
iii
n
i
ii yb1 111
)()()()(2
1
1 11 1
jijij
n
i
n
j
ijijij
n
i
n
j
i yyyy xxxx
n
i
i
n
i
ii
n
i
ii
n
i
ii
n
i
ii
n
i
ii yb111111
n
j
ijijij
n
i
n
j
i byy11 1
0.00)()(2
1 xx
)()(2
1
1 11
jijij
n
i
n
j
i
n
j
i yy xx
Selanjutnya, digunakan SMO algoritma untuk mencari feasible region dari kondisi
dual dan memaksimalkan fungsi objektif berikut.
jijij
n
i
n
j
i
n
i
iD yyL xx
1 11 2
1 dengan ii C ,0
Langkah 1 : Mengoptimasi nilai 1 dan 2 dengan memberikan nilai inisiasi
53
αold=0, dimana },,,,{ 311 N
oldoldold α . Karena nilai
n
i
ii ya1
0 , maka
oldold yyyy 21112211
Batas optimasi menjadi
2121 yy
2121 yy
Langkah 2 : Mendapatkan nilai 1 dengan cara mengakalikan persamaan (2.36)
oldold yyyy 21112211 dengan y1, sehingga :
oldold
oldold
yyyyyy
yyyyyy
2211
2
12211
2
1
1211112211 )()(
21
21
2121
21
2
121
2
1
s
s
ss
sysy
oldold
oldold
Dimisalkan 21yys dan oldold sy 21
2
1 dimana 12
1 y karena menunjukkan
label +1 ataupun -1. Sehingga didapatkan 21 s .
Langkah 3 : Mencari nilai 2 dengan persamaan LD sebagai berikut.
)(2
2(2
1
222111
3
212121
2
22222
2
1111121
cyyy
yyyyyycL
N
i
T
iii
TTT
D
xxx
xxxxxx
Misalkan 211222221111 ,, xxxxxxTTT KKK
j
Told
j
Toldoldold
j
j
Told
j
ToldoldoldoldT
j
j
Told
j
ToldoldT
j
j
N
i
T
iiij
yybu
yybb
yy
yv
xxxx
xxxxwx
xxxxwx
xx
222111
222111
222111
3
)(
Dimana oldoldT
j
old
j bu wx adalah output parameter daru xj
54
cvysvy
ssKKsKs
cvysvy
ssKKsKs
cvyvysKKKLD
222211
2212
2
222
2
2112
222211
2212
2
222
2
21122
2221112112
2
222
2
11121
)(
)(2
1)(
2
1)1(
2)(2
)(2)(2
1
2222
1
cvyvysKsKsKKK
cvyvysKsKsKKK
cvyvyKsKKKsKs
cvyvsyvy
KssKKsKsKKs
222121211
2
2121112
222121211
2
2122211
222212
2
212212
2
222
2
2112112
22221111
2
212
2
212
2
222
2
2
2
11211
2
112
)1()2(2
1
)1(2
1
2
1
2
1
2
1)1(
2
1
2
1
2
1)1(
Kemudian 1211122 KKK dimana koefisien dari 2 adalah
oldoldold
oldoldold
oldoldold
oldoldold
oldoldoldold
oldoldoldoldold
oldoldoldoldoldoldold
oldoldoldoldold
oldoldoldoldoldoldold
EEy
yuyuy
uuyyy
uuysKKKyyy
uuyKKKsKsKsKsKs
KsKbyuyK
sKbyuyKsKKsKs
KyKybuyKy
KybuyssKssKs
vyvysKsKs
2212
222112
221122
212222121121
2
2
2122221211112111211
222112222212
111212211112211111
22221211221222
11111221122111
22121211
)(
))()((
)(
)()2(
)()2()(1
1
)()
()()(1
1
Sehingga fungsi objektif menjadi.
cEEyL oldoldold
D 2
22212
2
2 ))((2
1
Turunan pertama dan kedua didapatkan hasil sebagai berikut.
))(( 22122
2
oldoldoldD EEyL
55
2
2
DL
Sebagai catatan bahwa 02 121112 KKK
Sebagai bukti 211222221111 ,, xxxxxxTTT KKK
Sehingga 0)()(2
121212 xxxxxx T
Langkah 4 : Menetapkan turunan kedua =0
0
2
2DL
sehingga
)(
)(
1222
22122
oldoldold
oldoldoldnew
EEy
EEy
Jika η < 0 maka perlu dilakukan dilakukan evaluasi fungsi objektif pada endpoint
dan menetapkan new
2 sebagai nilai terbesar dari fungsi tujuan. Proses iteratif ini
diulang sampai konvergen. Selanjutnya yaitu fungsi hyperplane jika menggunakan
kernel RBF dalam proses klasifikasinya.
n
i
iii bKyxf1
),()( xx , dimana ),exp(),(2
xxxx iiK
n
i
iii byxf1
2),exp()( xx
4.2 Penerapan Metode EnSVM-RUS-OAO Data Simulasi
Setelah dilakukan kajian mengenai metode En-SVM-RUS-OAO, maka
langkah selanjutnya yaitu melakukan penerapan metode terhadap data simulasi
sesuai dengan skenario yang telah di tetapkan. Penerapan metode En-SVM-RUS-
OAO juga diterapkan pada data riil DNA microarray dengan berbagai rasio
perbandingan kelas mayor dan minor. Kemudian dilakukan perbandingan untuk
setiap metode dengan nilai performansi untuk kelas imbalance yaitu nilai akurasi,
F-score dan G-mean serta waktu komputasi.
Studi simulasi dalam penelitian ini menggunakan metode EnSVM-RUS-OAO,
EnSVM-OAO dan SVM-OAO. Kemudian, hasil simulasi akan dibandingkan untuk
56
mengetahui metode klasifikasi manakah yang lebih baik dalam skenario kelas
imbalance. Data simulasi dibangkitkan mengikuti pola data Leukimia yaitu
mengambil nilai mean dan covarians untuk setiap kelas. Jumlah kelas dibatasi
sebanyak 3 kelas yang menunjukkan multiclass. Kemudian ukuran fitur
dibangkitkan sebanyak 1000 dan 5000 fitur.
4.2.1 Simulasi Skenario 1 (33:33:34)
Berikut ini merupakan hasil rata-rata dari threefold cross validation untuk
skenario 1 dengan pembagian jumlah kelas yaitu 33:33:34 yang selanjutnya
dikategorikan dalam rasio 1. Hasilnya ditampilkan pada Tabel 4.1 sebagai berikut.
Tabel 4.1 Performansi Klasifikasi Rasio 1 (Skenario 1)
Kernel Metode 1000 fitur 5000 fitur
Akurasi F-score G-mean Akurasi F-score G-mean
Linear SVM-OAO 95,00 95,04 94,93 95,5 95,01 95,5
SVM-OAO (FCBF) 95,18 95,16 95,12 96,18 95,83 96,66
EnSVM-OAO 95,31 95,01 95,35 96,45 96,42 97,03
EnSVM-RUS-OAO 95,33 95,05 95,33 96,40 96,34 97,05
Polynomial SVM-OAO 94,73 95,17 95,25 95,32 94,79 94,98
SVM-OAO (FCBF) 95,69 96,01 96,06 95,96 95,04 96,28
EnSVM-OAO 95,74 97,20 96,42 96,22 95,10 96,65
EnSVM-RUS-OAO 95,72 97,19 96,45 96,25 95,08 96,62
RBF SVM-OAO 95,17 95,14 94,96 95,12 95,15 94,64
SVM-OAO (FCBF) 95,81 95,84 95,2 95,81 96,06 95,14
EnSVM-OAO 96,83 96,29 96,62 96,67 96,61 96,89
EnSVM-RUS-OAO 96,82 96,28 96,63 96,68 96,68 96,91
Berdasarkan Tabel 4.1 dapat diketahui bahwa studi simulasi dengan
menggunakan 1000 fitur menunjukkan hasil bahwa metode EnSVM-RUS-OAO
memiliki performansi yang tidak berbeda signifikan dibandingkan dengan metode
EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-
RUS-OAO sebesar 95,33%, nilai F-score sebesar 95,05% dan nilai G-mean sebesar
95,35%. Pada kernel polynomial dengan γ=0,001, cost=1 dan degree=3
menghasilkan nilai akurasi sebesar 95,74%, nilai F-score sebesar 97,20% dan nilai
G-mean sebesar 96,45%. Sedangkan pada kernel RBF, performansi akurasi
EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi sebesar
96,82%, nilai F-score sebesar 96,28% dan nilai G-mean sebesar 96,63%. Secara
keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
57
menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel
linear dan polynomial.
Studi simulasi dengan 5000 fitur menunjukkan hasil bahwa metode EnSVM-
RUS-OAO memiliki performansi yang tidak berbeda signifikan dibandingkan
dengan metode EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi
akurasi EnSVM-RUS-OAO sebesar 96,45%, nilai F-score sebesar 96,42% dan nilai
G-mean sebesar 96,65%. Pada kernel polynomial dengan γ=0,0002, cost=1 dan
degree=3 menghasilkan nilai akurasi sebesar 96,25%, nilai F-score sebesar 95,10%
dan nilai G-mean sebesar 91,21%. Sedangkan pada kernel RBF, performansi
akurasi EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi
sebesar 96,68%, nilai F-score sebesar 96,68% dan nilai G-mean sebesar 96,91%.
Secara keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
menggunakan kernel RBF dan linear memberikan hasil yang lebih tinggi daripada
kernel polynomial.
Setelah mendapatkan nilai performansi akurasi, F-score dan G-mean, tahap
selanjutnya yaitu mengukur performansi metode dari segi waktu komputasi. Waktu
komputasi diatur hanya menghitung proses klasifikasi saja, agar comparable untuk
dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.1 sebagai
berikut.
Gambar 4.1 Waktu Komputasi Rasio 1 (Skenario 1)
Secara visual, waktu komputasi dari proses klasifikasi ditampilkan pada
Gambar bar chart 4.1 diatas. Secara keseluruhan, dengan menggunakan 5000 fitur
membutuhkan waktu komputasi yang lebih lama dibandingkan dengan 1000 fitur.
Hal tersebut karena fitur yang sangat tinggi atau high dimensional data membuat
0.32
0.49
0.56
0.64
0.5
0.6
0.17
0.24
0.36
0.39
0.34
0.39
0.2
0.16
0.25
0.29
0.22
0.27
0.14
0.14
0.11
0.13
0.12
0.15
1000 feature
5000 feature
1000 feature
5000 feature
1000 feature
5000 feature
Lin
ear
Po
lyn
om
ial
RB
F
SVM-OAO SVM-OAO (FCBF) EnSVM-OAO EnSVM-RUS-OAO
58
proses klasifikasi lebih lama. Perbandingan waktu klasifikasi antar kernel
menunjukkan hasil bahwa kernel linear memiliki waktu komputasi yang lebih kecil
dibandingkan dengan kernel polynomial dan RBF. Hal tersebut karena
mendapatkan hyperplane dengan 2 dimensi lebih mudah dibandingkan dengan 3
dimensi.
4.2.2 Simulasi Skenario 2 (10:40:50)
Selanjutnya yaitu hasil rata-rata threefold cross validation untuk simulasi
skenario 2 dengan pembagian jumlah kelas yaitu 10:40:50 yang selanjutnya
dikategorikan dalam rasio 5. Berdasarkan Tabel 4.2 dapat diketahui bahwa studi
simulasi dengan menggunakan 1000 fitur menunjukkan hasil bahwa metode
EnSVM-RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan
metode EnSVM-OAO dan SVM-OAO.
Tabel 4.2 Performansi Klasfikasi Rasio 5 (Skenario 2)
Kernel Metode 1000 fitur 5000 fitur
Akurasi F-score G-mean Akurasi F-score G-mean
Linear SVM-OAO 89,87 89,51 90,44 90,24 90,14 90,14
SVM-OAO (FCBF) 90,41 89,93 90,69 90,51 90,32 90,26
EnSVM-OAO 90,72 90,4 90,78 90,77 90,88 90,72
EnSVM-RUS-OAO 90,83 90,61 90,98 91,05 91,13 90,99
Polynomial SVM-OAO 88,49 91,98 90,36 90,24 90,14 90,14
SVM-OAO (FCBF) 89,95 91,96 90,57 90,51 90,32 90,78
EnSVM-OAO 91,31 91,99 90,97 90,77 90,88 91,10
EnSVM-RUS-OAO 91,73 92,19 91,36 91,84 91,13 91,21
RBF SVM-OAO 91,92 92,37 91,74 90,67 92,06 91,13
SVM-OAO (FCBF) 92,22 92,69 91,90 91,14 92,17 92,44
EnSVM-OAO 92,62 93,36 92,03 92,01 93,43 93,52
EnSVM-RUS-OAO 93,02 93,83 93,94 93,50 94,61 94,21
Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar 90,83%,
nilai F-score sebesar 90,61% dan nilai G-mean sebesar 90,98%. Pada kernel
polynomial dengan γ=0,001, cost=1 dan degree=3 menghasilkan nilai akurasi
sebesar 91,73%, nilai F-score sebesar 92,19% dan nilai G-mean sebesar 91,36%.
Sedangkan pada kernel RBF, performansi akurasi EnSVM-RUS-OAO dengan
γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 93.02%, nilai F-score sebesar
93,83% dan nilai G-mean sebesar 93,94%. Secara keseluruhan, dapat disimpulkan
59
bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF memberikan
hasil yang lebih tinggi daripada kernel linear dan polynomial.
Studi simulasi dengan 5000 fitur menunjukkan hasil bahwa metode EnSVM-
RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan metode
EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-
RUS-OAO sebesar 91,05%, nilai F-score sebesar 91,13% dan nilai G-mean sebesar
90,99%. Pada kernel polynomial dengan γ=0,0002, cost=1 dan degree=3
menghasilkan nilai akurasi sebesar 91.84%, nilai F-score sebesar 92,13% dan nilai
G-mean sebesar 91,21%. Sedangkan pada kernel RBF, performansi akurasi
EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi sebesar
93,50%, nilai F-score sebesar 94,61% dan nilai G-mean sebesar 94,21%. Secara
keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel
linear dan polynomial.
Gambar 4.2 Waktu Komputasi Rasio 5 (Skenario 2)
Setelah mendapatkan nilai performansi akurasi, F-score dan G-mean, tahap
selanjutnya yaitu mengukur performansi metode dari segi waktu komputasi. Waktu
komputasi diatur hanya menghitung proses klasifikasi saja, agar comparable untuk
dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.3 diatas.
Secara keseluruhan, dengan menggunakan 5000 fitur membutuhkan waktu
komputasi yang lebih lama dibandingkan dengan 1000 fitur. Hal tersebut karena
fitur yang sangat tinggi atau high dimensional data membuat proses klasifikasi lebih
lama. Perbandingan waktu klasifikasi antar kernel menunjukkan hasil bahwa kernel
linear memiliki waktu komputasi yang lebih kecil dibandingkan dengan kernel
0.2
0.21
0.23
0.36
0.3
0.32
0.14
0.17
0.18
0.25
0.23
0.24
0.08
0.14
0.15
0.19
0.17
0.19
0.06
0.07
0.1
0.13
0.12
0.18
1000 feature
5000 feature
1000 feature
5000 feature
1000 feature
5000 feature
Lin
ear
Po
lyn
om
ial
RB
F
SVM-OAO SVM-OAO (FCBF) EnSVM-OAO EnSVM-RUS-OAO
60
polynomial dan RBF. Selain itu hyperplane dengan 2 dimensi lebih mudah
dibandingkan dengan 3 dimensi, namun tidak mendapatkan akurasi yang lebih
tinggi.
4.2.3 Simulasi Skenario 3 (10:10:80)
Selanjutnya yaitu hasil rata-rata threefold cross validation untuk simulasi
skenario 3 dengan pembagian jumlah kelas yaitu 10:10:80 yang selanjutnya
dikategorikan dalam Rasio 8. Berdasarkan Tabel 4.3 dapat diketahui bahwa studi
simulasi dengan menggunakan 1000 fitur menunjukkan hasil bahwa metode
EnSVM-RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan
metode EnSVM-OAO dan SVM-OAO.
Tabel 4.3 Performansi Klasifikasi Rasio 8 (Skenario 3)
Kernel Metode 1000 fitur 5000 fitur
Akurasi F-score G-mean Akurasi F-score G-mean
Linear SVM-OAO 89,84 89,3 89,39 88,78 89,11 88,83
SVM-OAO (FCBF) 90,65 89,92 90,14 90,56 90,37 90,13
EnSVM-OAO 91,00 90,94 90,26 91,00 90,89 90,22
EnSVM-RUS-OAO 91,50 91,26 91,16 91,36 91,14 91,48
Polynomial SVM-OAO 88,97 88,94 88,44 89,38 88,44 89,27
SVM-OAO (FCBF) 89,61 89,99 89,89 90,05 89,69 90,06
EnSVM-OAO 90,25 90,44 90,40 90,21 89,94 90,29
EnSVM-RUS-OAO 91,70 91,72 91,87 92,09 92,06 92,31
RBF SVM-OAO 88,87 88,95 88,69 89,40 88,65 89,96
SVM-OAO (FCBF) 89,93 90,16 90,26 89,96 89,53 90,26
EnSVM-OAO 90,06 90,19 90,85 90,37 90,37 90,39
EnSVM-RUS-OAO 92,45 92,53 92,29 92,78 92,53 92,62
Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar 91,50%,
nilai F-score sebesar 91,26% dan nilai G-mean sebesar 91,16%. Pada kernel
polynomial dengan γ=0,001, cost=1 dan degree=3 menghasilkan nilai akurasi
sebesar 91,70%, nilai F-score sebesar 91,72% dan nilai G-mean sebesar 91,87%.
Sedangkan pada kernel RBF, performansi akurasi EnSVM-RUS-OAO dengan
γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 92,45%, nilai F-score sebesar
92,53% dan nilai G-mean sebesar 92,29%. Secara keseluruhan, dapat disimpulkan
bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF memberikan
hasil yang lebih tinggi daripada kernel linear dan polynomial.
Studi simulasi dengan 5000 fitur menunjukkan hasil bahwa metode EnSVM-
RUS-OAO memiliki performansi yang lebih tinggi dibandingkan dengan metode
61
EnSVM-OAO dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-
RUS-OAO sebesar 91,36%, nilai F-score sebesar 91,14% dan nilai G-mean sebesar
91,48%. Pada kernel polynomial dengan γ=0,0002, cost=1 dan degree=3
menghasilkan nilai akurasi sebesar 92,09%, nilai F-score sebesar 92,06% dan nilai
G-mean sebesar 92,31%. Sedangkan pada kernel RBF, performansi akurasi
EnSVM-RUS-OAO dengan γ=2-10, cost=23 menghasilkan nilai akurasi sebesar
92,78%, nilai F-score sebesar 92,53% dan nilai G-mean sebesar 92,62%. Secara
keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel
linear dan polynomial.
Gambar 4.3 Waktu Komputasi Imbalance Tinggi (Skenario 3)
Setelah mendapatkan nilai performansi akurasi, F-score dan G-mean, tahap
selanjutnya yaitu mengukur performansi metode dari segi waktu komputasi. Waktu
komputasi diatur hanya menghitung proses klasifikasi saja, agar comparable untuk
dibandingkan pada ketiga metode. Hasilnya dapat dilihat pada Gambar 4.3 diatas
yang menunjukkan secara visual waktu komputasi dari proses klasifikasi. Secara
keseluruhan, dengan menggunakan 5000 fitur membutuhkan waktu komputasi
yang lebih lama dibandingkan dengan dataset 1000 fitur.
Hal tersebut karena fitur yang sangat tinggi atau high dimensional data
membuat proses klasifikasi lebih lama. Perbandingan waktu klasifikasi antar kernel
menunjukkan hasil bahwa kernel linear memiliki waktu komputasi yang lebih kecil
dibandingkan dengan kernel polynomial dan RBF. Hal tersebut karena
mendapatkan hyperplane dengan 2 dimensi lebih mudah dibandingkan dengan 3
dimensi, namun tidak mendapatkan akurasi yang lebih tinggi.
0.46
0.6
0.46
0.57
0.42
0.64
0.21
0.26
0.25
0.28
0.32
0.39
0.15
0.19
0.19
0.2
0.28
0.24
0.08
0.08
0.12
0.13
0.14
0.1
1000 feature
5000 feature
1000 feature
5000 feature
1000 feature
5000 feature
Lin
ear
Po
lyn
om
ial
RB
F
SVM-OAO SVM-OAO (FCBF) EnSVM-OAO EnSVM-RUS-OAO
62
4.2.4 Perbandingan Semua Skenario Data Simulasi
Berikut ini merupakan perbandingan hasil studi simulasi dengan
menggunakan metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hasil
performansi akurasi, F-score dan G-mean dapat ditunjukkan pada grafik 4.4
sebagai berikut.
Gambar 4.4 Perbandingan Performansi Semua Skenario Data Simulasi
Berdasarkan Gambar 4.4 dapat diketahui bahwa, pada kondisi rasio 1 yaitu
perbandingan kelas 33:33:34 menunjukkan tidak ada perbedaan yang signifikan
antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hal tersebut
dikarenakan pada saat proses RUS, hanya menghapus 1 data saja, letak perbedaan
berada pada saat proses FCBF. Pada saat kondisi rasio 5 yaitu perbandingan kelas
10:40:50 dan rasio 8 yaitu perbandingan kelas 10:10:80, terlihat perbedaan antar
metode utamanya setelah dilakukan fitur seleksi FCBF. Sehingga metode EnSVM-
RUS-OAO sesuai jika diterapkan pada klasifikasi data imbalance. Semakin tinggi
rasio imbalance membuat performansi semakin menurun. Akan tetapi metode
EnSVM-RUS-OAO memberikan performansi yang lebih unggul dibandingkan
dengan metode EnSVM-OAO dan SVM-OAO.
4.3 Penerapan Pada Data Microarray
84
86
88
90
92
94
96
98
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
rasio 1 rasio 5 rasio 8
(%)
63
Berikut ini merupakan hasil penerapan metode EnSVM-RUS-OAO pada data
DNA Microarray. Data terdiri atas 3 dataset yaitu data Leukimia (IR 4,22), data
Brain tumor (IR 15,00) dan data Lung Cancer (IR 23,17).
4.3.1 Data Leukimia (IR 4,22)
Data pertama merupakan data Microarray yang terdiri dari ekspresi gen
pasien yang menderita Leukimia. Pengamatan pada data Leukimia diperoleh dari 72
pasien pengidap Leukimia yang terbagi menjadi tiga jenis, yaitu Acute
Lymphoblastic Leukimia B-Cell (ALL B-Cell), Acute Lymphoblastic Leukimia T-
Cell (ALL T-Cell) dan Myelogenous Leukimia (AML). Prosentase jenis Leukimia
dapat diketahui melalui Gambar pie chart berikut ini.
Gambar 4.5 Prosentase Jenis Leukimia
Gambar 4.5 menunjukkan bahwa dari 72 pengamatan pasien pengidap
Leukimia terdapat 38 pengamatan (53%) merupakan pasien pengidap ALL B-Cell,
sebanyak 9 pengamatan (12%) merupakan pasien pengidap ALL T-Cell dan
sebanyak 25 pengamatan (35%) lainnya merupakan pasien pengidap AML.
Sehingga rasio kelas imbalance adalah jumlah data kelas mayor (38) dibagi dengan
jumlah data kelas minor (9) yaitu 4,22. Pola nilai ekspresi gen dari beberapa fitur
yang terdapat pada data Leukimia ditunjukkan melalui persebaran data pada
Gambar 4.6 berikut.
Gambar 4.6 Persebaran Data dari Beberapa Fitur pada Data Leukimia
Scatter Plot Matrix
A1200300400
200 400
0100200
0 200
A2400005000060000
40000
100002000030000
10000
A3-200
200-200
-800
-400-800
A4200400
200
-2000
-200
A550
10050
-50
0-50 0
A61000
2000
1000
-1000
0-1000
Klasifikasi Data Leukimia1ALL Bcell ALL Tcell AML
64
Berdasarkan Gambar 4.6 Nilai ekspresi gen dari kelas ALL B-Cell (lingkaran
biru), kelas ALL T-Cell (lingkaran ungu) dan kelas AML (lingkaran hijau) pada
beberapa fitur memiliki nilai yang cenderung sama. Berdasarkan Gambar 4.6,
didapatkan bahwa data untuk masing-masing kelas tersebar secara merata, hal
tersebut akan mempersulit dalam melakukan proses klasifikasi, sehingga
diperlukan fungsi pemisah atau hyperplane metode kernel untuk mempermudah
proses klasifikasi data.
Langkah pertama dalam penerapan metode ini yaitu seleksi fitur. Proses
pemilihan fitur terbaik atau biasa disebut fitur selection mempunyai konsep
memilih fitur-fitur yang berpengaruh terhadap klasifikasi data sehingga diharapkan
dapat meningkatkan hasil akurasi klasifikasi dengan waktu yang efektif dan biaya
yang lebih sedikit. Hasil FCBF ditampilkan pada Tabel berikut.
Tabel 4.4 Seleksi fitur FCBF dari Data Leukimia
Nomor Fitur Nama Fitur Gain
Information Seleksi fitur
Gain
Information
1 A1 0,016 A1426 0,634
2 A2 0,145 A5142 0,563
3 A3 0,017 A1999 0,541
… … … … …
97 A97 … A3190 0,200
… … …
5327 A5327 0,321
Jumlah fitur 5920 97
waktu 0,513 menit 0,063 menit
Pemilihan fitur untuk klasifikasi dihitung melalui analisis korelasi pada fitur
(serta kelas) melibatkan dua aspek yaitu (1) menentukan apakah suatu fitur relevan
dengan kelas atau tidak, dan (2) memutuskan apakah suatu fitur yang relevan
tersebut redundant (berlebihan). Berdasarkan hasil perhitungan yang telah
dilakukan, jumlah fitur yang relevant untuk data Leukimia dengan threshold = 0,2
terpilih sebanyak 97 fitur. Waktu komputasi 0,063 menit lebih cepat dibandingkan
tanpa dilakukan seleksi fitur FCBF yaitu 0,513 menit.
Selanjutnya yaitu tahapan pencarian parameter yang optimal untuk dapat
meningkatkan performansi klasifikasi. Berikut ini merupakan hasil optimasi
parameter RBF menggunakan metode grid search dengan nilai cost 2-5 sampai 215
dan nilai γ = 2-15 sampai 2-3. Nilai parameter ditentukan berdasarkan penelitian Hsu,
Chang dan Lin (2016).
65
Gambar 4.7 Grid search SVM Data Leukimia
Gambar 4.7 merupakan performansi akurasi, F-score dan G-mean secara
visual. Grid berwarna putih menunjukkan nilai performansi yang semakin baik,
sedangkan grid yang berwarna biru menunjukkan nilai performansi yang semakin
buruk. Parameter cost terbaik terletak pada grid 21 sampai 215 sedangkan parameter
γ terbaik terletak pada grid 2-8 sampai 2-15.
Gambar 4.8 Nilai Optimum Grid search SVM Data Leukimia
Secara spesifik, nilai parameter cost dan γ terbaik dapat ditunjukkan pada
multiple line plot pada Gambar 4.8 diatas. Puncak tertinggi terletak pada nilai cost
23 dan nilai γ = 2-10 yang selanjutnya diterapkan untuk menghitung performansi
metode SVM-OAO, EnSVM-OAO dan EnSVM-OAO (RUS). Berikut ini merupakan
hasil performansi klasifikasi yang dinyatakan dalam nilai akurasi, F-score dan G-
mean dari metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO pada data
Leukimia.
66
Tabel 4.5 Performansi Klasifikasi Data Leukimia (IR 4,22)
Kernel Metode Akurasi F-score G-mean
Linear SVM-OAO 95,83 97,43 97,48
SVM-OAO (FCBF) 95,83 97,44 97,44
EnSVM-OAO 95,83 98,67 98,69
EnSVM-RUS-OAO 100 100 100
Polynomial SVM-OAO 55,56 70,41 73,73
SVM-OAO (FCBF) 73,61 80,11 81,77
EnSVM-OAO 75,00 80,93 82,45
EnSVM-RUS-OAO 88,89 86,90 88,02
RBF SVM-OAO 70,83 78,38 80,29
SVM-OAO (FCBF) 95,83 97,44 97,44
EnSVM-OAO 97,22 100 100
EnSVM-RUS-OAO 100 100 100
Berdasarkan Tabel 4.5 dapat diketahui bahwa metode EnSVM-RUS-OAO
memiliki performansi yang lebih tinggi dibandingkan dengan metode EnSVM-OAO
dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-RUS-OAO sebesar
100%, nilai F-score sebesar 100% dan nilai G-mean sebesar 100%. Pada kernel
polynomial dengan γ=0,000188, cost=1 dan degree=3 menghasilkan nilai akurasi
sebesar 88,89%, nilai F-score sebesar 86,90% dan nilai G-mean sebesar 88,02%.
Sedangkan pada kernel RBF, performansi akurasi EnSVM-RUS-OAO dengan
γ=2-10, cost=23 menghasilkan nilai akurasi sebesar 100%, nilai F-score sebesar
100% dan nilai G-mean sebesar 100%. Secara keseluruhan, dapat disimpulkan
bahwa metode EnSVM-RUS-OAO dengan menggunakan kernel RBF dan linear
memberikan hasil yang lebih tinggi dari pada kernel polynomial.
Gambar 4.9 Dendogram (a) dan Perbandingan Akurasi untuk Ukuran Subspace Leukimia (b)
Gambar 4.9 hasil dendogram untuk data leukemia dan menunjukkan
performansi akurasi dari ukuran subspace data Leukimia. Pemilihan jumlah cluster
sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan garis horizontal yang
0.7
0.75
0.8
0.85
0.9
0.95
1
F S S 2 F S S 5 F S S 2 R U S
F S S 5 R U S
AK
UR
ASI
(%
)
UKURAN CLUSTER-METODE
Linear Polynomial RBF(a) (b)
67
memotong garis cluster yang dihasilkan oleh dendogram. Perbandingan akurasi
menunjukkan bahwa pada kernel RBF dengan EnSVM-OAO ukuran subspace 2
mempunyai nilai akurasi 86,04%, dengan ukuran subspace 5 nilainya turun menjadi
82,04%. Sedangkan jika menggunakan metode EnSVM-RUS-OAO dengan ukuran
subspace 2 mempunyai nilai akurasi 96,29% dan dengan ukuran subspace 5
nilainya turun menjadi 80,65%. Secara keseluruhan, ukuran subspace yang
optimum adalah 2 cluster baik pada kernel linear, polynomial maupun RBF.
Semakin banyak ukuran subspace tidak menunjukkan performa yang lebih tinggi.
Selanjutnya akan dibahas performansi dari waktu klasifikasi pada Tabel berikut.
Tabel 4.6 Waktu Klasifikasi Data Leukimia (IR 4,22)
Metode Linear Polynomial RBF
SVM-OAO 1,649 1,611 1,494
SVM-OAO (FCBF) 0,104 0,094 0,042
EnSVM-OAO 0,133 0,142 0,148
EnSVM-RUS-OAO 0,114 0,096 0,048
Tabel 4.6 menunjukkan waktu komputasi dari proses klasifikasi.
Pengukuran waktu dilakukan pada tahap membentuk model klasifikasi, dalam hal
ini yaitu model SVM-OAO. Hasilnya menunjukkan bahwa kernel RBF dan kernel
polynomial mempunyai waktu komputasi relatif lebih cepat dan comparable
dibandingkan dengan kernel linear. Metode FCBF mampu mengurangi komputasi
karena mengurangi banyak fitur sehingga lebih efektif dalam membentuk model
classifier. Metode RUS juga mengurangi waktu komputasi karena menghapus kelas
mayor sehingga sama dengan kelas minor.
4.3.2 Data Brain tumor (IR 15,00)
Data kedua merupakan data Microarray yang terdiri dari ekspresi gen pasien
yang menderita Brain Tumor. Pengamatan pada data Brain tumor diperoleh dari 90
pasien pengidap Brain tumor yang terbagi menjadi lima jenis, yaitu
Medulloblastoma, Malignant glioma, AT/RT, Normal cerebellum dan PNET.
Prosentase jenis Brain tumor dapat diketahui melalui Gambar pie chart berikut ini.
68
Gambar 4.10 Prosentase Jenis Brain Tumor
Gambar 4.10 menunjukkan bahwa dari 90 pengamatan pasien pengidap
Brain tumor terdapat 60 pengamatan (67%) merupakan pasien pengidap
Medulloblastoma, sebanyak 10 pengamatan (11%) merupakan pasien pengidap
Malignant glioma, sebanyak 10 pengamatan (11%) merupakan pasien pengidap
AT/RT, sebanyak 4 pengamatan (4%) merupakan pasien pengidap Normal
cerebellum dan sebanyak 6 pengamatan (7%) lainnya merupakan pasien pengidap
PNET. Sehingga rasio kelas imbalance adalah jumlah data kelas mayor (60) dibagi
dengan jumlah data kelas minor (4) yaitu 15. Berikut persebaran Brain Tumor.
Gambar 4.11 Persebaran Data dari Beberapa Fitur pada Data Brain Tumor
Berdasarkan Gambar 4.11 Nilai ekspresi gen dari kelas Medulloblastoma
(lingkaran biru), kelas Malignant glioma (lingkaran ungu), kelas AT/RT (lingkaran
hijau), kelas Normal cerebellum (lingkaran merah) dan kelas PNET (lingkaran
kuning) pada beberapa fitur memiliki nilai yang cenderung sama.
Berdasarkan Gambar 4.12, dapat diketahui bahwa bahwa data untuk masing-
masing kelas tersebar secara merata, hal tersebut akan mempersulit dalam
melakukan proses klasifikasi, sehingga diperlukan fungsi pemisah atau hyperplane
metode kernel untuk mempermudah proses klasifikasi data. Selanjutnya yaitu
Scatter Plot Matrix
A10200400
0 400
-400-200
0-400 0
A2200400600200 600
-2000
200-200200
A3100000150000200000
100000
050000
1000000 100000
A4-1000
0-1000
-2500
-1500-2500
A5-5000500-500 500
-1500-1000-500
-1500
A6-100
100-100200
-400
-200-400-100
Klasifikasi Data Brain Tumor1MedulloblastomaMalignant glioma
AT/RTNormal cerebellum
PNET
69
seleksi fitur dengan menggunkan metode FCBF. Metode FCBF mampu
menunjukkan hasil yang lebih baik dengan waktu komputasi yang lebih cepat
dibandingkan metode lain. Berikut merupakan hasil seleksi fitur FCBF pada data
Brain Tumor. Tabel 4.7 akan menggambarkan fitur mana saja yang memiliki
informasi yang penting untuk dilakukan analisis dengan klasifikasi SVM.
Tabel 4.7 Seleksi fitur FCBF dari Data Brain Tumor
Nomor Fitur Fitur Gain
Information Seleksi fitur
Gain
Information
1 A1 0,216 A5453 0,642
2 A2 0,312 A2493 0,613
3 A3 0 A1048 0,606
… … … … …
118 A118 … A3094 0,200
… … …
5920 A5920 0,198
Jumlah fitur 5920 118
waktu 0,663 menit 0,253 menit
Tabel 4.7 diatas menunjukkan hasil seleksi fitur FCBF dari data Brain Tumor.
Jumlah fitur yang relevant untuk data Brain tumor dengan threshold = 0,2 terpilih
sebanyak 118 fitur. Waktu komputasi 0,253 menit lebih cepat dibandingkan tanpa
dilakukan seleksi fitur FCBF yaitu 0,663 menit. Adanya seleksi fitur membuat
waktu komputasi menjadi lebih cepat. Setelah dilakukan tahapan fitur seleksi,
kemudian dilakukan tahap optimasi parameter. Tahap optimasi parameter RBF
menggunakan metode grid search dengan nilai cost 2-5 sampai 215 dan nilai γ=2-15
sampai 2-3. Nilai tersebut ditetapkan sesuai dengan metodologi penelitian. Hasilnya
ditunjukkan pada Gambar 4.12 sebagai berikut ini.
Gambar 4.12 Grid search SVM Dataset Brain Tumor
70
Gambar 4.12 menunjukkan performansi akurasi, F-score dan G-mean
secara visual. Grid berwarna putih menunjukkan nilai performansi yang semakin
baik, sedangkan grid yang berwarna biru menunjukkan nilai performansi yang
semakin buruk. Parameter cost terbaik terletak pada grid 22 sampai 215 sedangkan
parameter γ terbaik terletak pada grid 2-10 sampai 2-15. Namun pada dataset Brain
Tumor, optimasi parameter RBF hanya mencapai kisaran 90% saja.
Gambar 4.13 Nilai Optimum Grid search SVM Dataset Brain Tumor
Secara spesifik, nilai parameter cost dan γ terbaik dapat ditunjukkan pada
multiple line plot pada Gambar 4.13 diatas. Puncak tertinggi terletak pada nilai cost
213 dan nilai γ=2-12 yang selanjutnya diterapkan untuk menghitung performansi
metode SVM-OAO, EnSVM-OAO dan EnSVM-OAO (RUS). Berikut ini merupakan
hasil performansi klasifikasi yang dinyatakan dalam nilai akurasi, F-score dan G-
mean dari metode EnSVM-RUS-OAO jika dibandingkan dengan EnSVM-OAO dan
SVM-OAO pada data Brain tumor dengan IR sebesar 15,00.
Tabel 4.8 Performansi Klasifikasi Data Brain tumor (IR 15,00)
Kernel Metode Akurasi F-score G-mean
Linear SVM-OAO 92,08 92,17 92,27
SVM-OAO (FCBF) 96,55 97,52 97,54
EnSVM-OAO 96,06 97,18 97,21
EnSVM-RUS-OAO 96,56 97,54 97,55
Polynomial SVM-OAO 88,58 92,49 92,57
SVM-OAO (FCBF) 88,2 92,34 92,57
EnSVM-OAO 83,77 90 90,46
EnSVM-RUS-OAO 82,79 89,43 89,95
RBF SVM-OAO 68,48 81,29 82,75
SVM-OAO (FCBF) 96,06 97,16 97,17
EnSVM-OAO 96,05 97,18 97,2
EnSVM-RUS-OAO 93,11 95,1 95,15
71
Berdasarkan Tabel 4.8 dapat diketahui bahwa metode EnSVM-RUS-OAO
memiliki performansi yang lebih tinggi dibandingkan dengan metode EnSVM-OAO
dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-OAO sebesar
87,88%, nilai F-score sebesar 94,09% dan nilai G-mean sebesar 94,18%. Pada
kernel polynomial metode SVM-OAO (FCBF) dengan γ=0,000169, cost=1 dan
degree=3 menghasilkan nilai akurasi sebesar 85.39%, nilai F-score sebesar 92,67%
dan nilai G-mean sebesar 92,77%. Sedangkan pada kernel RBF, performansi
akurasi EnSVM-RUS-OAO dengan γ=2-12, cost=213 menghasilkan nilai akurasi
sebesar 87,78%, nilai F-score sebesar 92,75% dan nilai G-mean sebesar 92,87%.
Secara keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel
linear dan polynomial.
Gambar 4.14 Dendogram (a) dan Perbandingan Akurasi Ukuran Subspace Brain Tumor (b)
Gambar 4.14 merupakan hasil dendogram untuk data Brain Tumor dan
menunjukkan performansi akurasi dari ukuran subspace data Brain Tumor.
Pemilihan jumlah cluster sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan
garis horizontal yang memotong garis cluster yang dihasilkan oleh dendogram.
Perbandingan ukuran cluster menunjukkan performansi akurasi dari ukuran
subspace data Brain Tumor. Hasilnya menunjukkan bahwa pada kernel RBF
dengan EnSVM-OAO ukuran subspace 2 mempunyai nilai akurasi 66,72%, dengan
ukuran subspace 5 nilainya menjadi 66,76%. Sedangkan jika menggunakan metode
EnSVM-RUS-OAO dengan ukuran subspace 2 mempunyai nilai akurasi 87,78% dan
dengan ukuran subspace 5 nilainya turun menjadi 66,72%. Secara keseluruhan,
0
10
20
30
40
50
60
70
80
90
100
FSS 2 FSS 5 FSS 2 RUS FSS 5 RUS
AK
UR
ASI
(%
)
UKURAN CLUSTER-METODE
Linear Polynomial RBF(a) (b)
72
ukuran subspace yang optimum adalah 2 cluster baik pada kernel linear, polynomial
maupun RBF. Selanjutnya akan dibahas performansi dari waktu klasifikasi.
Tabel 4.9 Waktu Klasifikasi Data Brain tumor (IR 15,00)
Metode Linear Polynomial RBF
SVM-OAO 3,10 0,28 0,32
SVM-OAO (FCBF) 3,08 0,24 0,30
EnSVM-OAO 1,20 0,39 0,33
EnSVM-RUS-OAO 3,10 0,28 0,32
Tabel 4.9 menunjukkan waktu komputasi dari proses klasifikasi. Hasilnya
menunjukkan bahwa kernel RBF dan kernel polynomial mempunyai waktu
komputasi lebih cepat dibandingkan dengan linear. Metode FCBF mampu
mengurangi komputasi karena mengurangi banyak fitur sehingga lebih efektif
dalam membentuk model classifier. Metode RUS juga mengurangi waktu
komputasi karena menghapus kelas mayor sehingga sama dengan kelas minor.
4.3.3 Data Lung Cancer (IR 23,17)
Data ketiga merupakan data Microarray yang terdiri dari ekspresi gen
pasien yang menderita Lung Cancer. Pengamatan pada data Lung Cancer diperoleh
dari 203 pasien pengidap Lung Cancer yang terbagi menjadi lima jenis, yaitu
Adeno, Normal, Squamous, COID dan SMCL. Prosentase jenis Lung Cancer dapat
diketahui melalui Gambar pie chart berikut ini.
Gambar 4.15 Prosentase Jenis Lung Cancer
Gambar 4.15 menunjukkan bahwa dari 203 pengamatan pasien pengidap
Lung Cancer terdapat 139 pengamatan (68%) merupakan pasien pengidap Adeno,
sebanyak 17 pengamatan (8%) merupakan pasien pengidap Normal, sebanyak 21
pengamatan (10%) merupakan pasien pengidap Squamous, sebanyak 21
pengamatan (10%) merupakan pasien pengidap COID dan sebanyak 6 pengamatan
73
(3%) lainnya merupakan pasien pengidap SMCL. Sehingga rasio kelas imbalance
adalah jumlah data kelas mayor (139) dibagi dengan jumlah data kelas minor (6)
yaitu 23,17. Pola nilai ekspresi gen dari beberapa fitur yang terdapat pada data Lung
Cancer ditunjukkan melalui persebaran data pada Gambar 4.16 berikut.
Gambar 4.16 Persebaran Fitur pada Data Lung Cancer
Berdasarkan Gambar 4.16 Nilai ekspresi gen dari kelas Adeno (lingkaran
biru), kelas Normal (lingkaran ungu), kelas Squamous (lingkaran hijau), kelas
COID (lingkaran merah) dan kelas SMCL (lingkaran kuning) pada beberapa fitur
memiliki nilai yang cenderung sama. Hal tersebut akan mempersulit dalam
melakukan proses klasifikasi, sehingga diperlukan fungsi pemisah atau hyperplane
untuk mempermudah proses klasifikasi data. Proses pemisahan data Lung Cancer
tidak bisa dipisahkan secara linear, sehingga diperlukan pemisah untuk data secara
tidak linier dengan menggunakan metode kernel.
Nilai ekspresi gen pada data Lung Cancer akan digunakan untuk membuat
model SVM yang dapat memisahkakan data ke dalam lima kelas, yaitu Adeno,
Normal, Squamous, COID dan SMCL. Selanjutnya yaitu seleksi fitur dengan
menggunakan metode FCBF. Beberapa penelitian menunjukkan bahwa metode
FCBF mampu menunjukkan hasil yang lebih baik dengan waktu komputasi yang
lebih cepat dibandingkan metode lain. Berikut merupakan hasil seleksi fitur FCBF
pada data Lung Cancer yang ditunjukkan pada Tabel 4.10 sebagai berikut.
74
Tabel 4.10 Pemilihan Fitur dengan FCBF Pada Dataset Lung Cancer
Nomor Fitur Fitur Gain
Information Seleksi fitur
Gain
Information
1 A1 0,192 A3191 0,801
2 A2 0,436 A10175 0,784
3 A3 0,126 A1048 0,722
… … … … …
252 A252 … A7568 0,229
… … …
12600 A12600 0,285
Jumlah fitur 12600 252
waktu 1,02 menit 0,09 menit
Berdasarkan hasil perhitungan yang telah dilakukan, jumlah fitur yang
relevant untuk Lung Cancer dataset dengan threshold = 0,2 terpilih sebanyak 252
fitur. Waktu komputasi 0,009 menit lebih cepat dibandingkan tanpa dilakukan
seleksi fitur FCBF yaitu 1,02 menit. Sehingga, adanya seleksi fitur membuat waktu
komputasi menjadi lebih cepat. Tahap selanjutnya yaitu melakukan optimasi
parameter kernel RBF menggunakan metode grid search dengan nilai cost 2-5
sampai 215 dan nilai γ=2-15 sampai 2-3. Hasilnya ditunjukkan pada Gambar grid
search berikut.
Gambar 4.17 Grid search SVM Dataset Lung Cancer
Gambar 4.17 merupakan performansi akurasi, F-score dan G-mean secara
visual. Grid berwarna putih menunjukkan nilai performansi yang semakin baik,
sedangkan grid yang berwarna biru menunjukkan nilai performansi yang semakin
buruk. Parameter cost terbaik terletak pada grid 22 sampai 215 sedangkan parameter
γ terbaik terletak pada grid 2-10 sampai 2-15. Namun pada dataset Brain Tumor,
optimasi parameter RBF hanya mencapai kisaran 95% saja.
75
Gambar 4.18 Optimasi Nilai Grid search SVM Dataset Lung Cancer
Secara spesifik, nilai parameter cost dan γ terbaik dapat ditunjukkan pada
multiple line plot pada Gambar 4.18 diatas. Puncak tertinggi terletak pada nilai cost
25 dan nilai γ= 2-12 yang selanjutnya diterapkan untuk menghitung performansi
metode SVM-OAO, EnSVM-OAO dan EnSVM-OAO (RUS). Berikut ini merupakan
hasil performansi klasifikasi yang dinyatakan dalam nilai akurasi, F-score dan G-
mean dari metode EnSVM-RUS-OAO jika dibandingkan dengan EnSVM-OAO dan
SVM-OAO pada data Lung Cancer dengan IR sebesar 23,17.
Tabel 4.11 Performansi Klasifikasi Data Lung Cancer (IR 23,17)
Kernel Metode Akurasi F-score G-mean
Linear SVM-OAO 92,08 92,17 92,27
SVM-OAO (FCBF) 92,59 94,64 94,65
EnSVM-OAO 92,61 94,61 94,71
EnSVM-RUS-OAO 94,09 95,77 95,79
Polynomial SVM-OAO 88,58 92,49 92,57
SVM-OAO (FCBF) 88,62 92,36 92,61
EnSVM-OAO 92,11 94,38 94,48
EnSVM-RUS-OAO 91,63 93,98 94,00
RBF SVM-OAO 68,48 81,29 82,75
SVM-OAO (FCBF) 94,10 95,78 95,83
EnSVM-OAO 94,58 96,15 96,18
EnSVM-RUS-OAO 94,57 96,15 96,21
Berdasarkan Tabel 4.11 dapat diketahui bahwa metode EnSVM-RUS-OAO
memiliki performansi yang lebih tinggi dibandingkan dengan metode EnSVM-OAO
dan SVM-OAO. Pada kernel linear, performansi akurasi EnSVM-OAO sebesar
94,09%, nilai F-score sebesar 95,77% dan nilai G-mean sebesar 95,79%. Pada
kernel polynomial metode SVM-OAO (FCBF) dengan γ=0.0000793, cost=1 dan
degree=3 menghasilkan nilai akurasi sebesar 85,39%, nilai F-score sebesar 92,11%
dan nilai G-mean sebesar 94,38%. Sedangkan pada kernel RBF, performansi
76
akurasi EnSVM-RUS-OAO dengan γ=2-12, cost=25 menghasilkan nilai akurasi
sebesar 94,57%, nilai F-score sebesar 96,15% dan nilai G-mean sebesar 96,21%.
Secara keseluruhan, dapat disimpulkan bahwa metode EnSVM-RUS-OAO dengan
menggunakan kernel RBF memberikan hasil yang lebih tinggi daripada kernel
linear dan polynomial.
Gambar 4.19 Dendogram (a) Perbandingan Akurasi Ukuran Subspace Lung Cancer (b)
Gambar 4.19 merupakan hasil dendogram untuk data Lung Cancer dan
menunjukkan performansi akurasi dari ukuran subspace data Lung Cancer.
Pemilihan jumlah cluster sebanyak 2 cluster dan 5 cluster ditentukan berdasarkan
garis horizontal yang memotong garis cluster yang dihasilkan oleh dendogram.
Perbandingan ukuran cluster menunjukkan bahwa pada kernel RBF dengan
EnSVM-OAO ukuran subspace 2 mempunyai nilai akurasi 94,58%, dengan ukuran
subspace 5 nilainya menjadi 68,47%. Sedangkan jika menggunakan metode
EnSVM-RUS-OAO dengan ukuran subspace 2 mempunyai nilai akurasi 94,57% dan
dengan ukuran subspace 5 nilainya turun menjadi 68,47%. Secara keseluruhan,
ukuran subspace yang optimum adalah 2 cluster baik pada kernel linear, polynomial
maupun RBF. Selanjutnya akan dibahas performansi dari waktu klasifikasi sebagai
salah satu ukuran performansi suatu metode.
Tabel 4.12 Waktu Klasifikasi Data Lung Cancer (IR 23,17)
Metode Linear Polynomial RBF
SVM-OAO 4,33 0,29 0,57
SVM-OAO (FCBF) 4,37 0,28 0,45
EnSVM-OAO 5,45 0,36 0,12
EnSVM-RUS-OAO 4,33 0,29 0,57
0
20
40
60
80
100
F S S 2 F S S 5 F S S 2 R U S F S S 5 R U S
AK
UR
ASI
(%)
UKURAN CLUSTER-METODE
Linear Polynomial RBF(a) (b)
77
Tabel 4.12 menunjukkan waktu komputasi dari proses klasifikasi. Hasilnya
menunjukkan bahwa kernel RBF dan kernel polynomial mempunyai waktu
komputasi lebih cepat dibandingkan dengan linear. Metode FCBF mampu
mengurangi komputasi karena mengurangi banyak fitur sehingga lebih efektif
dalam membentuk model classifier. Metode RUS juga mengurangi waktu
komputasi karena menghapus kelas mayor sehingga sama dengan kelas minor.
4.3.4 Perbandingan Performansi Semua Data Riil
Berikut ini merupakan perbandingan hasil penerapan data riil dengan
menggunakan metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO. Hasil
performansi akurasi, F-score dan G-mean ditunjukkan pada grafik 4.20 sebagai
berikut.
Gambar 4.20 Perbandingan Performansi Semua Data Riil
Berdasarkan Gambar 4.20 dapat diketahui bahwa, pada kondisi data
leukemia dengan IR 4,22 menunjukkan hasil tidak ada perbedaan yang signifikan
antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-OAO baik sebelum dan
sesudah dilakukan seleksi fitur FCBF. Sedangkan pada kondisi data brain tumor
dengan IR 15,00 dan data Lung Cancer dengan IR 23,17 menunjukkan adanya
perbedaan yang signifikan antara metode SVM-OAO sebelum dan sesudah
dilakukan seleksi fitur FCBF. Pada saat menggunakan metode EnSVM-OAO
hasilnya tidak menunjukkan kenaikan performansi. Namun dengan adanya Random
Undersampling dalam mengatasi kelas imbalance, membuat metode EnSVM-RUS-
OAO memberikan performansi lebih tinggi dibandingkan metode EnSVM-OAO dan
0
20
40
60
80
100
120
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
SVM
-OA
O
SVM
-OA
O (
FCB
F)
EnSV
M-O
AO
EnSV
M-R
US-
OA
O
Leukimia (Rasio 4,22) Brain Tumor (Rasio 15,00) Lung Cancer (Rasio 23,17)
(%)
78
SVM-OAO. Sehingga metode EnSVM-RUS-OAO sesuai jika diterapkan pada
klasifikasi data imbalance, baik tinggi maupun rendah.
Gambar 4.21 Perbandingan Waktu Komputasi Semua Data Riil
Gambar 4.21 menunjukkan waktu komputasi dari proses klasifikasi. Pada
data leukimia dengan IR sebesar 4,22 menunjukkan antara kernel linear, RBF dan
polynomial tidak menujukkan perbedaan. Pada data Brain Tumor dengan IR sebesar
15,00 menunjukkan kernel RBF dan polynomial yang lebih unggul secara waktu
komputasi dibandingkan kernel linear. Begitu pula data Lung Cancer dengan IR
sebesar 23,17 menunjukkan kernel RBF dan polynomial yang lebih unggul secara
waktu komputasi dibandingkan kernel linear. Secara keseluruhan dapat
disimpulkan bahwa kernel RBF dan polynomial yang lebih unggul secara waktu
komputasi dibandingkan kernel linear dengan menggunakan metode klasifikasi
yaitu EnSVM-OAO-RUS.
0
1
2
3
4
5
6Li
ne
ar
Po
lyn
om
ial
RB
F
Lin
ear
Po
lyn
om
ial
RB
F
Lin
ear
Po
lyn
om
ial
RB
F
Leukimia (IR 4,22) Brain Tumor (IR 15,00) Lung Cancer (IR 23,17)
(me
nit
)
SVM-OAO SVM-OAO (FCBF) EnSVM-OAO EnSVM-RUS-OAO
79
BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Kesimpulan dari hasil dan pembahasan tentang studi simulasi dan penerapan
data riil DNA Microarray menggunakan metode EnSVM-RUS-OAO adalah sebagai
berikut.
1. Studi simulasi rasio 1 yaitu perbandingan kelas 33:33:34 menunjukkan hasil
tidak ada perbedaan yang signifikan antara metode EnSVM-RUS-OAO,
EnSVM-OAO dan SVM-OAO. Hal tersebut dikarenakan pada saat proses
RUS, hanya menghapus 1 data saja, letak perbedaan berada pada saat proses
FCBF. Pada simulasi rasio 5 yaitu perbandingan kelas 10:40:50 dan rasio 8
yaitu perbandingan kelas 10:10:80, terlihat perbedaan yang signifikan antar
metode. Sehingga metode EnSVM-RUS-OAO sesuai jika diterapkan pada
klasifikasi data imbalance.
2. Pada data leukemia dengan IR 4,22 menunjukkan hasil tidak ada perbedaan
yang signifikan antara metode EnSVM-RUS-OAO, EnSVM-OAO dan SVM-
OAO baik sebelum dan sesudah dilakukan seleksi fitur FCBF. Sedangkan
pada kondisi data brain tumor dengan IR 15 dan data Lung Cancer dengan IR
23,17 menunjukkan adanya perbedaan yang signifikan antara metode SVM-
OAO sebelum dan sesudah dilakukan seleksi fitur FCBF. Pada saat
menggunakan metode EnSVM-OAO hasilnya tidak menunjukkan kenaikan
performansi. Namun dengan adanya Random Undersampling dalam
mengatasi kelas imbalance, membuat metode EnSVM-RUS-OAO
memberikan hasil yang lebih unggul. Sehingga metode EnSVM-RUS-OAO
sesuai jika diterapkan pada klasifikasi data imbalance.
5.2 Saran
Berdasarkan kesimpulan yang diperoleh, saran yang dapat dipertimbangkan
untuk penelitian selanjutnya adalah sebagai berikut.
80
1. Menggunakan metode untuk mengatasi kelas imbalance lain seperti
undersampling dengan pembobot atau metode sampling lainnya seperti
oversampling dan combine sampling.
2. Pengembangan metode ensemble lainnya seperti bagging, boosting dan
stacking untuk membuat model lebih kuat sebagai classifier.
3. Menggunakan metode multiclass lainnya seperti SVM-OAA, DDAG dan
ECOC dalam mengatasi masalah multiclass.
4. Pada studi simulasi, penelitian selanjutnya diharapkan dapat melakukan
simulasi sesuai dengan kriteria rasio imbalance yaitu rendah, medium dan
tinggi.
81
DAFTAR PUSTAKA
Abdi, M.J., Hosseini, S. M., and Rezghi, M. (2012). “A novel weighted support
vector machine based on particle swarm optimization for gene selection and
tumor classification,” Computational and Mathematical Methods in
Medicine, vol.2012, Article ID 320698, 7 pages.
Akbani, R., Kwek, S., and Japkowicz, N. (2004). Applying Support Vector
Machines to Kelas imbalanceset. European Conference on Machine
Learning, Springer, 39-50.
Alonso, A., Noelia, S., and Veronica, B. (2015). Fitur Selection for High
dimensional Data. Artificial Intelligence: Fondations, Theory, and
Algorthms. Springel International Publishing Switzerland.
Anand, G., Pugalenthi, G. Fogel, B., and Suganthan. (2010) “An Approach for
Classification of Highly Class imbalance Using Weighting and
Undersampling,” Amino Acids, vol. 39, no.5, pp.1385–1391..
Burges, C. (1998). “A Tutorial On Support Vector Machine for Pattern
Recognition”. Data Mining and Knowledge Discovery, Vol. 2, No. 2,
Hal.955-974.
Canedo, V. B., Marono, N. S., Betanzos, A. A., Benitez, J., and Herrera, F. (2014).
A Review of Microarray Dataset and Applied Fitur Selection Methods.
information Science, 111-135.
Chen,Y., and Zhao, Y. (2008). “A novel ensemble of classifiers for Microarray data
classification,” Applied Soft Computing Journal, vol. 8, no. 4, pp. 1664–
1669.
Chen, P.H., Lin, C.J., and Scholkopf, B. (2005). “A Tutuorial on v-Support Vector
Machines Applied Stochastic Model in Business and Industry, Vol 21, Hal.
111-136.
Choi, J. (2010). A Selective Sampling Method for Class Imbalance Learning on
Support Vector Machines. Graduate Theses and Dissertations, Paper 11529.
Chu, F., and Lipo, W. (2005). Applications of Support Vector Machines to Cancer
Classification with Microarray Data. International Journal of Neiral System,
475-484.
Cortez, C., and Vapnik, V. (1995). “Support Vector Networks”, Machine Learning,
Vol. 20, No. 3, Hal. 273–297.
82
Gunn, S. (1998). Support vector Machines for Classification and Regression.
Technical Report, ISIS.
Guo, J., Yi, P., Wang, R., Ye, Q. and Zhao, C. (2014). Fitur Selection for Least
Square Projection Twin Support Vector Machine . Neurocomputing, Vol. 14,
Hal. 174-183.
Guyon, I., Weston, J., Barnhill, S. and Vapnik, V. (2002). Gene Selection for
Cancer Classification using Support Vector Machines. Machine Learning,
389-422.
Haerdle, W.K., Prastyo, D.D., and Hafner, C.M. (2014).”Support Vector Machines
with Evolutionary Model Selection for Default Prediction," in Racine, JS, Su,
L, and Ullah, A eds.,The Oxford Handbook of Applied Nonparametric and
Semiparametric Econometrics and Statistics, Oxford University Press, 346-
373.
Han, J., Kamber, M., and Jian, P. (2006). Data Mining: Concept and Techniques
(3th ed). San Fransisco: Morgan Kaufmaan.
Hsu, C.W., Chang, C.C., and Lin, C.J. (2004). “A Practical Guide to Support Vector
Classification”, Department of Computer Scinece an Information
Engineering, National Taiwan University.
Lestarini, R., Brotoharsono, T., and Hidayati, H. (2012). Implementasi dan Analisis
Granular SVM dengan Repetitive Undersampling Untuk E-mail Spam
Filtering. ITB : Bandung.
Lin, W.J., and Chen, J.J. (2013). “Class-Imbalance Classifiers for High-
Dimensional Data,” Brieings in Bioinformatics, vol.14,no.1,pp.13–26.
Lorena, A.C.P.L.F.De Carvalho, and J.M.P.Gama. (2008). “A Review on The
Combination of Binary Classiiers in Multiclass Problems,” Artificial
Intelligence Review, vol.30, no.1–4, pp.19–37.
Mercer, J. (1909). “Foundations of Positive and Negatif Type, and Their
Connection with the Theory of Integral Equations”, Philosophical
Transactions of the Royal Society of London, Vol. 25, Hal. 3-23.
Pham, C., Wells, C., and Grane, D.I. (2006). “Analysis of Microarray gene
expression data,” Current Bioinformatics, vol. 1, no. 1, pp.37–53.
Puelma, T., Gutierrez, R. A., and Soto, A. (2012). “Discriminative Local Subspaces
in Gene Expression Data for Efective Gene Function Prediction,”
Bioinformatics, vol.28, no.17, pp.2256–2264.
83
Purnami, S.W., and Andari, S. (2015). High-Dimensional Data Classification
Based on Smooth Support Vector Machines. Procedia Computer Science 72-
477– 484. Institut Teknologi Sepuluh Nopember Surabaya.
Rahman, F., and Purnami, S.W. (2012). Perbandingan Klasifikasi Tingkat
Keganasan Breast Cancer Dengan Menggunakan Regresi Logistik Ordinal
Dan Support Vector Machine (SVM), Jurnal SAINS dan Seni ITS, Vol.1,
No.1, (September 2012) ISSN : 2301-928X.
Ramaswamy, S., Tamayo, P., Rifkin, R., Mukherjee, S., Chen-Hsiang, Y., Angelo,
M. (2001). Multiclass Cancer Diagnosis Using Tumor Gene Expression
Signatures. PNAS, 15149-15154.
Robandi, I., and Wahyudie, P. (2008). Peramalan Beban Jangka Pendek Untuk
Hari-hari Libur Dengan Metode Support Vector Machine, Tugas Akhir, ITS,
Surabaya.
Saifudin, A., and Wahono, R. S. (2015). Penerapan Teknik Ensemble untuk
Menangani Ketidakseimbangan Kelas pada Prediksi Cacat Software.
Sain, H., and Purnami, S.W. (2013). Combine sampling Support Vector Machine
Untuk Klasifikasi Data Imbalance , Tesis, Statistika-FMIPA ITS, Surabaya.
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data Untuk Keperluan
Bisnis, Teori dan Aplikasi, Graha Ilmu.
Scholkopf, B., and Smola, A. (2002). Learning with Kernel :Support Vector
Machines, Regulerizatiom, Optimization, and Beyond, Cambridge, MA : MIT
Press
Seeja, K.R., and Shweta. (2011). Microarray Data Classification Using Support
Vector Machine. International Journal of Biometrics and Bioinformatics
(IJBB), Volume (5) : Issue (1) : 10-15.
Solberg, A., and Solberg, R. (1996). “A Large-Scale Evaluationof Fiturs for
Automatic Detection of Oil Spills in ERS SAR Images”,InInternational
Geoscience and Remote Sensing Symposium, Hal. 1484–1486, Lincoln, NE.
Statnikov, C., Aliferis, I., Tsamardinos, D., Hardin and Levy, S. (2005) “A
Comprehensive Evaluation of Multicategory Classification Methods for
Microarray Gene Expression Cancer Diagnosis,” Bio informatics, vol.21,
no.5, pp.631–643.
Tan, P. N., Steinbach, M., and Kumar, V. (2006). Introduction to Data Mining (4th
ed.), Pearson Addison Wesley, Boston.
84
Trapsilasiwi, R.K., and Purnami, S.W. (2013). Klasifikasi Multiclass untuk Kelas
imbalance Menggunakan SMOTE Least Square Support Vector Machine.
Program Pascasarjana, Institut Teknologi Sepuluh Nopember, Surabaya.
Vapnik, V. (1998). The Nature of Statistical Learning , menit ed., Springer, New
York.
Wang, X., and Simon, R. (2011). “Microarray-Based Cancer Prediction Using
Single Genes,” BMC Bioinformatics, vol.12,article391.
Wang, S., and Yao, X. (2012). “Multiclass Imbalance Problems: Analysis and
Potential Solutions,” IEEE Transactions on Systems, Man and Cybernetics
B, vol. 42, no. 4, pp. 1119–1130.
Yu, H., and Hong, S. (2013). Recognition of Multiple Imbalance Cancer Types
Based on DNA Microarray Data Using Ensemble Classifier. BioMed
Research International: Hindawi Publishing Corporation.
Yu, H., and Mu, C. (2014). Support Vector Machine-Based Optimized Decision
Threshold Adjustment Strategy for Classifying Kelas imbalance. University
Nanjing: China.
Zheng, H.B., Liao, R.J., Grzybowski, S., and Yang, L.J.,(2011). “Fault Diagnosis
of Power Transformers Using Multi-Class Least Square Support Vector
Machines Classifier With Particle Swarm Optimisation”. IET Elect. Power
Appl. Vol 5, Iss 9, Hal 691-696, doi : 10.1049/iet-epa. 2010. 0298.
85
LAMPIRAN
Lampiran 1. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,953 0,951 0,949 0,320
Fold 2 0,949 0,950 0,950 0,420
Fold 3 0,947 0,950 0,949 0,220
SVM-OAO (FCBF) Fold 1 0,955 0,952 0,953 0,199
Fold 2 0,952 0,953 0,950 0,120
Fold 3 0,949 0,950 0,951 0,200
EnSVM-OAO Fold 1 0,955 0,950 0,951 0,199
Fold 2 0,949 0,950 0,950 0,200
Fold 3 0,955 0,951 0,958 0,201
EnSVM-RUS-OAO Fold 1 0,952 0,951 0,952 0,012
Fold 2 0,958 0,953 0,958 0,201
Fold 3 0,950 0,948 0,950 0,199
Lampiran 2. Hasil Simulasi Rasio 1 dengan 5000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,950 0,950 0,965 0,520
Fold 2 0,965 0,950 0,950 0,620
Fold 3 0,950 0,950 0,950 0,320
SVM-OAO (FCBF) Fold 1 0,950 0,950 0,975 0,320
Fold 2 0,970 0,975 0,975 0,200
Fold 3 0,965 0,950 0,950 0,200
EnSVM-OAO Fold 1 0,986 0,985 0,961 0,120
Fold 2 0,950 0,958 0,968 0,200
Fold 3 0,957 0,950 0,981 0,170
EnSVM-RUS-OAO Fold 1 0,974 0,950 0,980 0,158
Fold 2 0,953 0,975 0,960 0,180
Fold 3 0,965 0,965 0,971 0,081
86
Lampiran 3. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,948 0,955 0,973 0,631
Fold 2 0,956 0,956 0,955 0,530
Fold 3 0,939 0,944 0,929 0,530
SVM-OAO (FCBF) Fold 1 0,954 0,944 0,963 0,293
Fold 2 0,958 0,962 0,955 0,429
Fold 3 0,958 0,975 0,964 0,351
EnSVM-OAO Fold 1 0,942 0,973 0,964 0,292
Fold 2 0,965 0,984 0,955 0,129
Fold 3 0,965 0,959 0,974 0,318
EnSVM-RUS-OAO Fold 1 0,964 0,976 0,970 0,013
Fold 2 0,942 0,970 0,960 0,023
Fold 3 0,966 0,970 0,963 0,302
Lampiran 4. Hasil Simulasi Rasio 1 dengan 5000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,955 0,947 0,950 0,733
Fold 2 0,953 0,949 0,950 0,640
Fold 3 0,951 0,948 0,949 0,534
SVM-OAO (FCBF) Fold 1 0,965 0,954 0,965 0,321
Fold 2 0,965 0,951 0,974 0,431
Fold 3 0,949 0,947 0,949 0,428
EnSVM-OAO Fold 1 0,965 0,953 0,975 0,312
Fold 2 0,975 0,950 0,975 0,220
Fold 3 0,947 0,950 0,950 0,325
EnSVM-RUS-OAO Fold 1 0,975 0,947 0,973 0,113
Fold 2 0,947 0,951 0,970 0,034
Fold 3 0,965 0,954 0,956 0,255
Lampiran 5. Hasil Simulasi Rasio 1 dengan 1000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,955 0,950 0,949 0,430
Fold 2 0,951 0,956 0,947 0,530
Fold 3 0,950 0,948 0,952 0,530
SVM-OAO (FCBF) Fold 1 0,955 0,965 0,954 0,302
Fold 2 0,955 0,965 0,955 0,430
Fold 3 0,965 0,945 0,947 0,295
EnSVM-OAO Fold 1 0,975 0,957 0,968 0,130
Fold 2 0,965 0,966 0,965 0,230
Fold 3 0,965 0,965 0,965 0,295
EnSVM-RUS-OAO Fold 1 0,959 0,955 0,975 0,120
Fold 2 0,970 0,972 0,967 0,113
Fold 3 0,975 0,961 0,957 0,130
87
Lampiran 6. Hasil Simulasi Rasio 1 dengan 5000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,950 0,953 0,946 0,532
Fold 2 0,951 0,950 0,950 0,631
Fold 3 0,953 0,952 0,943 0,630
SVM-OAO (FCBF) Fold 1 0,965 0,953 0,949 0,430
Fold 2 0,965 0,964 0,947 0,398
Fold 3 0,944 0,964 0,958 0,350
EnSVM-OAO Fold 1 0,975 0,975 0,968 0,304
Fold 2 0,958 0,976 0,969 0,229
Fold 3 0,968 0,947 0,970 0,291
EnSVM-RUS-OAO Fold 1 0,951 0,965 0,985 0,183
Fold 2 0,975 0,985 0,964 0,130
Fold 3 0,975 0,950 0,957 0,133
Lampiran 7. Hasil Simulasi Rasio 5 dengan 1000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,902 0,878 0,897 0,267
Fold 2 0,898 0,912 0,921 0,165
Fold 3 0,896 0,896 0,896 0,186
SVM-OAO (FCBF) Fold 1 0,905 0,895 0,908 0,209
Fold 2 0,906 0,904 0,912 0,190
Fold 3 0,901 0,899 0,900 0,121
EnSVM-OAO Fold 1 0,901 0,892 0,905 0,169
Fold 2 0,911 0,912 0,908 0,196
Fold 3 0,910 0,908 0,911 0,049
EnSVM-RUS-OAO Fold 1 0,912 0,904 0,903 0,012
Fold 2 0,918 0,910 0,907 0,090
Fold 3 0,895 0,904 0,919 0,120
Lampiran 8. Hasil Simulasi Rasio 5 dengan 5000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,908 0,898 0,897 0,204
Fold 2 0,904 0,901 0,901 0,189
Fold 3 0,895 0,905 0,906 0,213
SVM-OAO (FCBF) Fold 1 0,917 0,912 0,905 0,182
Fold 2 0,885 0,901 0,903 0,119
Fold 3 0,913 0,896 0,900 0,122
EnSVM-OAO Fold 1 0,893 0,908 0,901 0,008
Fold 2 0,900 0,909 0,902 0,026
Fold 3 0,930 0,910 0,919 0,220
EnSVM-RUS-OAO Fold 1 0,919 0,909 0,909 0,002
Fold 2 0,909 0,922 0,909 0,019
Fold 3 0,903 0,903 0,912 0,151
88
Lampiran 9. Hasil Simulasi Rasio 5 dengan 1000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,904 0,915 0,878 0,265
Fold 2 0,884 0,920 0,883 0,249
Fold 3 0,866 0,924 0,949 0,178
SVM-OAO (FCBF) Fold 1 0,852 0,918 0,904 0,255
Fold 2 0,902 0,921 0,905 0,130
Fold 3 0,944 0,920 0,908 0,152
EnSVM-OAO Fold 1 0,922 0,915 0,911 0,208
Fold 2 0,923 0,922 0,910 0,160
Fold 3 0,895 0,923 0,908 0,093
EnSVM-RUS-OAO Fold 1 0,920 0,919 0,918 0,121
Fold 2 0,919 0,926 0,947 0,083
Fold 3 0,913 0,921 0,876 0,096
Lampiran 10. Hasil Simulasi Rasio 5 dengan 5000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,908 0,898 0,897 0,427
Fold 2 0,904 0,901 0,901 0,465
Fold 3 0,895 0,905 0,906 0,186
SVM-OAO (FCBF) Fold 1 0,917 0,912 0,905 0,209
Fold 2 0,885 0,901 0,909 0,422
Fold 3 0,913 0,896 0,909 0,121
EnSVM-OAO Fold 1 0,893 0,908 0,910 0,169
Fold 2 0,900 0,909 0,911 0,196
Fold 3 0,930 0,910 0,912 0,205
EnSVM-RUS-OAO Fold 1 0,924 0,909 0,905 0,213
Fold 2 0,917 0,922 0,919 0,019
Fold 3 0,914 0,903 0,912 0,151
Lampiran 11. Hasil Simulasi Rasio 5 dengan 1000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,918 0,916 0,922 0,418
Fold 2 0,926 0,921 0,911 0,319
Fold 3 0,914 0,935 0,919 0,231
SVM-OAO (FCBF) Fold 1 0,926 0,924 0,915 0,204
Fold 2 0,916 0,928 0,920 0,314
Fold 3 0,924 0,928 0,922 0,205
EnSVM-OAO Fold 1 0,922 0,941 0,922 0,177
Fold 2 0,926 0,921 0,917 0,189
Fold 3 0,930 0,939 0,922 0,212
EnSVM-RUS-OAO Fold 1 0,924 0,949 0,925 0,195
Fold 2 0,923 0,942 0,942 0,182
Fold 3 0,943 0,924 0,952 0,171
89
Lampiran 12. Hasil Simulasi Rasio 5 dengan 5000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,867 0,931 0,904 0,231
Fold 2 0,924 0,920 0,919 0,416
Fold 3 0,929 0,911 0,911 0,240
SVM-OAO (FCBF) Fold 1 0,876 0,929 0,901 0,224
Fold 2 0,933 0,919 0,949 0,243
Fold 3 0,926 0,918 0,923 0,234
EnSVM-OAO Fold 1 0,925 0,931 0,949 0,142
Fold 2 0,907 0,924 0,923 0,174
Fold 3 0,928 0,948 0,934 0,179
EnSVM-RUS-OAO Fold 1 0,946 0,931 0,942 0,092
Fold 2 0,924 0,949 0,943 0,082
Fold 3 0,934 0,959 0,942 0,178
Lampiran 13. Hasil Simulasi Rasio 8 dengan 1000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,905 0,889 0,899 0,421
Fold 2 0,889 0,898 0,892 0,622
Fold 3 0,901 0,891 0,891 0,322
SVM-OAO (FCBF) Fold 1 0,906 0,900 0,890 0,212
Fold 2 0,909 0,902 0,906 0,209
Fold 3 0,905 0,895 0,908 0,213
EnSVM-OAO Fold 1 0,909 0,902 0,898 0,120
Fold 2 0,916 0,916 0,895 0,102
Fold 3 0,905 0,911 0,915 0,213
EnSVM-RUS-OAO Fold 1 0,915 0,916 0,925 0,020
Fold 2 0,914 0,906 0,915 0,208
Fold 3 0,916 0,916 0,895 0,011
Lampiran 14. Hasil Simulasi Rasio 8 dengan 5000 Fitur Kernel Linear
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,867 0,886 0,899 0,630
Fold 2 0,900 0,895 0,884 0,631
Fold 3 0,896 0,893 0,883 0,531
SVM-OAO (FCBF) Fold 1 0,888 0,918 0,904 0,233
Fold 2 0,919 0,895 0,898 0,313
Fold 3 0,909 0,898 0,901 0,232
EnSVM-OAO Fold 1 0,909 0,909 0,921 0,131
Fold 2 0,911 0,909 0,881 0,131
Fold 3 0,910 0,909 0,905 0,320
EnSVM-RUS-OAO Fold 1 0,909 0,909 0,927 0,111
Fold 2 0,916 0,909 0,922 0,093
Fold 3 0,916 0,916 0,895 0,031
90
Lampiran 15. Hasil Simulasi Rasio 8 dengan 1000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,896 0,899 0,887 0,430
Fold 2 0,896 0,879 0,884 0,529
Fold 3 0,878 0,890 0,882 0,429
SVM-OAO (FCBF) Fold 1 0,898 0,897 0,898 0,309
Fold 2 0,896 0,898 0,901 0,130
Fold 3 0,894 0,904 0,897 0,313
EnSVM-OAO Fold 1 0,901 0,902 0,901 0,212
Fold 2 0,906 0,908 0,910 0,231
Fold 3 0,901 0,903 0,901 0,129
EnSVM-RUS-OAO Fold 1 0,919 0,916 0,913 0,031
Fold 2 0,915 0,914 0,921 0,032
Fold 3 0,917 0,922 0,921 0,307
Lampiran 16. Hasil Simulasi Rasio 8 dengan 5000 Fitur Kernel Polynomial
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,908 0,887 0,889 0,543
Fold 2 0,883 0,872 0,897 0,531
Fold 3 0,890 0,894 0,892 0,629
SVM-OAO (FCBF) Fold 1 0,904 0,895 0,904 0,300
Fold 2 0,898 0,899 0,899 0,276
Fold 3 0,899 0,897 0,899 0,272
EnSVM-OAO Fold 1 0,903 0,897 0,905 0,132
Fold 2 0,905 0,903 0,904 0,183
Fold 3 0,898 0,898 0,899 0,283
EnSVM-RUS-OAO Fold 1 0,916 0,916 0,915 0,133
Fold 2 0,915 0,915 0,922 0,129
Fold 3 0,932 0,931 0,932 0,131
Lampiran 17. Hasil Simulasi Rasio 8 dengan 1000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,882 0,891 0,887 0,502
Fold 2 0,901 0,894 0,873 0,431
Fold 3 0,884 0,883 0,901 0,333
SVM-OAO (FCBF) Fold 1 0,896 0,901 0,901 0,146
Fold 2 0,905 0,903 0,907 0,386
Fold 3 0,897 0,901 0,900 0,439
EnSVM-OAO Fold 1 0,900 0,903 0,905 0,227
Fold 2 0,900 0,903 0,919 0,250
Fold 3 0,903 0,899 0,902 0,360
EnSVM-RUS-OAO Fold 1 0,916 0,919 0,914 0,139
Fold 2 0,916 0,915 0,913 0,112
Fold 3 0,942 0,942 0,941 0,172
91
Lampiran 18. Hasil Simulasi Rasio 8 dengan 5000 Fitur Kernel RBF
Metode Fold Akurasi F-score G-mean waktu
SVM-OAO Fold 1 0,888 0,872 0,898 0,652
Fold 2 0,890 0,893 0,902 0,527
Fold 3 0,904 0,894 0,899 0,741
SVM-OAO (FCBF) Fold 1 0,899 0,895 0,900 0,391
Fold 2 0,903 0,898 0,909 0,342
Fold 3 0,897 0,893 0,899 0,424
EnSVM-OAO Fold 1 0,905 0,903 0,909 0,179
Fold 2 0,901 0,905 0,904 0,422
Fold 3 0,906 0,903 0,899 0,133
EnSVM-RUS-OAO Fold 1 0,916 0,919 0,914 0,166
Fold 2 0,916 0,915 0,913 0,107
Fold 3 0,952 0,942 0,951 0,034
Lampiran 19. Hasil Performansi Data Leukimia
Kernel Keterangan Akurasi F-score G-mean Waktu
Linear 5327 Fitur 0,8056 0,8712 0,8759 1,649
97 Fitur 0,9167 0,9379 0,9387 0,104
FSS 2 0,945 0,961 0,9617 0,133
FSS 5 0,9165 0,9589 0,9591 0,242
FSS 2 RUS 0,9444 0,9743 0,9748 0,114
FSS 5 RUS 0,9028 0,9372 0,9392 0,384
Polynomial 5327 Fitur 0,8194 0,8699 0,8764 1,611
97 Fitur 0,8472 0,9378 0,939 0,094
FSS 2 0,8731 0,9257 0,9292 0,142
FSS 5 0,8616 0,9 0,9037 0,331
FSS 2 RUS 0,9032 0,9598 0,9606 0,096
FSS 5 RUS 0,8333 0,8833 0,8874 0,388
RBF 5327 Fitur 0,4583 0,6241 0,6742 1,494
97 Fitur 0,9167 0,9249 0,927 0,042
FSS 2 0,8604 0,894 0,8994 0,148
FSS 5 0,8204 0,8517 0,8588 0,321
FSS 2 RUS 0,9629 0,9743 0,9753 0,048
FSS 5 RUS 0,8065 0,8512 0,8582 0,068
92
Lampiran 20. Hasil Performansi Data Brain Tumor
kernel Keterangan Akurasi F-score G-mean Waktu
Linear 5327 Fitur 86,73 92,21 92,4 3,1
97 Fitur 86,56 92,52 92,56 0,28
FSS 2 87,88 94,09 94,18 0,32
FSS 5 76,67 86,25 86,29 0,72
FSS 2 RUS 86,69 93,57 93,64 0,5
FSS 5 RUS 77,65 90 90 0,89
Polynomial 5327 Fitur 84,58 91,47 91,63 3,08
97 Fitur 85,39 92,67 92,77 0,24
FSS 2 81,24 88,23 88,43 0,3
FSS 5 71,11 82,84 83,01 0,88
FSS 2 RUS 83,62 91,34 91,49 0,48
FSS 5 RUS 64,34 80,73 80,74 0,79
RBF 5327 Fitur 66,72 80,02 81,67 1,2
97 Fitur 86,67 91,5 91,76 0,39
FSS 2 66,72 80,02 81,67 0,33
FSS 5 66,67 80 81,65 0,47
FSS 2 RUS 87,78 92,75 92,87 0,03
FSS 5 RUS 66,72 80,02 81,67 0,84
Lampiran 21. Hasil Performansi Data Lung Cancer
kernel Keterangan Akurasi F-score G-mean Waktu
Linear 5327 Fitur 92,08 92,17 92,27 4,33
97 Fitur 92,59 94,64 94,65 0,29
FSS 2 92,61 94,61 94,71 0,57
FSS 5 82,76 87,99 88,09 1,4
FSS 2 RUS 94,09 95,77 95,79 1,33
FSS 5 RUS 88,67 92,49 92,54 32,19
Polynomial 5327 Fitur 88,58 92,49 92,57 4,37
97 Fitur 88,62 92,36 92,61 0,28
FSS 2 92,11 94,38 94,48 0,45
FSS 5 84,24 89,27 89,35 1,49
FSS 2 RUS 91,63 93,98 94 0,53
FSS 5 RUS 82,78 88,01 88,06 1,32
RBF 5327 Fitur 68,48 81,29 82,75 5,45
97 Fitur 94,1 95,78 95,83 0,36
FSS 2 94,58 96,15 96,18 0,12
FSS 5 68,47 81,29 82,75 1,42
FSS 2 RUS 94,57 96,15 96,21 0,66
FSS 5 RUS 68,47 81,29 82,75 1,19
93
Lampiran 22. Hasil FCBF Leukimia
No Biomarker Information Gain No Biomarker Information Gain
1 A1426 0,606538 41 A3187 0,303466
2 A5142 0,596989 42 A2508 0,302825
3 A1999 0,584324 43 A1237 0,302421
4 A1770 0,546994 44 A4374 0,300365
5 A4805 0,53849 45 A426 0,296022
6 A618 0,514008 46 A4142 0,29464
7 A3669 0,48791 47 A2822 0,293754
8 A1386 0,486917 48 A1604 0,293209
9 A2460 0,48475 49 A2396 0,293105
10 A4009 0,484246 50 A2266 0,292641
11 A3549 0,484166 51 A5217 0,290355
12 A3911 0,456765 52 A2962 0,288918
13 A1680 0,45143 53 A2904 0,28728
14 A620 0,450974 54 A2852 0,286099
15 A2143 0,436098 55 A1464 0,285168
16 A1271 0,434898 56 A4919 0,278703
17 A1342 0,433239 57 A963 0,277625
18 A2621 0,418431 58 A848 0,277577
19 A1617 0,405119 59 A4807 0,277125
20 A3289 0,400228 60 A1267 0,27607
21 A1443 0,395193 61 A4036 0,275039
22 A1786 0,393938 62 A3298 0,272051
23 A1302 0,386646 63 A3991 0,269241
24 A887 0,38521 64 A2051 0,268947
25 A4493 0,377066 65 A3385 0,266616
26 A3055 0,37677 66 A1358 0,261882
27 A1287 0,363407 67 A4534 0,259979
28 A1226 0,350415 68 A3348 0,257994
29 A1892 0,349126 69 A2433 0,256685
30 A2350 0,34401 70 A2861 0,256277
31 A1611 0,341914 71 A3381 0,254767
32 A3051 0,338715 72 A1462 0,254434
33 A3029 0,318853 73 A5319 0,250681
34 A4898 0,318674 74 A4492 0,250381
35 A1468 0,313697 75 A571 0,250253
36 A2479 0,312348 76 A3203 0,244751
37 A3726 0,311632 77 A1852 0,239137
38 A3227 0,311521 78 A4691 0,236797
39 A3272 0,304794 79 A4168 0,236062
40 A1542 0,303466 80 A2811 0,235047
94
Lampiran 22. Hasil FCBF Leukimia (Lanjutan)
No Biomarker Information Gain No Biomarker Information Gain
81 A3860 0,231795 89 A4055 0,21517
82 A3497 0,228821 90 A5073 0,215059
83 A1893 0,224558 91 A3260 0,214741
84 A3928 0,22158 92 A1958 0,211741
85 A4566 0,216745 93 A3738 0,208915
86 A555 0,216472 94 A1537 0,206751
87 A4617 0,215989 95 A1968 0,202666
88 A3411 0,215312 96 A1046 0,200503
97 A3190 0,200431
Lampiran 23. Hasil FCBF Brain Tumor
No Biomarker Information Gain No Biomarker Information Gain
1 0,642 A5453 30 0,495 A1298
2 0,613 A2093 31 0,492 A4680
3 0,606 A1048 32 0,491 A776
4 0,594 A2507 33 0,486 A3113
5 0,593 A1074 34 0,483 A3434
6 0,592 A2478 35 0,48 A1946
7 0,591 A227 36 0,479 A52
8 0,58 A964 37 0,478 A1773
9 0,576 A2532 38 0,477 A1245
10 0,554 A505 39 0,475 A405
11 0,553 A1373 40 0,474 A1965
12 0,55 A497 41 0,473 A5121
13 0,548 A2618 42 0,472 A206
14 0,547 A204 43 0,469 A4759
15 0,539 A1974 44 0,468 A1097
16 0,535 A4421 45 0,466 A1769
17 0,533 A1972 46 0,465 A5175
18 0,533 A2116 47 0,459 A1507
19 0,533 A5604 48 0,457 A1746
20 0,526 A124 49 0,455 A1502
21 0,524 A1449 50 0,45 A3834
22 0,522 A1251 51 0,448 A2206
23 0,521 A5517 52 0,447 A4801
24 0,518 A533 53 0,445 A4611
25 0,512 A3329 54 0,443 A3837
26 0,51 A2030 55 0,442 A1363
27 0,507 A1183 56 0,44 A2309
28 0,504 A4573 57 0,439 A3995
29 0,498 A1620 58 0,439 A1583
95
Lampiran 23. Hasil FCBF Brain tumor (Lanjutan)
No Biomarker Information Gain No Biomarker Information Gain
59 0,438 A1854 89 0,41 A4822
60 0,435 A3767 90 0,41 A439
61 0,433 A2020 91 0,408 A5620
62 0,432 A1651 92 0,408 A1879
63 0,43 A2771 93 0,408 A4206
64 0,43 A2913 94 0,407 A642
65 0,43 A921 95 0,406 A185
66 0,429 A1453 96 0,405 A1627
67 0,429 A2695 97 0,404 A4116
68 0,426 A3489 98 0,403 A5713
69 0,424 A640 99 0,403 A237
70 0,421 A5066 100 0,403 A5617
71 0,42 A3993 101 0,403 A1930
72 0,42 A1497 102 0,403 A63
73 0,419 A4004 103 0,401 A5219
74 0,419 A635 104 0,4 A679
75 0,419 A2505 105 0,399 A2721
76 0,418 A3330 106 0,399 A2733
77 0,417 A40 107 0,398 A1818
78 0,417 A5512 108 0,398 A158
79 0,417 A549 109 0,396 A1563
80 0,413 A2338 110 0,395 A4690
81 0,413 A5554 111 0,395 A675
82 0,413 A4006 112 0,395 A16
83 0,412 A2493 113 0,395 A2295
84 0,412 A4852 114 0,394 A2357
85 0,412 A4146 115 0,394 A1026
86 0,411 A1169 116 0,393 A450
87 0,411 A1663 117 0,391 A3184
88 0,411 A3745 118 0,391 A3094
Lampiran 24. Hasil FCBF Lung Cancer
No Biomarker Information Gain No Biomarker Information Gain
1 0,8007 A3191 9 0,6675 A5950
2 0,784 A10175 10 0,662 A8472
3 0,7215 A7568 11 0,6572 A8125
4 0,7154 A10188 12 0,6471 A5968
5 0,7117 A8890 13 0,6451 A11300
6 0,6786 A1422 14 0,645 A8156
7 0,6756 A9250 15 0,6419 A10891
8 0,6694 A8484 16 0,6391 A4983
96
Lampiran 24. Hasil FCBF Lung Cancer (Lanjutan)
No Biomarker Information Gain No Biomarker Information Gain
17 0,6334 A6091 57 0,562 A3199
18 0,6299 A5533 58 0,5613 A6539
19 0,6277 A5207 59 0,5604 A4853
20 0,625 A3875 60 0,5604 A3227
21 0,6243 A1s0138 61 0,5594 A9470
22 0,6217 A4439 62 0,558 A8828
23 0,6172 A10139 63 0,558 A7199
24 0,6169 A10573 64 0,5577 A7750
25 0,6097 A4551 65 0,5564 A6779
26 0,6061 A5920 66 0,5564 A9989
27 0,6055 A9609 67 0,5561 A4452
28 0,6001 A9170 68 0,5547 A8683
29 0,5974 A4690 69 0,5536 A6513
30 0,5961 A7786 70 0,5516 A7700
31 0,5938 A3600 71 0,5479 A3009
32 0,593 A6385 72 0,5476 A12523
33 0,5929 A4788 73 0,5476 A12375
34 0,5925 A9093 74 0,5475 A8130
35 0,592 A4244 75 0,5448 A10892
36 0,5915 A9672 76 0,5448 A6571
37 0,5906 A5031 77 0,5442 A6185
38 0,5887 A9733 78 0,5403 A6839
39 0,5858 A7361 79 0,54 A2761
40 0,5835 A5497 80 0,5376 A3120
41 0,5835 A12511 81 0,5363 A4790
42 0,5816 A11942 82 0,5349 A12524
43 0,5813 A8294 83 0,5346 A10381
44 0,5812 A4984 84 0,5337 A1989
45 0,5808 A6422 85 0,5326 A7087
46 0,5805 A205 86 0,5321 A8306
47 0,5796 A7109 87 0,5316 A9330
48 0,5777 A8342 88 0,5301 A3692
49 0,5739 A9038 89 0,529 A9937
50 0,5725 A6547 90 0,529 A2870
51 0,5696 A4321 91 0,5281 A3216
52 0,5674 A5623 92 0,5272 A9004
53 0,5651 A6990 93 0,5263 A9843
54 0,565 A4115 94 0,5236 A11468
55 0,5642 A6125 95 0,5221 A1483
56 0,5625 A5849 96 0,522 A12052
97
Lampiran 24. Hasil FCBF Lung Cancer (Lanjutan)
No Biomarker Information Gain No Biomarker Information Gain
97 0,5219 A9164 137 0,5018 A5357
98 0,5211 A7102 138 0,5013 A11382
99 0,521 A3020 139 0,5012 A192
100 0,5206 A6174 140 0,5009 A3278
101 0,5205 A2977 141 0,4992 A6675
102 0,5204 A8745 142 0,4991 A6620
103 0,5195 A8290 143 0,4989 A9310
104 0,5191 A9840 144 0,4989 A4943
105 0,519 A6949 145 0,4984 A9892
106 0,5188 A8694 146 0,4974 A3461
107 0,5181 A10128 147 0,4967 A3726
108 0,5173 A8429 148 0,4962 A3229
109 0,5168 A8674 149 0,4958 A4155
110 0,5168 A5996 150 0,4957 A1267
111 0,5166 A5486 151 0,4951 A6033
112 0,5158 A6381 152 0,4941 A4793
113 0,5157 A4397 153 0,492 A6060
114 0,5154 A6694 154 0,4919 A1682
115 0,5133 A10894 155 0,4915 A10862
116 0,5126 A5835 156 0,4915 A9162
117 0,5126 A8024 157 0,4907 A8516
118 0,5124 A6431 158 0,4906 A10187
119 0,512 A2586 159 0,4882 A11786
120 0,5115 A7806 160 0,488 A12009
121 0,51 A6963 161 0,4875 A8331
122 0,5095 A6814 162 0,4868 A10338
123 0,509 A4977 163 0,4866 A3667
124 0,5089 A8571 164 0,486 A6838
125 0,5086 A8457 165 0,4852 A8886
126 0,5081 A12021 166 0,4842 A7537
127 0,508 A2838 167 0,484 A6885
128 0,507 A7254 168 0,4837 A4575
129 0,5065 A12521 169 0,4833 A12368
130 0,5055 A4282 170 0,4833 A10787
131 0,5047 A9311 171 0,4813 A6987
132 0,5044 A10194 172 0,4808 A11178
133 0,5042 A4122 173 0,479 A5407
134 0,5039 A12413 174 0,4784 A8882
135 0,5034 A5108 175 0,4771 A9743
136 0,5029 A11646 176 0,4765 A4325
98
Lampiran 24. Hasil FCBF Lung Cancer (Lanjutan)
No Biomarker Information Gain No Biomarker Information Gain
177 0,4755 A6687 215 0,4606 A9157
178 0,4754 A9910 216 0,4606 A5182
179 0,4754 A5292 217 0,4605 A8808
180 0,4753 A5761 218 0,4602 A6655
181 0,4746 A9761 219 0,46 A7162
182 0,474 A7659 220 0,4595 A3629
183 0,4735 A7703 221 0,4595 A2536
184 0,4732 A9145 222 0,4591 A2762
185 0,4731 A2478 223 0,459 A10129
186 0,4724 A7617 224 0,4588 A5057
187 0,4721 A5469 225 0,4584 A9769
188 0,472 A3460 226 0,4581 A5982
189 0,4709 A8782 227 0,4579 A8091
190 0,4692 A7721 228 0,4579 A5371
191 0,4685 A9323 229 0,4575 A8981
192 0,4676 A4327 230 0,4575 A4823
193 0,4675 A8277 231 0,4573 A8199
194 0,4671 A2919 232 0,4571 A8633
195 0,4671 A3894 233 0,4554 A9101
196 0,4669 A11840 234 0,4548 A5260
197 0,4667 A7803 235 0,4548 A11316
198 0,4665 A11159 236 0,4547 A6319
199 0,4649 A4315 237 0,4544 A7052
200 0,4643 A7216 238 0,4544 A8132
201 0,4643 A11797 239 0,4543 A4346
202 0,4643 A11871 240 0,4539 A6573
203 0,4637 A193 241 0,4533 A4733
204 0,4634 A9364 242 0,4529 A9133
205 0,4633 A6765 243 0,4528 A3060
206 0,4629 A9412 244 0,4526 A4145
207 0,4626 A2784 245 0,4525 A12535
208 0,4625 A7984 246 0,4523 A5658
209 0,4624 A4772 247 0,4512 A5619
210 0,4622 A3761 248 0,4511 A7041
211 0,462 A3995 249 0,4511 A9770
212 0,4617 A8531 250 0,4508 A6784
213 0,4614 A7418 251 0,4504 A12472
214 0,461 A9325 252 0,4501 A7396
99
Lampiran 25. Grid search SVM-OAO Leukimia
No Cost γ Akurasi G-mean F-score time
1 2-5 2-15 0,521 0,722 0,685 0,036
2 2-4 2-15 0,521 0,722 0,685 0,024
3 2-3 2-15 0,521 0,722 0,685 0,016
4 2-2 2-15 0,521 0,722 0,685 0,016
5 2-1 2-15 0,521 0,722 0,685 0,031
6 20 2-15 0,521 0,722 0,685 0,016
7 21 2-15 0,521 0,722 0,685 0,023
8 22 2-15 0,521 0,722 0,685 0,020
9 23 2-15 0,521 0,722 0,685 0,018
10 2-5 2-14 0,521 0,722 0,685 0,029
11 2-4 2-14 0,521 0,722 0,685 0,031
12 2-3 2-14 0,521 0,722 0,685 0,097
13 2-2 2-14 0,521 0,722 0,685 0,031
14 2-1 2-14 0,521 0,722 0,685 0,022
15 20 2-14 0,521 0,722 0,685 0,038
16 21 2-14 0,521 0,722 0,685 0,024
17 22 2-14 0,521 0,722 0,685 0,046
18 2-5 2-13 0,521 0,722 0,685 0,020
19 2-4 2-13 0,521 0,722 0,685 0,020
20 2-3 2-13 0,521 0,722 0,685 0,021
21 2-2 2-13 0,521 0,722 0,685 0,031
22 2-1 2-13 0,521 0,722 0,685 0,035
23 20 2-13 0,521 0,722 0,685 0,019
24 21 2-13 0,521 0,722 0,685 0,020
25 2-5 2-12 0,521 0,722 0,685 0,016
26 2-4 2-12 0,521 0,722 0,685 0,016
27 2-3 2-12 0,521 0,722 0,685 0,016
28 2-2 2-12 0,521 0,722 0,685 0,016
29 2-1 2-12 0,521 0,722 0,685 0,016
30 20 2-12 0,521 0,722 0,685 0,016
31 2-5 2-11 0,521 0,722 0,685 0,032
32 2-4 2-11 0,521 0,722 0,685 0,022
33 2-3 2-11 0,521 0,722 0,685 0,006
34 2-2 2-11 0,521 0,722 0,685 0,019
35 2-1 2-11 0,521 0,722 0,685 0,018
36 2-5 2-10 0,521 0,722 0,685 0,016
37 2-4 2-10 0,521 0,722 0,685 0,016
38 2-3 2-10 0,521 0,722 0,685 0,016
39 2-2 2-10 0,521 0,722 0,685 0,031
40 2-1 2-10 0,521 0,722 0,685 0,016
100
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
41 2-5 2-9 0,521 0,722 0,685 0,016
42 2-4 2-9 0,521 0,722 0,685 0,016
43 2-3 2-9 0,521 0,722 0,685 0,016
44 2-2 2-9 0,521 0,722 0,685 0,022
45 2-5 2-8 0,521 0,722 0,685 0,016
46 2-4 2-8 0,521 0,722 0,685 0,016
47 2-3 2-8 0,521 0,722 0,685 0,016
48 2-2 2-8 0,521 0,722 0,685 0,016
49 2-5 2-7 0,521 0,722 0,685 0,023
50 2-4 2-7 0,521 0,722 0,685 0,017
51 2-3 2-7 0,521 0,722 0,685 0,026
52 2-2 2-7 0,521 0,722 0,685 0,006
53 2-5 2-6 0,521 0,722 0,685 0,016
54 2-4 2-6 0,521 0,722 0,685 0,016
55 2-3 2-6 0,521 0,722 0,685 0,041
56 2-2 2-6 0,521 0,722 0,685 0,016
57 2-5 2-5 0,521 0,722 0,685 0,018
58 2-4 2-5 0,521 0,722 0,685 0,017
59 2-3 2-5 0,521 0,722 0,685 0,016
60 2-2 2-5 0,521 0,722 0,685 0,016
61 2-1 2-5 0,521 0,722 0,685 0,016
62 2-5 2-4 0,521 0,722 0,685 0,016
63 2-4 2-4 0,521 0,722 0,685 0,016
64 2-3 2-4 0,521 0,722 0,685 0,016
65 2-2 2-4 0,521 0,722 0,685 0,016
66 2-1 2-4 0,521 0,722 0,685 0,031
67 20 2-4 0,521 0,722 0,685 0,016
68 21 2-4 0,521 0,722 0,685 0,026
69 22 2-4 0,521 0,722 0,685 0,022
70 23 2-4 0,521 0,722 0,685 0,031
71 24 2-4 0,521 0,722 0,685 0,016
72 25 2-4 0,521 0,722 0,685 0,016
73 26 2-4 0,521 0,722 0,685 0,016
74 27 2-4 0,521 0,722 0,685 0,016
75 28 2-4 0,521 0,722 0,685 0,017
76 29 2-4 0,521 0,722 0,685 0,031
77 210 2-4 0,521 0,722 0,685 0,019
78 211 2-4 0,521 0,722 0,685 0,016
79 212 2-4 0,521 0,722 0,685 0,016
80 213 2-4 0,521 0,722 0,685 0,016
101
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
81 214 2-4 0,521 0,722 0,685 0,016
82 215 2-4 0,521 0,722 0,685 0,014
83 2-5 2-3 0,521 0,722 0,685 0,031
84 2-4 2-3 0,521 0,722 0,685 0,022
85 2-3 2-3 0,521 0,722 0,685 0,016
86 2-2 2-3 0,521 0,722 0,685 0,016
87 2-1 2-3 0,521 0,722 0,685 0,016
88 20 2-3 0,521 0,722 0,685 0,038
89 21 2-3 0,521 0,722 0,685 0,002
90 22 2-3 0,521 0,722 0,685 0,016
91 23 2-3 0,521 0,722 0,685 0,016
92 24 2-3 0,521 0,722 0,685 0,016
93 25 2-3 0,521 0,722 0,685 0,031
94 26 2-3 0,521 0,722 0,685 0,031
95 27 2-3 0,521 0,722 0,685 0,023
96 28 2-3 0,521 0,722 0,685 0,031
97 29 2-3 0,521 0,722 0,685 0,016
98 210 2-3 0,521 0,722 0,685 0,016
99 211 2-3 0,521 0,722 0,685 0,022
100 212 2-3 0,521 0,722 0,685 0,016
101 213 2-3 0,521 0,722 0,685 0,031
102 214 2-3 0,521 0,722 0,685 0,016
103 215 2-3 0,521 0,722 0,685 0,016
104 2-5 2-2 0,521 0,722 0,685 0,016
105 2-4 2-2 0,521 0,722 0,685 0,016
106 2-3 2-2 0,521 0,722 0,685 0,017
107 2-2 2-2 0,521 0,722 0,685 0,031
108 2-1 2-2 0,521 0,722 0,685 0,031
109 20 2-2 0,521 0,722 0,685 0,016
110 21 2-2 0,521 0,722 0,685 0,022
111 22 2-2 0,521 0,722 0,685 0,035
112 23 2-2 0,521 0,722 0,685 0,016
113 24 2-2 0,521 0,722 0,685 0,016
114 25 2-2 0,521 0,722 0,685 0,016
115 26 2-2 0,521 0,722 0,685 0,016
116 27 2-2 0,521 0,722 0,685 0,016
117 28 2-2 0,521 0,722 0,685 0,016
118 29 2-2 0,521 0,722 0,685 0,03
119 210 2-2 0,521 0,722 0,685 0,016
120 211 2-2 0,521 0,722 0,685 0,033
102
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
121 212 2-2 0,521 0,722 0,685 0,016
122 213 2-2 0,521 0,722 0,685 0,022
123 214 2-2 0,521 0,722 0,685 0,027
124 215 2-2 0,521 0,722 0,685 0,016
125 2-5 2-1 0,521 0,722 0,685 0,022
126 2-4 2-1 0,521 0,722 0,685 0,016
127 2-3 2-1 0,521 0,722 0,685 0,016
128 2-2 2-1 0,521 0,722 0,685 0,016
129 2-1 2-1 0,521 0,722 0,685 0,051
130 20 2-1 0,521 0,722 0,685 0,016
131 21 2-1 0,521 0,722 0,685 0,016
132 22 2-1 0,521 0,722 0,685 0,039
133 23 2-1 0,521 0,722 0,685 0,031
134 24 2-1 0,521 0,722 0,685 0,016
135 25 2-1 0,521 0,722 0,685 0,016
136 26 2-1 0,521 0,722 0,685 0,072
137 27 2-1 0,521 0,722 0,685 0,029
138 28 2-1 0,521 0,722 0,685 0,015
139 29 2-1 0,521 0,722 0,685 0,033
140 210 2-1 0,521 0,722 0,685 0,016
141 211 2-1 0,521 0,722 0,685 0,022
142 212 2-1 0,521 0,722 0,685 0,016
143 213 2-1 0,521 0,722 0,685 0,016
144 214 2-1 0,521 0,722 0,685 0,025
145 215 2-1 0,521 0,722 0,685 0,016
146 2-5 20 0,521 0,722 0,685 0,016
147 2-4 20 0,521 0,722 0,685 0,005
148 2-3 20 0,521 0,722 0,685 0,016
149 2-2 20 0,521 0,722 0,685 0,016
150 2-1 20 0,521 0,722 0,685 0,033
151 20 20 0,521 0,722 0,685 0,016
152 21 20 0,521 0,722 0,685 0,024
153 22 20 0,521 0,722 0,685 0,019
154 23 20 0,521 0,722 0,685 0,023
155 24 20 0,521 0,722 0,685 0,029
156 25 20 0,521 0,722 0,685 0,022
157 26 20 0,521 0,722 0,685 0,007
158 27 20 0,521 0,722 0,685 0,009
159 28 20 0,521 0,722 0,685 0,016
160 29 20 0,521 0,722 0,685 0,016
103
Lampiran 25. Grid search SVM-OAO Leukimia
No Cost γ Akurasi G-mean F-score time
161 210 20 0,521 0,722 0,685 0,016
162 211 20 0,521 0,722 0,685 0,016
163 212 20 0,521 0,722 0,685 0,021
164 213 20 0,521 0,722 0,685 0,016
165 214 20 0,521 0,722 0,685 0,031
166 215 20 0,521 0,722 0,685 0,02
167 2-5 21 0,521 0,722 0,685 0,01
168 2-4 21 0,521 0,722 0,685 0,016
169 2-3 21 0,521 0,722 0,685 0,005
170 2-2 21 0,521 0,722 0,685 0,016
171 2-1 21 0,521 0,722 0,685 0,016
172 20 21 0,521 0,722 0,685 0,026
173 21 21 0,521 0,722 0,685 0,034
174 22 21 0,521 0,722 0,685 0,022
175 23 21 0,521 0,722 0,685 0,016
176 24 21 0,521 0,722 0,685 0,016
177 25 21 0,521 0,722 0,685 0,029
178 26 21 0,521 0,722 0,685 0,005
179 27 21 0,521 0,722 0,685 0,016
180 28 21 0,521 0,722 0,685 0,016
181 29 21 0,521 0,722 0,685 0,031
182 210 21 0,521 0,722 0,685 0,016
183 211 21 0,521 0,722 0,685 0,016
184 212 21 0,521 0,722 0,685 0,02
185 213 21 0,521 0,722 0,685 0,047
186 214 21 0,521 0,722 0,685 0,01
187 215 21 0,521 0,722 0,685 0,016
188 2-5 22 0,521 0,722 0,685 0,032
189 2-4 22 0,521 0,722 0,685 0,016
190 2-3 22 0,521 0,722 0,685 0,016
191 2-2 22 0,521 0,722 0,685 0,016
192 2-1 22 0,521 0,722 0,685 0,021
193 20 22 0,521 0,722 0,685 0,032
194 21 22 0,521 0,722 0,685 0,016
195 22 22 0,521 0,722 0,685 0,016
196 23 22 0,521 0,722 0,685 0,016
197 24 22 0,521 0,722 0,685 0,022
198 25 22 0,521 0,722 0,685 0,016
199 26 22 0,521 0,722 0,685 0,016
200 27 22 0,521 0,722 0,685 0,031
104
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost Γ Akurasi G-mean F-score time
201 28 22 0,521 0,722 0,685 0,031
202 29 22 0,521 0,722 0,685 0,022
203 210 22 0,521 0,722 0,685 0,005
204 211 22 0,521 0,722 0,685 0,016
205 212 22 0,521 0,722 0,685 0,016
206 213 22 0,521 0,722 0,685 0,016
207 214 22 0,521 0,722 0,685 0,016
208 215 22 0,521 0,722 0,685 0,016
209 2-5 23 0,521 0,722 0,685 0,016
210 2-4 23 0,521 0,722 0,685 0,023
211 2-3 23 0,521 0,722 0,685 0,018
212 2-2 23 0,521 0,722 0,685 0,032
213 2-1 23 0,521 0,722 0,685 0,005
214 20 23 0,521 0,722 0,685 0,006
215 21 23 0,521 0,722 0,685 0,017
216 22 23 0,521 0,722 0,685 0,031
217 23 23 0,521 0,722 0,685 0,031
218 24 23 0,521 0,722 0,685 0,031
219 25 23 0,521 0,722 0,685 0,016
220 26 23 0,521 0,722 0,685 0,022
221 27 23 0,521 0,722 0,685 0,022
222 28 23 0,521 0,722 0,685 0,019
223 29 23 0,521 0,722 0,685 0,031
224 210 23 0,521 0,722 0,685 0,02
225 211 23 0,521 0,722 0,685 0,031
226 212 23 0,521 0,722 0,685 0,016
227 213 23 0,521 0,722 0,685 0,016
228 214 23 0,521 0,722 0,685 0,031
229 215 23 0,521 0,722 0,685 0,016
230 20 2-11 0,563 0,737 0,704 0,017
231 22 2-13 0,583 0,745 0,714 0,019
232 21 2-12 0,583 0,745 0,714 0,016
233 24 2-15 0,604 0,754 0,725 0,006
234 23 2-14 0,604 0,754 0,725 0,045
235 2-1 2-9 0,729 0,811 0,794 0,017
236 2-1 2-6 0,729 0,811 0,794 0,016
237 20 2-5 0,729 0,811 0,794 0,016
238 21 2-5 0,729 0,811 0,794 0,016
239 22 2-5 0,729 0,811 0,794 0,016
240 23 2-5 0,729 0,811 0,794 0,019
105
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score Time
241 24 2-5 0,729 0,811 0,794 0,016
242 25 2-5 0,729 0,811 0,794 0,016
243 26 2-5 0,729 0,811 0,794 0,016
244 27 2-5 0,729 0,811 0,794 0,016
245 28 2-5 0,729 0,811 0,794 0,016
246 29 2-5 0,729 0,811 0,794 0,022
247 210 2-5 0,729 0,811 0,794 0,017
248 211 2-5 0,729 0,811 0,794 0,022
249 212 2-5 0,729 0,811 0,794 0,016
250 213 2-5 0,729 0,811 0,794 0,016
251 214 2-5 0,729 0,811 0,794 0,038
252 215 2-5 0,729 0,811 0,794 0,017
253 20 2-10 0,833 0,87 0,862 0,031
254 20 2-6 0,833 0,884 0,877 0,016
255 22 2-12 0,854 0,884 0,877 0,016
256 21 2-11 0,854 0,884 0,877 0,004
257 2-1 2-7 0,854 0,898 0,893 0,017
258 25 2-15 0,875 0,898 0,893 0,047
259 24 2-14 0,875 0,898 0,893 0,041
260 23 2-13 0,875 0,898 0,893 0,017
261 2-1 2-8 0,875 0,898 0,893 0,016
262 21 2-6 0,875 0,913 0,909 0,026
263 22 2-6 0,875 0,913 0,909 0,016
264 23 2-6 0,875 0,913 0,909 0,016
265 24 2-6 0,875 0,913 0,909 0,032
266 25 2-6 0,875 0,913 0,909 0,016
267 26 2-6 0,875 0,913 0,909 0,038
268 27 2-6 0,875 0,913 0,909 0,022
269 28 2-6 0,875 0,913 0,909 0,016
270 29 2-6 0,875 0,913 0,909 0,022
271 210 2-6 0,875 0,913 0,909 0,017
272 211 2-6 0,875 0,913 0,909 0,022
273 212 2-6 0,875 0,913 0,909 0,006
274 213 2-6 0,875 0,913 0,909 0,006
275 214 2-6 0,875 0,913 0,909 0,022
276 215 2-6 0,875 0,913 0,909 0,016
277 20 2-9 0,896 0,913 0,909 0,014
278 22 2-7 0,917 0,941 0,941 0,016
279 23 2-7 0,917 0,941 0,941 0,016
280 24 2-7 0,917 0,941 0,941 0,016
106
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
281 25 2-7 0,917 0,941 0,941 0,031
282 26 2-7 0,917 0,941 0,941 0,031
283 27 2-7 0,917 0,941 0,941 0,016
284 28 2-7 0,917 0,941 0,941 0,016
285 29 2-7 0,917 0,941 0,941 0,031
286 210 2-7 0,917 0,941 0,941 0,016
287 211 2-7 0,917 0,941 0,941 0,016
288 212 2-7 0,917 0,941 0,941 0,037
289 213 2-7 0,917 0,941 0,941 0,016
290 214 2-7 0,917 0,941 0,941 0,016
291 215 2-7 0,917 0,941 0,941 0,016
292 21 2-10 0,938 0,945 0,943 0,031
293 20 2-7 0,938 0,962 0,962 0,003
294 21 2-7 0,938 0,962 0,962 0,016
295 26 2-15 0,958 0,962 0,962 0,016
296 25 2-14 0,958 0,962 0,962 0,067
297 24 2-13 0,958 0,962 0,962 0,016
298 23 2-12 0,958 0,962 0,962 0,016
299 22 2-11 0,958 0,962 0,962 0,016
300 23 2-9 0,958 0,98 0,98 0,016
301 24 2-9 0,958 0,98 0,98 0,016
302 25 2-9 0,958 0,98 0,98 0,017
303 26 2-9 0,958 0,98 0,98 0,006
304 27 2-9 0,958 0,98 0,98 0,016
305 28 2-9 0,958 0,98 0,98 0,016
306 29 2-9 0,958 0,98 0,98 0,003
307 210 2-9 0,958 0,98 0,98 0,016
308 211 2-9 0,958 0,98 0,98 0,016
309 212 2-9 0,958 0,98 0,98 0,016
310 213 2-9 0,958 0,98 0,98 0,031
311 214 2-9 0,958 0,98 0,98 0,021
312 215 2-9 0,958 0,98 0,98 0,016
313 22 2-8 0,958 0,98 0,98 0,031
314 23 2-8 0,958 0,98 0,98 0,016
315 24 2-8 0,958 0,98 0,98 0,016
316 25 2-8 0,958 0,98 0,98 0,018
317 26 2-8 0,958 0,98 0,98 0,016
318 27 2-8 0,958 0,98 0,98 0,016
319 28 2-8 0,958 0,98 0,98 0,016
320 29 2-8 0,958 0,98 0,98 0,032
107
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
321 210 2-8 0,958 0,98 0,98 0,016
322 211 2-8 0,958 0,98 0,98 0,016
323 212 2-8 0,958 0,98 0,98 0,016
324 213 2-8 0,958 0,98 0,98 0,021
325 214 2-8 0,958 0,98 0,98 0,02
326 215 2-8 0,958 0,98 0,98 0,016
327 27 2-15 0,979 0,981 0,98 0,018
328 28 2-15 0,979 0,98 0,98 0,031
329 29 2-15 0,979 0,98 0,98 0,021
330 210 2-15 0,979 0,98 0,98 0,017
331 211 2-15 0,979 0,98 0,98 0,033
332 212 2-15 0,979 0,98 0,98 0,016
333 213 2-15 0,979 0,98 0,98 0,016
334 214 2-15 0,979 0,98 0,98 0,016
335 215 2-15 0,979 0,98 0,98 0,016
336 26 2-14 0,979 0,981 0,98 0,023
337 27 2-14 0,979 0,98 0,98 0,022
338 28 2-14 0,979 0,98 0,98 0,038
339 29 2-14 0,979 0,98 0,98 0,031
340 210 2-14 0,979 0,98 0,98 0,024
341 211 2-14 0,979 0,98 0,98 0,034
342 212 2-14 0,979 0,98 0,98 0,139
343 213 2-14 0,979 0,98 0,98 0,035
344 214 2-14 0,979 0,98 0,98 0,076
345 215 2-14 0,979 0,98 0,98 0,026
346 25 2-13 0,979 0,981 0,98 0,016
347 26 2-13 0,979 0,98 0,98 0,016
348 27 2-13 0,979 0,98 0,98 0,031
349 28 2-13 0,979 0,98 0,98 0,016
350 29 2-13 0,979 0,98 0,98 0,016
351 210 2-13 0,979 0,98 0,98 0,02
352 211 2-13 0,979 0,98 0,98 0,031
353 212 2-13 0,979 0,98 0,98 0,016
354 213 2-13 0,979 0,98 0,98 0,016
355 214 2-13 0,979 0,98 0,98 0,016
356 215 2-13 0,979 0,98 0,98 0,016
357 24 2-13 0,979 0,981 0,98 0,016
358 25 2-13 0,979 0,98 0,98 0,028
359 26 2-13 0,979 0,98 0,98 0,016
360 27 2-13 0,979 0,98 0,98 0,016
108
Lampiran 25. Grid search SVM-OAO Leukimia (Lanjutan)
No Cost γ Akurasi G-mean F-score time
361 28 2-12 0,979 0,98 0,98 0,02
362 29 2-12 0,979 0,98 0,98 0,025
363 210 2-12 0,979 0,98 0,98 0,016
364 211 2-12 0,979 0,98 0,98 0,022
365 212 2-12 0,979 0,98 0,98 0,016
366 213 2-12 0,979 0,98 0,98 0,032
367 214 2-12 0,979 0,98 0,98 0,017
368 215 2-12 0,979 0,98 0,98 0,022
369 23 2-11 0,979 0,981 0,98 0,016
370 25 2-11 0,979 0,98 0,98 0,016
371 26 2-11 0,979 0,98 0,98 0,016
372 27 2-11 0,979 0,98 0,98 0,016
373 28 2-11 0,979 0,98 0,98 0,016
374 29 2-11 0,979 0,98 0,98 0,016
375 210 2-11 0,979 0,98 0,98 0,016
376 211 2-11 0,979 0,98 0,98 0,016
377 212 2-11 0,979 0,98 0,98 0,016
378 213 2-11 0,979 0,98 0,98 0,016
379 214 2-11 0,979 0,98 0,98 0,016
380 215 2-11 0,979 0,98 0,98 0,016
381 22 2-10 0,979 0,981 0,98 0,016
382 24 2-10 0,979 0,98 0,98 0,031
383 25 2-10 0,979 0,98 0,98 0,031
384 26 2-10 0,979 0,98 0,98 0,016
385 27 2-10 0,979 0,98 0,98 0,031
386 28 2-10 0,979 0,98 0,98 0,014
387 29 2-10 0,979 0,98 0,98 0,016
388 210 2-10 0,979 0,98 0,98 0,016
389 211 2-10 0,979 0,98 0,98 0,031
390 212 2-10 0,979 0,98 0,98 0,016
391 213 2-10 0,979 0,98 0,98 0,016
392 214 2-10 0,979 0,98 0,98 0,016
393 215 2-10 0,979 0,98 0,98 0,016
394 21 2-9 0,979 0,981 0,98 0,004
395 22 2-9 0,979 1 1 0,006
396 20 2-8 0,979 0,981 0,98 0,031
397 21 2-8 0,979 1 1 0,031
398 24 2-11 1 1 1 0,016
399 23 2-10 1 1 1 0,016
109
Lampiran 26. Syntax Generate Data Simulasi library(MASS)
library(data.table)
library(dplyr)
library(gmum.r)
library(caret)
library(MLmetrics)
Dataset=fread("D:/Leukimia1.csv")
n_fiturs = 1000; class_1 = 0.1; class_2 = 0.4; class_3 = 0.5
varn=sample(x = seq(1,5327),size = n_fiturs, replace = F)
Dataset1=cbind(select(Dataset,varn),Dataset$klasifikasi)
#Memperoleh matrix varian dan kovarian untuk masing-masing dataset
dan kategori
Cov_1_1=cov(subset(Dataset1,V2==0,select=-V2))
Cov_1_2=cov(subset(Dataset1,V2==1,select=-V2))
Cov_1_3=cov(subset(Dataset1,V2==2,select=-V2))
#Memperoleh mean vector untuk masing-masing dataset dan kategori
mean_1_1=colMeans(subset(Dataset1,V2==0,select=-V2))
mean_1_2=colMeans(subset(Dataset1,V2==1,select=-V2))
mean_1_3=colMeans(subset(Dataset1,V2==2,select=-V2))
#Memperoleh 'n' masing-masing kategori
n1_1=class_1*100
n1_2=class_2*100
n1_3=class_3*100
Datasim1_1=mvrnorm(n1_1, mean_1_1, Cov_1_1, empirical = FALSE)
Datasim1_2=mvrnorm(n1_2, mean_1_2, Cov_1_2, empirical = FALSE)
Datasim1_3=mvrnorm(n1_3, mean_1_3, Cov_1_3, empirical = FALSE)
Datasim1=as.data.frame(rbind(Datasim1_1,Datasim1_2,Datasim1_3))
y1=c(rep('kelas1',n1_1),rep('kelas2',n1_2),rep('kelas3',n1_3))
Datasim1=cbind(Datasim1, y1)
write.csv(Datasim1, "D:/Datasim1000_401050.csv")
110
Lampiran 27. Syntax Grid search SVM-OAO library(e1071)
library(MLmetrics)
library(caret)
Data_Thesis <- read.csv("D:/dataset3FCBF.csv")
Data_train<-list()
Data_test<-list()
for (i in 1:3) {
sampel <- createFold s(factor(Data_Thesis$y1), k = 3, list =
FALSE)
testIndexes <- which(sampel==i,arr.ind=TRUE)
Data_train[[i]]<-Data_Thesis[testIndexes,]
Data_test[[i]]<-Data_Thesis[-testIndexes,]}
Akurasi<-matrix(ncol=1,nrow=10)
G-mean<-matrix(ncol=1,nrow=10)
time<-matrix(ncol=1,nrow=10)
F-score<-matrix(ncol=1,nrow=10)
input_cost_SVM<-2seq(-5,15, by=1)
input_param_SVM<-2seq(-15,3,by=1)
comb_param_SVM<-expand.grid(input_cost_SVM,input_param_SVM)
Mat_hasil_test_SVM<-
matrix(ncol=ncol(comb_param_SVM)+4,nrow=nrow(comb_param_SVM))
for (j in 1:nrow(comb_param_SVM)){
for (i in 1:3) {
start.time1 = Sys.time()
model_SVM<-SVM(y1~.,data= Data_train[[i]] ,type="C
classification",cost=comb_param_SVM[j,1],
gamma=comb_param_SVM[j,2])
end.time1 = Sys.time()
prediksi<-predict(model_SVM,Data_test[[i]])
Akurasi[i]<-Accuracy(prediksi,Data_test[[i]]$y1)
G-
mean[i]=sqrt(Precision(prediksi,Data_test[[i]]$y1)*Recall(prediksi
,Data_test[[i]]$y1))
F-score[i]=F1_Score(prediksi,Data_test[[i]]$y1)
time[i]=end.time1-start.time1}
Akurasi<-mean(Akurasi[i])
G-mean<-mean(G-mean[i])
F-score=mean(F-score[i])
time<-mean(time[i])
hasil_test<-
as.numeric(c(comb_param_SVM[j,1],comb_param_SVM[j,2],Akurasi, G-
mean,F-score, time))
Mat_hasil_test_SVM[j,]<-hasil_test}
Mat_hasil_test_SVM<-
Mat_hasil_test_SVM[order(Mat_hasil_test_SVM[,3]),]
colnames(Mat_hasil_test_SVM)=c("nilaicost", "nilaigamma",
"akurasi", "G-mean", "F-score", "time")
hasilnya=data.frame(Mat_hasil_test_SVM)
head(hasilnya)
write.csv(hasilnya, "D:/7 Mei 2018/RBF.csv")
hasilnya=read.csv("D:/7 Mei 2018/RBF dataset3FCBF.csv")
hm <- ggplot(hasilnya, aes(x=as.character(cost),
y=as.character(gamma)))
hm + geom_tile(aes(fill=akurasi), colour = 'white') +
scale_fill_gradient2(low='blue', midpoint=1, high='blue')
111
Lampiran 28. Syntax SVM-OAO library(rminer)
library(data.table)
library(MLmetrics)
library(Biocomb)
library(e1071)
library(dplyr)
datasetFCBF1=fread("D:/dataset2FCBF.csv")
y1=datasetFCBF1$y1
FCBF1=select.fast.filter(dataset1,disc.method="MDL",threshold =
0.2)
write.csv(FCBF1, "D:/FCBF1.csv")
datasetFCBF1=select(dataset1,FCBF1$NumberFitur);
datasetFCBF1=cbind(datasetFCBF1,y1)
write.csv(datasetFCBF1, "D:/datasetFCBF1.csv")
fold s1 <- createFold s(factor(datasetFCBF1$y1), k = 3, list =
FALSE)
time1=rep(0,3)
f1score_1=rep(0,3)
Akurasi1=rep(0,3)
G-means1=rep(0,3)
for(i in 1:3)
{
print(i)
testIndexes <- which(fold s1==i,arr.ind=TRUE)
testData <- datasetFCBF1[testIndexes, ]
trainData <- datasetFCBF1[-testIndexes, ]
start.time1 = Sys.time()
model1<-SVM(y1~.,data = trainData,type="C-classification",
gamma=0.000122,cost=8)
end.time1 = Sys.time()
prediksi1=predict(model1, testData[,-98])
f1score_1[i]=F1_Score(testData$y1,prediksi1)
Akurasi1[i]=Accuracy(testData$y1,prediksi1)
Gmeans1[i]=sqrt(Precision(testData$y1,prediksi1)*Recall(testData$y
1,prediksi1))
time1[i]=end.time1-start.time1
}
mean(f1score_1)
mean(Akurasi1)
mean(G-means1)
mean(time1)
write.csv(list(akurasi=Akurasi1, F-score=f1score_1, G-mean=G-
means1, waktu=time1),"D:/list.csv")
112
Lampiran 29. Syntax EnSVM-OAO library(rminer)
library(data.table)
library(MLmetrics)
library(Biocomb)
library(dplyr)
library(ClustOfVar)
dataset1=fread("D:/silvvv/Leukimia1.csv")
y1=datasetFCBF1$y1
FCBF1=select.fast.filter(dataset1,disc.method="MDL",threshold =
0.8)
write.csv(FCBF1, "D:/FCBF1.csv")
datasetFCBF1=select(dataset1,FCBF1$Biomarker)
datasetFCBF1=select(dataset1,FCBF1$NumberFitur);
datasetFCBF1=cbind(datasetFCBF1,y1)
write.csv(datasetFCBF1, "D:/datasetFCBF1.csv")
dendogram1=hclustvar(X.quanti = datasetFCBF1)
win.graph(); plot(dendogram1)
clusterset1=cutreevar(dendogram1,2)
###Cluster variabel
var1_1=names(which(clusterset1$cluster==1))
var1_2=names(which(clusterset1$cluster==2))
###Ambil Cluster
cluster1_1=cbind(select(datasetFCBF1,var1_1),y1)
cluster1_2=cbind(select(datasetFCBF1,var1_2),y1)
#SVM dataset 1
fold s1 <- createFold s(factor(datasetFCBF1$y1), k = 3, list =
FALSE)
time1=rep(0,3)
f1score_1=rep(0,3)
Akurasi1=rep(0,3)
G-means1=rep(0,3)
for(i in 1:3)
{
print(i)
testIndexes <- which(fold s1==i,arr.ind=TRUE)
testData <- datasetFCBF1[testIndexes, ]
trainData <- datasetFCBF1[-testIndexes, ]
train1_1=cluster1_1[-testIndexes, ];
test1_1=subset(cluster1_1[testIndexes, ],select = -c(y1));
y1_1train=cluster1_1[-testIndexes, ]$y1;
y1_1test=cluster1_1[testIndexes, ]$y1
train1_2=cluster1_2[-testIndexes, ];
test1_2=subset(cluster1_2[testIndexes, ],select = -c(y1));
y1_2train=cluster1_2[-testIndexes, ]$y1;
y1_2test=cluster1_2[testIndexes, ]$y1
start.time1 = Sys.time()
model1_1=SVM(y=as.factor(y1_1train), x=subset(train1_1,select =
-c(y1)),type="C-classification",gamma=0.000977, cost=8)
model1_2=SVM(y=as.factor(y1_2train), x=subset(train1_2,select =
-c(y1)),type="C-classification",gamma=0.000977, cost=8)
end.time1 = Sys.time()
prediksi1_1=predict(model1_1, test1_1)
prediksi1_2=predict(model1_2, test1_2)
113
f1score_1_1=F1_Score(y1_1test,prediksi1_1);
Akurasi1_1=Accuracy(y1_1test,prediksi1_1); G-
means1_1=sqrt(Precision(y1_1test,prediksi1_1)*Recall(y1_1test,pred
iksi1_1))
f1score_1_2=F1_Score(y1_2test,prediksi1_2);
Akurasi1_2=Accuracy(y1_2test,prediksi1_2); G-
means1_2=sqrt(Precision(y1_2test,prediksi1_2)*Recall(y1_2test,pred
iksi1_2))
f1score_1[i]=mean(f1score_1_1, f1score_1_2)
Akurasi1[i]=mean(Akurasi1_1,Akurasi1_2)
G-means1[i]=mean(G-means1_1,G-means1_2)
time1[i]=end.time1-start.time1
}
mean(f1score_1)
mean(Akurasi1)
mean(G-means1)
mean(time1)
write.csv(list(akurasi=Akurasi1, F-score=f1score_1, G-mean=G-
means1, waktu=time1),"D:/list.csv")
114
Lampiran 30. Syntax EnSVM-RUS-OAO library(rminer)
library(data.table)
library(MLmetrics)
library(Biocomb)
library(dplyr)
library(ClustOfVar)
dataset1=fread("D:/silvvv/Leukimia1.csv")
y1=dataset1$klasifikasi
FCBF1=select.fast.filter(dataset1,disc.method="MDL",threshold =
0.8)
write.csv(FCBF1, "D:/FCBF1.csv")
datasetFCBF1=select(dataset1,FCBF1$Biomarker)
datasetFCBF1=select(dataset1,FCBF1$NumberFitur);
datasetFCBF1=cbind(datasetFCBF1,y1)
write.csv(datasetFCBF1, "D:/datasetFCBF1.csv")
datasetFCBF1=read.csv("D:/dataset1FCBF.csv")
y1=datasetFCBF1$y1
#Random Undersampling
RUS <- function(y,x,n){
fin=NULL
for (i in unique(y)) {
sub=subset(x, y==i)
sam=sub[sample(nrow(sub), n), ]
fin=rbind(fin, sam)}
return(fin)
}
RUSFCBF1=RUS(y=y1,x=datasetFCBF1,n=9)
dendogram1=hclustvar(X.quanti = RUSFCBF1)
win.graph(); plot(dendogram1)
clusterset1=cutreevar(dendogram1,2)
###Cluster variabel
var1_1=names(which(clusterset1$cluster==1))
var1_2=names(which(clusterset1$cluster==2))
###Ambil Cluster
cluster1_1=cbind(select(datasetFCBF1,var1_1),y1)
cluster1_2=cbind(select(datasetFCBF1,var1_2),y1)
#SVM dataset 1
fold s1 <- createFold s(factor(RUSFCBF1$y1), k = 3, list = FALSE)
time1=rep(0,3)
f1score_1=rep(0,3)
Akurasi1=rep(0,3)
G-means1=rep(0,3)
for(i in 1:3)
{
print(i)
testIndexes <- which(fold s1==i,arr.ind=TRUE)
testData <- RUSFCBF1[testIndexes, ]
trainData <- RUSFCBF1[-testIndexes, ]
train1_1=cluster1_1[-testIndexes, ];
test1_1=subset(cluster1_1[testIndexes, ],select = -c(y1));
y1_1train=cluster1_1[-testIndexes, ]$y1;
y1_1test=cluster1_1[testIndexes, ]$y1
115
train1_2=cluster1_2[-testIndexes, ];
test1_2=subset(cluster1_2[testIndexes, ],select = -c(y1));
y1_2train=cluster1_2[-testIndexes, ]$y1;
y1_2test=cluster1_2[testIndexes, ]$y1
start.time1 = Sys.time()
model1_1=SVM(y=as.factor(y1_1train), x=subset(train1_1,select =
-c(y1)),type="C-classification",gamma=0.000977, cost=8)
model1_2=SVM(y=as.factor(y1_2train), x=subset(train1_2,select =
-c(y1)),type="C-classification",gamma=0.000977, cost=8)
end.time1 = Sys.time()
prediksi1_1=predict(model1_1, test1_1)
prediksi1_2=predict(model1_2, test1_2)
f1score_1_1=F1_Score(y1_1test,prediksi1_1);
Akurasi1_1=Accuracy(y1_1test,prediksi1_1); G-
means1_1=sqrt(Precision(y1_1test,prediksi1_1)*Recall(y1_1test,pred
iksi1_1))
f1score_1_2=F1_Score(y1_2test,prediksi1_2);
Akurasi1_2=Accuracy(y1_2test,prediksi1_2); G-
means1_2=sqrt(Precision(y1_2test,prediksi1_2)*Recall(y1_2test,pred
iksi1_2))
f1score_1[i]=mean(f1score_1_1, f1score_1_2)
Akurasi1[i]=mean(Akurasi1_1,Akurasi1_2)
G-means1[i]=mean(G-means1_1,G-means1_2)
time1[i]=end.time1-start.time1
}
mean(f1score_1)
mean(Akurasi1)
mean(G-means1)
mean(time1)
write.csv(list(akurasi=Akurasi1, F-score=f1score_1, G-mean=G-
means1, waktu=time1),"D:/list.csv")
116
117
BIOGRAFI PENULIS
ur Silviyah Rahmi atau dengan panggilan Silvi, lahir
di Gresik pada tanggal 04 November 1991. Penulis
merupakan anak pertama dari enam bersaudara. Penulis
menyelesaikan Sekolah Dasar di MI Ma’arif Sidomukti
tahun 2004, SMPN 1 Gresik tahun 2007, SMAN 1
Kebomas tahun 2010, masuk kuliah di D3-Statistika ITS
pada tahun 2010 dan melanjutkan studi S1 Lintas Jalur
Statistika ITS tahun 2013.
Setelah menempuh pendidikan Sarjana selama 5 tahun, penulis melanjutkan ke
jenjang Magister Statistika ITS pada tahun 2016 dengan Beasiswa Fresh Graduate.
Sembari kuliah Pascasarjana, penulis bekerja di Badan Penanaman Modal Kota
Surabaya selama 1 tahun. Karya yang telah dibuat oleh penulis meliputi bidang
pemetaan data dengan metode analisis Chernoff Face, analisis multivariate data
dengan Structural Equation Modelling (SEM), analisis deret waktu yaitu Vector
Autoregressive (VAR) dan Generalized Space Time Autoregressive (GSTAR),
serta machine learning yaitu Support Vector Machine. Penulis mempunyai prinsip
dalam hidup, yaitu “Man Jadda Wajada”. Komunikasi lebih lanjut dengan penulis
dapat melalui email [email protected].
N