DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
AARON
101402027
UNIVERSITAS SUMATERA UTARA
Identifikasi file adalah proses yang dilakukan untuk memahami
urutan dari byte-byte
yang menyusun sebuah file, sehingga jenis file sebenarnya dari file
tersebut dapat
diketahui. Identifikasi file merupakan salah satu tahapan dari
prosedur forensik digital
yang diterapkan pada kasus kriminal untuk mendapatkan barang bukti
digital yang valid
digunakan dalam proses pengadilan.
Pada kasus-kasus kriminal, seperti kasus korupsi, file-file dokumen
yang
tersimpan dalam hard disk komputer dapat dijadikan
sebagai barang bukti. Tetapi pada
kenyataannya dalam mengumpulkan file-file dokumen yang dapat
menjadi bukti digital
tersebut, para penyidik seringkali mengalami kesulitan karena
dilakukannya file forgery
oleh pihak tersangka. File forgery adalah pemalsuan file-file
dokumen yang dapat
menjadi bukti digital sehingga file-file dokumen tersebut tidak
dapat dikenali sebagai file
dokumen dengan mudah.
Cara paling sederhana yang digunakan dalam file forgery
adalah mengubah
ekstensi dari file. File-file dokumen yang telah diubah ekstensinya
menjadi tidak dapat
dikenali secara langsung apabila di-browse melalui file
browser saja, sebagai contoh
sebuah file dokumen dengan ekstensi .doc diganti etensinya menjadi
.jpg, file browser
tidak lagi mengenali file tersebut sebagai file dokumen melainkan
mengenalinya sebagai
sebuah file citra. !al ini dikarenakan file browser sistem
operasi secara umum mengenali
jenis dari sebuah file hanya dari ekstensi file
tersebut.
"alah satu cara untuk mengidentifikasi jenis file sebenarnya dari
file dokumen
yang telah diubah ekstensinya ini dapat dilakukan dengan mengecek
magic bytes dari file
tersebut #!ickok, et al. $%%&'. Magic Bytes adalah
beberapa byte a(al dari sebuah file
yang menunjukkan isi dari file tersebut. )isalnya file dokumen
dengan ekstensi .doc
memiliki magic bytes: *+% CF % / 0. kan tetapi, cara identifikasi
ini
memiliki kelemahan yakni magic bytes dari sebuah file dapat
diubah dengan mudah
menggunakan hex editor, sehingga identifikasi jenis file tidak
dapat dilakukan.
"elain mengidentifikasi jenis file dari magic bytes, identifikasi
jenis file juga dapat
dilakukan melalui konten dari file menggunakan 1aringan "araf
Tiruan #!arris, $%%2',
serta Principal Component Analysis (PCA dan 1aringan
"araf Tiruan #mirani, et al.
$%%3'. pabila identifikasi dilakukan melalui konten file, maka
pengubahan terhadap
ekstensi maupun magic bytes dari file tidak akan mempengaruhi hasil
identifikasi jenis
file yang sebenarnya. 4amun, penggunaan 1aringan "araf Tiruan dalam
identifikasi file
memiliki kelemahan seperti sulitnya menentukan arsitektur dari
system dan pembelajaran
yang baru akan membuat sistem melupakan pembelajaran yang lama
#5asabov, $%%2'.
Pelatihan yang hanya menggunakan satu 1aringan "araf Tiruan juga
memerlukan (aktu
pelatihan yang lama dan mengalami kesulitan dalam mengatasi
data yang besar karena
keterbatasan sumber daya. +engan pertimbangan beberapa kelemahan
dari 1aringan "araf
Tiruan ini, penulis mengajukan metode !istrib"ted A"tonomo"s
#e"ro$%en &earning
'ngine (!A#%&'
satu 1aringan "araf Tiruan dalam pembelajarannya, dimana kumpulan
1aringan "araf
Tiruan ini disebut dengan !istrib"ted Adapti)e #e"ral #etwork
(!A## dan setiap
1aringan "araf Tiruan di dalam !A## dibangun,
diatur dan dilatih oleh sebuah %ene
*eg"latory 'ngine (%*' dapun karakteristik
dari !A#%&' adalah adanya distribusi
beban pada beberapa 1aringan "araf Tiruan sekaligus, sehingga
memungkinkan !A#%&'
untuk mengurangi (aktu pelatihan yang diperlukan, mengatasi data
yang besar serta
memiliki fleksibilitas tinggi #tidak terikat pada satu jenis
1aringan "araf Tiruan'.
!A#%&' telah digunakan dalam menyelesaikan analisis
lattice dari permasalahan
identifikasi struktur kubik #Pasha, et al. $%%'.
/erdasarkan latar belakang diatas, penulis mengajukan proposal
penelitian dengan
judul *I+4TIFI5"I FI6 +758)4 /9+"954 574T4
)4::8454 +I"T9I/8T+ 8T747)78" 4897-:4 694I4:
4:I40.
Forgery terhadap file-file dokumen dengan cara mengubah
ekstensi dari file dokumen
maupun mengubah magic bytes dari file-file dokumen, membuat
file-file dokumen susah
diidentifikasi secara langsung melalui file browser ,
sehingga menyulitkan para penyidik
dalam menemukan file-file dokumen yang dapat saja menjadi bukti
digital dalam proses
pengadilan tersangka pada kasus-kasus kriminal. /agaimana
mengidentifikasi file-file
sehingga dapat diketahui apakah jenis file sebenarnya adalah
merupakan file dokumen
atau bukan;
)engidentifikasi file-file berdasarkan konten menggunakan
!istrib"ted A"tonomo"s
#e"ro$%en &earning 'ngine, sehingga dapat diketahui
apakah file merupakan file
dokumen atau bukan.
4. Bata(a$ Ma(a"a)
batasan<
. Identifikasi dilakukan pada file dokumen, dengan ekstensi dari
file dokumen yang
akan diidentifikasi adalah .doc, .doc, .html, .pdf, .ppt, .ppt,
.rtf, .ls, dan .ls.
$. Identifikasi dilakukan hanya melalui konten atau isi dari
file.
. Ma$aat P!$!",t,a$
. )enambah pengetahuan serta (a(asan penulis dalam bidang forensik
digital dan
menambah pengetahuan penulis dalam mengetahui seluk-beluk file,
teknik
identifikasi dan jaringan saraf tiruan.
$. )embantu mengidentifikasi file-file dokumen dari sekumpulan file
yang tidak
diketahui jenis file sebenarnya.
/. M!t"%,
berikut<
forensik digital, file, ekstraksi fitur, jaringan saraf tiruan
dan !A#%&'
$. nalisis Permasalahan
Pada tahap ini dilakukan analisis terhadap bahan referensi yang
telah dikumpulkan
pada tahap sebelumnya untuk mendapatkan pemahaman mengenai
metode yang
menyelesaikan masalah identifikasi jenis file.
=. Pembangunan Program
:ambar .. menunjukkan arsitektur umum dari penelitian yang
diajukan, dimana
arsitektur yang diajukan terdiri atas empat bagian, yakni data
input, pre$
processing , !A#%&' dan
output.
. +raining !ataset , merupakan file-file dokumen dengan jenis
file sebenarnya
sudah diketahui dan memiliki ekstensi .doc, .doc, .html, .pdf,
.ppt, .ppt,
.rtf, .ls, dan .ls. +raining !ataset digunakan untuk melatih
!A## ,
sehingga !A## dapat mengenali file-file dokumen dengan jenis
file yang
telah dilatih.
ekstensi, dimana jenis file sebenarnya tidak diketahui. +esting
!ataset
digunakan untuk menguji !A## yang telah dilatih
apakah mampu mengenali
jenis file yang sebenarnya dari file-file uji tersebut.
%% % &>
% $
%= =
%> >
%? ?
% >
data digunakan. da tiga tahapan yang dilakukan
dalam pre$processing , yakni<
. 5alkulasi Byte Fre"ency !istrib"tion #/F+ A +istribusi
Frekuensi /yte'
+ari file-file input terlebih dahulu dilakukan kalkulasi /F+ dari
byte-byte
yang menyusun file tersebut. !asil dari kalkulasi /F+ adalah sebuah
tabel
/F+ yang menyimpan frekuensi dari kemunculan setiap byte yang
menyusun
file. 8kuran dari sebuah tabel /F+ adalah $&>, hal ini
dikarenakan ada $&>
kemungkinan dari byte yang menyusun suatu file
#%-$&&'.
Contoh< sebuah file dokumen dengan ekstensi .doc disusun atas
byte-byte
#dalam heksadesimal'< d% cf e% a b a e %% %% %% %% %% %% %% %%
%% %%
%% %% %% %% %% %% =e %% %= %% fe ff %? %% %> %% %% %% %% %% %%
%% %% %% %%
fe ff ff ff %% %% %% %% $d %% %% %%. Tabel .. menunjukkan tabel /F+
yang
dihasilkan dari file tersebut.
Bariasi ukuran file yang diinputkan akan mengakibatkan terjadinya
perbedaan
nilai frekuensi yang cukup signifikan pada tabel /F+. 8ntuk
mengatasi hal
ini, maka setelah dilakukan kalkulasi /F+, maka dilakukanlah
normalisasi
pada /F+ sehingga setiap input file akan diberikan bobot yang
sama tanpa
membedakan ukuran file. 4ilai frekuensi pada tabel /F+ yang
telah
dinormalisasi akan memiliki range dari % sampai dengan .
4ormalisasi dilakukan dengan menggunakan rumus berikut
#mirani,
et al. $%%3'<
i
i =
+imana i F# adalah nilai frekuensi untuk byte i
setelah normalisasi,
i F-# adalah nilai frekuensi untuk byte i sebelum
normalisasi,
ma F adalah nilai frekunsi terbesar sebelum
normalisasi.
Contoh Tabel /F+ yang sudah dinormalisasi dapat dilihat pada Tabel
.$.
/eberapa jenis file akan memiliki satu byte dengan frekuensi
kemunculan yang jauh lebih besar dari byte-byte yang lainnya.
pabila hal ini
terjadi maka hasil normalisasi akan menunjukkan perbedaan yang
cukup
signifikan, dimana satu byte akan memiliki nilai frekuensi yang
besar
#mendekati ' dan byte-byte lain hanya akan memiliki nilai mendekati
%.
Perbedaan signifikan ini dapat dilihat dengan jelas dalam bentuk
grafik pada
gambar ..
%% % .%%%%%
Perbedaan ini menyebabkan kurangnya detail fitur untuk
menentukan
pola yang ada sehingga hasil tabel /F+ yang telah
dinormalisasi perlu
diproses lagi menggunakan fungsi kompresi dan ekspansi #compressing
and
expanding f"nction . companding f"nction' untuk menekankan
perbedaan pada
nilai yang lebih rendah. dapun fungsi kompresi dan ekspansi yang
akan
digunakan adalah<
paling optimum dalam fungsi kompresi dan ekspansi untuk
identifikasi file
#)c+aniel, $%%'.
Contoh hasil tabel /F+ dan grafik dengan nilai frekuensi yang telah
diproses
menggunakan fungsi kompresi dan ekspansi dapat dilihat pada tabel
.= dan
gambar .$.
%% % .%%%%%
Tabel .=. Tabel /F+ setelah diproses menggunakan fungsi kompresi
dan ekspansi
:ambar .$. :rafik dari tabel /F+ setelah diproses menggunakan
fungsi kompresi dan ekspansi
=. kstraksi 4 Fitur dari /F+
+ari tabel /F+ yang telah dinormalisasi kemudian dilakukan
ekstraksi fitur
untuk mendapatkan 4 fitur-fitur dari $&> fitur /F+ yang
mampu
merepresentasikan file yang diinputkan. pabila tidak dilakukan
ekstraksi
fitur, $&> fitur /F+ akan memperlambat dan menurunkan
akurasi identifikasi.
kstraksi fitur akan dilakukan menggunakan Principle Component
Analysis
(PCA, yang merupakan teknik ekstraksi fitur yang terkenal dalam
analisis
multivarian.
al. $%%3'<
a. )ensubtraksi nilai rata-rata dari tabel fitur dari seluruh nilai
fitur.
b. )encari matriks kovarian dari tabel fitur.
c. )enghitung eigen)ector dan eigen)al"e dari matriks
kovarian.
d. )emilih komponen dan membentuk vektor fitur yang baru.
e. )enghasilkan fitur-fitur baru yang mampu me(akili $&>
fitur /F+
sebelumya.
!asil Pre$processing dari data input kemudian digunakan pada
bagian
berikut dari arsitektur. /agian berikut dari arsitektur ini
adalah !A## , dimana
!A## terdiri atas dua komponen utama, yakni<
. %ene *eg"latory 'ngine (%*'
%*' merupakan sebuah mekanisme regulasi gen yang sederhana
dan
digunakan untuk mengatur konstruksi dan mutasi gen sebelum gen
diteruskan
ke bagian jaringan dari !A#%&' . :ambar .=
menunjukkan rsitektur umum
dari %*', dimana %*' memiliki tiga komponen utama, yakni<
komponen
representasi gen yang mengatur struktur dari gen yang dibuat,
komponen
fungsi objektif yang akan menghitung seluruh hasil keluaran dari
bagian
jaringan !A#%&' dan komponen regulasi mutasi yang
memutasi gen untuk
meningkatkan performa dari jaringan #Pasha, et al. $%%'.
/ !istrib"ted Adapti)e #e"ral #etwork (!A##
!A## merupakan sebuah jaringan saraf tiruan yang dirancang
untuk
mengurangi (aktu pelatihan dengan cara membagi beban pelatihan
kepada
beberapa jaringan saraf tiruan, dan kemudian mengkonstruksi
jaringan hasil
dari beberapa jaringan saraf tiruan tersebut. /eberapa jaringan
saraf tiruan
yang dimaksud akan di$hosting pada beberapa mesin atau
agen yang disebut
node "etiap node akan memiliki gennya sendiri dan
berjalan secara otonomi
pada lingkungan yang berbeda. !A## didesain
untuk tidak terikat pada satu
jenis jaringan saraf tiruan #Pasha, et al. $%%'.
dapun jaringan saraf tiruan yang akan diajukan untuk digunakan
pada
node adalah jaringan ')ol)ing Connectionists -ystem
('Co- 'Co-
merupakan sistem representasi pengetahuan yang mampu
mengevolusikan
struktur dan fungsionalitasnya. 'Co- berdasarkan
pada #e"ral #etwork
#1aringan saraf', tetapi menggunakan teknik lain yang beroperasi
secara
berkelanjutan dan mengadaptasikan struktur serta
fungsionalitas sistem
melalui interaksi dengan lingkungan maupun sistem yang lain.
"ebuah
jaringan 'Co- jaringan saraf tiruan yang paling
tidak memiliki satu layer
neuron yang berevolusi #e)ol)ing layer '. ')ol)ing
layer adalah layer
konstruktif yang akan berkembang dan mengadaptasikan dirinya
terhadap data
yang masuk. Pelatihan dengan menggunakan algoritma
'Co- melibatkan
empat parameter, yakni< sensiti)ity threshold
(- thr , error
threshold # ' thr ', dan
dua buah learning rate n0 dan n/. -ensiti)ity threshold dan
error threshold
merupakan parameter yang mengendalikan penambahan neuron baru
pada
'Co- #Datts, $%%>'
Connectionist -ystem #-'Co- ', dimana jaringan
-'Co- terdiri atas tiga layer
neuron, yakni< inp"t layer , e)ol)ing layer dan
o"tp"t layer . rsitektus dari
-'Co- dapat dilihat pada gambar .@.
/agian terakhir dari arsitektur yang diajukan adalah bagian output.
"istem
akan mengidentifikasi jenis file sebenarnya dari file input
menggunakan jaringan
jenis file sebenarnya dari file input, yakni jenis file
dengan ekstensi .doc, .doc,
.html, .pdf, .ppt, .ppt, .rtf, .ls, dan .ls ataupun selain
jenis-jenis file tersebut.
@. +okumentasi dan Pelaporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil
analisis dan
implementasi !istrib"ted A"tonomo"s #e"ro$%en &earning
Machine dalam
identifikasi jenis file dokumen.
mirani, ).C., Toorani, ). E /eheshti, .. $%%3. 4e( pproach to
Content-
based File Type +etection Proceedings of the 01th 2'''
-ymposi"m on
Comp"ters and Comm"nications (2-CC345, pp. %=-%3.
Futschik, ).. 9eeve, . 5asabov, 4. $%%=. volving Connectionist
"ystem for
5no(ledge +iscovery from :ene pression +ata of Cancer Tissue
Artificial
2ntelligence in Medicine /5: 067$058.
:arfinkel, ".6. $%%>. Forensic feat"re extraction and
cross$dri)e analysi #9nline'
http<AA(((.elsevier.comAlocateAdiin #$% gustus $%='.
!arris, 9.). $%%2. sing Artificial #e"ral #etworks for Forensic
File +ype
2dentification Tesis. Purdue 8niversity
!ickok, +.1. 6esniak, +.9. 9o(e, ).C. $%%&. File +ype
!etection +echnology 8.".
ir Force 9esearch 6aboratory, Phase
"TT9-F?&&%-%@-C-%%?.
Tesis. 8niversity of 7tago
6iao, . Bemuri, B.9. E Pasos . $%%&. daptive nomaly +etection
(ith volving
Connectionist "ystems ;o"rnal of #etwork and Comp"ter Applications
14:
>%-3%.
*ecognition Tesis. 1ames )adison 8niversity.
Pasha, ).F. 9ahmat, 9.F. /udiarto, 9. E "yukur, ). $%%. +istributed
4euro-:en
6earning ngine and its pplication to the 6attice nalysis of Cubic
"tructure
Identification Problem. 2nternational ;o"rnal of 2nno)ati)e
Comp"ting,
2nformation and Control 6: 0447$04//
Datts, ).1. $%%>. A !ecade of <asabo)3s ')ol)ing
Connectionist -ystems: A
*e)iew. 8niversity of "ydney