PENERAPAN METODE TERM FREQUENCY INVERSE …...ringkas, dan jelas bagian-bagiannya, agar...
Transcript of PENERAPAN METODE TERM FREQUENCY INVERSE …...ringkas, dan jelas bagian-bagiannya, agar...
-
JURNAL TEKNIK INFORMATIKA VOL 11 NO. 2, OKTOBER 2018 | 149
PENERAPAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY(TF-IDF) DAN COSINE SIMILARITY PADA SISTEM TEMU KEMBALI INFORMASI
UNTUK MENGETAHUI SYARAH HADITS BERBASIS WEB(STUDI KASUS: SYARAH UMDATIL AHKAM)
Ria Melita1, Victor Amrizal 2 , Hendra Bayu Suseno 3, Taslimun Dirjam 4
1,2Program Studi Teknik Informatika, Fakultas Sains dan TeknologiUniversitas Islam Negeri Syarif Hidayatullah Jakarta
[email protected], [email protected], [email protected],[email protected]
ABSTRAK
Hadits merupakan sumber ajaran Islam di samping Al-Qur’an. Tanpa hadits, syari’at Islam tidakdapat dimengerti secara utuh dan tidak dapat dilaksanakan. Namun dewasa ini, tidak sedikit orangyang keliru dalam memahaminya, hal tersebut disebabkan oleh banyaknya orang yang memahamihadits sebatas mengandalkan teks lahiriyah saja. Salah satu hal yang dapat kita tempuh untukmengetahui makna yang terkandung dalam hadits adalah dengan mempelajari syarah hadits gunameminimalisir kesalahan penafsiran terhadap suatu hadits. Sejauh ini aplikasi syarah hadits yang adamasih terbatas, yaitu dalam bahasa full arab yang tidak semua orang dapat memahaminya. Sedangkanuntuk bahasa indonesia hanya ada lidwa dan arbain, namun masih sangat luas jangkauannya. Olehkarena itu, diperlukan jangkauan pemahaman dalam ilmu hadits dan dengan adanya sistem yang akandibangun, maka akan memberikan solusi permasalahan tersebut, yaitu Sistem Temu KembaliInformasi yang dapat dimanfaatkan untuk mengetahui syarah hadits, karena dapat memberikanalternatif berupa metode similarity yang dapat digunakan untuk melakukan pencarian dokumenrelevan dengan yang kita inginkan. Metode similiarity yang digunakan adalah cosine similarity denganpembobotan kata menggunakan metode TFIDF dan menerapkan teks preprocessing terlebih dahuluuntuk memperkecil term sehingga bisa mempercepat proses perhitungan term. Teks preprocessingtersebut meliputi tokenizing, stopword removal atau filtering, dan stemming. Hasil uji coba denganpengujian confusion matrix didapatkan: recall 88.7%, precision 100%, accuracy 88,73 %, dan errorrate 11,27 %.
Kata Kunci: syarah, hadits, cosine similarity, tf-idf
ABSTRACT
Hadith is a source of Islamic teachings besides the Qur'an. Without using the hadith, the syari'at ofIslam can not be fully understood and can not be implemented. But today, many people are mistakenin understanding it, it is caused by the many people who understand the hadith to rely on text lahiriyahonly. One of the things that we can take to know the meaning contained in the hadith is to study syarahhadith in order to minimize misinterpretation of a hadith. So far the application of syarh hadith is stilllimited. Because so far the existing applications are still full Arab language that not everyone canunderstand it. As for the Indonesian language there are only lidwa and arbain, but still very wide reach.Therefore, we need a system for the solution of the problem, that is Information Retrieval Systemwhich can be utilized because it provides an alternative in the form of similarity method that can beused to search documents relevant to what we want. The similiarity method used is cosine similaritywith word weighting using TFIDF method and applying preprocessing text first to minimize term sothat it can speed up the term calculation process. The preprocessing text includes tokenizing, stopwordremoval or filtering, and stemming. The results of testing with confusion matrix test obtained: 88.7%recall, precision 100%, accuracy 88.73%, and error rate 11.27%.
Keywords: syarah, hadith, cosine similarity, tf-idf
http://dx.doi.org/10.15408/jti.v11i2.8623
Ria Melita, dkk: Penerapan Metode… 149-164 p-ISSN 1979-9160 | e-ISSN 2549-7901
-
I. PENDAHULUAN
1.1 Latar Belakang Hadits merupakan sumber ajaran Islam
disamping AlQur’an. Tanpa menggunakanhadits, syari’at Islam tidak dapat dimengertisecara utuh dan tidak dapat dilaksanakan. [1].Hadits sebagai sumber hukum kedua setelahAlQur’an, memiliki otoritas dan posisipenting yang nampaknya sudah tidak perludipertanyakan lagi, karena selain sebagaipenjelas (bayan) bagi otoritas wahyu Allah(AlQur’an) juga sebagai sumber hukum Islamkedua yang menjadi rujukan para fuqaha yaituahli fiqih atau hukum islam. [2].
Pentingnya posisi hadits tehadap Al-Qur’an turut menempatkan posisi SyarahHadits sebagai sesuatu yang tidak dapatdiabaikan. Teks-teks hadits yang ada menjadipenjelas atas teks-teks Al-Qur’an yangdianggap masih bersifat global. Syarahmemegang peranan penting untuk menjelaskanhal-hal yang dianggap masih umum, sulitdipahami, terlihat bertentangan, maupun hal-hal yang menyimpan keganjilan dalam teks-teks hadits. Syarah Hadits adalah keterangantentang suatu maksud dalam suatu hadits.Tanpa keberadaan syarah hadits, susah kiranyauntuk memahami makna sesungguhnya darisuatu hadits [3].
Hasil wawancara yang telah penulislakukan dengan Bapak Fiqri MuhammadFatkhi, MA. Selaku Ketua Program StudiHadits Fakultas Ushuluddin UIN SyarifHidayatullah Jakarta, didapatkan bahwa “saatini tidak sedikit orang yang keliru dalammemahami hadits dikarenakan oleh beberapafaktor yang mempengaruhinya sepertimemahami hadits sebatas teks lahiriyah haditssaja”.
Menurut Bapak Fiqri, hal yang dapat kitatempuh untuk mengetahui makna yangterkandung dalam hadits adalah salah satunyadengan mempelajari syarah hadits, dimanamempelajari syarah hadits untuk mengetahuimakna yang terkandung didalamnya ini sangatpenting untuk dilakukan sepanjang diperolehdari orang yang memiliki otoritas dibidangpenjelasan hadits.
Merujuk pada penjelasan beliau, sejauhini aplikasi syarah hadits yang ada masihterbatas, yaitu dalam bahasa full arab yangtidak semua orang dapat memahaminya.Sedangkan untuk bahasa indonesia sendiri baru
ada lidwa dan arbain, namun masih sangat luasjangkauannya yaitu dari berbagai perawi dantidak ada dalam bentuk softcopy untukmemudahkan dalam memahami suatu hadits.
Berdasarkan pemaparan diatas, untukmengetahui syarah hadits guna meminima-lisirkesalahan penafsiran terhadap suatu hadits,maka penulis ingin melakukan penelitiandengan merancang suatu sistem temu kembaliinformasi untuk mengetahui syarah haditsdengan bahasa indonesia yang berpedomanpada kitab Taysirul ‘Allam Syarah ‘UmdatilAhkam yang akan dibuat dengan menerapkanmetode Term Frequency Inverse DocumentFrequency (TF-IDF) dan Cosine Similarity.
Taysirul ‘Allam Syarah ‘Umdatil Ahkamadalah kitab syarah yang sangat populer dikalangan penuntut ilmu di seluruh dunia,termasuk pesantren-pesantren di Indonesiayang merupakan kumpulan hadits-haditsriwayat imam Bukhari-Muslim—keduanyasudah sangat masyhur di telinga kaumMuslimin seantero dunia sebagai jaminankeshahihan suatu hadits.[4].
Sistem temu kembali informasi inimerupakan suatu sistem yang menemukan(retrieve) informasi yang sesuai dengankebutuhan user berdasarkan query yangdimasukkan. Dengan begitu, penelitian inidiharapkan dapat memberikan output berupasyarah hadits yang sesuai ber-dasarkan inputyang dimasukkan dengan menggunakanMetode Term Frequency Inverse DocumentFrequency (TF-IDF) dan Cosine Similarity.Metode Term Frequency Inverse DocumentFrequency (TF-IDF) ini merupakan suatu carauntuk memberikan bobot hubungan suatu kata(term) terhadap dokumen. Sedangkan, Metodecosine similarity merupakan metode untukmenghitung kesamaan antara dua buah objekyang dinyatakan dalam dua buah vectordengan menggunakan keywords (kata kunci)dari sebuah dokumen sebagai ukuran [5].
Metode tfidf ini penulis gunakan, karenamerupakan metode pembobotan kata yangterkenal efisien, mudah dan memiliki hasilyang akurat.[6]. Sedangkan Metode CosineSimilarity penulis gunakan dengan alasanbahwa, metode ini mempunyai nilai akurasiyang tinggi dimana kelebihan utama darimetode cosine similarity adalah tidakterpengaruh pada panjang pendeknya suatudokumen. Sehingga, dengan melakukanperbandingan keyword yang dihasilkan, maka
-
kedekatan antara itempun dapat dipastikan.[7].
Penelitian terkait dengan menggunakanmetode tfidf dan cosine similarity ini telahdilakukan sebelumnya oleh Rizki Tri Wahyuni,Dhidik Prastiyanto, dan Eko Supraptono dalamjurnalnya yang berjudul “ PenerapanAlgoritma Cosine Similarity dan PembobotanTerm Frequency Inverse Document Frequencypada Sistem Klasifikasi Dokumen Skripsi”mengenai perancangan sistem yang dapatmengklasifikasikan dokumen secara otomatiskedalam folder berbeda pada database agarlebih mudah dalam mengelola dokumen yangada.
Penelitian yang dilakukan oleh DewaAyu, Arie Lumenta, dan Agustinus Jacobusdalam jurnalnya yang berjudul “PengukuranKemiripan Dokumen Teks Bahasa IndonesiaMenggunakan Metode Cosine Similarity” yaitupenelitian yang mengukur kemiripan dokumenuntuk mengetahui adanya plagiarisme terhadapsuatu karya tulis.
Penelitian dengan judul “Sistem TemuKembali Informasi pada Dokumen TeksMenggunakan Metode Term FrequencyInverse Document frequency” yang dilakukanoleh Dhony Syafe’i, Sukmawati, dan NurdinBahtiar, mengenai pembuatan suatu perangkatlunak yang dapat mencari dokumendokumenpenulisan ilmiah yang relevan sesuai tingkatpembobotannya.
Dari ketiga penelitian terkait yang telahpenulis sebutkan diatas, terdapat beberapairisan yang penulis tekankan dalam penelitiantersebut yaitu dalam penggunaan stemmingpada text preprocessing. Dimana penelitianyang dilakukan oleh Rizki Tri Wahyuni, dkkdan Dewa Ayu, dkk tidak melakukanstemming pada text preprocessing danpenelitian yang dilakukan oleh Dhony Syafe’imenggunakan Stemming dengan jenis PorterStemmer model Fadhillah Z.Tala. Oleh karenaitu, penulis menggunakan Stemming modelNazief dan Adriani pada text preprocessinguntuk meningkatkan performa sistem yangakan dibuat, dimana stemming model inimerupakan stemming yang memiliki tingkatakurasi (presisi) lebih tinggi dibandingkandengan stemming model lain. Penelitian yangpenulis lakukan menggunakan metode yangsama yaitu term frequency inverse document
frequency dan cosine similarity pada sistemtemu kembali informasi, namun terdapatperbedaan yang mendasar dari semuapenelitian yang ada yaitu bahwa penulismelakukan penerapan metode tersebut padasistem temu kembali informasi untukmengetahui syarah hadits yang belum pernahdilakukan sebelumnya.
Sistem temu kembali informasi ini akandibuat dengan menggunakan aplikasi berbasisweb dengan kelebihan tidak memerlukanproses instalasi, bersifat terpusat, dapat dijalankan di os manapun asalkan memilikibrowser dan akses internet, dan tidak perluspesifikasi komputer client yang tinggi.
Berdasarkan permasalahan diatas, makapenulis tertarik untuk melakukan penelitiandengan judul “Penerapan Metode TermFrequency Inverse Document Frequency (TfIdf) dan Cosine Similarity pada Sistem TemuKembali Informasi untuk Mengetahui SyarahHadits Berbasis Web (Studi Kasus: SyarahUmdatil Hakam)”.1.2 Rumusan Masalah
Berdasarkan latar belakang yangdikemukakan, maka rumusan masalah yangada pada penelitian ini adalah:1. Bagaimana menerapkan metode term
frequency inverse document frequency (tfidf) dan cosine similarity pada sistemtemu kembali informasi untuk mengetahuisyarah hadits berbasis web?
2. Bagaimana menghitung nilai akurasi padaStemming Nazief dan Adriani yangdigunakan dalam text preprocessing?
1.3 Tujuan PenelitianTujuan dari penelitian ini adalah sebagaiberikut:
1. Menerapkan metode term frequencyinverse document frequency (tfidf) dancosine similarity pada sistem temukembali informasi untuk mengetahuisyarah hadits berbasis web (studi kasus:hadits shahih BukhariMuslim).
2. Menghitung nilai akurasi pada StemmingNazief dan Adriani yang digunakan dalamtext preprocessing.
II. TINJAUAN PUSTAKA
2.1 Syarah HaditsSyarah hadits adalah suatu aktivitas
penyingkapan atau penjelasan atas makna-
-
makna dan pemahaman atas sesuatu yangdisandarkan pada Rasulullah SAW baik yangberupa perkataan, perbuatan, ketetapan,maupun sifat-sifatnya. [8].2.2 Taysirul ‘Allam Syarah Umdatil Ahkam
Kitab Umdatil Ahkam ini merupakanpilihan dari atsar-atsar Nabi SAW palingshahih bersumber dari dua kitab agung; Shahihal-Bukhari dan Shahih Muslim yang dapatdijadikan rujukan dalam pembelajaran haditsbagi siapapun yang sudah mencapai tingkatanmahir, sekaligus tangga bagi pemula menujukitab-kitab Islam yang diriwayatkan darimanusia terbaik, Rasulullah SAW.
Dibandingkan dengan kitab syarah lainseperti syarah Al-Allamah ahli ijtihad, danIbnu Daqiq Id yang beredar luas dimanametode pembahasan yang digunakan penulisrumit dan kuat, jauh diatas pemahamansebagian besar para penuntut ilmu dan merekayang mencari informasi, keutamaan dari kitabini adalah menggunakan bahasa yang mudahdipahami, keterangannya tidak bertele-tele,ringkas, dan jelas bagian-bagiannya, agarpermasalahan-permasalahan yang ada besertapenjelasannya tidak tumpang tindih danbercampur, yang tentu saja akanmembingungkan [9]. 2.3 Text Mining
Text mining dapat didefinisikan secaraluas sebagai suatu proses menggali informasidimana seorang user berinteraksi dengansekumpulan dokumen menggunakan toolsanalisis yang merupakan komponenkomponendalam data mining yang salah satunya adalahkategorisasi. [10]2.4 Sistem Temu Kembali Informasi
Information Retrieval (IR) merupakanbagian dari computer science yangberhubungan dengan pengambilan informasidari dokumendokumen yang didasarkan padaisi dan konteks dari dokumendokumen itusendiri. Information Retrieval merupakan suatupencarian informasi (biasanya berupadokumen) yang didasarkan pada suatu query(inputan user) yang diharapkan dapatmemenuhi keinginan user dari kumpulandokumen yang ada [11].2.5 Text Preprocessing
Text Preprocessing merupakantahapan dari proses awal terhadap teksuntuk mempersiapkan teks menjadi datayang akan diolah lebih lanjut. Suatu teks
tidak dapat diproses langsung olehalgoritma pencarian, oleh karena itudibutuhkan preprocessing text untukmengubah teks menjadi data numeric [12].Proses ini terdiri dari beberapa tahappembersihan dokumen seperti berikut [13]:a. Tokenizing
Tokenizing adalah proses memecahdokumen menjadi kumpulan kata.Tokenization dapat dilakukan denganmenghilangkan tanda baca danmemisahkannya perspasi. Tahapan ini jugamenghilangkan karakterkarakter tertentuseperti tanda baca dan mengubah semuatoken ke bentuk huruf kecil (lower case).
b. Stopword Removal atau FilteringStopwords removal merupakan proses
penghilangan kata tidak penting padadeskripsi melalui pengecekan katakatahasil parsing deskripsi apakah termasuk didalam daftar kata tidak penting (stoplist)atau tidak.
c. Stemming Nazief & AdrianiStemming merupakan bagian yang tidak
terpisahkan dalam Information Retrieval(IR). Tidak banyak algoritma yangdikhususkan untuk stemming bahasaIndonesia dengan berbagai keterbatasandidalamnya. Algoritma Porter misalnya,algoritma ini membutuhkan waktu yangrelatif lebih singkat dibandingkan denganstemming menggunakan algoritma Naziefdan Adriani, namun proses stemmingmenggunakan algoritma Porter memilikipersentase keakuratan lebih kecildibandingkan dengan stemmingmenggunakan algoritma Nazief danAdriani. Algoritma Nazief dan Adrianisebagai algoritma stemming untuk teksberbahasa Indonesia yang memilikikemampuan persentase keakuratan lebihbaik dari algoritma lainnya [14].
Langkahlangkah pada Algoritma Nazief& Adriani adalah sebagai berikut[15]:1. Kata yang belum distemming dicari
pada kamus. Jika kata itu langsungditemukan, berarti kata tersebut adalahkata dasar. Kata tersebut dikembalikandan algoritma dihentikan.
2. Inflection Suffixes (“lah”, “kah”, “ku”,“mu”, atau “nya”) dibuang. Jikaberupa partikel (“lah”, “kah”, “tah”,
-
atau “pun”) maka langkah ini diulangilagi untuk menghapus PossesivePronouns (“ku”, “mu”, atau “ nya”),jika ada.
3. Hapus Derivation Suffixes (“i”, “an”,atau “kan”). Jika kata ditemukan dikamus, maka algoritma berhenti. Jikatidak maka ke langkah 3a.
a. Jika “an”, telah dihapus dan hurufterakhir dari kata tersebut adalah “k”, maka “k” juga ikut dihapus.Jika kata tersebut ditemukan dalamkamus kata dasar maka algoritmaberhenti. Jika tidak ditemukan makalakukan langkah 3b.
b. Akhiran yang dihapus (“i”, “an”,atau “kan”) dikembalikan, lanjut kelangkah 4.
4. Hapus Derivation Prefix DP (“di”,“ke”, “se”, “me”, “be”, “pe”, “te”)dengan iterasi maksimum adalah 3 kali.
a. Langkah 4 berhenti jika : Terjadi kombinasi awalan dan
akhiran yang terlarang seperti padaTabel 1 di bawah ini.
Tabel 1. Kombinasi awalan akhiranyang tidak diizinkan
Awalan Akhiran yang tidak diizinkanbe idi anke i, kanme anse i, kan
Tiga awalan telah dihilangkan.b.Tipe awalan ditentukan melalui
langkahlangkah berikut:1. Jika awalannya adalah : “di”, “ke”,
atau “se”, maka tipe awalannya secaraberturutturut adalah “di”, “ke”, atau“se”.
2. Jika awalannya adalah “te”, “me”,“be”, atau “pe”, maka dibutuhkansebuah proses tambahan untukmenentukan tipe awalannya.
3. Cari kata yang telah dihilangkanawalannya ini di dalam kamus.Apabila tidak ditemukan, makalangkah 4 diulangi kembali. Apabiladitemukan, maka keseluruhan prosesberhenti.
5. Setelah tidak ada lagi imbuhan yang tersisa,maka algoritma ini dihentikan kemudian
kata dasar tersebut dicari pada kamus, jikakata dasar tersebut ketemu berarti algoritmaini berhasil tapi jika kata dasar tersebuttidak ketemu pada kamus, maka dilakukanrecoding.
6. semua langkah telah dilakukan tetapi katadasar tersebut tidak ditemukan pada kamusjuga maka algoritma ini mengembalikankata yang asli sebelum dilakukan stemming.
2.6 Term Frequency Inverse Document Frequency (TfIdf)
Metode TFIDF merupakan metode untukmenghitung bobot setiap kata yang palingumum digunakan pada information retrieval.Metode ini juga terkenal efisien, mudah danmemiliki hasil yang akurat[16].
Metode Term FrequencyInverse DocumentFrequency (TFIDF) adalah cara pemberianbobot hubungan suatu kata (term) terhadapdokumen. TFIDF ini adalah sebuah ukuranstatistik yang digunakan untuk mengevaluasiseberapa penting sebuah kata di dalam sebuahdokumen atau dalam sekelompok kata. Untukdokumen tunggal tiap kalimat dianggapsebagai dokumen. Frekuensi kemunculan katadi dalam dokumen yang diberikanmenunjukkan seberapa penting kata itu didalam dokumen tersebut. Frekuensi dokumenyang mengandung kata tersebut menunjukkanseberapa umum kata tersebut. Bobot katasemakin besar jika sering muncul dalam suatudokumen dan semakin kecil jika muncul dalambanyak dokumen. [17].
Pada algoritma TFIDF digunakan rumusuntuk menghitung bobot (W) masing masingdokumen terhadap kata kunci dengan rumusyaitu :
Wdt = tfdt * Idft (1)Dimana: Wdt= bobot dokumen ked terhadap kata ket tfdt = banyaknya kata yang dicari pada sebuah dokumen Idft = Inversed Document Frequency (log (N/df) ) N = total dokumen df = banyak dokumen yang mengandung kata yang dicari.2.7 Cosine Similarity
Cosine Similarity adalah ukurankesamaan antara dua buah vektor dalamsebuah ruang dimensi yang didapat dari nilai
-
cosinus sudut dari perkalian dua buah vektoryang dibandingkan karena cosinus dari 0adalah 1 dan kurang dari 1 untuk nilai sudutyang lain, maka nilai similarity dari dua buahvektor dikatakan mirip ketika nilai dari cosinesimilarity adalah 1 [18].Berikut adalah rumus cosine similarity;Persamaan.....................................................(2)Similarity= cos(�)=
Keterangan : Q • D = dot product antara vektor Q dan vektorD |Q| = panjang vektor Q|D| = panjang vektor D |Q||D| = cross product antara |Q| dan |D|wqi = bobot term pada query ke i,= tf x idfwdij = bobot term pada dokumen kei istilahkej = tf x idfi = jumlah term dalam kalimat.N = jumlah vektor.
Penulis memilih menggunakan metodecosine similarity dikarenakan metode inimempunyai nilai akurasi yang tinggi dimanamenurut [19] kelebihan utama dari metodecosine similarity adalah tidak terpengaruh padapanjang pendeknya suatu dokumen. Sehingga,dengan melakukan perbandingan keywordyang dihasilkan, maka kedekatan antara itempun dapat dipastikan.2.8 Confusion Matrix
Confusion Matrix adalah sebuah metodeyang biasa digunakan untuk perhitunganakurasi. Dalam pengujian keakuratan hasilpencarian akan dievaluasi nilai recall,precision, accuracy, dan error rate. Dimanaprecision mengevaluasi kemampuan sistemuntuk menemukan peringkat yang palingrelevan, dan didefinisikan sebagai presentasedokumen yang diretrieve dan benarbenarrelevan terhadap query. Recall mengevaluasikemampuan sistem untuk menemukan semuaitem yang relevan dari koleksi dokumen dandidefinisikan sebagai presentase dokumenyang relevan terhadap query. Accuracymerupakan perbandingan kasus yangdiidentifikasi benar dengan jumlah seluruhkasus dan error rate merupakan kasus yang
diidentifikasi salah dengan jumlah seluruhkasus [20].
Rumus confusion matrix adalah sebagaiberikut:
Tabel 2. Rumus confusion matrix
Document
Nilai SebenarnyaRelevant Non Relevant
Retrieved
True Positive (tp)Correct result
False Positive (fp)Unexpected result
NotRetrieved
False Negative(fn)Missing result
True Negative (tn)Corect absence ofresult
Keterangan: TP (True Positive) = Jumlah prediksi yang
benar dari data yang relevant. FP (False Positive) = Jumlah prediksi yang
salah dari data yang tidak relevant. FN (False Negative) = Jumlah prediksi yang
salah dari data yang tidak relevant. TN (True Negative) = Jumlah prediksi yang
benar dari data yang relevant.Sehingga, rumusnya adalah sebagai
berikut:Persamaan .............................................(3)
1.Precision = 3. Accuracy =
2.Recall = 4. Error rate =
Sistem yang dikatakan baik adalah sistem
yang memiliki nilai recall dan precision tinggi.
III. METODOLOGI
3.1 Metode Pengumpulan DataDalam melaksanakan penelitian ini
diperlukan data dan informasi terkait yangnantinya akan digunakan sebagai bahanrujukan untuk pembuatan penelitian sertamendukung keabsahan pembahasan padalaporan penelitian. Metode pengumpulan datayang digunakan yaitu:1. Metode Studi Pustaka.
Dalam metode ini penulis melakukan studipustaka dengan pencarian data secara manualjuga melakukan pencarian data secara onlinemelalui browsing internet dan melakukanpembelajaran terhadap jurnal dan skripsi yangrelevan sesuai dengan topik penelitian yang
-
dijadikan sebagai bahan acuan dalampembuatan penelitian.
Data yang didapatkan digunakan dalampenyusunan landasan teori, metodologipenelitian dan pengembangan sistem.2. Metode Wawancara
Dalam metode wawancara ini penulismelakukan wawancara dengan Bapak RifqiMuhammad Fatkhi, MA selaku Kepala JurusanProgram Studi Hadits Fakultas UshuludinUniversitas Islam Negeri Syarif HidayatulllahJakarta. Wawancara dilakukan 2 kali yaituuntuk mendukung permasalahan yang terkait,dan untuk pengujian sistem yang telah dibuat.
3.2 Metode Pengembangan SistemDalam metode pengembangan system ini
penulis menggunakan model Rapid AplicationDevelopment (RAD) dengan tahapan sebagaiberikut:1. Fase Perencanaan Syarat (Requirement
Planning)Dalam fase ini penulis melakukan
syarat-syarat perencanaan dengan langkah:Mengidentifikasi masalah, menganalisissolusi permasalahan, dan menganalisiskebutuhan sistem.
2. Fase Workshop Desain (DesignWorkshop)
Dalam fase ini penulis melakukanperancangan sistem, desain sistem danpengkodean sistem.
3. Fase Implementasi (Implementation)Fase ini merupakan fase terakhir
setelah melalui fase-fase sebelumnya.Dimana dalam fase ini, hasil dariperancangan yang telah dilakukan akandiimplementasikan ke dalam sistem denganlangkah: Implementasi sistem, dan testing.
IV. HASIL DAN PEMBAHASAN
Perancangan sistem proses yang ada adalahteks preprocessing terhadap dokumen danquery dengan menerapkan metode yangdigunakan yaitu dengan metode tf-idf untukpembobotan kata dan cosine similarity untukmenemukan dokumen dengan menghitungkedekatan antar dokumen. Penjelasannyasebagai berikut:
4.1 Text PreprocessingSebelum melakukan tahap teks
preprocessing, yang harus dilakukan adalahmenyimpan semua dokumen yang akan dicari
dalam sebuah koleksi dokumen. Dimanadokumen ini merupakan koleksi hadits bahasaindonesia yang akan digunakan sebagai querybeserta syarah-nya (sebagai dokumen relevan)yang akan diproses dan disimpan dalamdatabase MySQL. Selanjutnya tahap tekspreprocessing dokumen, akan dijelaskanprosesnya sebagai berikut:
1. TokenizingProses yang berjalan saat tahap tokenizing,akan digambarkan dalam flowchart berikut:
Gambar 1. Flowchart tokenizing
Gambar di atas menggambarkan prosesyang dilakukan saat tahap tokenizing, dimanakoleksi dokumen (query dan dokumen relevan)yang ada dalam database dilakukanpenghilangan tanda baca, pemecahan teksmenjadi token dengan delimeter spasi, danpengubahan token yang terbentuk menjadihuruf kecil. Penerapan tokenizing penulisberikan pada salah satu contoh hadits dalambab thaharah, dimana hadits yang diprosessebagai query harus memenuhi syarat untukdapat diproses sistem, yaitu menggunakanhadits dengan struktur yang lengkap (terdapatsanad dan matan) karena tanpa salah satunyamaka hadits tidak dapat diproses (untukmembedakan antara aplikasi hadits denganaplikasi pengolahan teks yang lain). Hasil daripenerapan proses tokenizing adalah sebagaiberikut:
Tabel 3. Hasil tokenizingSebelum
TokenizingSesudah
TokenizingDari Abu Hurairah iaberkata, “RasulullahSAW bersabda: ‘Allah
dariabuhurairah
-
tidak menerima sholatseseorang di antarakallian ketikaberhadats, hingga iaberwudhu’.”
iaberkatarasulullahsawbersabdaallahtidakmenerimashalatseseorangdiantarakalianketikaberhadatshinggaiaberwudhu
2. Stopword Removal atau FilteringProses yang berjalan saat tahap stopword
removal atau filtering, akan digambarkandalam flowchart berikut:
Gambar 2. Flowchart stopword removal
Gambar di atas menggambarkan prosesyang dilakukan saat tahap stopword removalatau filtering, dimana hasil dari prosestokenizing yang dilakukan sebelumnya, akan dicocokan dengan array stoplist yang ada,apabila token yang dicek merupakan stoplistmaka token akan dihapus, apabila token bukantermasuk stoplist maka token akan dibiarkantetap ada. Contoh hasil penerapan stopwordremoval atau filtering adalah sebagai berikut:
Tabel 4. Hasil stopword removal SesudahTokenizing
Sesudah ProsesStopword
dari -
abu abuhurairah hurairah
ia -berkata -
rasulullah rasulullahsaw saw
bersabda bersabdaallah allahtidak -
menerima menerimashalat shalat
seseorang seseorangdiantara -kalian kalianketika -
berhadats berhadatshingga -
ia -berwudhu berwudhu
3. Stemming Nazief Adriani Adapun algoritma stemming yang akan
digunakan yaitu algoritma stemming Nazief &Adriani, dimana stemming jenis ini merupakanstemming yang memiliki tingkat akurasi(presisi) lebih tinggi dari jenis stemming yanglain. Proses yang berjalan saat tahap stemming,akan digambarkan dalam flowchart berikut:
Gambar 3. Flowchart stemming
mulai
Hasil proses tokenizing
Pengecekan array stoplist
selesai
Array stoplist
Token=stoplist
Hapus token
Daftar term
benarsalah
-
Gambar di atas menggambarkan prosesyang dilakukan saat tahap stemming, dimanaterm hasil dari proses sebelumnya dilakukanpengecekan terhadap database kata dasarapakah term sudah kata dasar atau kataberimbuhan. Apabila term merupakan kataberimbuhan maka akan dilakukan stemmingdengan melalui 3 tahapan yaitu menghapusinflection suffix (seperti -ku, -mu, -kah, dsb),menghapus derivation suffix (seperti -i, -an,atau -kan), dan menghapus derivation prefix(seperti di-, ke-,se-, dsb). Hasil dari prosesstemming ini akan dilanjutkan dengan tahapberikutnya untuk dilakukan pembobotan katamenggunakan algoritma tf-idf.
Hasil stemming dari algoritma NaziefAdriani adalah sebagai berikut:
Tabel 5. Hasil stemmingSesudah Proses Stopword Hasil Stemming
abu abuhurairah hurairah
rasulullah rasulullahsaw saw
bersabda sabdaallah allah
menerima terimashalat shalat
seseorang orangkalian kalian
berhadats hadatsberwudhu wudhu
4.2 Pembobotan Kata (Tf-Idf)
Setelah tahap teks preprocessing selesai,tahap selanjutnya adalah pembobotan kata(term). Dalam pembobotan kata (term) ini,setiap kata yang telah melewati prosespreprocessing, akan di-parsing terlebih dahuludan disimpan dalam database, kemudiandihitung jumlah kemunculan setiap katanya.Pada proses pembobotan kata (TF-IDF) akandigambarkan dalam flowchart berikut:
Gambar 4. Flowchart Tf-Idf
Gambar di atas menggambarkan tahappembobotan kata dengan menggunakanmetode term frequency inverse documentfrequency (TF-IDF), dimana daftar term hasilstemming dilakukan perhitungan untukmengetahui bobot perkata dengan menghitungjumlah term frequency dokumen (tf) terlebihdahulu, kemudian menghitung nilai jumlahdokumen yang memiliki term (df), danselanjutnya menghitung nilai idf dengan rumuslog=N/df, dimana N merupakan jumlahseluruh dokumen yang ada. Setelah nilai TFdan IDF sudah didapat, maka langkah terakhiradalah menentukan bobot kata denganmengalikan TF dan IDF dengan rumusWdt=TFdt x IDFt. Hasil dari prosesperhitungan ini disimpan dalam database danakan dilanjutkan dengan tahap berikutnyauntuk dilakukan perhitungan cosine similarityyang merupakan tahap akhir proses.
Contoh perhitungan pembobotan katadalam penelitian ini menggunakan dokumenyang telah dilakukan teks preprocessing diatas(sebagai query) terhadap dua dokumen outputuntuk mengetahui kemiripannya, sepertiberikut:
Diketahui : query => Dari Abu Hurairah iaberkata, “Rasulullah SAW bersabda: ‘Allahtidak menerima sholat seseorang di antarakallian ketika berhadats, hingga ia berwudhu’.”
Dimana terdapat 2 dokumen sebagaiberikut:
Tabel 6. Dokumen outputd1 -Shalat orang yang berhadats tidak
diterima, sampai ia bersuci dari hadatsbesar dan kecil.-Hadats membatalkan wudhu, danmembatalkan shalat jika terjadi di sela-selanya.-Maksud tidak diterima dalam hadits iniadalah shalatnya tidak sah.-Hadits ini menunjukkan, thaharah adalahsyarat sah shalat.
Hasil stemming
mulai
Menghitung term frequency (tf)
dokumen
Menghitung document
frequency (df)
Menghitung jumlah dokumen
(N)
Menghitung invers document frequency
(idf)=log N/df
Menghitung tf-idf Wdt=TFdt x IDFt
Simpan hasil perhitungan pada database
selesai
-
d2 -Wajib memerhatikan anggota-anggotawudhu dan tidak boleh mengabaikansedikitpun diantaranya.
-Ancaman keras bagi yang tidak baikdalam berwudhu.
-Kedua kaki wajib dibasuh saatberwudhu, seperti disebutkan dalambanyak dalil shahih dan ijmak umat.
Pembahasan: sebelum dilakukanpembobotan kata antara query dan dokumenyang harus dilakukan adalah melakukan tekspreprocessing terhadap semua dokumen yangakan diproses terlebih dahulu agar kata siapuntuk dilakukan pembobotan.
Setelah preprocessing maka hasilperhitungan tfidf adalah sebagai berikut:
Tabel 7. Perhitungan Tf-Idf
termtf df Idf Wdt= tfdt x idft
q d1 d2 Log(N/df)
q d1 d2
abai 1 1 0,477 0 0 0,477abu 1 1 0,477 0,477 0 0allah 1 1 0,477 0,477 0 0ancaman 1 1 0,477 0 0 0,477anggota 1 1 0,477 0 0 0,477baik 1 1 0,477 0 0 0,477banyak 1 1 0,477 0 0 0,477basuh 1 1 0,477 0 0 0,477batal 2 2 0,176 0 0,352 0besar 1 1 0,477 0 0,477 0dalil 1 1 0,477 0 0 0,477dua 1 1 0,477 0 0 0,477hadats 1 3 4 0,125 0,125 0,375 0hadits 2 2 0,176 0 0,352 0hati 1 1 0,477 0 0 0,477h urairah 1 1 0,477 0,477 0 0ijmak 1 1 0,477 0 0 0,477kaki 1 1 0,477 0 0 0,477kalian 1 1 0,477 0,477 0 0kecil 1 1 0,477 0 0,477 0keras 1 1 0,477 0 0 0,477maksud 1 1 0,477 0 0,477 0orang 1 1 2 0,176 0,176 0 0,176rasulullah 1 1 0,477 0,477 0 0sabda 1 1 0,477 0,477 0 0sah 2 2 0,176 0 0,352 0saw 1 1 0,477 0,477 0 0sedikit 1 1 0,477 0 0 0.477sela 1 1 0,477 0 0,477 0shahih 1 1 0,477 0 0 0,477shalat 1 4 5 0,221 0,221 0,884 0suci 1 1 0,477 0 0,477 0syarat 1 1 0,477 0 0,477 0terima 1 2 3 0 0 0 0thaharah 1 1 0,477 0 0,477 0tunjuk 1 1 0,477 0 0,477 0umat 1 1 0,477 0 0 0,477wajib 1 1 0,477 0 0 0,477wudhu 1 1 3 5 0,221 0,221 0,221 0,663
4.3 Cosine SimilaritySetelah melakukan pembobotan dokumen
terhadap term dengan menggunakan
perhitungan tfidf, langkah terakhir yangdilakukan untuk menemukan dokumen yangrelevan dengan query adalah menghitung
-
kemiripan antar dua dokumen denganmenggunakan rumus cosine similarity yangakan dijelaskan dalam flowchart berikut:
Gambar 5. Flowchart cosine similarity
Gambar di atas menggambarkan prosesuntuk menemukan dokumen yang relevandengan query user menggunakan metodecosine similarity, dimana query yangdimasukkan user dilakukan tahappreprocessing yang hasilnya dicocokan dengandatabase bobot yaitu hasil perhitungan tfidf,apabila term ditemukan maka akan dihitungperkalian skalar antara term query dengandokumen dengan rumus wqi x wdij,selanjutnya yaitu menghitung nilai panjangsetiap dokumen termasuk query dengan mengkuadratkan bobot query dan bobot dokumen,jumlahkan nilai kuadrat dan selanjutnyadiakarkan. Terakhir, membagi hasil dariperkalian skalar dan hasil panjang vektor yangsudah dihitung untuk menemukan hasilkemiripan antara query dengan dokumen, lalusistem akan menampilkan dokumen yangrelevan dengan query berdasarkan hasilperhitungan kemiripan dengan cosinesimilarity tersebut.
Contoh perhitungan berdasarkan hasil daripembobotan kata yang telah dilakukansebelumnya, untuk mengetahui kemiripanquery dengan d1 yang nanti akan dibandingkandengan d2, adalah sebagai berikut:
Tabel 8. Perhitungan cosine similarity
termwqi x wdij Panjang vektor q dan
d1, d2Wqd1 Wqd2 wq2 wd12 wd22
abai 0 0 0 0 0,227abu 0 0 0,227 0 0allah 0 0 0,227 0 0ancaman 0 0 0 0 0,227anggota 0 0 0 0 0,227baik 0 0 0 0 0,227banyak 0 0 0 0 0,227basuh 0 0 0 0 0,227
-
batal 0 0 0 0,124 0besar 0 0 0 0,227 0dalil 0 0 0 0 0,227dua 0 0 0 0 0,227hadats 0,046 0 0,015 0,14 0hadits 0 0 0 0,124 0hati 0 0 0 0 0,227hurairah 0 0 0,227 0 0ijmak 0 0 0 0 0,227kaki 0 0 0 0 0,227kalian 0 0 0,227 0 0kecil 0 0 0 0,227 0keras 0 0 0 0 0,227maksud 0 0 0 0,227 0orang 0 0,03 0,03 0 0,03rasulullah 0 0 0,227 0 0sabda 0 0 0,227 0 0sah 0 0 0 0,124 0saw 0 0 0,227 0 0sedikit 0 0 0 0 0.227sela 0 0 0 0,227 0shahih 0 0 0 0 0,227shalat 0,195 0 0,048 0,781 0suci 0 0 0 0,227 0syarat 0 0 0 0,227 0terima 0 0 0 0 0thaharah 0 0 0 0,227 0tunjuk 0 0 0 0,227 0umat 0 0 0 0 0,227wajib 0 0 0 0 0,227wudhu 0,048 0,146 0,048 0,048 0,439
Jumlahkan hasil perkaliandiatas
Jumlahkan hasilkuadrat diatas
0,289 0,176 1.73 3.157 3.874Akarkan hasil
penjumlahan di atas1,315 1,776 1,968
Setelah diketahui nilai dari masing-masingquery dan dokumen, selanjutnya adalah denganmenerapkan rumus cosine similarity sebagaiberikut:1. Cos (q, d1) =
= = =0,123
2. Cos (q, d2) =
= = =0,068
Berdasarkan hasil dari perhitungan cosinesimilarity diatas, hasil dari persamaan antaraquery dan d1 adalah 0,123 sedangkan hasil daripersamaan antara query dan d2 adalah 0,068.Maka dapat disimpulkan bahwa dokumen yangterdekat dengan query adalah dokumen 1 (d1).Hal tersebut dikarenakan hukum cosinesimilarity adalah semakin besar nilai cosinus(maksimal 1) maka semakin mirip dokumendengan yang dibandingkan. Oleh karena itu,yang lebih mirip dengan query dan menjadioutput dari query adalah d1 karena lebihmendekati angka 1 dibandingkan dengandokumen 2 (d2).
-
4.4 Hasil Penelitian
Gambar 6. Halaman analisis syarah
Gambar di atas merupakan tampilan darihalaman analisis hadits yang muncul ketikauser mengklik tombol analisis hadits untukmelakukan proses analisis yaitu denganmengisi hadits dalam Bahasa Indonesia denganlengkap (sanad dan matan) pada kolom yangtersedia lalu setelah klik tombol proses analisishadits maka akan muncul syarah hadits yangbenar sesuai dengan hadits yang dimasukkan,sistem tidak akan memberikan output apabilahadits yang diinputkan tidak mengandungsalah satu struktur hadits (sanad atau matan).
4.5 Pengujian1. Pengujian Stemming
Adapun algoritma stemming yangdigunakan dalam penelitian ini adalahalgoritma Nazief & Adriani, dimana stemmingjenis ini merupakan stemming yang memiliki
tingkat akurasi (presisi) lebih tinggi dari jenisstemming yang lain. Namun, pada prosesstemming algoritma ini, penulis menemukanbeberapa kata yang tidak berhasil distemmingpada saat melakukan analisis secara manual,kata yang gagal di-stemming tersebut terjadikarena proses penghilangan imbuhan (akhiran)yang dilakukan terlebih dahulu setelah itu barupenghilangan awalan sehingga terjadioverstemming, lalu tidak adanya beberapaaturan dalam stemming nazief adriani sepertipe- + –ng, dan ter- sehingga untuk beberapakata dengan aturan tersebut tidak berhasil di-stemming (kata tidak berubah), juga beberapaaturan yang masih belum berhasilmengembalikan kata ke dalam bentuk katadasarnya. Contoh beberapa kata yang gagaldilakukan stemming terlihat dalam Tabel 9 dibawah ini:
-
Tabel 9. Contoh hasil stemming yang kurang tepatId Token Awal Hasil
StemmingHasil se-harusnya
36 dinikahinya nikahi nikah91 diampuni mpuni ampuni236 memberkahi ber berkah
1897 sejumlah sejum jumlah2226 setelah sete telah2520 melakukan laku lakukan2875 melangkah lang langkah4691 memisah misah pisah2128 memerintah merintah perintah4066 terlimpah terlimpah limpah4162 terpuji terpuji puji4372 terakhir terakhir akhir4753 termasuk termasuk masuk3723 pengendara pengendara kendara4062 pengagungan pengagungan agung
Selain itu, pada kata yang merupakan bahasaasing atau nomor, tidak dilakukan stemming,hal ini dikarenakan cara kerja yang pertamadari algoritma Nazief Adriani adalah denganmelakukan pengecekan apakah kata yang akandi-stemming terdapat pada kamus yang tersediaatau tidak, jika iya maka akan dilakukanstemming, tapi jika tidak ada maka kata akandianggap sebagai root word atau sebagai kataasal, sehingga kata asing dan nomor seperti:Musyik, qirath, jihad, mutalaffiat,khadaq,itikaf, shaum, qadha, haruriyah,istihadhah, istinja, madzi, khitan, junub,syafaat, subhanallah, jinabat, saw, rasulullah,1,2,3,4,5 dan sebagainya akan tetap menjadiseperti asalnya.
Berdasarkan analisis hasil stemming di atas,untuk mengetahui tingkat ke akuratanStemming dengan Algoritma Nazief Adriani inimaka akan dihitung nilai persentase antara katayang gagal di-stemming dengan yang berhasil.Total token yang ada pada database hasilpreprocessing adalah 6.983, namun dalam6.983 itu terdapat banyak pengulanganbeberapa token, sehingga untuk pehitunganhasil stemming kata yang terbentuk hanyaberjumlah 2.051. Untuk itu, hasil dari akurasistemming Nazief Adriani adalah sebagaiberikut:
1. Prosentase gagal = 2. Prosentase berhasil =
2 Pengujian SistemDalam fase testing ini untuk melakukan
pengujian sistem, penulis menggunakanpengujian confusion matrix yang biasadigunakan dalam perhitungan akurasi padasuatu sistem temu kembali informasi untukmengevaluasi seberapa baik kemampuansistem dalam pencarian dokumen. Pengujiansistem ini adalah dengan melakukan percobaansebanyak 204 kali menggunakan queryterhadap 204 dokumen yang ada dalamdatabase. Query yang digunakan adalah queryyang memiliki jumlah dokumen relevanmasing-masing 1 untuk masing-masing query.Artinya, satu query hanya relevan dengan satudokumen dimana dokumen tersebut merupakansyarah hadits yang relevan berdasarkan queryyang dimasukkan.
Setelah melakukan percobaan terhadap204 dokumen dengan query tersebut,didapatkan hasil benar yang ditemukanberjumlah 181 dokumen yang ditemukanrelevan (sesuai dengan query), dan ditemukan23 dokumen yang ditemukan tidak relevan(tidak sesuai dengan query). Oleh karena itu,maka hasil pengujian confusion matrix sesuaidengan rumus yang telah dibahas pada point2.8 Tabel 2 adalah sebagai berikut:
1. Precision =
2. Recall = x 100% = 88,7%
-
3. Accuracy = x 100% =88,73%
4. Error rate = x 100% = 11,27 %
V. PENUTUP
5.1 KesimpulanBerdasarkan rumusan masalah yang telah
dikemukakan, maka kesimpulan dalampenelitian ini adalah bahwa metode termfrequency inverse document frequency (tfidf)dan cosine similarity telah berhasil diterapkandalam sistem dengan baik dimana sistem dapatmemberikan output berupa dokumen yangrelevan yaitu syarah hadits sesuai denganquery yang diinput kan, dengan melalui 3tahapan teks preprocessing yaitu tokenizing,stopword removal atau filtering, dan stemming.Hasil pengujian stemming model NaziefAdriani yang telah dilakukan menunjukkanhasil akurasi sebesar 90,93% yang menyatakanbahwa stemming model ini memiliki tingkatakurasi yang tinggi. Kemudian, pengujiansistem yang dilakukan dengan menggunakanconfusion matrix dalam penelitian inididapatkan nilai precision 100%, recall 88,7%,accuracy 88,73 %, dan error rate 11,27 %.Sehingga, sistem dapat dikatakan baik,dikarenakan sistem yang baik adalah sistemyang memiliki nilai recall dan precision tinggiserta tingkat akurasi yang tinggi pula.
5.2 SaranUntuk pengembangan selanjutnya, maka
saran-saran yang dapat penulis berikan adalahsebagai berikut:1. Sistem dapat dilengkapi menjadi full satu
kitab dan dapat dikembangkan denganmenggunakan kitab syarah hadits yanglebih spesifik lainnya seperti kitab syarahFatkhul Barri, syarah Imam An-Nawawiatau kitab syarah dari hadits shahihperiwayat lain.
2. Sistem dapat dikembangkan dengan userinterface yang lebih menarik dan userfriendly.
3. Penerapan metode pembobotan kata danmetode similarity yang memiliki tingkatakurasi lebih tinggi.
4. Sistem dapat dikembangkan selainmenggunakan manajemen database MySql,karena dengan menggunakan MySql sistemberjalan sedikit lebih lambat dikarenakansistem harus menelusuri data yang adasehingga waktu untuk menemukandokumen yang relevan relatif lama.
DAFTAR PUSTAKA
[1] Zuhri, Muhammad. 2011. Hadis NabiTelaah Historis dan Metodologis.Yogyakarta: Tiara Wacana Yogya.
[2] Rosyid, Khoirul. 2016. KepemimpinanMenurut Hadits Nabi Saw. Skripsi.Jurusan Tafsir Hadits. FakultasUshuluddin. Institut Agama IslamNegeri (IAIN) Raden Intan Lampung.
[3] Mukaromah, Kholila. 2015. KajianSyarah Hadits Subul Al-Salam. Tesis.Jurusan Studi Agama dan Filsafat.Fakultas Humaniora. Universitas IslamNegeri Sunan Kalijaga. Yogyakarta.
[4] Katsir, Ibnu. 2013. Tafsirul ‘AllamSyarh ‘Umdatul Ahkam. Jakarta:Ummul-Qura.
[5] Rizki, Dhidik, dan Eko Supraptono.2017. Penerapan Algoritma CosineSimilarity dan Pembobotan TF-IDF padaSistem Klasifikasi Dokumen. Skripsi.Jurusan Teknik Elektro. Fakultas Teknik.Universitas Negeri Semarang KampusSekaran, Gunungpati, Semarang.
[6] Ma’arif, Abdul Aziz. 2015. PenerapanAlgoritma Tf-Idf Untuk PencarianKarya Ilmiah. Jurnal. Jurusan TeknikInformatika. Fakultas Ilmu Komputer.Universitas Dian Nuswantoro Semarang.
[7] Rozas, I. R. dan Sarno, R. 2011. SistemPemilihan Kontrol Keamanan InformasiBerbasis ISO 27001. Seminar NasionalPascasarjana XI. IT. Surabaya.
[8] Mukaromah, Kholila. 2015. KajianSyarah Hadits Subul Al-Salam. Tesis.Jurusan Studi Agama dan Filsafat.Fakultas Humaniora. Universitas IslamNegeri Sunan Kalijaga. Yogyakarta.
[9] Katsir, Ibnu. 2013. Tafsirul ‘AllamSyarh ‘Umdatul Ahkam. Jakarta:Ummul-Qura.
[10] Feldman, Ronen, dan Sanger, James.2007. The Text Mining HandbookAdvanced Approaches in AnalyzingUnstructured Data. New York:Cambridge University Press.
-
[11] Safitri, Rima Noer. 2013. Temu KembaliInformasi Pada Pencarian Jurnal SkripsiMenggunakan Metode Single PassClustering. Skripsi. UniversitasMuhammadiyah Gresik.
[12] Feldman, Ronen, dan Sanger, James.2007. The Text Mining HandbookAdvanced Approaches in AnalyzingUnstructured Data. New York:Cambridge University Press.
[13] Rizki, Dhidik, dan Eko Supraptono.2017. Penerapan Algoritma CosineSimilarity dan Pembobotan TF-IDF padaSistem Klasifikasi Dokumen. Skripsi.Jurusan Teknik Elektro. Fakultas Teknik.Universitas Negeri Semarang KampusSekaran, Gunungpati, Semarang.
[14] Arwanda, Ivan. 2013. Penerapan MetodeText Mining pada Aplikasi Chatbot.Skripsi. Jurusan Teknik InformatikaUniversitas Ilmu Komputer. Bandung.
[15] Simorangkir, Manase Sahat. 2017. StudiPerbandingan Algoritma-AlgoritmaStemming Untuk Dokumen Teks BahasaIndonesia. Jurnal. Teknik Informatika.Universitas Presiden JababekaEducation.
[16] Ma’arif, Abdul Aziz. 2015. PenerapanAlgoritma Tf-Idf Untuk Pencarian
Karya Ilmiah. Jurnal. Jurusan TeknikInformatika. Fakultas Ilmu Komputer.Universitas Dian Nuswantoro Semarang.
[17] Putra, Agung Auliaguntary Arif. 2016.Implementasi Text SummarizationMenggunakan Metode Vector SpaceModel pada Artikel Berita BahasaIndonesia. Skripsi. Jurusan TeknikInformatika. Fakultas Teknik dan IlmuKomputer. Universitas KomputerIndonesia.
[18] Dewa, Arie, dan Agustinus. 2016.Pengukuran Kemiripan Dokumen TeksBahasa Indonesia Menggunakan MetodeCosine Similarity. Jurnal. TeknikInformatika Universitas Sam RatulangiManado.
[19] Rozas, I. R. dan Sarno, R. 2011. SistemPemilihan Kontrol Keamanan InformasiBerbasis ISO 27001. Seminar NasionalPascasarjana XI. IT. Surabaya.
[20] Ferdinandus, Subari. 2015. SistemInformation Retrieval LayananKesehatan Untuk Berobat denganMetode Vector Space Model berbasisWebGis. Jurnal. Teknik Informatika.STIKI Malang.