PENERAPAN METODE TERM FREQUENCY INVERSE …...ringkas, dan jelas bagian-bagiannya, agar...

16
JURNAL TEKNIK INFORMATIKA VOL 11 NO. 2, OKTOBER 2018 | 149 PENERAPAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN COSINE SIMILARITY PADA SISTEM TEMU KEMBALI INFORMASI UNTUK MENGETAHUI SYARAH HADITS BERBASIS WEB (STUDI KASUS: SYARAH UMDATIL AHKAM) Ria Melita 1 , Victor Amrizal 2 , Hendra Bayu Suseno 3 , Taslimun Dirjam 4 1,2 Program Studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta [email protected], [email protected], [email protected], [email protected] ABSTRAK Hadits merupakan sumber ajaran Islam di samping Al-Qur’an. Tanpa hadits, syari’at Islam tidak dapat dimengerti secara utuh dan tidak dapat dilaksanakan. Namun dewasa ini, tidak sedikit orang yang keliru dalam memahaminya, hal tersebut disebabkan oleh banyaknya orang yang memahami hadits sebatas mengandalkan teks lahiriyah saja. Salah satu hal yang dapat kita tempuh untuk mengetahui makna yang terkandung dalam hadits adalah dengan mempelajari syarah hadits guna meminimalisir kesalahan penafsiran terhadap suatu hadits . Sejauh ini aplikasi syarah hadits yang ada masih terbatas, yaitu dalam bahasa full arab yang tidak semua orang dapat memahaminya. Sedangkan untuk bahasa indonesia hanya ada lidwa dan arbain, namun masih sangat luas jangkauannya. Oleh karena itu, diperlukan jangkauan pemahaman dalam ilmu hadits dan dengan adanya sistem yang akan dibangun, maka akan memberikan solusi permasalahan tersebut, yaitu Sistem Temu Kembali Informasi yang dapat dimanfaatkan untuk mengetahui syarah hadits, karena dapat memberikan alternatif berupa metode similarity yang dapat digunakan untuk melakukan pencarian dokumen relevan dengan yang kita inginkan. Metode similiarity yang digunakan adalah cosine similarity dengan pembobotan kata menggunakan metode TFIDF dan menerapkan teks preprocessing terlebih dahulu untuk memperkecil term sehingga bisa mempercepat proses perhitungan term. Teks preprocessing tersebut meliputi tokenizing, stopword removal atau filtering, dan stemming. Hasil uji coba dengan pengujian confusion matrix didapatkan: recall 88.7%, precision 100%, accuracy 88,73 %, dan error rate 11,27 %. Kata Kunci: syarah, hadits, cosine similarity, tf-idf ABSTRACT Hadith is a source of Islamic teachings besides the Qur'an. Without using the hadith, the syari'at of Islam can not be fully understood and can not be implemented. But today, many people are mistaken in understanding it, it is caused by the many people who understand the hadith to rely on text lahiriyah only. One of the things that we can take to know the meaning contained in the hadith is to study syarah hadith in order to minimize misinterpretation of a hadith. So far the application of syarh hadith is still limited. Because so far the existing applications are still full Arab language that not everyone can understand it. As for the Indonesian language there are only lidwa and arbain, but still very wide reach. Therefore, we need a system for the solution of the problem, that is Information Retrieval System which can be utilized because it provides an alternative in the form of similarity method that can be used to search documents relevant to what we want. The similiarity method used is cosine similarity with word weighting using TFIDF method and applying preprocessing text first to minimize term so that it can speed up the term calculation process. The preprocessing text includes tokenizing, stopword removal or filtering, and stemming. The results of testing with confusion matrix test obtained: 88.7% recall, precision 100%, accuracy 88.73%, and error rate 11.27%. Keywords: syarah, hadith, cosine similarity, tf-idf http://dx.doi.org/10.15408/jti.v11i2.8623 Ria Melita, dkk: Penerapan Metode149-164 p-ISSN 1979-9160 | e- ISSN 2549-7901

Transcript of PENERAPAN METODE TERM FREQUENCY INVERSE …...ringkas, dan jelas bagian-bagiannya, agar...

  • JURNAL TEKNIK INFORMATIKA VOL 11 NO. 2, OKTOBER 2018 | 149

    PENERAPAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY(TF-IDF) DAN COSINE SIMILARITY PADA SISTEM TEMU KEMBALI INFORMASI

    UNTUK MENGETAHUI SYARAH HADITS BERBASIS WEB(STUDI KASUS: SYARAH UMDATIL AHKAM)

    Ria Melita1, Victor Amrizal 2 , Hendra Bayu Suseno 3, Taslimun Dirjam 4

    1,2Program Studi Teknik Informatika, Fakultas Sains dan TeknologiUniversitas Islam Negeri Syarif Hidayatullah Jakarta

    [email protected], [email protected], [email protected],[email protected]

    ABSTRAK

    Hadits merupakan sumber ajaran Islam di samping Al-Qur’an. Tanpa hadits, syari’at Islam tidakdapat dimengerti secara utuh dan tidak dapat dilaksanakan. Namun dewasa ini, tidak sedikit orangyang keliru dalam memahaminya, hal tersebut disebabkan oleh banyaknya orang yang memahamihadits sebatas mengandalkan teks lahiriyah saja. Salah satu hal yang dapat kita tempuh untukmengetahui makna yang terkandung dalam hadits adalah dengan mempelajari syarah hadits gunameminimalisir kesalahan penafsiran terhadap suatu hadits. Sejauh ini aplikasi syarah hadits yang adamasih terbatas, yaitu dalam bahasa full arab yang tidak semua orang dapat memahaminya. Sedangkanuntuk bahasa indonesia hanya ada lidwa dan arbain, namun masih sangat luas jangkauannya. Olehkarena itu, diperlukan jangkauan pemahaman dalam ilmu hadits dan dengan adanya sistem yang akandibangun, maka akan memberikan solusi permasalahan tersebut, yaitu Sistem Temu KembaliInformasi yang dapat dimanfaatkan untuk mengetahui syarah hadits, karena dapat memberikanalternatif berupa metode similarity yang dapat digunakan untuk melakukan pencarian dokumenrelevan dengan yang kita inginkan. Metode similiarity yang digunakan adalah cosine similarity denganpembobotan kata menggunakan metode TFIDF dan menerapkan teks preprocessing terlebih dahuluuntuk memperkecil term sehingga bisa mempercepat proses perhitungan term. Teks preprocessingtersebut meliputi tokenizing, stopword removal atau filtering, dan stemming. Hasil uji coba denganpengujian confusion matrix didapatkan: recall 88.7%, precision 100%, accuracy 88,73 %, dan errorrate 11,27 %.

    Kata Kunci: syarah, hadits, cosine similarity, tf-idf

    ABSTRACT

    Hadith is a source of Islamic teachings besides the Qur'an. Without using the hadith, the syari'at ofIslam can not be fully understood and can not be implemented. But today, many people are mistakenin understanding it, it is caused by the many people who understand the hadith to rely on text lahiriyahonly. One of the things that we can take to know the meaning contained in the hadith is to study syarahhadith in order to minimize misinterpretation of a hadith. So far the application of syarh hadith is stilllimited. Because so far the existing applications are still full Arab language that not everyone canunderstand it. As for the Indonesian language there are only lidwa and arbain, but still very wide reach.Therefore, we need a system for the solution of the problem, that is Information Retrieval Systemwhich can be utilized because it provides an alternative in the form of similarity method that can beused to search documents relevant to what we want. The similiarity method used is cosine similaritywith word weighting using TFIDF method and applying preprocessing text first to minimize term sothat it can speed up the term calculation process. The preprocessing text includes tokenizing, stopwordremoval or filtering, and stemming. The results of testing with confusion matrix test obtained: 88.7%recall, precision 100%, accuracy 88.73%, and error rate 11.27%.

    Keywords: syarah, hadith, cosine similarity, tf-idf

    http://dx.doi.org/10.15408/jti.v11i2.8623

    Ria Melita, dkk: Penerapan Metode… 149-164 p-ISSN 1979-9160 | e-ISSN 2549-7901

  • I. PENDAHULUAN

    1.1 Latar Belakang Hadits merupakan sumber ajaran Islam

    disamping  AlQur’an.   Tanpa   menggunakanhadits,  syari’at   Islam   tidak   dapat   dimengertisecara utuh dan tidak dapat dilaksanakan.  [1].Hadits  sebagai   sumber  hukum kedua   setelahAlQur’an,   memiliki   otoritas   dan   posisipenting   yang   nampaknya   sudah   tidak   perludipertanyakan   lagi,   karena   selain   sebagaipenjelas   (bayan)   bagi   otoritas   wahyu   Allah(AlQur’an) juga sebagai sumber hukum Islamkedua yang menjadi rujukan para fuqaha yaituahli fiqih atau hukum islam. [2].

    Pentingnya posisi hadits tehadap Al-Qur’an turut menempatkan posisi SyarahHadits sebagai sesuatu yang tidak dapatdiabaikan. Teks-teks hadits yang ada menjadipenjelas atas teks-teks Al-Qur’an yangdianggap masih bersifat global. Syarahmemegang peranan penting untuk menjelaskanhal-hal yang dianggap masih umum, sulitdipahami, terlihat bertentangan, maupun hal-hal yang menyimpan keganjilan dalam teks-teks hadits. Syarah Hadits adalah keterangantentang suatu maksud dalam suatu hadits.Tanpa keberadaan syarah hadits, susah kiranyauntuk memahami makna sesungguhnya darisuatu hadits [3].

    Hasil wawancara yang telah penulislakukan dengan Bapak Fiqri MuhammadFatkhi, MA. Selaku Ketua Program StudiHadits Fakultas Ushuluddin UIN SyarifHidayatullah Jakarta, didapatkan bahwa “saatini tidak sedikit orang yang keliru dalammemahami hadits dikarenakan oleh beberapafaktor yang mempengaruhinya sepertimemahami hadits sebatas teks lahiriyah haditssaja”.

    Menurut Bapak Fiqri, hal yang dapat kitatempuh   untuk   mengetahui   makna   yangterkandung dalam  hadits  adalah salah satunyadengan   mempelajari  syarah   hadits,   dimanamempelajari  syarah hadits  untuk  mengetahuimakna yang terkandung didalamnya ini sangatpenting  untuk   dilakukan   sepanjang   diperolehdari   orang   yang   memiliki   otoritas   dibidangpenjelasan hadits.

    Merujuk   pada   penjelasan   beliau,   sejauhini   aplikasi  syarah   hadits  yang   ada   masihterbatas,   yaitu   dalam   bahasa  full  arab   yangtidak   semua   orang   dapat   memahaminya.Sedangkan untuk bahasa indonesia sendiri baru

    ada lidwa dan arbain, namun masih sangat luasjangkauannya yaitu  dari  berbagai  perawi  dantidak   ada   dalam   bentuk  softcopy  untukmemudahkan dalam memahami suatu hadits.

    Berdasarkan pemaparan diatas, untukmengetahui syarah hadits guna meminima-lisirkesalahan penafsiran terhadap suatu hadits,maka penulis ingin melakukan penelitiandengan merancang suatu sistem temu kembaliinformasi untuk mengetahui syarah haditsdengan bahasa indonesia yang berpedomanpada kitab Taysirul ‘Allam Syarah ‘UmdatilAhkam yang akan dibuat dengan menerapkanmetode Term Frequency Inverse DocumentFrequency (TF-IDF) dan Cosine Similarity.

    Taysirul ‘Allam Syarah ‘Umdatil Ahkamadalah kitab syarah yang sangat populer dikalangan penuntut ilmu di seluruh dunia,termasuk pesantren-pesantren di Indonesiayang merupakan kumpulan hadits-haditsriwayat imam Bukhari-Muslim—keduanyasudah sangat masyhur di telinga kaumMuslimin seantero dunia sebagai jaminankeshahihan suatu hadits.[4].

    Sistem temu kembali informasi inimerupakan suatu sistem yang menemukan(retrieve) informasi yang sesuai dengankebutuhan user berdasarkan query yangdimasukkan. Dengan begitu, penelitian inidiharapkan dapat memberikan output berupasyarah hadits yang sesuai ber-dasarkan inputyang dimasukkan dengan menggunakanMetode Term Frequency Inverse DocumentFrequency (TF-IDF) dan Cosine Similarity.Metode Term Frequency Inverse DocumentFrequency (TF-IDF) ini merupakan suatu carauntuk memberikan bobot hubungan suatu kata(term) terhadap dokumen. Sedangkan, Metodecosine similarity merupakan metode untukmenghitung kesamaan antara dua buah objekyang dinyatakan dalam dua buah vectordengan menggunakan keywords (kata kunci)dari sebuah dokumen sebagai ukuran [5].

    Metode tfidf ini penulis gunakan, karenamerupakan   metode   pembobotan   kata   yangterkenal   efisien,   mudah   dan   memiliki   hasilyang   akurat.[6].   Sedangkan   Metode  CosineSimilarity  penulis   gunakan   dengan   alasanbahwa,   metode   ini   mempunyai   nilai   akurasiyang   tinggi   dimana   kelebihan   utama   darimetode  cosine   similarity  adalah   tidakterpengaruh   pada   panjang   pendeknya   suatudokumen.  Sehingga,   dengan   melakukanperbandingan  keyword  yang dihasilkan,  maka

  • kedekatan   antara   itempun   dapat   dipastikan.[7].

    Penelitian   terkait   dengan   menggunakanmetode   tfidf   dan   cosine   similarity   ini   telahdilakukan sebelumnya oleh Rizki Tri Wahyuni,Dhidik Prastiyanto, dan Eko Supraptono dalamjurnalnya   yang   berjudul   “   PenerapanAlgoritma Cosine Similarity  dan PembobotanTerm Frequency Inverse Document Frequencypada   Sistem   Klasifikasi   Dokumen   Skripsi”mengenai   perancangan   sistem   yang   dapatmengklasifikasikan dokumen secara otomatiskedalam   folder   berbeda   pada  database  agarlebih mudah dalam mengelola dokumen yangada.

    Penelitian   yang   dilakukan   oleh   DewaAyu,   Arie   Lumenta,   dan   Agustinus   Jacobusdalam   jurnalnya   yang   berjudul   “PengukuranKemiripan   Dokumen   Teks   Bahasa   IndonesiaMenggunakan Metode Cosine Similarity” yaitupenelitian yang mengukur kemiripan dokumenuntuk mengetahui adanya plagiarisme terhadapsuatu karya tulis.

    Penelitian   dengan   judul   “Sistem   TemuKembali   Informasi   pada   Dokumen   TeksMenggunakan   Metode  Term   FrequencyInverse Document frequency” yang dilakukanoleh  Dhony  Syafe’i,  Sukmawati,  dan  NurdinBahtiar, mengenai pembuatan suatu perangkatlunak yang dapat mencari dokumendokumenpenulisan   ilmiah  yang   relevan   sesuai   tingkatpembobotannya.

    Dari  ketiga  penelitian   terkait   yang   telahpenulis   sebutkan   diatas,   terdapat   beberapairisan yang penulis tekankan dalam penelitiantersebut   yaitu   dalam   penggunaan  stemmingpada  text   preprocessing.   Dimana   penelitianyang dilakukan oleh Rizki  Tri  Wahyuni,  dkkdan   Dewa   Ayu,   dkk   tidak   melakukanstemming  pada  text   preprocessing  danpenelitian yang dilakukan oleh Dhony Syafe’imenggunakan  Stemming  dengan   jenis  PorterStemmer model Fadhillah Z.Tala. Oleh karenaitu,   penulis   menggunakan  Stemming  modelNazief   dan   Adriani   pada  text   preprocessinguntuk   meningkatkan   performa   sistem   yangakan   dibuat,   dimana  stemming  model   inimerupakan  stemming  yang   memiliki   tingkatakurasi   (presisi)   lebih   tinggi   dibandingkandengan  stemming  model lain. Penelitian yangpenulis   lakukan   menggunakan   metode   yangsama yaitu  term  frequency   inverse  document

    frequency   dan   cosine   similarity  pada   sistemtemu   kembali   informasi,   namun   terdapatperbedaan   yang   mendasar   dari   semuapenelitian   yang   ada   yaitu   bahwa   penulismelakukan   penerapan   metode   tersebut   padasistem   temu   kembali   informasi   untukmengetahui  syarah hadits  yang belum pernahdilakukan sebelumnya.

    Sistem temu kembali   informasi   ini   akandibuat dengan menggunakan aplikasi berbasisweb  dengan   kelebihan  tidak   memerlukanproses   instalasi,   bersifat   terpusat,   dapat   dijalankan   di   os   manapun   asalkan   memilikibrowser  dan   akses   internet,   dan   tidak   perluspesifikasi komputer client  yang tinggi.

    Berdasarkan   permasalahan  diatas,   makapenulis   tertarik   untuk   melakukan   penelitiandengan   judul   “Penerapan   Metode  TermFrequency Inverse Document Frequency  (TfIdf) dan  Cosine Similarity  pada Sistem TemuKembali Informasi untuk Mengetahui  SyarahHadits  Berbasis   Web   (Studi   Kasus:   SyarahUmdatil Hakam)”.1.2  Rumusan Masalah

    Berdasarkan   latar   belakang   yangdikemukakan,   maka   rumusan   masalah   yangada pada penelitian ini adalah:1. Bagaimana   menerapkan   metode  term

    frequency inverse document frequency (tfidf)   dan  cosine   similarity  pada   sistemtemu kembali informasi untuk mengetahuisyarah hadits berbasis web?

    2. Bagaimana menghitung nilai akurasi padaStemming  Nazief   dan   Adriani   yangdigunakan dalam text preprocessing?

    1.3  Tujuan PenelitianTujuan dari penelitian ini adalah sebagaiberikut:

    1. Menerapkan   metode  term   frequencyinverse   document   frequency  (tfidf)   dancosine   similarity  pada   sistem   temukembali   informasi   untuk   mengetahuisyarah  hadits  berbasis  web (studi  kasus:hadits shahih BukhariMuslim).

    2. Menghitung nilai akurasi pada  StemmingNazief dan Adriani yang digunakan dalamtext preprocessing.

    II. TINJAUAN PUSTAKA

    2.1 Syarah HaditsSyarah hadits adalah suatu aktivitas

    penyingkapan atau penjelasan atas makna-

  • makna dan pemahaman atas sesuatu yangdisandarkan pada Rasulullah SAW baik yangberupa perkataan, perbuatan, ketetapan,maupun sifat-sifatnya. [8].2.2 Taysirul ‘Allam Syarah Umdatil Ahkam

    Kitab Umdatil Ahkam ini merupakanpilihan dari atsar-atsar Nabi SAW palingshahih bersumber dari dua kitab agung; Shahihal-Bukhari dan Shahih Muslim yang dapatdijadikan rujukan dalam pembelajaran haditsbagi siapapun yang sudah mencapai tingkatanmahir, sekaligus tangga bagi pemula menujukitab-kitab Islam yang diriwayatkan darimanusia terbaik, Rasulullah SAW.

    Dibandingkan dengan kitab syarah lainseperti syarah Al-Allamah ahli ijtihad, danIbnu Daqiq Id yang beredar luas dimanametode pembahasan yang digunakan penulisrumit dan kuat, jauh diatas pemahamansebagian besar para penuntut ilmu dan merekayang mencari informasi, keutamaan dari kitabini adalah menggunakan bahasa yang mudahdipahami, keterangannya tidak bertele-tele,ringkas, dan jelas bagian-bagiannya, agarpermasalahan-permasalahan yang ada besertapenjelasannya tidak tumpang tindih danbercampur, yang tentu saja akanmembingungkan [9]. 2.3 Text Mining

    Text   mining   dapat   didefinisikan   secaraluas sebagai  suatu proses menggali   informasidimana   seorang   user   berinteraksi   dengansekumpulan   dokumen   menggunakan  toolsanalisis yang merupakan komponenkomponendalam  data mining  yang salah satunya adalahkategorisasi. [10]2.4 Sistem Temu Kembali Informasi

    Information   Retrieval  (IR)   merupakanbagian   dari   computer   science   yangberhubungan   dengan   pengambilan   informasidari dokumendokumen yang didasarkan padaisi   dan   konteks   dari   dokumendokumen   itusendiri. Information Retrieval merupakan suatupencarian   informasi   (biasanya   berupadokumen)  yang didasarkan pada   suatu  query(inputan  user)   yang   diharapkan   dapatmemenuhi   keinginan  user  dari   kumpulandokumen yang ada [11].2.5 Text Preprocessing 

    Text Preprocessing merupakantahapan dari proses awal terhadap teksuntuk mempersiapkan teks menjadi datayang akan diolah lebih lanjut. Suatu teks

    tidak dapat diproses langsung olehalgoritma pencarian, oleh karena itudibutuhkan preprocessing text untukmengubah teks menjadi data numeric [12].Proses ini terdiri dari beberapa tahappembersihan dokumen seperti berikut [13]:a. Tokenizing

    Tokenizing  adalah   proses   memecahdokumen   menjadi   kumpulan   kata.Tokenization  dapat   dilakukan   denganmenghilangkan   tanda   baca   danmemisahkannya perspasi. Tahapan ini jugamenghilangkan   karakterkarakter   tertentuseperti   tanda   baca   dan   mengubah   semuatoken ke bentuk huruf kecil (lower case).

    b. Stopword Removal atau FilteringStopwords   removal   merupakan   proses

    penghilangan   kata   tidak   penting   padadeskripsi   melalui   pengecekan   katakatahasil parsing deskripsi apakah termasuk didalam   daftar   kata   tidak   penting   (stoplist)atau tidak.

    c. Stemming Nazief & AdrianiStemming  merupakan   bagian   yang   tidak

    terpisahkan   dalam  Information   Retrieval(IR).   Tidak   banyak   algoritma   yangdikhususkan   untuk  stemming  bahasaIndonesia   dengan   berbagai   keterbatasandidalamnya.  Algoritma   Porter  misalnya,algoritma   ini   membutuhkan   waktu   yangrelatif   lebih   singkat   dibandingkan   denganstemming  menggunakan   algoritma   Naziefdan   Adriani,   namun   proses  stemmingmenggunakan  algoritma   Porter  memilikipersentase   keakuratan   lebih   kecildibandingkan   dengan  stemmingmenggunakan   algoritma   Nazief   danAdriani.   Algoritma   Nazief   dan   Adrianisebagai   algoritma  stemming  untuk   teksberbahasa   Indonesia   yang   memilikikemampuan   persentase   keakuratan   lebihbaik dari algoritma lainnya [14].

    Langkahlangkah pada Algoritma Nazief& Adriani adalah sebagai berikut[15]:1. Kata   yang   belum   distemming  dicari

    pada   kamus.   Jika   kata   itu   langsungditemukan,  berarti  kata   tersebut  adalahkata  dasar.  Kata   tersebut  dikembalikandan algoritma dihentikan.

    2. Inflection Suffixes (“lah”, “kah”, “ku”,“mu”,   atau   “nya”)   dibuang.   Jikaberupa  partikel   (“lah”,   “kah”,   “tah”,

  • atau “pun”) maka langkah ini diulangilagi   untuk   menghapus   PossesivePronouns (“ku”,  “mu”,  atau “  nya”),jika ada.

    3. Hapus  Derivation  Suffixes  (“i”,   “an”,atau   “kan”).   Jika   kata   ditemukan   dikamus,   maka   algoritma   berhenti.   Jikatidak maka ke langkah 3a. 

    a. Jika “an”, telah dihapus dan hurufterakhir dari kata tersebut adalah “k”,   maka   “k”   juga   ikut   dihapus.Jika kata tersebut ditemukan dalamkamus   kata   dasar   maka   algoritmaberhenti. Jika tidak ditemukan makalakukan langkah 3b. 

    b. Akhiran  yang  dihapus   (“i”,   “an”,atau “kan”) dikembalikan, lanjut kelangkah 4. 

    4. Hapus  Derivation   Prefix  DP   (“di”,“ke”,  “se”,  “me”,  “be”,  “pe”,  “te”)dengan iterasi maksimum adalah 3 kali.

    a. Langkah 4 berhenti jika :  Terjadi   kombinasi   awalan   dan

    akhiran   yang   terlarang   seperti   padaTabel 1 di bawah ini.

    Tabel 1. Kombinasi awalan akhiranyang tidak diizinkan

    Awalan Akhiran yang tidak diizinkanbe idi anke i, kanme anse i, kan

    Tiga awalan telah dihilangkan.b.Tipe   awalan   ditentukan   melalui

    langkahlangkah berikut:1. Jika  awalannya  adalah   :   “di”,   “ke”,

    atau “se”, maka tipe awalannya secaraberturutturut adalah “di”, “ke”, atau“se”.

    2. Jika   awalannya   adalah   “te”,   “me”,“be”,   atau   “pe”,   maka   dibutuhkansebuah   proses   tambahan   untukmenentukan tipe awalannya.

    3. Cari   kata   yang   telah   dihilangkanawalannya   ini   di   dalam   kamus.Apabila   tidak   ditemukan,   makalangkah   4   diulangi   kembali.   Apabiladitemukan,   maka   keseluruhan   prosesberhenti.

    5. Setelah tidak ada lagi imbuhan yang tersisa,maka   algoritma   ini   dihentikan   kemudian

    kata dasar tersebut dicari pada kamus, jikakata dasar tersebut ketemu berarti algoritmaini   berhasil   tapi   jika   kata   dasar   tersebuttidak ketemu pada kamus, maka dilakukanrecoding.

    6. semua langkah telah dilakukan tetapi  katadasar tersebut tidak ditemukan pada kamusjuga   maka   algoritma   ini   mengembalikankata yang asli sebelum dilakukan stemming.

    2.6 Term Frequency Inverse Document Frequency (TfIdf)

    Metode  TFIDF merupakan metode  untukmenghitung   bobot   setiap   kata   yang   palingumum   digunakan   pada   information   retrieval.Metode   ini   juga   terkenal   efisien,  mudah  danmemiliki hasil yang akurat[16].

    Metode Term FrequencyInverse DocumentFrequency  (TFIDF)   adalah   cara   pemberianbobot   hubungan   suatu   kata   (term)   terhadapdokumen.   TFIDF   ini   adalah   sebuah   ukuranstatistik  yang   digunakan  untuk   mengevaluasiseberapa penting sebuah kata di dalam sebuahdokumen atau dalam sekelompok kata. Untukdokumen   tunggal   tiap   kalimat   dianggapsebagai dokumen. Frekuensi kemunculan katadi   dalam   dokumen   yang   diberikanmenunjukkan   seberapa   penting   kata   itu   didalam dokumen tersebut.  Frekuensi  dokumenyang mengandung kata tersebut menunjukkanseberapa   umum   kata   tersebut.   Bobot   katasemakin besar jika sering muncul dalam suatudokumen dan semakin kecil jika muncul dalambanyak dokumen. [17].

    Pada   algoritma   TFIDF   digunakan   rumusuntuk menghitung bobot   (W) masing masingdokumen   terhadap   kata   kunci   dengan   rumusyaitu :

    Wdt = tfdt * Idft       (1)Dimana: Wdt= bobot dokumen ked terhadap kata ket  tfdt = banyaknya kata yang dicari pada sebuah dokumen  Idft = Inversed Document Frequency (log (N/df) ) N = total dokumen  df = banyak dokumen yang mengandung kata yang dicari.2.7 Cosine Similarity

    Cosine   Similarity  adalah   ukurankesamaan   antara   dua   buah   vektor   dalamsebuah ruang dimensi  yang didapat dari nilai

  • cosinus sudut dari  perkalian dua buah vektoryang   dibandingkan   karena  cosinus   dari   0adalah 1 dan kurang dari 1 untuk nilai  sudutyang lain, maka nilai  similarity  dari dua buahvektor dikatakan mirip ketika nilai dari cosinesimilarity adalah 1 [18].Berikut   adalah   rumus  cosine   similarity;Persamaan.....................................................(2)Similarity= cos(�)=

     Keterangan :    Q • D = dot product antara vektor Q dan vektorD |Q| = panjang vektor Q|D| = panjang vektor D |Q||D| = cross product antara |Q| dan |D|wqi = bobot term pada query ke i,= tf x idfwdij = bobot  term  pada dokumen kei istilahkej = tf x idfi = jumlah term dalam kalimat.N = jumlah vektor.

    Penulis   memilih   menggunakan   metodecosine   similarity  dikarenakan   metode   inimempunyai  nilai   akurasi  yang   tinggi  dimanamenurut   [19]   kelebihan   utama   dari   metodecosine similarity adalah tidak terpengaruh padapanjang pendeknya suatu dokumen. Sehingga,dengan   melakukan   perbandingan  keywordyang dihasilkan, maka kedekatan antara itempun dapat dipastikan.2.8 Confusion Matrix

    Confusion  Matrix  adalah  sebuah metodeyang   biasa   digunakan   untuk   perhitunganakurasi.   Dalam   pengujian   keakuratan   hasilpencarian   akan   dievaluasi   nilai  recall,precision,   accuracy,   dan   error   rate.  Dimanaprecision  mengevaluasi   kemampuan   sistemuntuk   menemukan   peringkat   yang   palingrelevan,   dan  didefinisikan   sebagai   presentasedokumen   yang   diretrieve  dan   benarbenarrelevan   terhadap  query.  Recall  mengevaluasikemampuan sistem untuk menemukan semuaitem yang relevan dari  koleksi  dokumen dandidefinisikan   sebagai   presentase   dokumenyang   relevan   terhadap  query.  Accuracymerupakan   perbandingan   kasus   yangdiidentifikasi   benar   dengan   jumlah   seluruhkasus   dan  error   rate  merupakan  kasus  yang

    diidentifikasi   salah   dengan   jumlah   seluruhkasus [20].

    Rumus  confusion   matrix  adalah   sebagaiberikut:

    Tabel 2. Rumus confusion matrix

    Document

    Nilai SebenarnyaRelevant Non Relevant

    Retrieved

    True Positive (tp)Correct result

    False Positive (fp)Unexpected result

    NotRetrieved

    False Negative(fn)Missing result

    True Negative (tn)Corect absence ofresult

    Keterangan: TP (True Positive)  =  Jumlah prediksi  yang

    benar dari data yang relevant. FP (False Positive) = Jumlah prediksi yang

    salah dari data yang tidak relevant. FN (False Negative) = Jumlah prediksi yang

    salah dari data yang tidak relevant. TN (True Negative) = Jumlah prediksi yang

    benar dari data yang relevant.Sehingga,   rumusnya   adalah   sebagai

    berikut:Persamaan .............................................(3)

    1.Precision = 3. Accuracy =

    2.Recall = 4. Error rate =

    Sistem yang dikatakan baik adalah sistem

    yang memiliki nilai recall dan precision tinggi.

    III.   METODOLOGI

    3.1 Metode Pengumpulan DataDalam melaksanakan penelitian ini

    diperlukan data dan informasi terkait yangnantinya akan digunakan sebagai bahanrujukan untuk pembuatan penelitian sertamendukung keabsahan pembahasan padalaporan penelitian. Metode pengumpulan datayang digunakan yaitu:1. Metode Studi Pustaka.

    Dalam metode ini penulis melakukan studipustaka dengan pencarian data secara manualjuga melakukan pencarian data secara onlinemelalui browsing internet dan melakukanpembelajaran terhadap jurnal dan skripsi yangrelevan sesuai dengan topik penelitian yang

  • dijadikan sebagai bahan acuan dalampembuatan penelitian.

    Data yang didapatkan digunakan dalampenyusunan landasan teori, metodologipenelitian dan pengembangan sistem.2. Metode Wawancara

    Dalam metode wawancara ini penulismelakukan wawancara dengan Bapak RifqiMuhammad Fatkhi, MA selaku Kepala JurusanProgram Studi Hadits Fakultas UshuludinUniversitas Islam Negeri Syarif HidayatulllahJakarta. Wawancara dilakukan 2 kali yaituuntuk mendukung permasalahan yang terkait,dan untuk pengujian sistem yang telah dibuat.

    3.2 Metode Pengembangan SistemDalam metode pengembangan system ini

    penulis menggunakan model Rapid AplicationDevelopment (RAD) dengan tahapan sebagaiberikut:1. Fase Perencanaan Syarat (Requirement

    Planning)Dalam fase ini penulis melakukan

    syarat-syarat perencanaan dengan langkah:Mengidentifikasi masalah, menganalisissolusi permasalahan, dan menganalisiskebutuhan sistem.

    2. Fase Workshop Desain (DesignWorkshop)

    Dalam fase ini penulis melakukanperancangan sistem, desain sistem danpengkodean sistem.

    3. Fase Implementasi (Implementation)Fase ini merupakan fase terakhir

    setelah melalui fase-fase sebelumnya.Dimana dalam fase ini, hasil dariperancangan yang telah dilakukan akandiimplementasikan ke dalam sistem denganlangkah: Implementasi sistem, dan testing.

    IV. HASIL DAN PEMBAHASAN

    Perancangan sistem proses yang ada adalahteks preprocessing terhadap dokumen danquery dengan menerapkan metode yangdigunakan yaitu dengan metode tf-idf untukpembobotan kata dan cosine similarity untukmenemukan dokumen dengan menghitungkedekatan antar dokumen. Penjelasannyasebagai berikut:

    4.1 Text PreprocessingSebelum melakukan tahap teks

    preprocessing, yang harus dilakukan adalahmenyimpan semua dokumen yang akan dicari

    dalam sebuah koleksi dokumen. Dimanadokumen ini merupakan koleksi hadits bahasaindonesia yang akan digunakan sebagai querybeserta syarah-nya (sebagai dokumen relevan)yang akan diproses dan disimpan dalamdatabase MySQL. Selanjutnya tahap tekspreprocessing dokumen, akan dijelaskanprosesnya sebagai berikut:

    1. TokenizingProses yang berjalan saat tahap tokenizing,akan digambarkan dalam flowchart berikut:

    Gambar 1. Flowchart tokenizing

    Gambar di atas menggambarkan prosesyang dilakukan saat tahap tokenizing, dimanakoleksi dokumen (query dan dokumen relevan)yang ada dalam database dilakukanpenghilangan tanda baca, pemecahan teksmenjadi token dengan delimeter spasi, danpengubahan token yang terbentuk menjadihuruf kecil. Penerapan tokenizing penulisberikan pada salah satu contoh hadits dalambab thaharah, dimana hadits yang diprosessebagai query harus memenuhi syarat untukdapat diproses sistem, yaitu menggunakanhadits dengan struktur yang lengkap (terdapatsanad dan matan) karena tanpa salah satunyamaka hadits tidak dapat diproses (untukmembedakan antara aplikasi hadits denganaplikasi pengolahan teks yang lain). Hasil daripenerapan proses tokenizing adalah sebagaiberikut:

    Tabel 3. Hasil tokenizingSebelum

    TokenizingSesudah

    TokenizingDari Abu Hurairah iaberkata, “RasulullahSAW bersabda: ‘Allah

    dariabuhurairah

  • tidak menerima sholatseseorang di antarakallian ketikaberhadats, hingga iaberwudhu’.”

    iaberkatarasulullahsawbersabdaallahtidakmenerimashalatseseorangdiantarakalianketikaberhadatshinggaiaberwudhu

    2. Stopword Removal atau FilteringProses yang berjalan saat tahap stopword

    removal atau filtering, akan digambarkandalam flowchart berikut:

    Gambar 2. Flowchart stopword removal

    Gambar di atas menggambarkan prosesyang dilakukan saat tahap stopword removalatau filtering, dimana hasil dari prosestokenizing yang dilakukan sebelumnya, akan dicocokan dengan array stoplist yang ada,apabila token yang dicek merupakan stoplistmaka token akan dihapus, apabila token bukantermasuk stoplist maka token akan dibiarkantetap ada. Contoh hasil penerapan stopwordremoval atau filtering adalah sebagai berikut:

    Tabel 4. Hasil stopword removal SesudahTokenizing

    Sesudah ProsesStopword

    dari -

    abu abuhurairah hurairah

    ia -berkata -

    rasulullah rasulullahsaw saw

    bersabda bersabdaallah allahtidak -

    menerima menerimashalat shalat

    seseorang seseorangdiantara -kalian kalianketika -

    berhadats berhadatshingga -

    ia -berwudhu berwudhu

    3. Stemming Nazief Adriani Adapun algoritma stemming yang akan

    digunakan yaitu algoritma stemming Nazief &Adriani, dimana stemming jenis ini merupakanstemming yang memiliki tingkat akurasi(presisi) lebih tinggi dari jenis stemming yanglain. Proses yang berjalan saat tahap stemming,akan digambarkan dalam flowchart berikut:

    Gambar 3. Flowchart stemming

    mulai

    Hasil proses tokenizing

    Pengecekan array stoplist

    selesai

    Array stoplist

    Token=stoplist

    Hapus token

    Daftar term

    benarsalah

  • Gambar di atas menggambarkan prosesyang dilakukan saat tahap stemming, dimanaterm hasil dari proses sebelumnya dilakukanpengecekan terhadap database kata dasarapakah term sudah kata dasar atau kataberimbuhan. Apabila term merupakan kataberimbuhan maka akan dilakukan stemmingdengan melalui 3 tahapan yaitu menghapusinflection suffix (seperti -ku, -mu, -kah, dsb),menghapus derivation suffix (seperti -i, -an,atau -kan), dan menghapus derivation prefix(seperti di-, ke-,se-, dsb). Hasil dari prosesstemming ini akan dilanjutkan dengan tahapberikutnya untuk dilakukan pembobotan katamenggunakan algoritma tf-idf.

    Hasil stemming dari algoritma NaziefAdriani adalah sebagai berikut:

    Tabel 5. Hasil stemmingSesudah Proses Stopword Hasil Stemming

    abu abuhurairah hurairah

    rasulullah rasulullahsaw saw

    bersabda sabdaallah allah

    menerima terimashalat shalat

    seseorang orangkalian kalian

    berhadats hadatsberwudhu wudhu

    4.2 Pembobotan Kata (Tf-Idf)

    Setelah tahap teks preprocessing selesai,tahap selanjutnya adalah pembobotan kata(term). Dalam pembobotan kata (term) ini,setiap kata yang telah melewati prosespreprocessing, akan di-parsing terlebih dahuludan disimpan dalam database, kemudiandihitung jumlah kemunculan setiap katanya.Pada proses pembobotan kata (TF-IDF) akandigambarkan dalam flowchart berikut:

    Gambar 4. Flowchart Tf-Idf

    Gambar di atas menggambarkan tahappembobotan kata dengan menggunakanmetode term frequency inverse documentfrequency (TF-IDF), dimana daftar term hasilstemming dilakukan perhitungan untukmengetahui bobot perkata dengan menghitungjumlah term frequency dokumen (tf) terlebihdahulu, kemudian menghitung nilai jumlahdokumen yang memiliki term (df), danselanjutnya menghitung nilai idf dengan rumuslog=N/df, dimana N merupakan jumlahseluruh dokumen yang ada. Setelah nilai TFdan IDF sudah didapat, maka langkah terakhiradalah menentukan bobot kata denganmengalikan TF dan IDF dengan rumusWdt=TFdt x IDFt. Hasil dari prosesperhitungan ini disimpan dalam database danakan dilanjutkan dengan tahap berikutnyauntuk dilakukan perhitungan cosine similarityyang merupakan tahap akhir proses.

    Contoh perhitungan pembobotan katadalam penelitian ini menggunakan dokumenyang telah dilakukan teks preprocessing diatas(sebagai query) terhadap dua dokumen outputuntuk mengetahui kemiripannya, sepertiberikut:

    Diketahui : query => Dari Abu Hurairah iaberkata, “Rasulullah SAW bersabda: ‘Allahtidak menerima sholat seseorang di antarakallian ketika berhadats, hingga ia berwudhu’.”

    Dimana terdapat 2 dokumen sebagaiberikut:

    Tabel 6. Dokumen outputd1 -Shalat orang yang berhadats tidak

    diterima, sampai ia bersuci dari hadatsbesar dan kecil.-Hadats membatalkan wudhu, danmembatalkan shalat jika terjadi di sela-selanya.-Maksud tidak diterima dalam hadits iniadalah shalatnya tidak sah.-Hadits ini menunjukkan, thaharah adalahsyarat sah shalat.

    Hasil stemming

    mulai

    Menghitung term frequency (tf)

    dokumen

    Menghitung document

    frequency (df)

    Menghitung jumlah dokumen

    (N)

    Menghitung invers document frequency

    (idf)=log N/df

    Menghitung tf-idf Wdt=TFdt x IDFt

    Simpan hasil perhitungan pada database

    selesai

  • d2 -Wajib memerhatikan anggota-anggotawudhu dan tidak boleh mengabaikansedikitpun diantaranya.

    -Ancaman keras bagi yang tidak baikdalam berwudhu.

    -Kedua kaki wajib dibasuh saatberwudhu, seperti disebutkan dalambanyak dalil shahih dan ijmak umat.

    Pembahasan:   sebelum   dilakukanpembobotan   kata   antara  query  dan   dokumenyang  harus  dilakukan adalah  melakukan  tekspreprocessing  terhadap semua dokumen yangakan  diproses  terlebih  dahulu   agar  kata   siapuntuk dilakukan pembobotan. 

    Setelah  preprocessing  maka   hasilperhitungan tfidf adalah sebagai berikut:

    Tabel 7. Perhitungan Tf-Idf

    termtf df Idf Wdt= tfdt x idft

    q d1 d2 Log(N/df)

    q d1 d2

    abai 1 1 0,477 0 0 0,477abu 1 1 0,477 0,477 0 0allah 1 1 0,477 0,477 0 0ancaman 1 1 0,477 0 0 0,477anggota 1 1 0,477 0 0 0,477baik 1 1 0,477 0 0 0,477banyak 1 1 0,477 0 0 0,477basuh 1 1 0,477 0 0 0,477batal 2 2 0,176 0 0,352 0besar 1 1 0,477 0 0,477 0dalil 1 1 0,477 0 0 0,477dua 1 1 0,477 0 0 0,477hadats 1 3 4 0,125 0,125 0,375 0hadits 2 2 0,176 0 0,352 0hati 1 1 0,477 0 0 0,477h urairah 1 1 0,477 0,477 0 0ijmak 1 1 0,477 0 0 0,477kaki 1 1 0,477 0 0 0,477kalian 1 1 0,477 0,477 0 0kecil 1 1 0,477 0 0,477 0keras 1 1 0,477 0 0 0,477maksud 1 1 0,477 0 0,477 0orang 1 1 2 0,176 0,176 0 0,176rasulullah 1 1 0,477 0,477 0 0sabda 1 1 0,477 0,477 0 0sah 2 2 0,176 0 0,352 0saw 1 1 0,477 0,477 0 0sedikit 1 1 0,477 0 0 0.477sela 1 1 0,477 0 0,477 0shahih 1 1 0,477 0 0 0,477shalat 1 4 5 0,221 0,221 0,884 0suci 1 1 0,477 0 0,477 0syarat 1 1 0,477 0 0,477 0terima 1 2 3 0 0 0 0thaharah 1 1 0,477 0 0,477 0tunjuk 1 1 0,477 0 0,477 0umat 1 1 0,477 0 0 0,477wajib 1 1 0,477 0 0 0,477wudhu 1 1 3 5 0,221 0,221 0,221 0,663

    4.3 Cosine SimilaritySetelah   melakukan   pembobotan   dokumen

    terhadap  term  dengan   menggunakan

    perhitungan   tfidf,   langkah   terakhir   yangdilakukan   untuk   menemukan   dokumen   yangrelevan   dengan  query  adalah   menghitung

  • kemiripan   antar   dua   dokumen   denganmenggunakan   rumus  cosine   similarity  yangakan dijelaskan dalam flowchart berikut:

    Gambar 5. Flowchart cosine similarity

    Gambar   di  atas   menggambarkan   prosesuntuk   menemukan   dokumen   yang   relevandengan  query   user  menggunakan   metodecosine   similarity,   dimana  query  yangdimasukkan  user  dilakukan   tahappreprocessing yang hasilnya dicocokan dengandatabase bobot yaitu hasil  perhitungan tfidf,apabila   term   ditemukan   maka   akan   dihitungperkalian   skalar   antara   term  query  dengandokumen   dengan   rumus   wqi   x   wdij,selanjutnya   yaitu   menghitung   nilai   panjangsetiap dokumen termasuk query dengan mengkuadratkan bobot  query  dan bobot  dokumen,jumlahkan   nilai   kuadrat   dan   selanjutnyadiakarkan.   Terakhir,   membagi   hasil   dariperkalian skalar dan hasil panjang vektor yangsudah   dihitung   untuk   menemukan   hasilkemiripan antara  query  dengan dokumen, lalusistem   akan   menampilkan   dokumen   yangrelevan   dengan  query  berdasarkan   hasilperhitungan   kemiripan   dengan  cosinesimilarity tersebut. 

    Contoh perhitungan berdasarkan hasil  daripembobotan   kata   yang   telah   dilakukansebelumnya,   untuk   mengetahui   kemiripanquery dengan d1 yang nanti akan dibandingkandengan d2, adalah sebagai berikut:

    Tabel 8. Perhitungan cosine similarity

    termwqi x wdij Panjang vektor q dan

    d1, d2Wqd1 Wqd2 wq2 wd12 wd22

    abai 0 0 0 0 0,227abu 0 0 0,227 0 0allah 0 0 0,227 0 0ancaman 0 0 0 0 0,227anggota 0 0 0 0 0,227baik 0 0 0 0 0,227banyak 0 0 0 0 0,227basuh 0 0 0 0 0,227

  • batal 0 0 0 0,124 0besar 0 0 0 0,227 0dalil 0 0 0 0 0,227dua 0 0 0 0 0,227hadats 0,046 0 0,015 0,14 0hadits 0 0 0 0,124 0hati 0 0 0 0 0,227hurairah 0 0 0,227 0 0ijmak 0 0 0 0 0,227kaki 0 0 0 0 0,227kalian 0 0 0,227 0 0kecil 0 0 0 0,227 0keras 0 0 0 0 0,227maksud 0 0 0 0,227 0orang 0 0,03 0,03 0 0,03rasulullah 0 0 0,227 0 0sabda 0 0 0,227 0 0sah 0 0 0 0,124 0saw 0 0 0,227 0 0sedikit 0 0 0 0 0.227sela 0 0 0 0,227 0shahih 0 0 0 0 0,227shalat 0,195 0 0,048 0,781 0suci 0 0 0 0,227 0syarat 0 0 0 0,227 0terima 0 0 0 0 0thaharah 0 0 0 0,227 0tunjuk 0 0 0 0,227 0umat 0 0 0 0 0,227wajib 0 0 0 0 0,227wudhu 0,048 0,146 0,048 0,048 0,439

    Jumlahkan hasil perkaliandiatas

    Jumlahkan hasilkuadrat diatas

    0,289 0,176 1.73 3.157 3.874Akarkan hasil

    penjumlahan di atas1,315 1,776 1,968

    Setelah diketahui nilai dari masing-masingquery dan dokumen, selanjutnya adalah denganmenerapkan rumus cosine similarity sebagaiberikut:1. Cos (q, d1) =

    = = =0,123

    2. Cos (q, d2) =

    = = =0,068

    Berdasarkan hasil  dari  perhitungan  cosinesimilarity  diatas,  hasil   dari  persamaan  antaraquery dan d1 adalah 0,123 sedangkan hasil daripersamaan antara  query  dan d2 adalah 0,068.Maka dapat disimpulkan bahwa dokumen yangterdekat dengan query adalah dokumen 1 (d1).Hal   tersebut   dikarenakan   hukum  cosinesimilarity  adalah semakin besar  nilai  cosinus(maksimal   1)   maka   semakin   mirip   dokumendengan   yang   dibandingkan.   Oleh   karena   itu,yang   lebih   mirip   dengan  query  dan   menjadioutput  dari  query  adalah   d1   karena   lebihmendekati   angka   1   dibandingkan   dengandokumen 2 (d2).

  • 4.4 Hasil Penelitian

    Gambar 6. Halaman analisis syarah

    Gambar di atas merupakan tampilan darihalaman analisis hadits yang muncul ketikauser mengklik tombol analisis hadits untukmelakukan proses analisis yaitu denganmengisi hadits dalam Bahasa Indonesia denganlengkap (sanad dan matan) pada kolom yangtersedia lalu setelah klik tombol proses analisishadits maka akan muncul syarah hadits yangbenar sesuai dengan hadits yang dimasukkan,sistem tidak akan memberikan output apabilahadits yang diinputkan tidak mengandungsalah satu struktur hadits (sanad atau matan).

    4.5 Pengujian1. Pengujian Stemming

    Adapun algoritma stemming yangdigunakan dalam penelitian ini adalahalgoritma Nazief & Adriani, dimana stemmingjenis ini merupakan stemming yang memiliki

    tingkat akurasi (presisi) lebih tinggi dari jenisstemming yang lain. Namun, pada prosesstemming algoritma ini, penulis menemukanbeberapa kata yang tidak berhasil distemmingpada saat melakukan analisis secara manual,kata yang gagal di-stemming tersebut terjadikarena proses penghilangan imbuhan (akhiran)yang dilakukan terlebih dahulu setelah itu barupenghilangan awalan sehingga terjadioverstemming, lalu tidak adanya beberapaaturan dalam stemming nazief adriani sepertipe- + –ng, dan ter- sehingga untuk beberapakata dengan aturan tersebut tidak berhasil di-stemming (kata tidak berubah), juga beberapaaturan yang masih belum berhasilmengembalikan kata ke dalam bentuk katadasarnya. Contoh beberapa kata yang gagaldilakukan stemming terlihat dalam Tabel 9 dibawah ini:

  • Tabel 9. Contoh hasil stemming yang kurang tepatId Token Awal Hasil

    StemmingHasil se-harusnya

    36 dinikahinya nikahi nikah91 diampuni mpuni ampuni236 memberkahi ber berkah

    1897 sejumlah sejum jumlah2226 setelah sete telah2520 melakukan laku lakukan2875 melangkah lang langkah4691 memisah misah pisah2128 memerintah merintah perintah4066 terlimpah terlimpah limpah4162 terpuji terpuji puji4372 terakhir terakhir akhir4753 termasuk termasuk masuk3723 pengendara pengendara kendara4062 pengagungan pengagungan agung

    Selain itu, pada kata yang merupakan bahasaasing atau nomor, tidak dilakukan stemming,hal ini dikarenakan cara kerja yang pertamadari algoritma Nazief Adriani adalah denganmelakukan pengecekan apakah kata yang akandi-stemming terdapat pada kamus yang tersediaatau tidak, jika iya maka akan dilakukanstemming, tapi jika tidak ada maka kata akandianggap sebagai root word atau sebagai kataasal, sehingga kata asing dan nomor seperti:Musyik, qirath, jihad, mutalaffiat,khadaq,itikaf, shaum, qadha, haruriyah,istihadhah, istinja, madzi, khitan, junub,syafaat, subhanallah, jinabat, saw, rasulullah,1,2,3,4,5 dan sebagainya akan tetap menjadiseperti asalnya.

    Berdasarkan analisis hasil stemming di atas,untuk mengetahui tingkat ke akuratanStemming dengan Algoritma Nazief Adriani inimaka akan dihitung nilai persentase antara katayang gagal di-stemming dengan yang berhasil.Total token yang ada pada database hasilpreprocessing adalah 6.983, namun dalam6.983 itu terdapat banyak pengulanganbeberapa token, sehingga untuk pehitunganhasil stemming kata yang terbentuk hanyaberjumlah 2.051. Untuk itu, hasil dari akurasistemming Nazief Adriani adalah sebagaiberikut:

    1. Prosentase gagal = 2. Prosentase berhasil =

    2 Pengujian SistemDalam fase testing ini untuk melakukan

    pengujian sistem, penulis menggunakanpengujian confusion matrix yang biasadigunakan dalam perhitungan akurasi padasuatu sistem temu kembali informasi untukmengevaluasi seberapa baik kemampuansistem dalam pencarian dokumen. Pengujiansistem ini adalah dengan melakukan percobaansebanyak 204 kali menggunakan queryterhadap 204 dokumen yang ada dalamdatabase. Query yang digunakan adalah queryyang memiliki jumlah dokumen relevanmasing-masing 1 untuk masing-masing query.Artinya, satu query hanya relevan dengan satudokumen dimana dokumen tersebut merupakansyarah hadits yang relevan berdasarkan queryyang dimasukkan.

    Setelah melakukan percobaan terhadap204 dokumen dengan query tersebut,didapatkan hasil benar yang ditemukanberjumlah 181 dokumen yang ditemukanrelevan (sesuai dengan query), dan ditemukan23 dokumen yang ditemukan tidak relevan(tidak sesuai dengan query). Oleh karena itu,maka hasil pengujian confusion matrix sesuaidengan rumus yang telah dibahas pada point2.8 Tabel 2 adalah sebagai berikut:

    1. Precision =

    2. Recall = x 100% = 88,7%

  • 3. Accuracy = x 100% =88,73%

    4. Error rate = x 100% = 11,27 %

    V. PENUTUP

     5.1 KesimpulanBerdasarkan rumusan masalah yang telah

    dikemukakan,   maka   kesimpulan   dalampenelitian   ini   adalah   bahwa   metode  termfrequency inverse document frequency  (tfidf)dan  cosine similarity  telah berhasil diterapkandalam sistem dengan baik dimana sistem dapatmemberikan  output  berupa     dokumen   yangrelevan   yaitu  syarah   hadits  sesuai   denganquery  yang   diinput   kan,   dengan   melalui   3tahapan   teks  preprocessing  yaitu  tokenizing,stopword removal atau filtering, dan stemming.Hasil   pengujian   stemming   model   NaziefAdriani   yang   telah   dilakukan   menunjukkanhasil akurasi sebesar 90,93% yang menyatakanbahwa  stemming  model   ini   memiliki   tingkatakurasi   yang   tinggi.   Kemudian,   pengujiansistem   yang   dilakukan   dengan   menggunakanconfusion   matrix  dalam   penelitian   inididapatkan nilai precision 100%, recall 88,7%,accuracy  88,73   %,   dan  error   rate  11,27  %.Sehingga,   sistem   dapat   dikatakan   baik,dikarenakan   sistem   yang   baik   adalah   sistemyang memiliki nilai recall dan precision tinggiserta tingkat akurasi yang tinggi pula.

    5.2 SaranUntuk pengembangan selanjutnya, maka

    saran-saran yang dapat penulis berikan adalahsebagai berikut:1. Sistem dapat dilengkapi menjadi full satu

    kitab dan dapat dikembangkan denganmenggunakan kitab syarah hadits yanglebih spesifik lainnya seperti kitab syarahFatkhul Barri, syarah Imam An-Nawawiatau kitab syarah dari hadits shahihperiwayat lain.

    2. Sistem dapat dikembangkan dengan userinterface yang lebih menarik dan userfriendly.

    3. Penerapan metode pembobotan kata danmetode similarity yang memiliki tingkatakurasi lebih tinggi.

    4. Sistem dapat dikembangkan selainmenggunakan manajemen database MySql,karena dengan menggunakan MySql sistemberjalan sedikit lebih lambat dikarenakansistem harus menelusuri data yang adasehingga waktu untuk menemukandokumen yang relevan relatif lama.

    DAFTAR PUSTAKA

    [1] Zuhri, Muhammad. 2011. Hadis NabiTelaah Historis dan Metodologis.Yogyakarta: Tiara Wacana Yogya.

    [2] Rosyid, Khoirul. 2016. KepemimpinanMenurut Hadits Nabi Saw. Skripsi.Jurusan Tafsir Hadits. FakultasUshuluddin. Institut Agama IslamNegeri (IAIN) Raden Intan Lampung.

    [3] Mukaromah, Kholila. 2015. KajianSyarah Hadits Subul Al-Salam. Tesis.Jurusan Studi Agama dan Filsafat.Fakultas Humaniora. Universitas IslamNegeri Sunan Kalijaga. Yogyakarta.

    [4] Katsir, Ibnu. 2013. Tafsirul ‘AllamSyarh ‘Umdatul Ahkam. Jakarta:Ummul-Qura.

    [5] Rizki, Dhidik, dan Eko Supraptono.2017. Penerapan Algoritma CosineSimilarity dan Pembobotan TF-IDF padaSistem Klasifikasi Dokumen. Skripsi.Jurusan Teknik Elektro. Fakultas Teknik.Universitas Negeri Semarang KampusSekaran, Gunungpati, Semarang.

    [6] Ma’arif, Abdul Aziz. 2015. PenerapanAlgoritma Tf-Idf Untuk PencarianKarya Ilmiah. Jurnal. Jurusan TeknikInformatika. Fakultas Ilmu Komputer.Universitas Dian Nuswantoro Semarang.

    [7] Rozas, I. R. dan Sarno, R. 2011. SistemPemilihan Kontrol Keamanan InformasiBerbasis ISO 27001. Seminar NasionalPascasarjana XI. IT. Surabaya.

    [8] Mukaromah, Kholila. 2015. KajianSyarah Hadits Subul Al-Salam. Tesis.Jurusan Studi Agama dan Filsafat.Fakultas Humaniora. Universitas IslamNegeri Sunan Kalijaga. Yogyakarta.

    [9] Katsir, Ibnu. 2013. Tafsirul ‘AllamSyarh ‘Umdatul Ahkam. Jakarta:Ummul-Qura.

    [10] Feldman, Ronen, dan Sanger, James.2007. The Text Mining HandbookAdvanced Approaches in AnalyzingUnstructured Data. New York:Cambridge University Press.

  • [11] Safitri, Rima Noer. 2013. Temu KembaliInformasi Pada Pencarian Jurnal SkripsiMenggunakan Metode Single PassClustering. Skripsi. UniversitasMuhammadiyah Gresik.

    [12] Feldman, Ronen, dan Sanger, James.2007. The Text Mining HandbookAdvanced Approaches in AnalyzingUnstructured Data. New York:Cambridge University Press.

    [13] Rizki, Dhidik, dan Eko Supraptono.2017. Penerapan Algoritma CosineSimilarity dan Pembobotan TF-IDF padaSistem Klasifikasi Dokumen. Skripsi.Jurusan Teknik Elektro. Fakultas Teknik.Universitas Negeri Semarang KampusSekaran, Gunungpati, Semarang.

    [14] Arwanda, Ivan. 2013. Penerapan MetodeText Mining pada Aplikasi Chatbot.Skripsi. Jurusan Teknik InformatikaUniversitas Ilmu Komputer. Bandung.

    [15] Simorangkir, Manase Sahat. 2017. StudiPerbandingan Algoritma-AlgoritmaStemming Untuk Dokumen Teks BahasaIndonesia. Jurnal. Teknik Informatika.Universitas Presiden JababekaEducation.

    [16] Ma’arif, Abdul Aziz. 2015. PenerapanAlgoritma Tf-Idf Untuk Pencarian

    Karya Ilmiah. Jurnal. Jurusan TeknikInformatika. Fakultas Ilmu Komputer.Universitas Dian Nuswantoro Semarang.

    [17] Putra, Agung Auliaguntary Arif. 2016.Implementasi Text SummarizationMenggunakan Metode Vector SpaceModel pada Artikel Berita BahasaIndonesia. Skripsi. Jurusan TeknikInformatika. Fakultas Teknik dan IlmuKomputer. Universitas KomputerIndonesia.

    [18] Dewa, Arie, dan Agustinus. 2016.Pengukuran Kemiripan Dokumen TeksBahasa Indonesia Menggunakan MetodeCosine Similarity. Jurnal. TeknikInformatika Universitas Sam RatulangiManado.

    [19] Rozas, I. R. dan Sarno, R. 2011. SistemPemilihan Kontrol Keamanan InformasiBerbasis ISO 27001. Seminar NasionalPascasarjana XI. IT. Surabaya.

    [20] Ferdinandus, Subari. 2015. SistemInformation Retrieval LayananKesehatan Untuk Berobat denganMetode Vector Space Model berbasisWebGis. Jurnal. Teknik Informatika.STIKI Malang.