Post on 17-Nov-2015
description
DATAWAREHOUSE & DATAMINING
Tacbir Hendro P.
2015
i
KATA PENGANTAR
Terimaksih penulis sampaikan ke Hadirat Illahi Robbi, karena hanya perkenannyalah buku ini dapat diselesaikan meskipun dengan penuh kekurangan.
Selanjutnya untuk Isteriku, dan kedua anakku, kalianlah penyemangat hidupku.
Last but Not Least, teman sejawat dan mahasiswaku, yang tugas akhirnya dibimbing oleh saya ataupun tidak, kalian adalah tantanganku, bagaimana yang kalian butuhkan dapat saya sediakan dengan sederhana dan bermanfaaat.
Buku ini terinspirasi dari beberapa buku luar negeri yang dibuat berdasarkan hasil penelitian. Dengan menggunakan penelitian skripsi mahasiswa yang saya bimbing, maka buku ini dapat di susun berdasarkan hasil penelitian mereka.
Akhir kata semoga buku ini dapat bermanfaat bagi mereka yang mulai menyusun laporan Kerja Praktek, menyusun proposal Tagas Akhir atau Skrpsi, dll.
Terimaksih untuk semuanya.
ii
DAFTAR ISI
KATA PENGANTAR ....................................................................................................... i
DAFTAR ISI................................................................................................................ ii
DAFTAR TABEL ........................................................................................................... v
DAFTAR GAMBAR ....................................................................................................... vi
BAB 1. DATA WAREHOUSE ........................................................................................... 1
1.1. Pendahuluan ..................................................................................................... 1
1.2. Definisi ............................................................................................................ 1
1.3. Sejarah Data Warehouse .................................................................................... 2
1.4. Komponen dari Data Warehouse ......................................................................... 3
1.5. Arsitektur untuk Data Warehouse ........................................................................ 6
1.6. On line Analytical Processing (OLAP) .................................................................... 8
1.7. Membangun Data Warehouse............................................................................ 10
a. Menentukan Bentuk Data Warehouse .................................................................. 10
b. Anatomi Data Warehouse .................................................................................. 10
i. Functional Data Warehouse (Data Warehouse Fungsional) ........................... 11
ii. Centralized Datawarehouse (Data Warehouse Terpusat) .............................. 11
iii. Distributed Data Warehouse (Data Warehouse terdistribusi) ........................ 12
1.8. Metodologi Perancangan Database untuk Data Warehouse .................................... 13
1.9. Model untuk Data Warehouse ........................................................................... 14
a. Model Dimensional ............................................................................................ 14
b. Snowflake Schema ............................................................................................ 17
1.10. Star atau Snowflake ..................................................................................... 18
1.11. Kesimpulan .................................................................................................. 18
BAB 2 DATA MINING ................................................................................................. 19
2.1. Pendahuluan ..................................................................................................... 19
2.2. Inovasi yang berkelanjutan............................................................................... 19
2.3. Data, Informasi dan Pengetahuan ........................................................................ 19
2.4. Apa yang dapat dilakukan dengan data mining ? .................................................... 20
2.5. Bagaimana data mining bekerja ? ........................................................................ 21
2.6. Teknologi infrastruktur seperti apa yang diperlukan ? ............................................. 22
2.7. Aplikasi Data Mining ........................................................................................... 22
2.8. Kesimpulan ....................................................................................................... 23
iii
BAB 3. Text Mining ................................................................................................... 24
3.1. Pendahuluan ................................................................................................... 24
3.1.1.Case Folding .................................................................................................... 24
3.1.2.Tokenizing ....................................................................................................... 24
3.1.3.Filtering .......................................................................................................... 24
3.1.4.Analyzing ........................................................................................................ 25
3.2. (TF-IDF) Term Frequency-Inverse Frequency Document ......................................... 26
Studi Kasus 1 (Nugraha, 2012) .................................................................................. 26
Preprosesing ............................................................................................................ 27
Case Folding ............................................................................................................ 27
Tokenizing ............................................................................................................... 28
Filtering ................................................................................................................... 29
Analyzing ................................................................................................................ 30
Studi Kasus 2 (Utama, 2012) ..................................................................................... 33
3.3. CF-IDF (Concept Frequency-Inverse Document Frequency) ..................................... 37
Studi Kasus 1 (Arrumaisha, 2012) .............................................................................. 38
Case Folding ............................................................................................................ 39
Stopword Removal .................................................................................................... 39
Mencari Concept ....................................................................................................... 40
Perhitungan Bobot Similaritas Menggunakan CF-IDF ..................................................... 45
Studi Kasus 2 (Afrika, 2013) ...................................................................................... 48
Case Folding ............................................................................................................ 48
Parsing .................................................................................................................... 49
Stopword Removal .................................................................................................... 51
Penentuan bobot untuk dokumen ............................................................................... 52
Penentuan Kategori berdasarkan kategori uatama ....................................................... 53
Proses CF-IDF .......................................................................................................... 54
3.4. VSM (Vector Space Model) .................................................................................. 59
Studi Kasus 1 (Nastiti, 2013) ..................................................................................... 59
a. Proses Preprocessing pada Dokumen Uji (Inputan kasus) ........................................... 59
b. Proses Preprocessing pada Dokumen Banding (Inputan pasal) .................................... 61
Perhitungan CF-IDF .................................................................................................. 66
Perhitungan Vector Space Model (VSM) ....................................................................... 68
Studi Kasus 2 (Candra, 2014) .................................................................................... 71
iv
Preprocessing ........................................................................................................... 72
Proses Case Folding .................................................................................................. 72
Proses Tokenizing ..................................................................................................... 72
Proses Filtering......................................................................................................... 73
Wordnet .................................................................................................................. 74
Proses Pembobotan CF-IDF ........................................................................................ 74
Perhitungan Vector Space Model ................................................................................. 80
REFERENCE ............................................................................................................. 84
INDEKS ................................................................................................................... 85
v
DAFTAR TABEL
Tabel 1. 1. Perbandingan OLTP dengan Data Warehouse ....................................................... 2 Tabel 1. 2. Data Multidimensi ....................................................................................... 8 Tabel 1. 3. Cross tabulation pendapatan berdasarkan jenis dan rasa ................................. 9 Tabel 1. 4. Penjualan Sirup .......................................................................................... 9 Tabel 1. 5. Frequensi Kemunculan Kata pada Dokumen ................................................. 25 Tabel 1. 6. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama .................... 25
Tabel 2. 1. Frequensi Kemunculan Kata pada Dokumen ................................................. 31 Tabel 2. 2. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama .................... 31 Tabel 2. 3. Perhitungan TF-IDF ................................................................................... 31 Tabel 2. 4. Frekuensi kemunculan kata dalam dokumen ................................................ 33 Tabel 2. 5. Hasil pre - processing dokumen kata kunci .................................................. 34 Tabel 2. 6. Hasil perhitungan TF -IDF .......................................................................... 35
Tabel 3. 1. Kandidat Concept Dokumen 1 .................................................................... 40 Tabel 3. 2. Kandidat Concept Dokumen 2 .................................................................... 41 Tabel 3. 3. Kandidat Concept Dokumen 3 .................................................................... 41 Tabel 3. 4. Concept Dokumen 1.................................................................................. 42 Tabel 3. 5. Concept Dokumen 2.................................................................................. 42 Tabel 3. 6. Tabel Frekuensi Concept (CF) ..................................................................... 43 Tabel 3. 7. Tabel Frekuensi Jumlah Dokumen yang Mengandung Kemunculan Concept yang Sama (DF) ............................................................................................................... 44 Tabel 3. 8. Tabel Perhitungan Nilai CF-IDF ................................................................... 47 Tabel 3. 9. Penentuan Kategori Berdasarkan Sub Kategori ............................................. 52 Tabel 3. 10. Penentuan Kategori berdasarkan kategori utama ........................................ 53 Tabel 3. 11. Tabel Frekuensi Concept (CF) ................................................................... 55 Tabel 3. 12. Tabel Frekuensi Jumlah Dokumen yang MengandungKemunculan Concept yang Sama (DF) ............................................................................................................... 56 Tabel 3. 13. Tabel Perhitungan Nilai CF-IDF ................................................................. 57
Tabel 4. 1. Concept Dokumen Uji ................................................................................ 60 Tabel 4. 2. Concept Pada Dokumen Pertama (P1) ......................................................... 64 Tabel 4. 3. Concept Pada Dokumen Kedua (P2) ............................................................ 64 Tabel 4. 4. Concept Pada Dokumen Ketiga (P3) ............................................................ 65 Tabel 4. 5. Tabel Perhitungan Nilai CF-IDF ................................................................... 66 Tabel 4. 6. Bobot Kemunculan Concept Pada Setiap Dokumen ........................................ 68 Tabel 4. 7. Hasil Perhitungan ..................................................................................... 68 Tabel 4. 8. Hasil Perhitungan Yang Sudah Diurutkan ..................................................... 68 Tabel 4. 9. Perhitungan Vector Space Model ................................................................. 69 Tabel 4. 10. Perhitungan Nilai Cosinus Vector Space Model ............................................ 70 Tabel 4. 11. Urutan Perhitungan Nilai Cosinus Vector Space Model .................................. 70 Tabel 4. 12. Dokumen Uji .......................................................................................... 71 Tabel 4. 13. Dokumen Banding................................................................................... 71 Tabel 4. 14. Perhitungan Bobot CF-IDF ........................................................................ 76 Tabel 4. 15. Perhitungan Vector Space Model ............................................................... 80 Tabel 4. 16. Usulan Dosen Pembimbing ....................................................................... 83
vi
DAFTAR GAMBAR
Gambar 1. 1. Komponen Data Warehouse ..................................................................... 3 Gambar 1. 2. Multidimensi data warehouse ........................................................................ 4 Gambar 1. 3. Arsitektur Data Warehouse Two Tier .......................................................... 6 Gambar 1. 4.Arsitektur Data Warehouse Three Tier ........................................................ 7 Gambar 1. 5. Arsitektur Bottom Up ............................................................................... 8 Gambar 1. 6. Bentuk data warehouse fungsional .......................................................... 11 Gambar 1. 7. Bentuk data warehouse terpusat ............................................................. 12 Gambar 1. 8. Distributed Data Warehouse ................................................................... 12 Gambar 1. 9. Model data OLTP ................................................................................... 15 Gambar 1. 10. Dimension Model ................................................................................. 15 Gambar 1. 11. Contoh Proses Case Folding .................................................................. 24 Gambar 1. 12. Contoh Proses Tokenizing ..................................................................... 24 Gambar 1. 13. Contoh Proses Filtering ........................................................................ 25
Gambar 2. 1. Case Folding D1 ................................................................................... 27 Gambar 2. 2. Case Folding D2 ................................................................................... 27 Gambar 2. 3. Case Folding D3 ................................................................................... 27 Gambar 2. 4. Case Folding D4 ................................................................................... 27 Gambar 2. 5. Case Folding D5 ................................................................................... 28 Gambar 2. 6. Case Folding D6 ................................................................................... 28 Gambar 2. 7. Case Folding D7 ................................................................................... 28 Gambar 2. 8. Tokenizing D1...................................................................................... 28 Gambar 2. 9. Tokenizing D2...................................................................................... 28 Gambar 2. 10. Tokenizing D3 .................................................................................... 28 Gambar 2. 11. Tokenizing D4 .................................................................................... 29 Gambar 2. 12. Tokenizing D5 .................................................................................... 29 Gambar 2. 13. Tokenizing D6 .................................................................................... 29 Gambar 2. 14. Tokenizing D7 .................................................................................... 29 Gambar 2. 15. Filtering D1 ....................................................................................... 29 Gambar 2. 16. Filtering D2 ....................................................................................... 29 Gambar 2. 17. Filtering D3 ....................................................................................... 30 Gambar 2. 18. Filtering D4 ....................................................................................... 30 Gambar 2. 19. Filtering D5 ....................................................................................... 30 Gambar 2. 20. Filtering D6 ....................................................................................... 30 Gambar 2. 21. Filtering D7 ....................................................................................... 30
Gambar 3. 1. Proses case folding dokumen 1 ............................................................... 39 Gambar 3. 2. Proses case folding dokumen 2 ............................................................... 39 Gambar 3. 3. Proses case folding dokumen 3 ............................................................... 39 Gambar 3. 4. Proses stopword removal dokumen 1....................................................... 39 Gambar 3. 5. Proses stopword removal dokumen 2....................................................... 40 Gambar 3. 6. Proses stopword removal dokumen 3....................................................... 40
vii
Gambar 3. 7. Proses case folding dokumen 1 ............................................................... 49 Gambar 3. 8. Proses case folding dokumen 2 ............................................................... 49 Gambar 3. 9. Proses case folding dokumen 3 ............................................................... 49 Gambar 3. 10. Proses case folding dokumen 4 ............................................................. 49 Gambar 3. 11. Proses parsing dokumen 1 .................................................................... 50 Gambar 3. 12. Proses parsing dokumen 2 .................................................................... 50 Gambar 3. 13. Proses parsing dokumen 3 .................................................................... 50 Gambar 3. 14. proses parsing dokumen 4.................................................................... 51 Gambar 3. 15. Proses stopword removal dokumen 1 ..................................................... 51 Gambar 3. 16. Proses stopword removal dokumen 2 ..................................................... 51 Gambar 3. 17. Proses stopword removal dokumen 3 ..................................................... 52
1
BAB 1. DATA WAREHOUSE
1.1. Pendahuluan
Data warehouse adalah basis data yang menyimpan data sekarang dan masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi dan ditujukan untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan. (Mannino, 2007)
1.2. Definisi
Sebuah data warehouse adalah tempat penyimpanan utama data sejarah organisasi, atau memory corporate; untuk mengetahui kapan terjadi penjualan yang paling tinggi pada tahun 1992, atau bagaimana alasan yang dikeluarkan oleh karyawan yang mengajukan cuti seminggu sebelum Hari raya Idul Fitri tahun 2000, organisasi akan menggunakan informasi yang terdapat dalam data warehouse. Dengan kata lain, sebuah data warehouse berisi data dasar untuk pihak manajemen dalam sistem pengambilan keputusan (decision support system).
Menurut Bill Inmon (Inmon, 2002) mendefinisikan data warehouse mempunyai karakteristik :
- Subject-Oriented, artinya data di dalam database di organisasikan sehingga semua elemen data berkaitan dengan kejadian di dunia nyata atau objeknya berhubungan secara menyeluruh,
- Time-variant, artinya bahwa setiap perubahan data dalam database selalu dilacak dan disimpan sehingga dalam laporannya dapat diperlihatkan hasil perubahannya setiap waktu,
- Non-volatile, artinya data dalam database tidak pernah di ganti dan dihapus, tetapi disimpan untuk laporan dimasa datang,
- Integrated, artinya data dalam database berisi data dari sebagian besar / seluruh data aplikasi operasional organisasi, dan kemudian data tersebut dibuat menjadi konsisten.
Menurut Vidette Poe, data warehousing merupakan basisdata yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Menurut Paul Lane, data warehousing merupakan basisdata relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehousing memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber. Data warehousing merupakan metode dalam perancangan basisdata, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehousing adalah basisdata, tapi perancangan data warehousing dan basisdata sangat berbeda. Dalam perancangan basisdata tradisional menggunakan normalisasi, sedangkan pada data warehousing normalisasi bukanlah cara yang terbaik. Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan untuk melaksanakan proses transaksi. Data warehouse hanya berisi informasi-informasi yang relevan bagi kebutuhan pemakai yang dipakai untuk pengambilan keputusan.
Pada tabel di bawah ini diperlihatkan perbedaan sistem OLTP (Online transaction processing atau sistem yang dapat digunakan untuk memproses transaksi secara online) dan sistem Data warehouse.
2
Tabel 1. 1. Perbandingan OLTP dengan Data Warehouse
OLTP Data warehouse
- menangani data saat ini - data bisa saja disimpan pada beberapa
platform - data diorganisasikan berdasarkan
fungsi atau operasi seperti penjualan, produksi dan pemrosesan pesanan
- pemrosesan bersifat berulang - untuk mendukung keputusan harian - melayani banyak pemakai operasional - berorientasi pada transaksi
- lebih cenderung menangani data masa lalu - data disimpan dalam satu platform - data diorganisasikan menurut subjek seperti
pelanggan atau produk - pemrosesan sewaktu-waktu, tak terstruktur
dan bersifat heuristik - untuk mendukung keputusan yang strategis - untuk mendukung pemakai manajerial yang
berjumlah relatif sedikit - berorientasi pada analisis
1.3. Sejarah Data Warehouse
Data warehouse menjadi sebuah tipe yang berbeda dari database komputer sejak akhir 1980 dan awal 1990. Data warehouse dikembangkan untuk menemukan permintaan analisis informasi yang berkembang untuk pihak manajemen yang tidak dapat ditemukan pada sistem operasional. Sistem operasional tidak dapat digunakan untuk menemukan kebutuhan ini dengan beberapa alasan :
- rancangan database dari sistem operasional tidak dapat dioptimalkan untuk menganalisa dan pelaporan informasi,
- Kebanyakan organisasi mempunyai lebih dari satu sistem operasional, sehingga laporan perusahaan secara keseluruhan tidak dapat didukung oleh satu buah sistem,
- Pengembangan laporan dalam sistem operasinal sering memerlukan waktu yang lama dan harga yang mahal dalam pembuatannya,
Sebagai hasil, database komputer yang terpisah pertama kali dibangun secara spesial dirancang untuk mendukung informasi pihak manajemen dan keperluan analisa. Dengan data warehousse memungkinkan untuk menampilkan data dari daerah sumber data yang berbeda, seperti dari komputer mainframe, mini sama baiknya dengan komputer pribadi dan software otomasi perkantoran seperti spreadsheet, dan mengintegrasikan semua informasi tersebut dalam satu tempat. Sepasang kapabilitas dari sistem komputer type ini adalah sebagai alat pelaporan yang sangat mudah digunakan dan terpisah dari efek operasionalnya.
Sejalan dengan perkembangan teknologi dan kebutuhan pemakai yang berkembang pula, data warehouse mempunyai tahap perkembangan : - Database operasional secara offline Data warehouse pada tahap inisial dikembangkan
dengan cara menyalin database secara sederhana dari operasional sistem ke offline server dimana pemanggilan proses pelaporan tidak berdampak terhadap unjuk kerja operasional sistem.
- Offline Data Warehouse, Data warehouse pada tahap evolusi di update secara regular (biasanya per hari / per minggu / per bulan) berdasarkan operasional sistem dan data disimpan dalam laporan yang terintegrasi yang berorientasi terhadap struktur data,
- Real time data warehouse, Data warehaouse pada tahap ini selalu di update berdasarkan transaksi atau stiap kejadian, setiap waktu operasional sistem memeperlihatkan transaksi yang terjadi,
- Integrated data warehouse, data warehouse pada tahap ini digunakan untuk menciptakan aktivitas atau transaksi yang sudah lewat ke dlaam opersional sistem untuk digunakan dalam kegiatan keseharian dari organisasi.
3
1.4. Komponen dari Data Warehouse
Komponen utama dari kebanyakan data warehouse diperlihatkan pada gambar 1.1.
Gambar 1. 1. Komponen Data Warehouse
- Data Source (Sumber data) Sumber data berhubungan dengan setiap tempat penyimpanan elektronik yang berisi data yang digunakan oleh manajemen untuk di analisa. Sumber data bagi Data warehouse adalah data operasional dalam organisasi, misalnya basis data pelanggan dan produk dan sumber eksternal yang diperoleh misalnya melalui internet, basis data komersial, basis data pemasok atau pelanggan. Bergagai data yang berasal dari sumber yang digabungkan dan diproses lebih lanjut oleh manajer Data warehouse dan disimpan dalam basis data tersendiri.Selanjutnya perangkat lunak seperti OLAP dan Data mining dapat digunakan oleh pamakai untuk mengakses Data warehouse.
- Data Transformation Layer data transformasi menerima data dari layer sumber data, bersih, terstandarisasi, kemudian dmasukan ke dalam tempat penyimpanan. Hal ini biasa dinamakan staging data. Data dilewatkan melalui database sementara selama dalam proses transformasi.
- Data warehouse Data warehouse memerlukan lebih dari hanya relational database, data warehouse harus diorganisasikan sedemikian rupa sehingga dapat menghasilkan informasi yang terstruktur dengan baik, bukan hanya pertanyaan dan laporan, tetapi juga teknik analisis yang baik seperti data mining. Kebanyakan data warehouse memiliki informasi paling sedikit untuk satu tahun dan kadang-kadang bertahan sampai 50 tahun, tergantung dari kebutuhan data bisnis/operasi.
Source Data Layer
Meta data layer
Operations layer
Data Transformation
Layer
Reporting Layer
Data Warehouse Layer
4
- Reporting Data dalam data warehouse harus selalu tersedia untuk staf organisasi. Banyak perangkat lunak aplikasi yang menampilkan fungsi ini atau pelaporan yang dapat disesuaikan. Contoh perangkat lunak untuk pelaporan :
Business intelligence tools: Software ini adalah aplikasi yang digunakan menyederhanakan pengembangan proses dan produksi dari laporan bisnis berdasarkan data yang ada dalam data warehouse
Executive information systems : Software ini adalah aplikasi yang digunakan untuk menampilkan ukuran bisnis yang rumit dan informasi secara grafik untuk memudahkan pemahaman
OLAP Tools: OLAP tools adalah data multidimensi yang terstruktur. Pengguna diperbolehkan untuk memilih dimensi mana yang ingin dilihat
Data Mining: Data mining tools adalah Software yang memberikan keleluasaan kepada penggunannya untuk menampilkan data secara detail dalam bentuk perhitungan matematik dan statistik dalam data warehouse untuk mendeteksi kecenderungan data yang ada, mengidentifikasi pola dan menganalisa data.
- Metadata Metadata atau data tentang data digunakan tidak hanya untuk memberitahu operator atau pengguna dari data warehouse tentang status data an informasi yang ada di dalamnya, tetapi juga integrasi darimana data datang dan alat untuk mengupdatenya. Contoh dari metadata data warehouse termasuk tabel dan nama kolom, deskripsinya dan koneksinya dengan bisnis.
- Operasi-operasi Operasi data warehouse terdiri dari proses pemanggilan, manipulasi dan extracting data dari data warehouse. Operasi yang dimaksud juga meliputi manajemen pemakai, keamanan, dan manajemen kapasitas.
Data warehouse bersifat multidimensional yang berarti bahwa terdapat banyak lapisan kolom dan baris. Sebagai contoh, perhatikan gambar dibawah berdasarkan sususnan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti berapakah jumlah produk 1 terjual di jawa barat pada tahun n-2 ?
Tahun n 4 Tahun n 3 Tahun n 2 Tahun n 1 Jawa barat Jawa tengah
Produk 3 Produk 2 Produk 1
Gambar 1. 2. Multidimensi data warehouse
5
Mengingat sistem data warehouse memerlukan pemrosesan data dengan volume yang besar, sistem ini biasanya diterapkan dengan menggunakan teknologi pemrosesan SMP dan MPP.
SMP (symetric multiprocessor ) Masing-masing prosesor bekerja sendiiri-sendiri atau tidak aling berkaitan. MPP (Massively Pararell processor) Mengandung ratusan bahkan ribuan prosesor yang saling berinteraksi dengan pendekatan jaringan syaraf tiruan. Data warehouse dapat dibangun sendiri dengan menggunakan perangkat pengembangan aplikasi ataupun dengan menggunakan perangkat lunak khusus yang ditujukan untuk menangani hal ini.
Beberapa contoh perangkat lunak yang digunakan untuk administrasi dan manajemen data warehouse :
- HP Intellegent warehouse (Hewlwt Packard) - Flowmark (IBM) - Source Point (Software AG)
Petunjuk untuk membangun data warehouse dijelaskan oleh Loudon & Loudon (1998 ) sebagai berikut :
1. menentukan misi dan sasaran bisnis bagi pembentukan data warehouse, 2. mengidentifikasi data dari basis data operasional dan sumber lain yang diperlukan bagi
data warehouse 3. menentukan item-item data dalam perusahaan dengan melakukan standarisasi
penamaan data dan maknanya, 4. merancang basis data untuk data warehouse, 5. membangun kebijakan dalam mengarsipkan data lama sehingga ruang penyimpanan tak
menjadi terlalu besar dan agar pengambilan keputusan tidak menjadi terlalu lamban, 6. menarik data produksi (operasional) dan meletakan ke basis data milik data warehouse.
Data Mart adalah bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membedakan data mart dengan data warehouse adalah sbb :
- data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang terkait dalam sebuah departemen atau fungsi bisnis,
- data mart biasanya tidak mengandung data operasional yang rinci seperti data warehouse - data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse.
Data mart lebih mudah dipahami dan dinavigasi. Beberapa contoh produk data mart :
- Smart Mart (IBM) - Visual Warehouse (IBM) - Power Mart (Informatica)
Penarikan data operasional ke data warehouse dilakukan secara berkala, misalnya satu kali dalam sehari.
6
1.5. Arsitektur untuk Data Warehouse
Meskipun potensi keuntungan yang didapat dari data warehouse sangat besar, banyak proyek data warehouse yang gagal karena perencanaan yang tidak matang. Proyek data warehouse memerlukan usaha yang besar dari semua bagian organisasi yang terlibat. Untuk kebanyakan perusahaan, arsitektur two tier dan three tier sangat cocok untuk diterapkan. Arsitektur two tier Dalam arsitektur ini, data operasional ditranformsikan dan ditransfer ke data warehouse. Sebuah layer server yang terpisah digunakan untuk mendukung kemungkinan munculnya aktivitas yang komplek dari proses transformasi. Model ini dapat mempunyai masalah dalam unjuk kerja jika data yang dikelola sangat besar dan data intensiv digunakan untuk mendukung keputusan. Untuk mengatasi kelemahan model two tier, dibuatlah arsitektur tri tier.
Gambar 1. 3. Arsitektur Data Warehouse Two Tier
Sumber Data Internal
- perangkat EIS - perangkat
pelaporan - perangkat
pengembangan aplikasi
OLAP
Data Mining
Sumber data Operasional 1
Sumber data Operasional 2
Sumber data Eksternal
Data warehouse
Data warehouse
7
Gambar 1. 4.Arsitektur Data Warehouse Three Tier
Sumber Data Internal
- perangkat EIS - perangkat
pelaporan - perangkat
pengembangan aplikasi
OLAP
Data Mining
Sumber data Operasional 1
Sumber data Operasional 2
Sumber data Eksternal
Server
Data warehouse
Data warehouse
Data
Mart Tier
Data warehouse
Data
Mart Tier
Data warehouse
8
Gambar 1. 5. Arsitektur Bottom Up
1.6. On line Analytical Processing (OLAP)
On line Analytical Processing (OLAP) adalah suatu jenis pemrosesan yang memanipulasi dan menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali dinamakan analisis data multidimensi.
Yang dimaksud dengan data multidimensi adalah data yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran.
Contoh : atribut dimensi adalah Kota dan Triwulan, sedangkan contoh atribut ukuran adalah jumlah uang.
Tabel 1. 2. Data Multidimensi
Kota KUDUS MAGELANG SEMARANG ....
Triwulan
1 6.000.000 8.000.000 16.000.000
2 4.500.000 3.500.000 14.500.000
3 7.600.000 5.600.000 17.600.000
OLAP dapat digunakan untuk melakukan konsolidasi, dril-down dan slicing and dicing.
Sumber Data Internal
- perangkat EIS - perangkat
pelaporan - perangkat
pengembangan aplikasi
OLAP
Sumber data Operasional
1
Sumber data Operasional
2
Sumber data Eksternal
Data mart tier
Data mart
Data mart tier
Data mart
9
Konsolidasi melibatkan pengelompokan data. Sebagai contoh, kantor-kantor cabang dapat dikelompokan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan dsb. Sering istilah Roll-Up digunakan untuk menyatakan konsolidasi.
Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi sehingga memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail.
Slicing and dicing (atau dikenal dengan istilah pivoting) menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Sebagai contoh, dapat diperoleh data pendapatan berdasarkan semua kantor cabang dalam setiap kota. Contoh yang lain, menggambarkan pendapatan berdasarkan produk sirup dan rasa masing-masing sirup.
Tabel di bawah memperlihatkan suatu bentuk tabel yang sering disebut cross tabulation atau cross tab atau tabel pivoting. Yang dimaksud dengan cross tabulation adalah sebuah tabel dengan nilai sebuah atribut(A) membentuk judul baris dan atribut yang lain (B) membentuk judul kolom, dan nilai masing-masing sel yang merupakan persilangan kedua atribut menyatakan nilai perpaduan untuk kedua atribut.
Tabel 1. 3. Cross tabulation pendapatan berdasarkan jenis dan rasa
Rasa strawberi mangga nenas Total
Sirup
Biasa 3.500.000 1.750.000 500.000 5.750.000
Rendah Kalori 2.300.000 1.500.000 250.000 4.050.000
TOTAL 5.800.000 3.250.000 750.000 9.800.000
Tabel diatas dibentuk dari data asli seperti pada tabel 1.4.
Tabel 1. 4. Penjualan Sirup
Sirup Rasa Pendapatan
Biasa Strawberi 3.500.000
Biasa Mangga 1.750.000
Biasa Nenas 500.000
Rendah Kalori Strawberi 2.300.000
Rendah Kalori Mangga 1.500.000
Rendah Kalori Nenas 250.000
Untuk menggambarkan drill-down, data dapat disusun dalam hirarki seperti pada gambar d. Gambar disebelah kiri menunjukan hirarki dengan basis waktu. Sebagai contoh, seorang pemakai dapat melihat data berdasarkan tahun. Jika dikehendaki, maka ia bisa beralih ke hal yang lebih detail lagi, yaitu berdasarkan tri wulan. Begitu juga dari titik pandang tri wulan, hal yang lebih detail
10
bisa diperoleh lagi (yaitu menurut bulan), dan seterusnya. Adapun gambar di sebelah kanan menunjukan hirarki dengan batas waktu lokasi.
Perangkat lunak OLAP adalah :
- Express Server (oracle) - Power Olay (cagnes software) - Meta Cebe (informix/stanford technology grup) - High Gate Project (sybase)
1.7. Membangun Data Warehouse
a. Menentukan Bentuk Data Warehouse
Data warehouse memiliki berbagai macam bentuk yang sering digunakan. Jadi sebelum membangun suatu data warehouse kita harus memutuskan bentuk data warehouse seperti apa yang dibutuhkan oleh aplikasi yang kita rancang.
b. Anatomi Data Warehouse
Penerapan awal dari arsitektur data warehouse dibuat berdasarkan konsep bahwa data warehouse mengambil data dari berbagai sumber dan memindahkannya ke dalam pusat pengumpulan data yang besar. Konsep ini sebenarnya lebih cenderung kepada sebuah lingkungan mainframe yang terpusat.
Tahunan
Tri wulan
Bulan Nama Hari
tanggal
Wilayah
Negara
Provinsi
Kota
Kecamatan
(ii) Hirarki lokasi (i) Hirarki waktu
11
Keunggulan teknologi Client Server memungkinkan data warehouse diterapkan dalam berbagai macam cara untuk menampung kebutuhan pemakai sistem secara lebih proposional. Dalam suatu kasus, misalkan saja pemakai tertentu perlu menggabungkan data dari sebuah sistem pengumpulan data yang statis dengan data dari sistem operasional yang dinamis hanya dengan sebuah query saja. Berikut ini adalah tiga jenis dasar sistem Data Warehouse :
i. Functional Data Warehouse (Data Warehouse Fungsional)
Kata operasional disini merupakan database yang diperoleh dari kegiatan sehari-hari. Data warehouse dibuat lebih dari satu dan dikelompokkan berdasar fungsi-fungsi yang ada di dalam perusahaan seperti fungsi keuangan(financial),marketing,personalia dan lain-lain. Keuntungan dari bentuk data warehouse seperti ini adalah, sistem mudah dibangun dengan biaya relatif murah sedangkan kerugiannya adalah resiko kehilangan konsistensi data dan terbatasnya kemampuan dalam pengumpulan data bagi pengguna.
Gambar 1. 6. Bentuk data warehouse fungsional
ii. Centralized Datawarehouse (Data Warehouse Terpusat)
Bentuk ini terlihat seperti bentuk data warehouse fungsional, namun terlebih dahulu sumber data dikumpulkan dalam satu tempat terpusat, kemudian data disebar ke dalam fungsinya masing-masing, sesuai kebutuhan persuhaan. Data warehouse terpusat ini, biasa digunakan oleh perusahaan yang belum memiliki jaringan eksternal.
12
Keuntungan dari bentuk ini adalah data benar-benar terpadu karena konsistensinya yang tinggi sedang kerugiannya adalah biaya yang mahal serta memerlukan waktu yang cukup lama untuk membangunnya.
Gambar 1. 7. Bentuk data warehouse terpusat
iii. Distributed Data Warehouse (Data Warehouse terdistribusi)
Pada data warehouse terdistribusi ini, digunakan gateway yang berfungsi sebagai jembatan penghubung antara data warehouse dengan workstation yang menggunakan sistem beraneka ragam. Dengan sistem terdistribusi seperti ini memungkinkan perusahaan dapat mengakses sumber data yang berada diluar lokasi perusahaan(eksternal). Keuntungannya adalah data tetap konsisten karena sebelum data digunakan data terlebih dahulu di sesuaikan atau mengalami proses sinkronisasi. Sedangkan kerugiannya adalah lebih kompleks untuk diterapkan karena sistem operasi dikelola secara terpisah juga biaya nya yang paling mahal dibandingkan dengan dua bentuk data warehouse lainnya.
Gambar 1. 8. Distributed Data Warehouse
13
1.8. Metodologi Perancangan Database untuk Data Warehouse
Menurut Kimball (Kimball & Merz, 1998) ada sembilan tahap metodologi dalam perancangan database untuk data warehouse, yaitu : Langkah 1 : Pemilihan proses Data mart yang pertama kali dibangun haruslah data mart yang dapat dikirim tepat
waktu dan dapat menjawab semua pertanyaan bisnis yang penting Pilihan terbaik untuk data mart yang pertama adalah yang berhubungan dengan sales,
misal property sales, property leasing,property advertising. Langkah 2 : Pemilihan sumber Untuk memutuskan secara pasti apa yang diwakili atau direpresentasikan oleh sebuah
tabel fakta. Misal, jika sumber dari sebuah tabel fakta properti sale adalah properti sale individual
maka sumber dari sebuah dimensi pelanggan berisi rincian pelanggan yang membeli properti utama
Langkah 3 : Mengidentifikasi dimensi Set dimensi yang dibangun dengan baik, memberikan kemudahan untuk memahami dan
menggunakan data mart Dimensi ini penting untuk menggambarkan fakta-fakta yang terdapat pada tabel fakta Misal, setiap data pelanggan pada tabel dimensi pembeli dilengkapi dengan
id_pelanggan,no_pelanggan,tipe_pelanggan,tempat_tinggal, dan lain sebagainya. Jika ada dimensi yang muncul pada dua data mart,kedua data mart tersebut harus
berdimensi sama,atau paling tidak salah satunya berupa subset matematis dari yang lainnya.
Jika sebuah dimensi digunakan pada dua data mart atau lebih,dan dimensi ini tidak disinkronisasi,maka keseluruhan data warehouse akan gagal, karena dua data mart tidak bisa digunakan secara bersama-sama
Langkah 4 : Pemilihan fakta Sumber dari sebuah tabel fakta menentukan fakta mana yang bisa digunakan dalam
data mart. Semua fakta harus diekspresikan pada tingkat yang telah ditentukan oleh sumber Langkah 5 : Menyimpan pre-kalkulasi di tabel fakta Hal ini terjadi apabila fakta kehilangan statement Langkah 6 : Melengkapi tabel dimensi Pada tahap ini kita menambahkan keterangan selengkap-lengkapnya pada tabel dimensi Keterangannya harus bersifat intuitif dan mudah dipahami oleh pengguna Langkah 7 : Pemilihan durasi database Misalnya pada suatu perusahaan asuransi, mengharuskan data disimpan selama 10
tahun atau lebih Langkah 8 : Menelusuri perubahan dimensi yang perlahan Ada tiga tipe perubahan dimensi yang perlahan, yaitu :
Tipe 1. Atribut dimensi yang telah berubah tertulis ulang Tipe 2. Atribut dimensi yang telah berubah menimbulkan sebuah dimensi baru Tipe 3. Atribut dimensi yang telah berubah menimbulkan alternatif sehingga nilai atribut
lama dan yang baru dapat diakses secara bersama pada dimensi yang sama.
14
Langkah 9 : Menentukan prioritas dan mode query Pada tahap ini kita menggunakan perancangan fisik. Dengan langkah-langkah tadi, seharusnya kita bisa membangun sebuah data warehouse yang baik.
1.9. Model untuk Data Warehouse
Berikut di bawah ini adalah penjelasan dari model untuk data warehouse
a. Model Dimensional
Model dimensional merupakan rancangan logikal yang bertujuan untuk menampilkan data dalam bentuk standar dan intuitif yang memperbolehkan akses dengan performa yang tinggi. Model dimensional menggunakan konsep model hubungan antar entity (ER) dengan beberapa batasan yang penting. Setiap model dimensi terdiri dari sebuah tabel dengan sebuah komposit primary key, disebut dengan table fakta, dan satu set table yang lebih kecil disebut table dimensi. Setiap table dimensi memiliki sebuah simple primary key yang merespon tepat pada satu komponen primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri dari dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau join bintang. Fitur terpenting dalam model dimensional ini adalah semua natural keys diganti dengan kunci pengganti(surrogate keys). Maksudnya yaitu setiap kali join antar table fakta dengan table dimensi selalu didasari kunci pengganti. Kegunaan dari kunci pengganti adalah memperbolehkan data pada data warehouse untuk memiliki beberapa kebebasan dalam penggunaan data, tidak seperti halnya yang diproduksi oleh sistem OLTP. Sebuah sistem OLTP memerlukan normalisasi untuk mengurangi redudansi, validasi untuk input data, mendukung volume yang besar dari transaksi yang bergerak sangat cepat. Model OLTP sering terlihat seperti jaring laba-laba yang terdiri atas ratusan bahkan ribuan tabel sehingga sulit untuk dimengerti. Sebaliknya, dimension model yang sering digunakan pada data warehouse adalah skema bintang atau snowflake yang mudah dimengerti dan sesuai dengan kebutuhan bisnis, mendukung query sederhana dan menyediakan performa query yang superior dengan meminimalisasi tabel-tabel join. Berikut contoh perbandingan diagram antara model data OLTP dengan dimension table data warehouse :
15
Gambar 1. 9. Model data OLTP
Gambar 1. 10. Dimension Model
16
Schema Bintang
Skema bintang merupakan struktuk logikal yang memiliki tabel fakta yang terdiri atas data faktual ditengahnya, dan dikelilingi oleh tabel-tabel dimensi yang berisi referensi data.
Jenis-jenis Skema Bintang
1. Skema bintang sederhana Dalam skema ini, setiap table harus memiliki primary key yang terdiri dari satu kolom atau lebih. Primary key dari table fakta terdiri dari satu atau lebih foreign key.Foreign key merupakan primary key pada table lain.
17
2. Skema bintang dengan banyak table fakta
Skema bintang juga bisa terdiri dari satu atau lebih table fakta. Dikarenakan karena table fakta tersebut ada banyak, misalnya disamping penjualan terdapat table fakta forecasting dan result. Walaupun terdapat lebih dari satu table fakta, mereka tetap menggunakan table dimensi bersama-sama.
Adapun ketentuan dalam pembacaan skema bintang adalah : Bagian yang ada di bawah judul tabel merupakan kolom-kolom tabel tersebut Primary key dan Foreign key diberi kotak Primary key diarsir sedang Foreign key yang bukan primary tidak Foreign key yang berhubungan ditunjukkan dengan garis yang menghubungkan
tabel.
Kolom yang bukan kunci disebut kolom data pada table fakta dan atribut pada table dimensi
b. Snowflake Schema
Merupakan varian dari skema bintang dimana table-table dimensi tidak terdapat data yang di denormalisasi. Dengan kata lain satu atau lebih table dimensi tidak bergabung secara langsung kepada table fakta tapi pada table dimensi lainnya. Sebagai contoh, sebuah dimensi yang mendeskripsikan produk dapat dipisahkan menjadi tiga table (snowflaked) seperti contoh dibawah ini :
18
Snowflake Schemes
1.10. Star atau Snowflake
Keduanya merupakan model-model dimensional, perbedaannya terletak pada implementasi fisikal. Skema snowflake memberi kemudahan pada perawatan dimensi, dikarenakan strukturnya yang lebih normalisasi. Sedangkan skema bintang lebih efisien serta sederhana dalam membuat query dan mudah diakses secara langsung oleh pengguna. Adapun starflake merupakan gabungan diantara keduanya. Keuntungan menggunakan masing-masing model tersebut dalam data warehouse antara lain : Efisien dalam hal mengakses data Dapat beradaptasi terhadap kebutuhan-kebutuhan user Bersifat fleksibel terhadap perubahan yang terjadi khususnya perubahan yang mengarah
pada perkembangan Memiliki kemampuan dalam memodelkan situasi bisnis secara umum Meskipun skema yang dihasilkan sangat kompleks, tetapi pemrosesan query dapat
diperkirakan, hal ini dikarenakan pada level terendah, setiap table fakta harus di query secara independen.
1.11. Kesimpulan Karakteristik dari data warehouse : berorientasi subjek, terintegrasi, perubahan dilakukan
setiap saat, setiap perubahan dicatat dan tidak pernah ada yang dihapus. Arsitektur untuk membangun data warehouse : two tier, three tier, bottom up. Bentuk data multidimensi : dimensi, ukuran, tingkatan, berurutan sesuai tipe data. Operator multidimensi : slice, dice, drill-down, roll-up, pivot
19
BAB 2 DATA MINING
2.1. Pendahuluan
Secara umum, data mining adalah proses dari analisa data dari persfektif yang berbeda dan rangkumannya sehingga menjadi informasi yang sangat berguna. Informasi yang dihasilkan dapat digunakan untuk meningkatkan keuntungan, memotong biaya atau keduanya.
Data mining: adalah proses dari pencarian untuk mengefisienkan pola yang tidak diketahui secara berkelanjutan. Hubungan dan aturan dalam database yang besar dan dalam data warehouse.
Goal: membantu manusia menganalisa data untuk memahaminya. Perangkat lunak data mining adalah salah satu alat analisa yang digunakan untuk menganalisa data. Dengan perangkat lunak data mining pengguna diperbolehkan untuk menganalisa data dari dimensi yang berbeda atau sudut pandang, kategaori dan ringkasan dari hubungan yang teridentifikasi. Secara teknik, data mining adalah proses unutk mencari keterkaitan atau pola diantara beberapa field dalam relasi basis data yang besar.
2.2. Inovasi yang berkelanjutan
Beberapa perusahan telah menggunakan komputer secara maksimal untuk menyaring data supermarket dari sejumlah data dan laporan penelitian pasar selama beberapa tahun belakangan ini. Inovasi yang berkelanjutan dalam pemrosesan dengan menggunakan komputer, kapasitas penyimpanan dan software secara statistik secara dramatis meningkat dalam akurasi dari analisis untuk menurunkan biaya operasional.
Contoh Sebagai contoh, di grocery Timur tengah data mining yang menggunakan oracle digunakan untuk menganalisa pola pembelian didaerahnya. Hasil, analisa menemukan bahwa ketika para pria membeli popok bayi pada hari rabu dan sabtu, mereka juga selalu membeli bir. Selanjutnya analisa tersebut memperlihatkan juga bahwa pembelian banyak dilakukan pada hari Sabtu. Pada hari rabu, mereka hanya membeli sedikit item. Penjual menyimpulkan bahwa mereka membeli bir untuk persiapan akhir minggu.
Dengan penemuan ini, dapat dilakukan berbagai variasi untuk meningkatkan pendapatan. Misalnya, penjual menempatkan display bir dekat dengan popok, dan yakinkan pembeli bahwa mereka membeli popok dan bir dengan harga yang murah.
2.3. Data, Informasi dan Pengetahuan
Data
Data adalah fakta, angka atau teks yang dapat diproses oleh computer. Pada saat ini, perusahaan mengakumulasikan secara cepat sejumlah pertumbuhan dari data dalam format dan database yang berbeda.
Hal ini termasuk data operasional transaksi seperti penjualan, biaya, inventori, penggajian dan akunting, non operasional data seperti data penjualan industri, ramaland ata, data makro
20
ekonomi, meta data - data tentang data itu sendiri seperti perancangan database atau definisi data dictionary. Informasi Pola, keterkaitan atau hubungan diantara semua data sehingga dapat menghasilkan informasi. Sebagai contoh, analisa terhadap data distribusi transaksi point of sale dapat menghasilkan informasi produk apa yang dapat dijual dan kapan waktunya. Pengetahuan Informasi dapat dikonversikan menjadi pengetahuan tentang pola yang telah terjadi dan trend yang akan datang. Sebagai contoh, ringkasan informasi pada distribusi penjualan supermarket dapat dianalisa dengan mudah untuk melakukan usaha promosi yang disesuaikan dengan tingkah laku pembeli. Dengan demikian pabrik dan retailer dapat memperkirakan item apa yang dapat diterima.
2.4. Apa yang dapat dilakukan dengan data mining ?
Data mining pada saat ini menjadi keperluan utama untuk perusahaan yang memperhatikan betul pada konsumennya, finansial, komunikasi dan organisasi pemasarannya.
Dengan data mining, pihak perusahaan dapat menperkirakan hubungan faktor internal perusahaan seperti harga, posisi produk atau kemampuan staff dengan faktor eksternal seperti indikator ekonomi, kompetisi dan demografi konsumen. Data mining juga dapat memperkirakan akibat dari penjualan, kepuasan pelanggan, dll.
Akhirnya, data mining dapat digunakan melakukan proses "drill down" dari informasi yang singkat menjadi transaksi data secara detail.
Dengan data mining, distributor dapat menggunakan pencatatan point-of-sale pembelian para customer untuk mengirim promosi yang targetnnya berdasarkan kepada sejarah pembelanjaan perseorangan.
Dengan menggunakan demografi data mining, distributor dapat mengembangkan produk dan promosinya untuk segmen konsumen tertentu saja.
Sebagai contoh, Blockbuster Entertainment mencari data secara individual untuk orang yang meminjam berdasarkan film kesukaannya. Dalam promosinya, pihak perusahaan dapat memberikan masukan film yang dapat dipilih untuk setiap orang yang ada. Film yang diusulkan adalah hasil pencarian data mining.
Contoh lain, American Express dapat memberikan tawaran jenis barang tertentu kepada pemegang kartunya berdasarkan kebiasaan belanja yang telah dilakukannya.
WalMart adalah model data mining pertama, model ini digunakan untuk mencari segala sesuatu yang berhubungan dengan supplier.
WalMart mengambil transaksi point of sale dari 2900 toko di enam propinsi yang secara berkelanjutan berhubungan data ware house yang berkapasitas 7,5 terabyte. Lebih dari 3500 supplier yang mengakses WalMart untuk mengetahui dan menanalisa produk mereka. Para supplier menggunakan data ini untuk mengidentifkasi pola belanja para kostumer yang membeli produk mereka pada setiap toko. Mereka menggunakan informasi ini untuk mengelola inventori local dan sekaligus mengidentifikasi jenis produk apa dapat dimunculkan untuk kesempatan yang
21
akan datan. Pada tahun 1995, Wal Mart computer memproses lebih dari 1 juta permintaan data yang komplek
2.5. Bagaimana data mining bekerja ?
Sementara teknologi informasi berskala besar menmggunakan sebagaian transaksi dan analisa sistem, data mining menyediakan hubungan antar keduanya.
Software data mining menganalisa hubungan dan pola yang terbentuk dari transaksi data berdasarkan permintaan pengguna. Beberapa software yang tersedia untuk melakukan analissi data misalnya : statistik, mesin pembelajaran, jaringan syraf tiruan. Umumnya, ada empat tipe hubungan antar data
Classes: Data yang tersimpan digunakan untuk membuat pengelompokan perkiraan awal. Sebagai contoh, sebuah restoran dapat mencari data kostumer yang membeli untuk mendapatkan informasi tentang kapan pembeli itu datang dan barang jenis apa yang dibelinya ? Infromasi ini jika dapat diketahui dapat digunakan untuk meningkatkan penjualan pada hari terentu dengan mengubah teknik penjualan dari biasanya.
Clusters: Item data dikelompokan untuk mendapatkan hubungan yang logis atau kesdukaan konsumen. Seabagi contoh, data ditambang sehingga dapat menunjukan segmen pasar atau affinities konsumen yang ada.
Associations: Data yang ditambang dapat digunakan untuk mengidentifikan hubungannya. Bird dan popok bayai adalah sebuah contoh dari hasil penambangan data yang menggunakan Associations.
Sequential patterns: Data ditambang untuk mengantisipasi pola tingkah laku dan tren. Sebagai contoh : distributor perlengkapan kegiatan diluar ruangan dapat memprediksi kebiasaan pembelian tas ransel dilakukan bersamaan dengan pembelian kantung tidur dan sepatu hiking.
Data mining berisi 5 elemen utama :
Pecahkan, transformasikan dan tempatkan data transaksi ke dalam data warehouse Simpan dan kelola data dalam bentuk system multidimensi Sediakan akses data untuk para analis bisnis dan professional dibidang teknologi
informasi Lakukan analisa data dengan software analisa Tampilkan data dalam bentuk yang mudah dimegerti seperti misalnya Grafik atau table.
Perbedaan tingkat dari teknik analisa yang ada :
Artificial neural networks: Model prediksi nonlinear yang mempelajari sesuatu melalui beberapa pengulangan latihan seperti halnya otak manusia.
Genetic algorithms: Teknik optimasi yang menggunakan proses seperti kombinasi genetik, mutasi dan seleksi alam dalam merancang konsepnya seperti evolusi alami.
Decision trees: Struktur pohon digunakan untuk menampilkan sekumpulan keputusan yang harus diambil. Satu keputusan diambil akan membangkitkan aturan untuk mengklasifikasikan sekumpulan himpunan data.
Contoh metoda pengambilan keputusan dengan menggunakan pohon keputusan yang spesifik adalah Classification and Regression Trees (CART) dan Chi Square Automatic
22
Interaction Detection (CHAID) . CART dan CHAID adalah teknik pohon keputusan yang digunakan untuk mengklasifikasikan sekumpulan data.
Teknik tersebut menghasilkan aturan yang dapat digunakan untuk sekumpulan data baru untuk memprediksi rekord mana yang memenuhi syarat.
Segmen CART adalah sekumpulan data yang dibuat melalui pemecahan 2-way selama segmen CHAID menggunakan chi square tests untuk membuat pemecahan multi-way splits. Secara tipikal CART memerlukan sedikit persiapan data jika dibandingkan dengan CHAID.
Nearest neighbor method : Sebuah teknik yang mengklasifikasikan sekumpulan data berdasarkan kombinasi dari beberapa class dari k record yang mirip ke dalam sekumpulan data sebelumnya. Kadang-kadang teknik ini dinamakan k-nearest neighbor.
Rule induction : Mengektraksi penggunaan aturan if-then dari data berdasarkan signifikansi secara statistik.
Data visualization : Interprestasi visualisasi dari sbuah hbungan yang rumit dalam bentuk data multidimensi. Gambar secara Grafis digunakan untuk mengilustrasikan hubungan data yang ada.
2.6. Teknologi infrastruktur seperti apa yang diperlukan ?
Saat ini, aplikasi data mining sudah tersedia untuk berbagai ukuran sistem dan flatform, baik untuk mainframe, client / server dan PC. Harga aplikasi tersebut berkisar dari ribuan dollar sampai dengan jutaan dolar. Aplikasi yang cukup luas biasanya berukuran sekitar 10 gigabiytes sampai dengan lebih dari 11 terabytes.
Ada dua teknologi yang penting untuk mendukung data mining :
Size of the database : semakin banyak data yang diproses dan dipelihara, maka akan menjadi suatu sistem yang sangat diperlukan.
Query complexity : semakin komplek queri dan semakin besar jumlah queri yang diproses, maka akan menjadi suatu sistem yang sangat diperlukan
Teknologi manajemen dan penyimpanan database secara relasional adalah teknologi yang cukup memadai untuk beberapa aplikasi data mining yang mengelola data kurang dari 50 gigabytes. Namun demikian infrastruktur menjadi kebutahan yang sangat signifikan untuk mendukung aplikasi data mining, bahkan beberapa vendor mensyaratkan Massively Parallel Processors (MPP) untuk dapat menjalankan aplikasi data mining yang dibuatnya.
2.7. Aplikasi Data Mining
Structured Data Mining
Database mining Relational data mining Database Document warehouse Data warehouse
Graph mining Molecule mining
23
Sequence mining Data stream mining
Tree mining Decision tree learning
Web mining Concept mining
Unstructured Data Mining
Text mining Image mining
2.8. Kesimpulan
Database mining adalah proses pencarian untuk mengefisienkan pola yang tidak diketahui secara berkelanjutan,
Tujuan data mining adalah untuk membantu manusia menganalisa data agar dapat dengan mudah dipahami karakternya,
Data adalah fakta, angka atau teks yang dapat diproses oleh computer, Pola, keterkaitan atau hubungan diantara semua data,
24
BAB 3. Text Mining
3.1. Pendahuluan
Text Mining (penambangan teks) merupakan salah satu cara yang biasa digunakan pada Data Mining (penambangan data). Text Mining adalah salah satu teknik penambangan untuk jenis data yang berupa teks, dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Pada text mining terdapat tahapan-tahapan yang dilakukan untuk memisahkan kata-kata menjadi kata dasar dari sebuah kalimat yang disebut dengan tahapan pre-processing (Mitchell, 1997). Tahapan-tahapan pre-processing tersebut adalah sebagai berikut:
3.1.1. Case Folding
Case Folding adalah tahapan untuk mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z saja yang dapat diterima. Contoh proses case folding seperti pada gambar 1.1. Semua huruf besar pada bagian sebelum case folding dirubah menjadi huruf kecil. Hasilnya seperti pada bagian hasil case folding.
Gambar 1. 11. Contoh Proses Case Folding
3.1.2. Tokenizing Tokenizing adalah tahapan dimana adanya pemotongan string masukan berdasarkan kata yang menyusunnya. Contoh proses tokenizing seperti pada gambar 1.2. Semua kata pada bagian sebelum tokenizing dipotong-potong sesuai panjang huruf dalam setiap kata yang ditandai dengan spasi. Hasilnya adalah seperti pada bagian Hasil tokenizing.
Gambar 1. 12. Contoh Proses Tokenizing
3.1.3. Filtering Filtering adalah tahapan mengambil kata-kata yang penting dari hasil token sebelumnya. Di dalam tahapan ini dapat digunakan algoritma pembuangan kata yang kurang penting (stoplist) atau menyimpan kata penting (wordlist). Contoh proses filering seperti pada gambar
Sebelum Case Folding
Program Studi Ilmu Komputer /Informatika Universitas JenderalAchmad Yani
Hasil Case Folding
program studi ilmu komputer /informatika universitas jenderal achmadyani
Sebelum Tokenizing
Program Studi Ilmu Komputer / InformatikaUniversitas Jenderal Achmad Yani
Hasil Tokenizing
program studi ilmukomputer informatika universitasjenderal achmad yani
25
1.3. Semua kata yang tidak penting pada bagian sebelum filtering dibuang (kata dan). Hasilnya adalah seperti pada bagian Hasil filtering. Kata yang tidak penting (stoplist) disimpan dalam satu tempat khusus untuk digunakan pada saat proses perbandingan kata dalam dokumen uji dilakukan. Apabila dalam dokumen uji terdapat kata yang sama dengan kata yang tersimpan dalam stoplist, maka kata tersebut diabuang. Kata yang tidak ada dalam stoplist dijadikan kata hasil filtering.
Gambar 1. 13. Contoh Proses Filtering
3.1.4. Analyzing Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata pada dokumen yang ada. Tabel pertama menampilkan jumlah kemunculan kata dalam dokumen. Contoh table 1.1. Dalam dokumen 1 terdapat 1 kata program, 1 kata studi, 1 kata ilmu, 2 kata computer, 3 kata informatika
Tabel 1. 5. Frequensi Kemunculan Kata pada Dokumen
Kata Dokumen tf Kata Dokumen tf Program 1 1 Komputer 1 2 Studi 1 1 Informatika 1 3 Ilmu 1 1
Tabel kedua menampilkan jumlah dokumen yang mengandung kata kunci. Contoh table 1.2., kata tumpang muncul dalam 1 dokumen, kata tindih muncul dalam 2 dokumen, kata tugas muncul dalam 1 dokumen, kata jalan muncul dalam 4 dokumen, kata penyatuan muncul dalam 1 dokumen, dan kata sistem muncul dalam 3 dokumen.
Tabel 1. 6. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama
Kata df Kata df Tumpang 1 Jalan 4 Tindih 2 Penyatuan 1 Tugas 1 Sistem 3
Pada implementasinya, tahapan di atas tidak selalu digunakan seluruhnya, bergantung kepada kebutuhan dari output yang ingin dihasilkan.
Sebelum Filtering
program studi ilmukomputer dan informatika
Hasil Filtering
program studi ilmukomputer informatika
26
3.2. (TF-IDF) Term Frequency-Inverse Frequency Document
Metode TF-IDF merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen (Robertson, 2004). Hasil dengan menggunakan metode TF-IDF adalah nilai similaritas terhadap suatu dokumen dengan kata yang dimasukan. Metode ini menggambungkan dua konsep perhitungan bobot, yaitu perhitungan untuk mencari frekuensi sebuah kata di dalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut.
= ( , )... Persamaan 2.1. Dimana : t = Kata d = dokumen Berikut adalah rumus untuk mencari nilai IDF (Defeng & Intan, 2006) :
= ( / ) .. Persamaan 2.2 Dimana : t = Kata ke-t dari kata kunci df = Jumlah dokumen yang mengandung kata ke-t dari kata kunci D = Jumlah semua dokumen yang ada di dalam database IDF = Rasio frekuensi dokumen pada kata ke-t dari kata kunci Untuk mengetahui nilai dari df, dapat dicari dari banyak-nya dokumen yang mengandung kata kunci yang dimasukan. Setiap kata akan dicari keberadaanya pada dokumen, kemudian akan dihitung jumlah dokumen yang mengandung kata tersebut sebagai nilai dari df. Sedangkan rumus untuk mencari bobot pada TF-IDF adalah sebagai berikut :
, = , ... Persamaan 2.3 Dimana: d = Dokumen ke-d t = Kata ke-t dari kata kunci tf = Frekuensi banyak-nya kata ke-t dari kata kunci pada dokumen ke-d W = Bobot dokumen ke-d terhadap kata kunci ke-t IDF = Rasio frekuensi dokumen pada kata ke-t dari kata kunci Untuk mengetahui nilai dari tf, dapat dicari dari jumlah kata pada dokumen yang mengandung kata kunci dari masukan. Dokumen yang mengandung kata kunci akan diambil kemudian akan melalui pre-processing yang akan menghasilkan kata dasar dan setiap kemunculannya akan dihitung sebagai nilai tf. Setelah hasil pembobotan dokumen selesai dan dokumen sudah diketahui bobot masing-masingnya, maka dilakukan proses pengurutan untuk mengetahui similaritasnya dengan acuan semakin besar nilai W maka semakin besar similaritas dokumen tersebut.
Studi Kasus 1 (Nugraha, 2012)
Permasalahan dalam studi kasus ini adalah mencari suatu kalimat yang berisi beberapa kata kunci tentang audit keuangan. Pencarian dilakukan untuk mendapatkan dokumen yang mana yang paling mendekati dengan kata kunci yang di cari. Contoh penyelesaiannya adalah seperti di bawah ini. Misalnya terdapat beberapa dokumen seperti di bawah ini :
27
Kategori : Pemisahan Fungsi Departemen PDE dan non PDE D1 : Terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi. D2 : Terdapat prosedur yang dari departemen pemakai yang tidak menjamin independensi. D3 : Terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak
jalan. Kategori : Fungsi dalam Departemen PDE D4 : Terjadi penyatuan fungsi sistem dan pemrograman D5 : Analisis sistem dan pemrogram memiliki kebebasan dalam mengakses piranti keras D6 : Struktur organisasi tidak berjalan dengan semestinya dan terjadi penyimpangan fungsi D7 : kontrol group bercampur dalam kelompok sistem dan operasi.
Preprosesing
Case Folding
Pada proses case folding, setiap kata yang terdapat huruf kapital di dalam-nya akan dirubah menjadi huruf kecil.
Gambar 2. 1. Case Folding D1
Gambar 2. 2. Case Folding D2
Gambar 2. 3. Case Folding D3
Gambar 2. 4. Case Folding D4
Sebelum Case Folding
Terdapat tumpang tindih tugas setelahdilakukan penelaahan pada baganorganisasi.
Hasil Case Folding
terdapat tumpang tindih tugas setelahdilakukan penelaahan pada baganorganisasi
Sebelum Case Folding
Terdapat prosedur yang dari departemenpemakai yang tidak menjaminindependensi.
Hasil Case Folding
terdapat prosedur yang dari departemenpemakai yang tidak menjaminindependensi
Sebelum Case Folding
Terdapat penyimpangan fungsi padapemrograman dan struktur organisasi yangtidak jalan
Hasil Case Folding
terdapat penyimpangan fungsi padapemrograman dan struktur organisasi yangtidak jalan
Sebelum Case Folding
Terjadi penyatuan fungsi sistem danpemrograman.
Hasil Case Folding
terjadi penyatuan fungsi sistem danpemrograman
28
Gambar 2. 5. Case Folding D5
Gambar 2. 6. Case Folding D6
Gambar 2. 7. Case Folding D7
Tokenizing
Pada tahapan tokenizing, dokumen yang di dalam-nya terdapat kalimat dan sudah dibuat huruf kecil pada proses case folding akan dipotong menjadi kata-kata yang menyusun-nya.
Gambar 2. 8. Tokenizing D1
Gambar 2. 9. Tokenizing D2
Gambar 2. 10. Tokenizing D3
Sebelum Case Folding
Analisis sistem dan pemrogram memilikikebebasan dalam mengakses piranti keras.
Hasil Case Folding
analisis sistem dan pemrogram memilikikebebasan dalam mengakses piranti keras
Sebelum Case Folding
Struktur organisasi tidak berjalan dengansemestinya dan terjadi penyimpanganfungsi.
Hasil Case Folding
struktur organisasi tidak berjalan dengansemestinya dan terjadi penyimpanganfungsi
Sebelum Case Folding
kontrol group bercampur dalam kelompoksistem dan operasi
Hasil Case Folding
kontrol group bercampur dalam kelompoksistem dan operasi.
Sebelum Tokenizing
terdapat tumpang tindih tugas setelah dilakukanpenelaahan pada bagan organisasi
Hasil Tokenizing
terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi
Sebelum Tokenizing
terdapat prosedur yang dari departemen pemakai yangtidak menjamin independensi
Hasil Tokenizing
terdapat prosedur yang dari departemen pemakai yang tidak menjamin independensi
Sebelum Tokenizing
terdapat penyimpangan fungsi pada pemrograman danstruktur organisasi yang tidak jalan
Hasil Tokenizing
terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak jalan
29
Gambar 2. 11. Tokenizing D4
Gambar 2. 12. Tokenizing D5
Gambar 2. 13. Tokenizing D6
Gambar 2. 14. Tokenizing D7
Filtering
Tahapan filtering merupakan tahapan untuk menghilangkan kata-kata yang tidak penting dari dokumen.
Gambar 2. 15. Filtering D1
Gambar 2. 16. Filtering D2
Sebelum Tokenizing
terjadi penyatuan fungsi sistem danpemrograman
Hasil Tokenizing
terjadi penyatuan fungsisistem dan pemrograman
Sebelum Tokenizing
analisis sistem dan pemrogram memiliki kebebasandalam mengakses piranti keras
Hasil Tokenizing
analisis sistem dan pemrogram memiliki kebebasan dalam mengakses piranti keras
Sebelum Tokenizing
struktur organisasi tidak berjalan dengan semestinya dan terjadipenyimpangan fungsi
Hasil Tokenizing
struktur organisasi tidak berjalan dengan semestinya dan terjadi penyimpangan fungsi
Sebelum Tokenizing
kontrol group bercampur dalam kelompoksistem dan operasi.
Hasil Tokenizing
kontrol group bercampurdalam kelompok sistemdan operasi.
Sebelum Filtering
terdapat tumpang tindih tugas setelah dilakukan penelaahan pada bagan organisasi
Hasil Filtering
tumpang tindih tugas bagan organisasi
Sebelum Filtering
terdapat prosedur yang daridepartemen pemakai yang tidakmenjamin independensi
Hasil Filtering
prosedur departemen pemakaitidak independensi
30
Gambar 2. 17. Filtering D3
Gambar 2. 18. Filtering D4
Gambar 2. 19. Filtering D5
Gambar 2. 20. Filtering D6
Gambar 2. 21. Filtering D7
Analyzing
Tahapan analyzing adalah tahapan untuk mencari dan menghitung keterkaitan antara kata dengan dokumen yang mengandung kata tersebut. Perhitungan dilakukan dengan
Sebelum Filtering
terdapat penyimpangan fungsi pada pemrograman dan struktur organisasi yang tidak jalan
Hasil Filtering
penyimpangan fungsi pemrograman struktur organisasi tidak jalan
Sebelum Filtering
terjadi penyatuan fungsi sistemdan pemrograman
Hasil Filtering
penyatuan fungsi sistem pemrograman
Sebelum Filtering
analisis sistem danpemrogram memiliki kebebasandalam mengakses pirantikeras
Hasil Filtering
analisis sistem danpemrogram memiliki kebebasandalam mengakses pirantikeras
Sebelum Filtering
struktur organisasi tidakberjalan dengan semestinyadan terjadi penyimpanganfungsi
Hasil Filtering
struktur organisasi tidakberjalan dengan semestinyadan terjadi penyimpanganfungsi
Sebelum Filtering
kontrol group bercampurdalam kelompok sistemdan operasi.
Hasil Filtering
kontrol group bercampurdalam kelompok sistemdan operasi.
31
menggunakan persamaan 1 dan persamaan 2 di atas. Hasil perhitungannya adalah seperti pada table 2.1, 2.2, 2.3.
Tabel 2. 1. Frequensi Kemunculan Kata pada Dokumen
Kata Dokumen tf Kata Dokumen tf Tumpang 1 1 Analisis 5 1 Tindih 1 1 Sistem 5 1 Tugas 1 1 Pemrogram 5 1 Bagan 1 1 Mengakses 5 1 Organisasi 1 1 Piranti keras 5 1 Prosedur 2 1 Kebebasan 5 1 Departemen 2 1 Struktur 6 1 Pemakai 2 1 Organisasi 6 1 Tidak 2 1 Tidak 6 1 Independensi 2 1 Berjalan 2 1 Penyimpangan 3 1 Penyimpangan 6 1 Fungsi 3 1 Fungsi 6 1 Pemrograman 3 1 kontrol 7 1 Struktur 3 1 Group 7 1 Organisasi 3 1 Kelompok 7 1 Tidak 3 1 Sistem 7 1 Jalan 3 1 Operasi 7 1 Penyatuan 4 1 Bercampur 7 1 Fungsi 4 1 Analisis 5 1 Sistem 4 1 Pemrograman 4 1
Tabel 2. 2. Frequensi Jumlah Dokumen yang Mengandung Kata yang Sama
Kata df Kata df Tumpang 1 Jalan 1 Tindih 1 Penyatuan 1 Tugas 1 Sistem 3 Bagan 1 Analisis 1 Organisasi 3 Pemrogram 1 Prosedur 1 Mengakses 1 Departemen 1 piranti keras 1 Pemakai 1 Berjalan 1 Tidak 3 Control 1 Independensi 1 Group 1 Penyimpangan 2 Kelompok 1 Fungsi 3 Operasi 1 Pemrograman 2 Kebebasan 1 Struktur 2 Bercampur 1
Tabel 2. 3. Perhitungan TF-IDF
Kata k tf d D/df
IDF W D D D D D D D kk D1 D2 D3 D4 D5 D6 D7
tumpang 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 tindih 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 tugas 1 1 0 0 0 0 0 0 1 7 0.845 0.845 0.845 0 0 0 0 0 0 bagan 0 1 0 0 0 0 0 0 1 7 0.845 0 0.845 0 0 0 0 0 0
32
Kata k tf d D/df
IDF W D D D D D D D kk D1 D2 D3 D4 D5 D6 D7
organisasi 0 1 0 1 0 0 1 0 3 2.3 0.36 0 0.36 0 0.36 0 0 0.36 0 prosedur 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0
departemen 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0 pemakai 0 0 1 0 0 0 0 0 1 1 0.845 0 0 0.845 0 0 0 0 0 tidak 0 0 1 1 0 0 1 0 3 2.3 0.36 0 0 0.36 0.36 0 0 0.36 0 independensi 0 0 1 0 0 0 0 0 1 7 0.845 0 0 0.845 0 0 0 0 0 penyimpanga
n 0 0 0 1 0 0 1 0 2 3.5 0.54 0 0 0 0.54 0 0 0.54 0
fungsi 0 0 0 1 1 0 1 0 3 2.3 0.36 0 0 0 0.36 0.36 0 0.36 0 pemrograma
n 0 0 0 1 1 0 0 0 2 3.5 0.54 0 0 0 0.54 0.54 0 0 0
struktur 0 0 0 1 0 0 1 0 2 3.5 0.54 0 0 0 0.54 0 0 0.54 0 jalan 0 0 0 1 0 0 0 0 1 7 0.845 0 0 0 0.845 0 0 0 0 penyatuan 0 0 0 0 1 0 0 0 1 7 0.845 0 0 0 0 0.845 0 0 0 sistem 0 0 0 0 1 1 0 1 3 2.3 0.36 0 0 0 0 0.36 0.36 0 0.36 analisis 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 pemrogram 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 mengakses 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 Piranti keras 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 berjalan 0 0 0 0 0 0 1 0 1 7 0.845 0 0 0 0 0 0 0.845 0 kontrol 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 group 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 kelompok 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 operasi 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845 kebebasan 0 0 0 0 0 1 0 0 1 7 0.845 0 0 0 0 0 0.845 0 0 bercampur 0 0 0 0 0 0 0 1 1 7 0.845 0 0 0 0 0 0 0 0.845
Input kata yang dicari : Terdapat tumpang tindih tugas Kata tersebut akan diproses terlebih dahulu menggunakan pre-prosesing, pada pre-processing ini tahapan-nya dilakukan sampai pada filtering saja. Hasil filtering ini akan menjadi kunci untuk perhitungan dalam TF-IDF. Hasil dari tahapan ini adalah sebagai berikut : - Tumpang - Tindih - Tugas Maka berdasarkan perhitungan yang terdapat pada tabel 1.3, bobot untuk masing-masing dokumen terhadap kata tumpang, tindih, tugas adalah sebagai berikut: W untuk D1 = 0.845+0.845+0.845 = 1.845 W untuk D2 = 0+0+0 = 0 W untuk D3 = 0+0+0 = 0 W untuk D4 = 0+0+0 = 0 W untuk D5 = 0+0+0 = 0 W untuk D6 = 0+0+0 = 0 W untuk D7 = 0+0+0 = 0 Hasil dari perhitungan bobot tersebut diketahui bahwa dokumen ke satu memiliki similaritas yang paling tinggi diantara dokumen lainnya. Jika kata kunci yang dicari adalah departemen, pemakai, prosedur, maka berdasarkan perhitungan yang terdapat pada tabel 1.3, bobot untuk masing-masing dokumen terhadap kata departemen, pemakai, prosedur adalah sebagai berikut:
33
W untuk D1 = 0+0+0 = 0 W untuk D2 = 0.845+0.845+0.845 = 1.845 W untuk D3 = 0+0+0 = 0 W untuk D4 = 0+0+0 = 0 W untuk D5 = 0+0+0 = 0 W untuk D6 = 0+0+0 = 0 W untuk D7 = 0+0+0 = 0 Hasil dari perhitungan bobot tersebut diketahui bahwa dokumen ke dua memiliki similaritas yang paling tinggi diantara dokumen lainnya. Demikian pula untuk kata selanjutnya.
Studi Kasus 2 (Utama, 2012)
Kasus lain implementasi TF-Idf adalah memberikan rating satu Judul Film layar lebar. Rating tersebut dilakukan dengan membandingkan isi ulasan yang pernah ada dengan ulasan baru. Ulasan yang ada telah memiliki ratingnya masing-masing. Rating untuk Judul Film baru diambil dari Hasil perhitungan TF-Idf yang terdekat antara Ulasan Film lama dengan Ulasan Film baru. Contohnya misalnya ulasan yang sdh tersimpan adalah seperti di bawah ini.
Dokumen 1 Judul : Reel Steel Nilai : Bintang 4 Isi : Plot cerita membantu karena jalinan kisahnya cukup mudah diikuti dan jelas. Film
ini pun dilengkapi dengan efek - efek animasi yang memukau.
Dokumen 2 Judul : The Adventure of Tintin Nilai : Bintang 3 Isi : Tintin bukanlah film yang dengan cerita yang begini -begitu . Tetapi harus diakui
secara efek filmografi,dan juga animasi adalah yang terbaik, mereka yang bergelut menghasilkan produk tontonan yang berkualitas.
Dokumen 3 Judul : 30 Minutes or Less Nilai : Bintang 2 Isi : 30 Minutes ternyata hadir jauh dari perkiraan. Film ini sama sekali menawarkan
cerita dengan alur yang membosankan. Setelah melalui tahapan pre processing, didapat kata atau token, seperti pada Tabel 2.4.
Tabel 2. 4. Frekuensi kemunculan kata dalam dokumen
Token TF DF D1 D2 D3
plot 1 0 0 1 cerita 1 1 1 3 bantu 1 0 0 1 jalinan 1 0 0 1 kisahnya 1 0 0 1 cukup 1 0 0 1 mudah 1 0 0 1 diikuti 1 0 0 1 jelas 1 0 0 1
34
efek 2 1 0 2 animasi 1 1 0 2 memukau 1 0 0 1 tintin 0 1 0 1 bukanlah 0 1 0 1 begini 0 1 0 1 begitu 0 1 0 1 tetapi 0 1 0 1 diakui 0 1 0 1 filmografi 0 1 0 1 terbaik 0 1 0 1 bergelut 0 1 0 1 menghasilkan 0 1 0 1 produk 0 1 0 1 tontonan 0 1 0 1 berkualitas 0 1 0 1 30 minutes 0 0 1 1 hadir 0 0 1 1 jauh 0 0 1 1 perkiraan 0 0 1 1 film 1 1 1 3 sama 0 0 1 1 sekali 0 0 1 1 menawarkan 0 0 1 1 alur 0 0 1 1 membosankan 0 0 1 1
Contoh Dokumen yang akan diberi nilai Judul : Toy Story 3 Nilai : belum ditetapkan Isi : Toy Story 3 merupakan film dengan alur yang jelas pada setiap plot cerita
yang dilengkapi dengan efek animasi yang memukau di tahun 2010. Hasil pre - processing untuk dokumen kata kunci dapat dilihat pada Tabel 2.5 di halaman selanjutnya.
Tabel 2. 5. Hasil pre - processing dokumen kata kunci
Token toy story merupakan film alur jelas setiap plot cerita dilengkapi
35
efek animasi memukau tahun
Hasil perhitungan TF-Idf seperti pada tablec2.6.
Tabel 2. 6. Hasil perhitungan TF -IDF
Token TF DF D/DF IDF W
kk D1 D2 D3 D1 D2 D3 plot 1 1 0 0 1 3 0.477 0.477 0 0 cerita 1 1 1 1 3 1 0 0 0 0 bantu 0 1 0 0 1 3 0.477 0.477 0 0 jalinan 0 1 0 0 1 3 0.477 0.477 0 0 kisahnya 0 1 0 0 1 3 0.477 0.477 0 0 cukup 0 1 0 0 1 3 0.477 0.477 0 0 mudah 0 1 0 0 1 3 0.477 0.477 0 0 diikuti 0 1 0 0 1 3 0.477 0.477 0 0 jelas 1 1 0 0 1 3 0.477 0.477 0 0 efek 1 2 1 0 2 1,5 0.176 0.352 0.176 0 animasi 1 1 1 0 2 1,5 0.176 0.176 0.176 0 memukau 1 1 0 0 1 3 0.477 0.477 0 0 tintin 0 0 1 0 1 3 0.477 0 0.477 0 bukanlah 0 0 1 0 1 3 0.477 0 0.477 0 begini 0 0 1 0 1 3 0.477 0 0.477 0 begitu 0 0 1 0 1 3 0.477 0 0.477 0 tetapi 0 0 1 0 1 3 0.477 0 0.477 0 diakui 0 0 1 0 1 3 0.477 0 0.477 0 filmografi 0 0 1 0 1 3 0.477 0 0.477 0 terbaik 0 0 1 0 1 3 0.477 0 0.477 0 bergelut 0 0 1 0 1 3 0.477 0 0.477 0 menghasilkan 0 0 1 0 1 3 0.477 0 0.477 0 produk 0 0 1 0 1 3 0.477 0 0.477 0 tontonan 0 0 1 0 1 3 0.477 0 0.477 0 berkualitas 0 0 1 0 1 3 0.477 0 0.477 0 30minutes 0 0 0 1 1 3 0.477 0 0 0.477 hadir 0 0 0 1 1 3 0.477 0 0 0.477 jauh 0 0 0 1 1 3 0.477 0 0 0.477 perkiraan 0 0 0 1 1 3 0.477 0 0 0.477 film 1 1 1 1 3 1 0 0 0 0 sama 0 0 0 1 1 3 0.477 0 0 0.477 sekali 0 0 0 1 1 3 0.477 0 0 0.477 menawarkan 0 0 0 1 1 3 0.477 0 0 0.477 alur 1 0 0 1 1 3 0.477 0 0 0.477 membosankan 0 0 0 1 1 3 0.477 0 0 0.477
Maka pembobotan masing - masing dokumen setelah diakumulasikan adalah :
36
D1 : 0,477+0,477+0,352+0,176+0,477 = 1,959 D2 : 0,176 + 0,176 = 0,352 D3 : 0,477
Pada contoh kasus di atas dapat diketahui dokumen uji (film Toy Story 3) mempunyai relevansi / tingkat kemiripan dengan dokumen 1 (film Reel Steel) yang mempunyai penilaian yang sama dalam plot cerita serta animasi. Dapat terlihat pada hasil akumulasi yaitu D1 mempunyai nilai 1,959. Dari hasil perhitungan dapat diambil kesimpulan bahwa dokumen uji (film Toy Story 3) mempunyai rating bintang 4 dengan mereferensikan dokumen ke-1 (D1) sebagai acuan referensi penilaian.
37
3.3. CF-IDF (Concept Frequency-Inverse Document Frequency)
Untuk menentukan nilai kecocokan antara dokumen pengetahuan dan keyword diperlukan pembobotan. Pembobotan atau disebut juga weighting merupakan pemberian bobot terhadap kata/frase yang telah dihasilkan dari tahap sebelumnya. Model pembobotan tersebut dapat dengan pembobotan global, lokal atau pun kombinasi dari keduanya. Salah satu pembobotan kombinasi tersebut adalah CF-IDF (Concept Frequency-Inverse Document Frequency). Metode ini merupakan pengembangan dari metode TF-IDF (Term Frequency-Inverse Document Frequency) yang lebih dahulu populer. Pada metode ini tidak dilakukan perhitungan terhadap term (seperti pada TF-IDF) namun dengan menghitung key concept yang ditemukan dalam teks. Pada CF-IDF, dilakukan pendekatan representasi isi dokumen dengan menggunakan jaringan semantik yang disebut dokumen inti semantik. Dokumen tersebut kemudian dipetakan dalam jaringan semantik yang disebut Wordnet dan dikonversikan dari sekumpulan terms menjadi sekumpulan konsep (concept). Pendekatan ini membuat konsep dari CF-IDF terlihat lebih cerdas dibandingkan TF-IDF. Concept yang dimaksud dalam metode ini adalah kata atau pun istilah majemuk yang kombinasi katanya dapat memiliki banyak arti dan menimbulkan ambiguitas dalam pembacaannya. Dalam mendeteksi concept dari dokumen dapat dilakukan dengan dua cara yaitu dengan memproyeksikan ontologi ke dalam dokumen dengan mengekstrak semua kata dan frase (istilah majemuk) dari ontologi kemudian mengidentifikasikan kemunculanya dalam dokumen. Cara yang kedua adalah dengan memproyeksikan dokumen ke dalam ontology, untuk setiap calon frase yang terbentuk (yang dideteksi dari kedekatan kata atau adjacent). Belum banyak penelitian yang menggunakan CF-IDF sebagai solusi. Sebagian besar penelitian mengenai CF-IDF baru sebatas perbandingan dengan metode lama, TF-IDF. Frank Goossen, Wouter IJntema, Flavius Frasincar, Frederik Hogenboom, Uzay Kaymak dalam penelitiannya yang berjudul News Personalization using the CF-IDF Semantic Recommender (Kaymak, 2011) menggunakan algoritma CF-IDF dalam aplikasi news-recommender Hermes. Selain itu algoritma tersebut kemudian dibandingkan dengan algoritma TF-IDF dalam beberapa kasus yang sama. Hasilnya, nilai akurasi, presisi, recall dan F-1 dari algoritma CF-IDF jauh lebih baik dari algoritma TF-IDF. Selain itu Mustapha Baziz, Mohand Boughanem dan Salam Traboulsi juga melakukan penelitian penggunaan CF-IDF dalam aplikasi information retrieval atau sistem temu balik dalam penelitiannya, A Concept-based Approach for Indexing Documents in IR (Robertson, n.d.). Dalam penelitian ini, dilakukan pengindeksan dokumen berdasarkan semantiknya. Hasilnya, metode tersebut mampu melakukan pengindeksan dokumen dan meningkatkan akurasi pengambilan kembali informasi. Selanjutnya Aceng Nursamsudin dalam penelitiannya yang berjudul Penerapan Konsep Knowledge Management System (KMS) untuk Pengelolaan Hasil Proyek Konsultasi Menggunakan Algoritma Text Mining (Nursamsudin, 2011), telah berhasil membuktikan penggunaan text mining di dalam sistem KMS. Di dalam penelitian ini, digunakan metode TF-IDF dan VSM (Vector Space Model) untuk melakukan pencarian dokumen-dokumen konsultasi yang memiliki tingkat kemiripan dengan kata dengan kata kunci yang dimasukan. Penelitian ini berhasil memberikan hasil pencarian dokumen-dokumen yang memiliki tingkat kemiripan dengan kata kunci pencarian. Penelitian mengenai penggunaan metode text mining dalam pencarian teks dokumen dalam penerapan KMS juga dilakukan oleh Robert J Watts dan Alan L. Porter dalam penelitiannya yang berjudul Mining Conference Proceedings for Corporate Technology Knowledge Management (Porter, 2007). Dalam penelitian itu, diterapkan salah satu algoritma dalam text mining yaitu NLP (Natural Language Processed) dalam KM pengelolaan dokumen proceedings. Hasilnya algoritma tersebut dapat melakukan pengelompokan data proceedings dengan baik. Untuk membentuk concept, terlebih dahulu harus dibentuk kandidat -kandidat concept dari dokumen. Kandidat-kandidat dibedakan menjadi kata (mono word) dan frase (multi words). Frase atau multi words merupakan gabungan dari beberapa kata yang memiliki arti. Pada
38
penelitian ini, pembentukan frase maksimal adalah terdiri dari gabungan tiga kata. Pembentukan kandidat kata berdasarkan kemunculan setiap kata di dalam dokumen sementara pembentukan kandidat frase dilakukan berdasarkan kedekatan kata berurutan dari kiri ke kanan (sesuai dengan tata cara penulisan). Pembobotan dalam CF-IDF dilakukan dengan menghitung CF (Concept Frequency):
= , ,
. Persamaan 2.1
Dimana,
= rasio frekuensi concept pada dokumen , = jumlah kemunculan concept dalam dokumen
, = total kemunculan seluruh concept dalam dokumen Setelah itu, dilakukan perhitungan nilai IDF dengan membagi jumlah total dokumen dengan jumlah dokumen yang terdapat kemunculan konsep (Ci).