Modul 12 - Data Mining

download Modul 12 - Data Mining

of 57

Transcript of Modul 12 - Data Mining

Slide 1

Datawarehouse & Data MiningData MiningFebrianti Supardinah12FASILKOMTeknik InformatikaModul ke:FakultasProgram StudiApa itu DATA MINING ?Definisi Data MiningMenggali informasi yang terpendam

Ekstraksi Informasi atau pola yang penting atau menarik dari data yang ada di database yang besar

Knowledge Discovery in Databases (KDD) Tahun 1990-an telah melahirkan gunungan data di bidang ilmu pengetahuan, bisnis dan pemerintah

Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data

Metodologi tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besarSejarah Data Mining Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaan-perusahaan untuk memecahkan berbagai permasalahan bisnis

Alasan utama mengapa data mining diperlukan adalah karena adanya sejumlah besar data yang dapat digunakan untuk mengahasilkan informasi dan knowledge yang berguna.

Informasi dan knowledge yang didapat dapat digunakan pada banyak bidang, mulai dari manjemen bisnis, kontrol produksi, kesehatan, dan lain-lainSejarah Data MiningLatar Belakang Data MiningLatar Belakang Data MiningProblem terhadap data explosion yang dialami banyak organisasi

Pengumpulan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.)

Hampir semua data OLTP masuk ke penyimpanan databaseLatar Belakang Data MiningContoh :Data Web , e-CommerceData pembelian di toko / supermarketTransaksi Bank/Kartu KreditDetail panggilan teleponStatistik PemerintahanRekam MedisDatabase MolekulCitra AstronomisKomputer sekarang murah dan powefullTekanan kompetisi semakin kuatMenyediakan layanan yang lebih baik dan Customized (misal : Customer Relational Management)Teknik penyimpanan data semakin tinggi dengan kecepatan tinggi (GB/jam)Proses ekstraksi informasi di dalam kumpulan data yang besar Pendekatan analisis data tradisional tidak dapat digunakan untuk ekstrak data dalam jumlah besarData Mining merupakan teknik yang menggabungkan teknik analisis data tradisional dengan algoritma yang sophisticated untuk pemrosesan data dalam jumlah besarLatar Belakang Data MiningContoh Informasi yang dibutuhkan :* Kebutuhan dari Pelanggan (data layanan telepon)* Target responden untuk promosi produk* Jenis produk yang paling banyak dijual* Historis transaksi dari seorang pelanggan* Pelanggan yang paling loyal* Mengetahui behaviour nasabah dalam berbagai situasi* Mengetahui nominal awal dan akhir musim pada suat area

Latar Belakang Data MiningApakah Data-data tersebut dibiarkan menggunung ?

Dianggap tidak berguna kemudian dibuang ?

Dapatkah kita me-nambang nya untuk mencari emas dan berlian?Latar Belakang Data MiningKonsumen :Kartu Kredit 1 x Penawaran = Rp 1,00012 x Penawaran = Rp 12,000

Bank :Nasabah = 1,000,0001 x Penawaran = Rp 1,000 1 Milyar12 x Penawaran = Rp 12,000 12 Milyar

Feedback : 10% 90% dari dana terbuang sia-siaContoh Latar Belakang Data MiningSolusi : Menambang data transaksi belanja kartu kredit untuk melihat manakah pembeli yang memang potensial untuk membeli produk tertentu

Hasil :Feedback : 20 % 80% dapat digunakan untuk hal lainContoh Latar Belakang Data MiningContoh Latar Belakang Data Mining

Why ? What ? How ? Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi berbagai data yang jumlahnya sangat besarContoh data: bisnis, kedokteran, ekonomi, geografi, olahraga,

Pada dasarnya, data adalah entitas yang tidak memiliki arti, meskipun kemungkinan memiliki nilai di dalamnyaMengapa Data Mining ?Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu dataData: fakta yang terekam dan tidak membawa artiPengetahuan: pola, aturan atau model yang muncul dari data

Sehingga Data mining sering disebut Knowledge Discovery in Database (KDD)

Konsep TransformasiDataInformasiPengetahuanApa itu Data Mining ?Apa itu Data Mining ?

Tidak membawa arti, merupakan kumpulan dari fakta-fakta tentang suatu kejadian

Suatu catatan terstruktur dari suatu transaksi

Merupakan materi penting dalam membentuk informasi

DataGabungan dari suatu pengalaman, nilai, informasi kontekstual dan juga pandangan pakar yang memberikan suatu framework untuk mengevaluasi dan menciptakan pengalaman baru dan informasi(Thomas H. Davenport, Laurence Prusak)

Bisa berupa solusi pemecahan suatu masalah, petunjuk suatu pekerjaan dan ini bisa ditingkatkan nilainya, dipelajari dan juga bisa diajarkan kepada yang lainPengetahuanData Kehadiran PegawaiData Informasi - PengetahuanNIPTGLDATANGPULANG110302/12/200407:2015:40114202/12/200407:4515:33115602/12/200407:5116:00117302/12/200408:0015:15118002/12/200407:0116:31118302/12/200407:4917:00Informasi Akumulasi Bulanan Kehadiran PegawaiData Informasi - PengetahuanNIPMasukAlpaCutiSakitTelat110322114218221156101111173125511801012Informasi Kondisi Kehadiran Mingguan Pegawai

Data Informasi - PengetahuanSeninSelasaRabuKamisJumatTerlambat70105Pulang Cepat01118Izin30014Alpa10202Pengetahuan tentang kebiasaan pegawai dalam jam datang/pulang kerja

Pengetahuan tentang bagaimana teknik meningkatkan kehadiran pegawai kebijakanData Informasi - Pengetahuan

Kebijakan penataan jam kerja karyawan khusus untuk hari senin dan jumatPeraturan jam kerja:Hari Senin dimulai jam 10:00Hari Jumat diakhiri jam 14:00Sisa jam kerja dikompensasi ke hari lain:Senin pulang setelah maghrib, toh jalanan jakarta macet total di sore hari (bayar hutang 2 jam)Rabu dan kamis bayar hutang setengah jam di pagi hari dan setengah jam di sore hari (bayar hutang 2 jam)

Data Informasi - PengetahuanOLAP, Datawarehouse, Data MiningData SourcesPaper, Files, Information Providers, Database System, OLTPData Warehouse / Data MartsOLAPData ExplorationStatistical Analysis, Querying, and ReportingData MiningInformation DiscoveryData PresentationVisualization TechniquesMaking DecisionsEnd UserBusiness AnalysisData AnalysisDBAIncreasing Potential to Support business decisionsData Mining lebih khusus dan spesifik dibanding OLAPDatabase bukan satu-satunya yang mempengaruhi Data MiningData Mining turut diperkaya di banyak bidang ilmu :Information Science (ilmu informasi)High Performance ComputingVisualisasiMachine LearningStatistikPermodelan MatematikaInformation RetrievalInformation ExtractionPengenalan Pola

OLAP, Datawarehouse, Data MiningPaduan OLAP, Data Warehouse, dan Data Mining :

Diharapkan pengguna dapat melakukan hal-hal yang biasa dilakukan di OLAP seperti drilling/rolling untuk melihat data lebih dalam atau lebih umum, pivoting, slicing dan dicing. Diharapkan dapat dilakukan secara interaktif dan dilengkapi dengan visualisasi.

OLAP, Datawarehouse, Data MiningOLAP, Datawarehouse, Data Mining

Berasal dari machine learning, AI, pattern recognition, statistics, dan databaseTeknik tradisional tidak sesuai disebabkan karena :Data dengan dimensi yang besarData yang tersebar dan heterogenIrisan Bidang Ilmu Data MiningStatistics / Artificial IntelligenceMachine Learning / Pattern RecognitionDatabase SystemDATA MININGMachine LearningBagian dari Artificial IntelligenceMengenai bagaimana sebuah mesin belajar dan mengenali bahasa manusiaProses di dalamnya melibatkan rumus yang rumit dan juga proses trial and errorFokus : perbaikan performansi dari suatu teknik learning

StatistikBagaimana merencanakan, mengumpulkan, menganalisis, menginterprestasi, dan mempresentasikan dataHasil penerapan algoritma statistika pada suatu dataFokus : pengujian hipotesis

Irisan Bidang Ilmu Data MiningArtificial IntelligenceKecerdasan buatan/kecerdasan entitas ilmiahKecerdasan dimasukkan ke dalam suatu mesin (komputer) agar dapat melakukan pekerjaan seperti yang dapat dilakukan manusia

Sistem DatabaseData atau informasi yang dikumpulkan di dalam database

Data MiningGabungan dari keseluruhan di atasFokus : seluruh proses penemuan knowledge dan polaTermasuk data cleansing, learning, dan visualisasi hasilnya

Irisan Bidang Ilmu Data MiningRelation Database Sebuah sistem database atau disebut juga DBMSMengandung sekumpulan data yang saling berhubunganDikenal sebagai sebuah database dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut

Data Warehouse Dikenal sebagai sebuah database dan satu set program Merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumberDisimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah siteJenis Data dalam Data MiningJenis Data dalam Data Mining

Menurut IBM :Verification ModelDiscovery ModelModel Data MiningMenurut IBM :Verification ModelMenggunakan hipotesis/perkiraan dari penggunaMelakukan tes dari perkiraan yang diambil dengan menggunakan data-data yang adaUser bertanggung jawab terhadap :penyusunan hipotesis permasalahan pada data untuk meniadakan menegaskan hasil hipotesis yang diambil

Model Data MiningContoh : Bidang Pemasaran

Model Data MiningProduk BaruInformasi Kecenderungan PelangganProduk ke PasarHipotesa :Identifikasi pelanggan yang potensial dan karakteristik dari pelanggan yang adaData-data tentang pembelian pelanggan sebelumnya dan data tentang keadaan pelangganMelakukan perbandingan antara pembelian dan karakteristik pelanggan untuk menetapkan dan menguji target yang telah diperkirakan sebelumnya Dilakukan penyaringan dengan cermat sehingga jumlah hipotesa yang banyak menjadi berkurang

Model Data MiningKelemahan :Data yang ada pada model ini hanya digunakan untuk membuktikan pendukung hipotesa dengan data-data yang ada sebelumnya

Model ini tergantung dari kemampuan user melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinyaModel Data MiningDiscovery ModelSistem secara langsung menemukan informasi-informasi penting yang tersembunyi dalam suatu data yang besarData yang ada dipilah-pilah untuk menemukan suatu pola, trend yang ada, dan keadaan umum pada saat ituTidak ada campur tangan dan tuntunan dari penggunaHasil temuan : fakta yang ada dan dapat ditemukan dalam waktu singkatModel Data MiningContoh : Bidang Perbankan

Model Data MiningProduk BaruInformasi Kecenderungan PelangganProduk ke PasarKelompok pelanggan yang dapat dijadikan target suatu produk yang akan keluar :

Keluarkan data pelangganProses pencarian tanpa adanya hipotesa Pelanggan dikelompokkan pada karakteristik yang samaModel Data MiningData cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)Data integration : penggabungan data dari beberapa sumberData Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di miningPattern evaluation : untuk menemukan yang bernilai melalui knowledge baseGraphical User Interface (GUI) : untuk end userArsitektur Data MiningData mining merupakan bagian dari proses Knowledge Discovery in Databases (KDD) -- Proses transformasi data mentah menjadi informasi berguna --Tahapan Data Mining

SELECTIONPenyeleksian atau segmentasi data berdasarkan kriteria tertentu

PRE PROCESSINGTahap pembersihan info tidak berguna dibuangData dikonfigurasi ulang untuk menjamin format tetap konsisten

TRANSFORMATIONProses transformasi sehingga data dapat digunakan dan ditelusuriTahap Data MiningDATA MININGProses ekstraksi sesuai pola dari data yang ada

INTERPRETATION/EVALUATIONProses interpretasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan Contoh : prediksi, klasifikasi

Tahap Data MiningTahap Data Mining

Deskriptif mengklasifikasikan sifat umum suatu data di dalam database yang dapat diinterpretasikan user. Contoh : Clustering, Association Rule Discovery, Sequential Pattern Discovery

Prediktif menggunakan beberapa atribut, mengambil kesimpulan terhadap data terakhir untuk membuat prediksiAtribut yang diprediksi = Target / independent variableTerbagi menjadi 2 :a. Classification untuk variable target diskritb. Regression untuk variable target kontinuTugas Data MiningPemasaran / PenyewaanIdentifikasi pola pembayaran pelangganMenemukan asosiasi antara karakteristik demografik pelanggan Analisis keranjang pemasaran

PerbankanMendeteksi pola penyalahgunaan kartu kreditIdentifikasi pelanggan yang loyalMendeteksi fraud

TransformasiMenentukan jadwal distribusi ke outlet-outlet

Aplikasi Data MiningAsuransi dan Pelayanan MasyarakatAnalisis dari klaimMemprediksi pelanggan yang akan membeli polis baruIdentifikasi pola perilaku pelanggan yang berbahaya

PengobatanIdentifikasi terapi pengobatan yang berhasil untuk penyakit berbedaMembaca behaviour pasien untuk memprediksi kunjungan Menganalisa sejarah penyakit pasien, serta menemukan hubungan antara penyakit-penyakit yang ada

Dunia IlmuwanMendeteksi galaksi baru

Aplikasi Data MiningTidak hanya melakukan mining terhadap transaksi saja.

Penelitian di bidang data mining sudah merambah ke :Sistem database lanjut seperti object oriented databaseImage/spatial databaseTime-series data/temporal databaseTeks (dikenal dengan nama text mining)Web (dikenal dengan nama web mining) Multimedia database.Next Data MiningPenelitian saat ini :* Peningkatan kinerja jika berurusan dengan data berukuran terabyte *Visualisasi yang lebih menarik untuk user*Pengembangan bahasa query untuk data mining yang sedapat mungkin mirip dengan SQL Tujuan : agar end-user dapat melakukan data mining dengan mudah dan cepat serta mendapatkan hasil yang lebih akurat. Next Data MiningIntelligent Miner dari IBM :* Berjalan di atas sistem operasi AIX, OS/390, OS/400, Solaris dan Windows NT *Dijual dengan harga sekitar US$60.000. Selain *Mengeluarkan produk Intelligent Miner untuk teksUS$50.000.

Software Microsoft :*Menambahkan fasilitas data mining di Microsoft SQL Server 2000

Clementine dari SPSS*Berjalan di atas sistem operasi UNIX dan Windows NT

Next Data MiningEnterprise Miner dari SAS :*Berjalan di atas sistem operasi AIX/6000, CMS, Compaq Tru64 UNIX, HP-UX, IRIX, Intel ABI, MVS, OS/2, Open VMS Alpha, Open VMS Vax, Solaris, dan Windows

MineSet dari Silicon Graphics :*Berjalan di atas sistem operasi Windows 9x/NT dan IRIX. *Dijual per seat seharga US$995*Server (Windows NT) seharga US$35.000 *IRIX dijual US$50.000Next Data MiningQUIZJelaskan dengan kalimat sendiri, apa yang dimaksud dengan Data Mining ?

Apa perbedaan antara DATA dan PENGETAHUAN (knowledge) ?Febrianti SupardinahTerima Kasih