Preparing Data

Preparing the Data

Preparing DataWhat is Data?Kumpulan obyek data dan atributnyaAtribut adalah property atau karakteristik suatu obyekContoh: warna mata, temperature, dllAtribut dikenal sebagai variable, field, ataupun karakteristikKumpulan dari atribut menggambarkan obyekObyek dikenal juga sebagai record, point, case, sample, entitas

AttributesObjectsAttribute ValuesNilai atribut adalah angka-angka atau simbol-simbol yang diassign ke suatu atributPerbedaan antara atribut dan nilai atributAtribut yg sama dapat dipetakkan ke nilai atribut yang bedaMisal: ketinggian dapat diukur dalam feet atau meterAtribut yg beda dapat dipetakan ke himpunan nilai yang samaContoh: nilai atribut untuk ID dan age adalah integerTetapi property nilai atribut dapat berbeda:ID tidak mempunyai batasan nilai maksimum dan minimum

Attribute TypesAda jenis-jenis atribut yang berbeda:NominalContoh: nomor ID, warna mata, kode posOrdinalRangking/ tingkatan (contoh rasa dari kripik kentang dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}IntervalContoh: tanggal kalender, temperature dalam Celsius atau Fahrenheit RatioContoh: temperature dalam Kelvin, panjang, waktu, jumlah

Properties of Attribute Values /1Jenis atribut tergantung pada properti berikut yang mana dia milikiDistinctness: = Order: < > Addition: + - Multiplication: * /

Nominal attribute: distinctnessOrdinal attribute: distinctness & orderInterval attribute: distinctness, order & additionRatio attribute: all 4 properties

Properties of Attribute Values /2Attribute Type

Description

Examples

Operations

Nominal

The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, )

zip codes, employee ID numbers, eye color, sex: {male, female}

mode, entropy, contingency correlation, 2 test

Ordinal

The values of an ordinal attribute provide enough information to order objects. ()

hardness of minerals, {good, better, best}, grades, street numbers

median, percentiles, rank correlation, run tests, sign tests

Interval

For interval attributes, the differences between values are meaningful, i.e., a unit of measurement exists. (+, - )

calendar dates, temperature in Celsius or Fahrenheit

mean, standard deviation, Pearson's correlation, t and F tests

Ratio

For ratio variables, both differences and ratios are meaningful. (*, /)

temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical currentgeometric mean, harmonic mean, percent variation

Properties of Attribute Values / 3Attribute Level

Transformation

Comments

Nominal

Any permutation of values

If all employee ID numbers were reassigned, would it make any difference?

Ordinal

An order preserving change of values, i.e., new_value = f(old_value) where f is a monotonic function.

An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}.

Interval

new_value =a * old_value + b where a and b are constants

Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree).

Ratio

new_value = a * old_value

Length can be measured in meters or feet.

Discrete and Continuous Attributes Discrete AttributeMempunyai himpunan nilai terbatas atau tak terbatasContoh: zip codes, himpunan kata dalam kumpulan dokumenSering direpresentasikan sbg variable integerNote: binary attributes special case

Continuos AttributeMemiliki angka-angka real sebagai nilai atributContoh: temperatur, tinggi atau beratDapat diukur dan direpresentasikan menggunakan sejumlah digit terbatasCiri khasnya direpresentasikan sebagai variable pecahan

Asymmetric AttributesHanya keberadaannya (non zero attribute value) diperhatikanContoh:Kata-kata muncul di dokumenItem-item muncul di transaksi customer

Types of data setsRecordData MatrixDocument DataTransaction DataGraphWorld Wide WebMolecular StructuresOrderedSpatial DataTemporal DataSequential DataGenetic Sequence Data

Important characteristics of structured dataDimensionality

SparsityHanya menghitung kemunculan

ResolutionPola-pola bergantung skalaRecord DataData yang berisi kumpulan record, yang mana masing-masing berisi suatu himpunan atribut yang ditentukan.

Data MatrixJika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang multidimensional, di mana setiap dimensi merepresentasian suatu atribut yang berbeda.Seperti data set dapat direpresentasikan dengan suatu matrik m dengan n di mana ada m baris, satu dari setiap objek dan n kolom, satu untuk setiap atribut.

Document DataSetiap document menjadi suatu term vector,Setiap term adalah komponen (atribut) dari vectorNilai setiap komponen adalah banyaknya waktu yg berhubungan terms terdapat dalam document

Transaction DataJenis spesial dari data rekord , dimana setiap record (transaksi) mencangkup kumpulan item-itemContoh: Toko penjualan bahan makanan. Sejumlah produk dibeli customer selama perjalanan pembelian merupakan suatu transaksi, namun produk yg dibeli merupakan item

Graph DataContoh: Generic graph and HTML Links

Chemical DataBenzene Molecule: C6H6

Ordered Data /1Sequence of transaction

An element of the sequenceItems/EventsOrdered Data /2Genomic sequence data

Ordered Data /3Spatio-Temporal data

Average Monthly Temperature of land and oceanData QualityJenis masalah apakah kualitas data?Bagaimana kita dapat mendeteksi masalah dengan data?Apa yg dapat kita lakukan tentang masalah ini?Contoh masalah kualitas data:Noise & outliersMissing ValuesDuplicate dataNoiseMengacu pada modifikasi nilai originalContoh: distorsi suara seseorang ketika berbicara

Two Sine WavesTwo Sine Waves + NoiseOutliers /1Outliers adalah obyek data dengan karakteristik berbeda dengan kebanyakan data obyek lain dalam data set.

Outliers /2Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda, Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37}Maka parameter statistika yg berhubungan:Mean = 39.9Standard deviation = 45.65Jika kita memilih nilai threshold untuk distribusi normal data :Theshold = Mean 2 x Standard Deviationmaka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age >0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria yg diberikan: 156, 139dan -67 Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg dimasukkan dengan penambahan digit atau tanda -)Missing ValuesBeberapa alasan missing values:Informasi tidak terkumpul(misal: orang2 menolak memberikan info umur dan berat mereka)Atribut mungkin tidak dapat diaplikasikan ke semua kasus(misal: pendapatan tidak dapat diaplikasikan ke anak2)

Mengatasi missing values:Eliminasi obyek dataMengestimasi missing value selama analisisMengganti dengan semua nilai kemungkinan (pembobotan oleh kemungkinannya)Duplicate DataData set mungkin terdapat obyek data yang duplikat, atau hampir duplikasi dari yg lainIsu utama dengan menggabungkan sumber yg berbeda-beda

Contoh: orang yg sama dengan berbagai email address

Data cleaningProses perlakuan dengan isu data duplikasi

Data Preprocessing: Why is Needed?Data di dunia riil cenderung kotorIncomplete: kekurangan nilai atribut, kurang atribut ttt yg menarik, atau hanya berupa kumpulan dataNoise: berisi errors atau outliersInconsistent: berisi berbeda format dalam code dan nama

Data yg tidak berkualitas, tidak ada hasil-hasil mining yg berkualitasKeputusan kualitas harus didasarkan pada data kualitasData warehouse memerlukan integritas konsisten dari data kualitas

Major task in Data PreprocessingData CleaningData IntegrationData TransformationData ReductionData DiscretizationForms of Data Preprocessing

Transformation of Raw DataNormalizationData smoothingDifferences and ratios

NormalizationsNilai yg terukur dapat diskala ke range khusus, seperti [-1, 1], atau [0,1] dengan alasan ukuran-ukuran jarak akan overweight yang dimiliki, atas rata-rata, nilai-nilai itu lebih besar.

Ada 3 tehnik normalisasi:Decimal scallingMin-max normalizationStandard deviation normalizationDecimal scalling (normalization)Menggerakkan titik desimal tetapi masih memelihara kebanyakan nilai digit asal. Skala khusus memelihara nilai dalam range -1 sampai 1. Persamaan berikut menggambarkan penskalaan desimal, dimana v(i) adalah nilai dari feature v untuk kasus i dan v(i) adalah nilai yg diskala.v(i)=v(i)/10kuntuk k terkecil sehingga max (v(i))< 1Contoh:Jika nilai terbesar data set 455 dan terkecil -834, maka nilai absolut maksimum menjadi .834, dan pembagi untuk semua v(i) adalah 1000(k=3).Min-max normalizationAndaikan data v dalam suatu range antara 150 dan 250. Maka, metode normalisasi sebelumnya akan memberikan data yg dinormalisasi antara .15 dan .25; tetapi dia akan mengakumuladi nilai dalam subinterval kecil dalam range keseluruhan. Untuk mencapai distribusi yg lebih baik dari nilai seluruhnya, intervalnya dinormalisasikan, seperti [0, 1]v(i) =(v(i)-min(v(i))) / (max(vi))-min(v(i)))dimana, nilai minimum dan maksimum v dihitung secara otomatis, atau diestimasi oleh seorang expert memberikan domain. Transformasi yg serupa mungkin digunakan untuk interval yg dinormalisasi [-1, 1].Standard deviation normalizationNormalisasi dengan standard deviasi sering bekerja baik dengan ukuran jarak, tetapi transformasi data tidak dapat dikenali data asalnya.v(i)=(v(i)-mean(v))/sd(v)Contoh:Jika himpunan nilai atribut awal v={1, 2, 3}, maka mean(v)=2, sd(v)=1, dan himpunan nilai yg dinormalisasikan adalah v* ={-1,0,1}Data SmoothingSuatu feature numerik, y, mungkin berkisar atas banyak nilai yg berbeda, terkadang sebanyak jumlah kasus pelatihan. Banyak teknik data-mining, perbedaan minor antar nilai-nilai ini tidak signifikan dan mungkin menurunkan performance metode dan hasil akhir. Oleh karena itu, dia terkadang menjadi keuntungan untuk menghaluskan nilai variable.Sebagai contoh, bilangan real dengan beberapa letak desimal, pembulatan nilai ke presisi yg diberikan dapat menjadi algoritma smoothing yg sederhana untuk sejumlah sampel yg besar, dimana setiap sampel mempunya nilai realnya sendiri.Jika diberikan F = {0.93, 1.01, 1.001, 3.02, 2.99, 5.03, 5.01, 4.98}, kemudian, nilai2 di smooth secara nyata menjadi Fsmoothed = {1.0, 1.0, 1.0, 3.0, 3.0, 5.0, 5.0, 5.0}.Tujuan : transformasi sederhana tanpa menghilangkan kualitas data set.Contoh: diskritisasi fitur kontinyu menuju fitur nilai biner true-false

Differences and ratiosMeskipun perubahan kecil feature dapat menghasilkan perbaikan yang signifikan dalam performance data-mining. Dampak transformasi dari i/o yg relative minor adalah hal yg penting dalam menspesifikasi tujuan data-mining. Transformasi kadangkala menghasilkan hasil yg lebih bagus dari tujual prediksi suatu angka semula. Contoh: tujuan menggerakkan control untuk proses manufaktur pada suatu setting optimal. Daripada mengoptimisasi spesifikasi besaran yg nyata untuk output s(t-1), dia akan lebih efektive men-set tujuan gerakan relatif dari nilai saat ini ke optimal akhir s(t+1)-s(t). Rasio adalah transformasi sederhana yg kedua. Menggunakan s(t-1)/s(t) sebagai output dari proses data-mining, dari pada nilai nyata s(t+1) yg berarti level peningkatan/ penurunan nilai dari suatu feature yg mungkin meningkatkan performance dari proses mining keseluruhan.Transformasi perbedaan dan rasio tidak hanya berguna untuk fitur output, tetapi juga untuk input. Mereka dapat digunakan sebagai perubahan dalam waktu untuk satu feature atau sebagai komposisi dari perbedaan feature input.

Contoh: data set medical, ada 2 feature dari pasien, tinggi dan berat, yg diambil sebagai parameter input untuk analisis diagnosa yg berbeda. Beberapa aplikasi menunjukkan hasil diagnosa dicapai lebih bagus ketika transformasi awal ditunjukkan menggunakan feature baru yg disebut body-mass index (BMI), yg mana rasio pembobotan antara berat dan tinggi. Fitur komposisi lebih baik dari parameter awal untuk menggambarkan beberapa karakteristik pasien, misal apakah pasien overweight atau tidak.Transforming DataCenteringMengurangi setiap data dengan rata2 dari setiap atribut

NormalizationHasil dari centering dibagi dengan standard deviasi

ScalingMerubah data sehingga berasa dalam skala tertentu

TidRefundMarital

StatusTaxable

IncomeCheat

1YesSingle125KNo

2NoMarried100KNo

3NoSingle70KNo

4YesMarried120KNo

5NoDivorced95KYes

6NoMarried60KNo

7YesDivorced220KNo

8NoSingle85KYes

9NoMarried75KNo

10NoSingle90KYes

10

Document 1seasontimeoutlostwingamescoreballplaycoachteamDocument 2Document 3305026020200702100300100122030TidRefundMarital

StatusTaxable

IncomeCheat

1YesSingle125KNo

2NoMarried100KNo

3NoSingle70KNo

4YesMarried120KNo

5NoDivorced95KYes

6NoMarried60KNo

7YesDivorced220KNo

8NoSingle85KYes

9NoMarried75KNo

10NoSingle90KYes

10

Document 1seasontimeoutlostwingamescoreballplaycoachteamDocument 2Document 3305026020200702100300100122030TIDItems

1Bread, Coke, Milk

2Beer, Bread

3Beer, Coke, Diaper, Milk

4Beer, Bread, Diaper, Milk

5Coke, Diaper, Milk

Preparing Data

Documents

Transcript of Preparing Data