IN086 Temu Pegetahua 5. Data Preprocessg
Megapa Data Kotor? Data yag tdak legkap mugk berasal dar Data berla Not Applcable saat drekam Pertmbaga yag berbeda saat data drekam da saat data daalsa Masalah masalah peragkat keras / peragkat luak Data yag bersk (osy / data yag tdak bear) mugk berasal dar Istrume yag megumpulka data yag salah Kesalaha mausa atau komputer saat etr data Kesalaha saat trasms data Data yag tdak kosste mugk berasal dar Sumber sumber data yag berbeda Pelaggara ketergatuga fugsal (cotoh: memodfkas data yag terhubug) Data duplkat juga perlu dbershka 3
Tugas Tugas Utama dalam Data Preprocessg Pembersha Data Megs la la yag hlag, meghaluska data yag bersk, megdetfkas outler, da meyelesaka ketdakkosstea. Itegras Data Itegras dar bass data, data cube, atau berkas berkas yag beragam Trasformas Data Normalsas da agregas Reduks Data Medapatka represetas yag lebh sedkt dalam volume tetap meghaslka hasl aalss yag sama atau mrp Dkretsas Data Baga dar reduks data tap dega kepetga yag tertetu, khususya utuk data umerk 5
Deskrps Data 7
Megukur Tedes Setral Mea (pegukura aljabar) (sampel vs. populas): Weghted arthmetc mea: Trmmed mea: memagkas la extreme Meda: Sebuah la holstk Mode Nla tegah dar la la berjumlah gajl, atau rata rata la tegah utuk yag laya. Destmaska dega terpolas (utuk data berkelompok) Nla yag mucul palg serg dalam data Umodal, bmodal, trmodal Rumus emprs: x x x w x w / 2 ( meda L ( f meda x N f ) l ) c mea mode 3( mea meda) 9 9
DM-MA/SIF/FTI/UKM/200 Megukur Sebara Data Quartles, outlers da boxplots Quartles: Q (25 th percetle), Q 3 (75 th percetle) Iter-quartle rage: IQR = Q 3 Q Fve umber summary: m, Q, M, Q 3, max Boxplot: akhr dar kotak adalah the quartles, meda dtada, whskers, da megeplot outler satu persatu Outler: basaya la lebh tgg / redah dar.5 x IQR Varace da stadard devas (sample: s, populato: σ) Varace: (algebrac, scalable computato) Stadard devas s (or σ) adalah akar kuadrat dar varace s 2 ( or σ 2) x N x N 2 2 2 2 ) ( x x x x s 2 2 2 2 ] ) ( [ ) (
Aalss Hstogram Tampla grafs dar deskrps kelas statstka dasar Hstogram frekues Sebuah metode grafka yag uvarate Terdr dar sebuah set dar kotak kotak yag mereflekska jumlah atau frekues dar kelas kelas yag ada dalam data 0//204 3
Data preprocessg 5
Data yag Hlag Data tdak selalu harus terseda Cotoh: bayak tuples (pasaga data) yag tdak memlk data yag terekam utuk beberapa atrbutya, sepert peghasla kosume dalam data sales Hlagya data mugk dsebabka oleh Kerusaka strume Ketdakkosstea dega rekama data yag la yag akhrya dhapus Data tdak dmasukka karea kesalahpahama Beberapa data tdak daggap petg waktu d etr Tdak ada daftar hstors atau perubaha dar data Data yag hlag mugk perlu dperkraka laya. DM-MA/SIF/FTI/UKM/200 7
Data Bersk / Nosy Nose: error radom atau varace dar sebuah varabel yag dukur Nla atrbut yag tdak bear mugk dsebabka oleh Istrume pegumpul data yag salah Masalah data etr Masalah trasms data Lmtas tekolog Ketdakkosstea dalam kesepakata peamaa Kesalaha kesalaha la yag membutuhka pembersha data Data duplkat Data tdak legkap Data tdak kosste DM-MA/SIF/FTI/UKM/200 9
Metode Dskretsas Sederhaa: Bg Equal-wdth (dstace) parttog Membag ksara dalam N terval dega ukura yag sama: grd seragam Jka A da B adalah la teredah da tertgg dar atrbut, lebar terval mejad: W = (B A) / N Sagat smpel, tap presetas aka ddomas outler Data skewed tdak tertaga dega bak Equal-depth (frequecy) parttog Membag ksara dalam N terval, setap terval bers sampel yag kra kra sama jumlahya Skala data yag bak Megatur data kategors mugk agak sult 2
Itegras Data Itegras Data: Megkombaska data dar sumber sumber yag berbeda dalam sebuah peympaa yag kohere Skema tegras: cotoh A.cust-d B.cust-# Megtegraska meta data dar berbaga sumber Permasalaha detfkas Ettas: Megdetfkas ettas dua yata dar berbaga sumber, cotoh Bll Clto = Wllam Clto Medeteks da meyelesaka koflk la data Utuk ettas dua yata yag sama, la atrbut dar sumber berbeda mugk berla berbeda Alasa yag mugk: represetas yag berbeda, skala yag berbeda, cotoh ut metrk da ut Brtsh 23
Trasformas Data Peghalusa: meghlagka ose dar data Agregas: meragkum, kostruks kubus data Geeralsas: kosep meyusur hrark Normalsas: dskala utuk masuk dalam ksara yag kecl da tertetu Normalsas m max Normalsas z-score Normalsa dega skala desmal Kostruks atrbut / ftur Atrbut atrbut baru dbuat dar atrbut yag sudah dberka 25
Dskretsas Tga tpe atrbut Nomal la dar set yag tdak berurut, cotoh wara, profes Ordal la dar set yag berurut, cotoh ragkg mlter da akadems Cotuous la rl, cotoh la teger atau real Dskretsas Membag ksara dar la atrbut cotuous mejad terval terval Beberapa algortma klasfkas haya meerma atrbut kategorkal Megurag ukura data dega dskretsas Peyapka utuk aalsa lajuta 27