IN086 Temu Pengetahuan. 5. Data Preprocessing

dokumen-dokumen yang mirip
S2 MP Oleh ; N. Setyaningsih

STATISTIKA DASAR. Oleh

UKURAN GEJALA PUSAT DAN UKURAN LETAK

UKURAN PEMUSATAN DAN LETAK DATA

STATISTIKA A. Definisi Umum B. Tabel Distribusi Frekuensi

UKURAN GEJALA PUSAT (UGP)

PENDAHULUAN Metode numerik merupakan suatu teknik atau cara untuk menganalisa dan menyelesaikan masalah masalah di dalam bidang rekayasa teknik dan

BAB III UKURAN PEMUSATAN DATA

BAB 1 STATISTIKA RINGKASAN MATERI

2.2.3 Ukuran Dispersi

SUM BER BELA JAR Menerap kan aturan konsep statistika dalam pemecah an masalah INDIKATOR MATERI TUGAS

FMDAM (2) TOPSIS TOPSIS TOPSIS. Charitas Fibriani

4/1/2013. Bila X 1, X 2, X 3,,X n adalah pengamatan dari sampel, maka rata-rata hitung dirumuskan sebagai berikut. Dengan: n = banyak data

Bab I Pendahuluan & Statistika Deskriptif

ANALISIS REGRESI. Model regresi linier sederhana merupakan sebuah model yang hanya terdiri dari satu peubah terikat dan satu peubah penjelas:

STATISTIK. Ukuran Gejala Pusat Ukuran Letak Ukuran Simpangan, Dispersi dan Variasi Momen, Kemiringan, dan Kurtosis

STATISTIKA: UKURAN PEMUSATAN. Tujuan Pembelajaran

TATAP MUKA III UKURAN PEMUSATAN DATA (MEAN, MEDIAN DAN MODUS) Fitri Yulianti, SP. Msi.

TEKNIK SAMPLING. Hazmira Yozza Izzati Rahmi HG Jurusan Matematika FMIPA Universitas Andalas

b) Untuk data berfrekuensi fixi Data (Xi)

9/22/2009. Materi 2. Outline. Graphical Techniques. Penyajian Data. Numerical Techniques

3/19/2012. Bila X 1, X 2, X 3,,X n adalah pengamatan dari sampel, maka rata-rata hitung dirumuskan sebagai berikut

STATISTIKA. A. Tabel Langkah untuk mengelompokkan data ke dalam tabel distribusi frekuensi data berkelompok/berinterval: a. Rentang/Jangkauan (J)

Mean untuk Data Tunggal. Definisi. Jika suatu sampel berukuran n dengan anggota x1, x2, x3,, xn, maka mean sampel didefinisiskan : n Xi.

IMPLEMENTASI DAN KOMPARASI ATURAN SEGIEMPAT UNTUK PENYELESAIAN INTEGRAL DENGAN BATAS MENGGUNAKAN MATLAB

Ukuran Pemusatan Data. Arum Handini P., M.Sc Ayundyah K., M.Si.

Integrasi 1. Metode Integral Reimann Metode Integral Trapezoida Metode Integral Simpson. Integrasi 1

ANALISIS ALGORITMA REKURSIF DAN NONREKURSIF

PERTEMUAN III PERSAMAAN REGRESI TUJUAN PRAKTIKUM

3 Departemen Statistika FMIPA IPB

Di dunia ini kita tidak dapat hidup sendiri, tetapi memerlukan hubungan dengan orang lain. Hubungan itu pada umumnya dilakukan dengan maksud tertentu

BAB I PENDAHULUAN. 1.1 Statistika Deskriptif dan Statistika Inferensial. 1.2 Populasi dan Sampel

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Penarikan Contoh Gerombol (Cluster Sampling) Departemen Statistika FMIPA IPB

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN. Propinsi Gorontalo tahun pelajaran 2012/2013.

* MEMBUAT DAFTAR DISTRIBUSI FREKUENSI MENGGUNAKAN ATURAN STURGES

Statistika Deskriptif

Tabel Distribusi Frekuensi

BAB II LANDASAN TEORI

Regresi & Korelasi Linier Sederhana. Gagasan perhitungan ditetapkan oleh Sir Francis Galton ( )

LANGKAH-LANGKAH UJI HIPOTESIS DENGAN 2 (Untuk Data Nominal)

47 Soal dengan Pembahasan, 46 Soal Latihan

BAB II LANDASAN TEORI. Dalam pengambilan sampel dari suatu populasi, diperlukan suatu

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN. Tempat penelitian ini dilaksanakan di SMP Negeri 4 Tilamuta Kabupaten

Statistik Industri. Pengertian

BAB 1 STATISTIKA. Gambar 1.1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 2. Tinjauan Teoritis

BAB 2 LANDASAN TEORI. Regresi linier sederhana yang variabel bebasnya ( X ) berpangkat paling tinggi satu.

PEDOMAN STATISTIK UJI PROFISIENSI

INTERPOLASI. FTI-Universitas Yarsi

BAB 2 LANDASAN TEORI. perkiraan (prediction). Dengan demikian, analisis regresi sering disebut sebagai

8. MENGANALISIS HASIL EVALUASI

BAB 5. ANALISIS REGRESI DAN KORELASI

Regresi & Korelasi Linier Sederhana

UKURAN PEMUSATAN & PENYEBARAN

III. METODOLOGI PENELITIAN. Metode penelitian merupakan strategi umum yang di anut dalam

BAB 2 LANDASAN TEORI. Regresi linier sederhana merupakan bagian regresi yang mencakup hubungan linier

dan µ : rata-rata hitung populasi x : rata-rata hitung sampel

III. METODE PENELITIAN. yang hidup dan berguna bagi masyarakat, maupun bagi peneliti sendiri

METODOLOGI PENELITIAN. pengaruh atau akibat dari suatu perlakuan atau treatment, dalam hal ini yaitu

REGRESI & KORELASI LINIER SEDERHANA

III. METODOLOGI PENELITIAN. Menurut Arikunto (1991 : 3) penelitian eksperimendalah suatu penelitian yang

BAB IV BATAS ATAS BAGI JARAK MINIMUM KODE SWA- DUAL GENAP

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

KALKULUS LANJUT. Pertemuan ke-4. Reny Rian Marliana, S.Si.,M.Stat.

BAB 1 ERROR PERHITUNGAN NUMERIK

STATISTIKA: UKURAN PENYEBARAN DATA. Tujuan Pembelajaran

titik tengah kelas ke i k = banyaknya kelas

Metode Statistika Pertemuan XII. Analisis Korelasi dan Regresi

BAB IV HASIL PENELITIAN DAN PEMBAHASAN. melakukan smash sebelum dan sesudah latihan power otot lengan adalah sebagai

BAB 2 LANDASAN TEORI. yang akan terjadi pada masa yang akan datang dengan waktu yang relative lama.

Notasi Sigma. Fadjar Shadiq, M.App.Sc &

POLIGON TERBUKA TERIKAT SEMPURNA

II. TINJAUAN PUSTAKA. variabel. Dalam regresi sederhana dikaji dua variabel, sedangkan dalam regresi

PRAKTIKUM 7 Penyelesaian Persamaan Non Linier Metode Secant Dengan Modifikasi Tabel

PERTEMUAN 14-MPC 2 PRAKTIK. Oleh: Adhi Kurniawan SEKOLAH TINGGI ILMU STATISTIK

PRAKTIKUM 5 Penyelesaian Persamaan Non Linier Metode Secant Dengan Modifikasi Tabel

BAB 2 LANDASAN TEORITIS. yang akan terjadi pada masa yang akan datang dengan waktu yang relatif lama.

PRINSIP INKLUSI- EKSKLUSI INCLUSION- EXCLUSION PRINCIPLE

Penarikan Contoh Acak Sederhana (Simple Random Sampling)

ANALISIS REGRESI LINIER BERGANDA : PERSOALAN ESTIMASI DAN PENGUJIAN HIPOTESIS

Muniya Alteza

BAB 2 : BUNGA, PERTUMBUHAN DAN PELURUHAN

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

Statistika. Menyajikan Data dalam Bentuk Diagram ;

BAB 6 PRINSIP INKLUSI DAN EKSKLUSI

INTERPOLASI INTERPOLASI LINIER INTERPOLASI KUADRATIK

KOMBINASI PENAKSIR RASIO UNTUK RATA-RATA POPULASI PADA SAMPLING ACAK SEDERHANA MENGGUNAKAN KOEFISIEN REGRESI, KOEFISIEN KURTOSIS DAN KOEFISIEN VARIASI

PETA KENDALI ATRIBUT

; θ ) dengan parameter θ,

Bab II Teori Pendukung

(Drs. Saliman, M.Pd.)

MATEMATIKA INTEGRAL RIEMANN

Menghitung Kinerja Investasi

BAB 2 LANDASAN TEORI. Analisis regresi adalah suatu proses memperkirakan secara sistematis tentang apa yang paling

BAB III ISI. x 2. 2πσ

Transkripsi:

IN086 Temu Pegetahua 5. Data Preprocessg

Megapa Data Kotor? Data yag tdak legkap mugk berasal dar Data berla Not Applcable saat drekam Pertmbaga yag berbeda saat data drekam da saat data daalsa Masalah masalah peragkat keras / peragkat luak Data yag bersk (osy / data yag tdak bear) mugk berasal dar Istrume yag megumpulka data yag salah Kesalaha mausa atau komputer saat etr data Kesalaha saat trasms data Data yag tdak kosste mugk berasal dar Sumber sumber data yag berbeda Pelaggara ketergatuga fugsal (cotoh: memodfkas data yag terhubug) Data duplkat juga perlu dbershka 3

Tugas Tugas Utama dalam Data Preprocessg Pembersha Data Megs la la yag hlag, meghaluska data yag bersk, megdetfkas outler, da meyelesaka ketdakkosstea. Itegras Data Itegras dar bass data, data cube, atau berkas berkas yag beragam Trasformas Data Normalsas da agregas Reduks Data Medapatka represetas yag lebh sedkt dalam volume tetap meghaslka hasl aalss yag sama atau mrp Dkretsas Data Baga dar reduks data tap dega kepetga yag tertetu, khususya utuk data umerk 5

Deskrps Data 7

Megukur Tedes Setral Mea (pegukura aljabar) (sampel vs. populas): Weghted arthmetc mea: Trmmed mea: memagkas la extreme Meda: Sebuah la holstk Mode Nla tegah dar la la berjumlah gajl, atau rata rata la tegah utuk yag laya. Destmaska dega terpolas (utuk data berkelompok) Nla yag mucul palg serg dalam data Umodal, bmodal, trmodal Rumus emprs: x x x w x w / 2 ( meda L ( f meda x N f ) l ) c mea mode 3( mea meda) 9 9

DM-MA/SIF/FTI/UKM/200 Megukur Sebara Data Quartles, outlers da boxplots Quartles: Q (25 th percetle), Q 3 (75 th percetle) Iter-quartle rage: IQR = Q 3 Q Fve umber summary: m, Q, M, Q 3, max Boxplot: akhr dar kotak adalah the quartles, meda dtada, whskers, da megeplot outler satu persatu Outler: basaya la lebh tgg / redah dar.5 x IQR Varace da stadard devas (sample: s, populato: σ) Varace: (algebrac, scalable computato) Stadard devas s (or σ) adalah akar kuadrat dar varace s 2 ( or σ 2) x N x N 2 2 2 2 ) ( x x x x s 2 2 2 2 ] ) ( [ ) (

Aalss Hstogram Tampla grafs dar deskrps kelas statstka dasar Hstogram frekues Sebuah metode grafka yag uvarate Terdr dar sebuah set dar kotak kotak yag mereflekska jumlah atau frekues dar kelas kelas yag ada dalam data 0//204 3

Data preprocessg 5

Data yag Hlag Data tdak selalu harus terseda Cotoh: bayak tuples (pasaga data) yag tdak memlk data yag terekam utuk beberapa atrbutya, sepert peghasla kosume dalam data sales Hlagya data mugk dsebabka oleh Kerusaka strume Ketdakkosstea dega rekama data yag la yag akhrya dhapus Data tdak dmasukka karea kesalahpahama Beberapa data tdak daggap petg waktu d etr Tdak ada daftar hstors atau perubaha dar data Data yag hlag mugk perlu dperkraka laya. DM-MA/SIF/FTI/UKM/200 7

Data Bersk / Nosy Nose: error radom atau varace dar sebuah varabel yag dukur Nla atrbut yag tdak bear mugk dsebabka oleh Istrume pegumpul data yag salah Masalah data etr Masalah trasms data Lmtas tekolog Ketdakkosstea dalam kesepakata peamaa Kesalaha kesalaha la yag membutuhka pembersha data Data duplkat Data tdak legkap Data tdak kosste DM-MA/SIF/FTI/UKM/200 9

Metode Dskretsas Sederhaa: Bg Equal-wdth (dstace) parttog Membag ksara dalam N terval dega ukura yag sama: grd seragam Jka A da B adalah la teredah da tertgg dar atrbut, lebar terval mejad: W = (B A) / N Sagat smpel, tap presetas aka ddomas outler Data skewed tdak tertaga dega bak Equal-depth (frequecy) parttog Membag ksara dalam N terval, setap terval bers sampel yag kra kra sama jumlahya Skala data yag bak Megatur data kategors mugk agak sult 2

Itegras Data Itegras Data: Megkombaska data dar sumber sumber yag berbeda dalam sebuah peympaa yag kohere Skema tegras: cotoh A.cust-d B.cust-# Megtegraska meta data dar berbaga sumber Permasalaha detfkas Ettas: Megdetfkas ettas dua yata dar berbaga sumber, cotoh Bll Clto = Wllam Clto Medeteks da meyelesaka koflk la data Utuk ettas dua yata yag sama, la atrbut dar sumber berbeda mugk berla berbeda Alasa yag mugk: represetas yag berbeda, skala yag berbeda, cotoh ut metrk da ut Brtsh 23

Trasformas Data Peghalusa: meghlagka ose dar data Agregas: meragkum, kostruks kubus data Geeralsas: kosep meyusur hrark Normalsas: dskala utuk masuk dalam ksara yag kecl da tertetu Normalsas m max Normalsas z-score Normalsa dega skala desmal Kostruks atrbut / ftur Atrbut atrbut baru dbuat dar atrbut yag sudah dberka 25

Dskretsas Tga tpe atrbut Nomal la dar set yag tdak berurut, cotoh wara, profes Ordal la dar set yag berurut, cotoh ragkg mlter da akadems Cotuous la rl, cotoh la teger atau real Dskretsas Membag ksara dar la atrbut cotuous mejad terval terval Beberapa algortma klasfkas haya meerma atrbut kategorkal Megurag ukura data dega dskretsas Peyapka utuk aalsa lajuta 27