K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA. Susanti, Shantika Martha, Evy Sulistianingsih INTISARI

dokumen-dokumen yang mirip
IMPUTASI MISSING DATA MENGGUNAKAN METODE K-NEAREST NEIGHBOUR DENGAN OPTIMASI ALGORITMA GENETIKA. Abidatul Izzah 1) Nur Hayatin 2) 1)

PERBANDINGAN KEEFEKTIFAN METODE MOVING AVERAGE DAN EXPONENTIAL SMOOTHING UNTUK PERAMALAN JUMLAH PENGUNJUNG HOTEL MERPATI

Imputasi Missing data Menggunakan Algoritma Pengelompokan Data K-Harmonic Means

OPTIMASI PARAMETER α DAN γ DALAM PEMULUSAN EKSPONENSIAL DUA PARAMETER DENGAN METODE MODIFIKASI GOLDEN SECTION

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika (SESIOMADIKA) 2017 ISBN: Statistika, hal

METODE PARTIAL LEAST SQUARES UNTUK MENGATASI MULTIKOLINEARITAS PADA MODEL REGRESI LINEAR BERGANDA

KAJIAN TEORITIS HYBRIDIZING EXPONENTIAL SMOOTHING DAN NEURAL NETWORK UNTUK PERAMALAN DATA RUNTUN WAKTU

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

KAJIAN METODE IMPUTASI DALAM MENANGANI MISSING DATA. Triyani Hendrawati Staf Pengajar Statistika Universitas Padjadjaran

PENGGUNAAN ALGORITMA NONLINEAR PROGRAMMING UNTUK MENGOPTIMALKAN PARAMETER DALAM METODE PEMULUSAN EKSPONENSIAL SATU PARAMETER

SIMULASI PENGUKURAN KETEPATAN MODEL VARIOGRAM PADA METODE ORDINARY KRIGING DENGAN TEKNIK JACKKNIFE

UJIAN TUGAS AKHIR EKA NOVI NURHIDAYATI. Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember 2012

METODE ORDINARY LEAST SQUARES DAN LEAST TRIMMED SQUARES DALAM MENGESTIMASI PARAMETER REGRESI KETIKA TERDAPAT OUTLIER

PERBANDINGAN METODE BOOTSTRAP DAN JACKKNIFE DALAM MENAKSIR PARAMETER REGRESI UNTUK MENGATASI MULTIKOLINEARITAS

PERFORMA METODE K NEAREST NEIGHBOR IMPUTATION (KNNI) UNTUK MENANGANI MULTIVARIATE MISSING DATA

Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan 1 Abstract

ANALISIS FAKTOR PENANAMAN MODAL DALAM NEGERI, EKSPOR, DAN KONSUMSI PEMERINTAH TERHADAP PDRB KALIMANTAN BARAT DENGAN MODEL DATA PANEL INTISARI

PREDIKSI LUAS PANEN DAN PRODUKSI PADI DI KABUPATEN BANYUMAS MENGGUNAKAN METODE ADAPTIVE NEURO-FUZZY INFERENCE SYSTEM (ANFIS)

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

ISSN: X 77 IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR DANALGORITMA GENETIKA

ALGORITMA k-nearest NEIGHBOR DALAM KLASIFIKASI DATA HASIL PRODUKSI KELAPA SAWIT PADA PT. MINAMAS KECAMATAN PARINDU

dimana n HASIL DAN PEMBAHASAN

IDENTIFIKASI POLA IRIS MENGGUNAKAN METODE BACKPROPAGATION

IV HASIL DAN PEMBAHASAN

JURNAL SAINS DAN SENI ITS Vol. 4, No.2, (2015) ( X Print) A-31

Prediksi Nilai Indeks Harga Konsumen (IHK) Kota Jambi Menggunakan Radial Basis Function Neural Network (RBFNN) dengan Metode Fuzzy C-Means Clustering

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS

Versi Online tersedia di : JURNAL TECH-E (Online)

ESTIMASI PARAMETER MODEL HYBRIDIZING EXPONENTIAL SMOOTHING DAN NEURAL NETWORK PADA HASIL PENGUKURAN MEAN SEA LEVEL SATELIT ALTIMETRI JASON 2

BAB I PENDAHULUAN 1.1. Latar Belakang dan Permasalahan

SIMULASI PERGERAKAN HARGA SAHAM MENGGUNAKAN PENDEKATAN METODE MONTE CARLO

PENENTUAN PARAMATER PADA ALGORITMA KLASIFIKASI K-NEAREST NEIGHBOR BERBASIS ALGORITMA GENETIKA

BAB I PENDAHULUAN. 1.1 Latar Belakang dan Permasalahan

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

Imputasi Misssing Data Menggunakan Metode K-Nearest Neighbour Dengan Optimasi Algoritma Memetika

ISSN: JURNAL GAUSSIAN, Volume 6, Nomor 1, Tahun 2017, Halaman Online di:

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si

Rancang Bangun Aplikasi Prediksi Jumlah Penumpang Kereta Api Menggunakan Algoritma Genetika

BAB II LANDASAN TEORI

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

PERAMALAN CURAH HUJAN KOTA PONTIANAK DENGAN DEKOMPOSISI SENSUS II

PERBANDINGAN METODE COEFFICIENT OF DETERMINATION RATIO DAN REGRESI DIAGNOSTIK DALAM MENDETEKSI OUTLIER PADA ANALISIS REGRESI LINIER BERGANDA

BAB II LANDASAN TEORI

Abidah Elcholiqi, Beta Noranita, Indra Waspada

PERHITUNGAN NILAI EKSPEKTASI RETURN DAN RISIKO DARI PORTOFOLIO DENGAN MENGGUNAKAN MEAN - VARIANCE EFFICIENT PORTFOLIO

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE. Yuli Hastuti

BAB IV ANALISIS HASIL PENGOLAHAN DATA

PERAMALAN BANYAKNYA PELANGGAN LISTRIK MENGGUNAKAN MODEL HARVEY

OPTIMASI PRODUKSI DENGAN METODE RESPONSE SURFACE (Studi Kasus pada Industri Percetakan Koran)

IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR DAN ALGORITMA GENETIKA

PERAMALAN PENJUALAN PRODUKSI TEH BOTOL SOSRO PADA PT. SINAR SOSRO SUMATERA BAGIAN UTARA TAHUN 2014 DENGAN METODE ARIMA BOX-JENKINS

PREDIKSI JUMLAH LULUSAN DAN PREDIKAT KELULUSAN MAHASISWA FMIPA UNTAN TAHUN ANGKATAN 2013/2014 DENGAN METODE RANTAI MARKOV

PENENTUAN JUMLAH CLUSTER OPTIMAL PADA MEDIAN LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE

Penerapan Metode Fuzzy C-Means dengan Model Fuzzy RFM (Studi Kasus : Clustering Pelanggan Potensial Online Shop)

ALGORITMA GENETIKA PADA PEMROGRAMAN LINEAR DAN NONLINEAR

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

Pengolahan Data. Algoritma C4.5 Menghitung entropi : Data Training (75%) = 220 data Data Testing (25%) = 73 data

SISTEM PENDUKUNG KEPUTUSAN PENEMPATAN JURUSAN MAHASISWA BARU MENGGUNAKAN METODE K-NEAREST NEIGHBOR

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

PERBANDINGAN ANALISIS DISKRIMINAN DAN K-NEAREST NEIGHBOR (KNN) UNTUK MENGKLASIFIKASIKAN PENDERITA PENYAKIT TUBERKULOSIS (TB)

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

ANALISIS ALGORITMA ANT SYSTEM (AS) PADA KASUS TRAVELLING SALESMAN PROBLEM (TSP)

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PENAKSIRAN RATAAN DAN VARIANSPOPULASI PADA SAMPEL ACAK TERSTRATIFIKA DENGAN AUXILIARY VARIABLE

PERAMALAN JUMLAH TAMU HOTEL DI KABUPATEN DEMAK MENGGUNAKAN METODE SUPPORT VECTOR REGRESSION

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

PENDUGAAN DATA HILANG DENGAN MENGGUNAKAN DATA AUGMENTATION. Abstract

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

METODOLOGI PENELITIAN

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

LULIK PRESDITA W APLIKASI MODEL ARCH- GARCH DALAM PERAMALAN TINGKAT INFLASI

METODE KUANTITATIF, MENGGUNAKAN BERBAGAI MODEL MATEMATIS YANG MENGGUNAKAN DATA HISTORIES DAN ATAU VARIABLE-VARIABEL KAUSAL UNTUK MERAMALKAN

SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-NEAREST NEIGHBOR (K-NN)

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PEMILIHAN MODEL REGRESI LINIER DENGAN BOOTSTRAP. Tarno. Jurusan Matematika FMIPA UNDIP Semarang. Subanar Jurusan Matematika FMIPA UGM Yogyakarta

Estimasi, Pemilihan Model dan Peramalan Hubungan Deret Waktu

Penentuan Jurusan Sekolah Menengah Atas Menggunakan Metode K-Nearest Neighbor Classifier Pada SMAN 16 Semarang

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

PENERAPAN ALGORITMA K-NEAREST NEIGHBORS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA STMIK SINAR NUSANTARA SURAKARTA

Modified Nearest Neighbor Untuk Prediksi Curah Hujan

ISSN: JURNAL GAUSSIAN, Volume 3, Nomor 3, Tahun 2014, Halaman Online di:

FORECASTING INDEKS HARGA SAHAM GABUNGAN (IHSG) DENGAN MENGGUNAKAN METODE ARIMA

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

ISSN: JURNAL GAUSSIAN, Volume 6, Nomor 1, Tahun 2017, Halaman 1-10 Online di:

BAB 5 KESIMPULAN, KEKURANGAN PENELITIAN DAN SARAN. Dari hasil pengujian peramalan dengan menggunakan metode Fuzzy Mamdani

PENENTUAN HARGA OPSI TIPE EROPA DENGAN METODE BINOMIAL

PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI KABUPATEN DEMAK TAHUN 2012

KOREKSI METODE CONNECTED AMMI DALAM PENDUGAAN DATA TIDAK LENGKAP ABSTRAK

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 4, Tahun 2015, Halaman Online di:

IMPLEMENTASI JARINGAN SYARAF TIRUAN MULTI LAYER FEEDFORWARD DENGAN ALGORITMA BACKPROPAGATION SEBAGAI ESTIMASI NILAI KURS JUAL SGD-IDR

ANALISIS PENJUALAN BAHAN BAKAR MINYAK (BBM) dari PT. PERTAMINA (PERSERO) UPms V SURABAYA dengan METODE ARIMA BOX JENKINS

OPTIMASI KEUNTUNGAN PEMBELIAN MANIK-MANIK DI C.V BURHANI SURABAYA DENGAN MENGGUNAKAN PEMOGRAMAN LINIER

PENERAPAN DATA MINING UNTUK RENCANA SUKSESI SUMBER DAYA MANUSIA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOUR DI PT POS INDONESIA

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

PERBANDINGAN RESIKO INVESTASI BANK CENTRAL ASIA DAN BANK MANDIRI MENGGUNAKAN MODEL GENERALIZED AUTOREGRESSIVE CONDITIONAL HETEROSCEDASTICITY (GARCH)

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Transkripsi:

Buletin Ilmiah Math. Stat. dan Terapannya (Bimaster) Volume 07, No. 1 (2018), hal 9-14. K NEAREST NEIGHBOR DALAM IMPUTASI MISSING DATA Susanti, Shantika Martha, Evy Sulistianingsih INTISARI Missing data adalah suatu informasi yang tidak tersedia dalam suatu data. Missing data mempengaruhi hasil penelitian karena keberadaan missing data dapat mengurangi tingkat akurasi dari hasil penelitian. Missing data dapat diatasi dengan imputasi. Imputasi merupakan suatu metode yang mengatasi missing data dengan mengisi nilai yang hilang dengan suatu nilai berdasarkan informasi lain yang didapat dari data tersebut. Salah satu metode imputasi adalah metode K Nearest Neighbor (KNN). Penelitian ini dilakukan untuk memprediksi nilai yang hilang dengan metode KNN. KNN bekerja dengan menghitung weight mean estimation berdasarkan jumlah K. K adalah jumlah observasi terdekat yang akan digunakan. Dalam penelitian ini, K yang digunakan yaitu K = 1, K = 5, K = 10, K = 15, dan K = 20. Mean Square Error (MSE) dan Mean Absolute Percentage Error (MAPE) digunakan untuk mengetahui ketepatan hasil imputasi. Berdasarkan nilai rata-rata MSE dan MAPE dari 10 replikasi, KNN terbaik pada missing data 10% dan 20% terjadi pada saat K = 10, sedangkan untuk missing data 30% terjadi saat K = 15. Kata kunci : weight mean estimation, MSE, MAPE PENDAHULUAN Data yang lengkap dan berkualitas sangat diharapkan ketika melakukan penelitian dan pengumpulan data. Dalam suatu survei, pada umumnya tidak semua pertanyaan dijawab oleh responden. Ada berbagai alasan beberapa responden tidak menjawab beberapa pertanyaan sehingga terdapat nilai yang kosong atau informasi yang tidak tersedia sehingga membuat data penelitian tidak lengkap. Ketika data penelitian tidak lengkap maka hasil observasi tidak dapat dianalisis dengan baik. Permasalahan data yang tidak lengkap atau data hilang disebut dengan missing data. Missing data adalah suatu keadaan dimana terdapat nilai yang kosong atau nilai yang tidak lengkap dalam data. Pada suatu survei, missing data biasanya terjadi karena beberapa responden tidak menjawab satu atau lebih pertanyaan, hal ini disebabkan karena responden tidak ingin memberikan informasi yang dianggap pribadi dan rahasia. Ada tiga mekanisme hilangnya data yaitu Missing Completely at Random (MCAR), Missing at Random (MAR), dan Not Missing at Random (NMAR)[1]. MCAR adalah hilangnya nilai secara acak, dan MAR adalah terjadinya missing data juga secara acak, namun nilai yang hilang berhubungan dengan nilai pada variabel yang diketahui, tapi tidak pada variabel missing data itu sendiri. NMAR adalah missing data yang terjadi berhubungan dengan variabel yang mengandung missing data itu sendiri. Missing data bisa diatasi dengan tiga cara yaitu Listwise deletion, Pairwise deletion dan imputasi[2]. Listwise deletion mengatasi missing data dengan menghapus observasi yang terdapat missing data. Penggunaan cara ini dirasa kurang efektif karena dapat menghilangkan informasi penting dalam data yang dihilangkan[3]. Pairwise deletion mengatasi missing data dengan menghapus nilai yang mengandung missing data, sehingga pairwise deletion hanya melakukan analisis pada data yang tersedia. Imputasi yaitu mengatasi missing data dengan mengisi nilai yang hilang dengan nilai yang mungkin berdasarkan informasi yang didapat dari nilai-nilai yang diketahui. Beberapa metode imputasi telah dikembangkan untuk meminimalkan dampak negatif dari missing data diantaranya adalah metode mean yang mengganti missing data dengan nilai rata-rata dari suatu variabel[4]. 9

10 SUSANTI, S. MARTHA, E. SULISTIANINGSIH Selain metode mean, missing data juga bisa diatasi dengan metode K Nearest Neighbor. Dalam penelitian ini metode imputasi yang digunakan untuk mengatasi missing data adalah metode K Nearest Neighbor (KNN). KNN melakukan imputasi missing data berdasarkan informasi dari observasi terdekat yang mempunyai kemiripan dengan missing data. Dalam penelitian ini, nilai MSE dan MAPE digunakan untuk mengukur ketepatan hasil imputasi. Nilai MSE dan MAPE dari setiap K dibandingkan untuk mengetahui jumlah K terbaik pada hasil imputasi. K Nearest Neighbor Nearest Neighbor (NN) adalah sebuah metode yang menggunakan algoritma supervised learning. Supervised learning bertujuan untuk menemukan pola baru dalam data dengan menghubungkan pola data yang sudah ada dengan data yang baru. Ada dua jenis algoritma NN yaitu 1NN dan KNN. 1NN atau Nearest Neighbor adalah pendekatan yang melakukan klasifikasi pada 1 data terdekat, sedangkan KNN adalah pendekatan yang melakukan klasifikasi pada K data terdekat, dengan K >1. KNN adalah metode yang digunakan untuk melakukan klasifikasi terhadap obyek berdasarkan beberapa data yang jaraknya paling dekat dengan obyek tersebut. Pada klasifikasi, KNN bekerja dengan menghitung jarak antara data baru (data testing) dengan data yang sudah diketahui kelasnya (data training) menggunakan jarak euclidian. Penanganan missing data dengan KNN diawali dengan menentukan sejumlah tetangga terdekat atau observasi terdekat yang disimbolkan dengan K, kemudian menghitung jarak terkecil dari setiap observasi yang tidak mengandung missing data. Langkah-langkah imputasi missing data dengan metode KNN adalah sebagai berikut : 1. Tentukan parameter K, K adalah jumlah observasi terdekat atau tetangga terdekat yang akan digunakan. 2. Menghitung jarak antara observasi yang mengandung missing data dengan observasi lengkap pada variabel ke-j yang tidak mengandung missing data dengan variabel j lainnya yang bersesuaian dengan rumus jarak euclidian yaitu[5]: d(x, x ) = (1) x x d(x, x ) adalah jarak antara observasi yang mengandung missing data dengan observasi yang tidak mengandung missing data, x adalah nilai dari variabel ke-j pada setiap observasi yang mengandung missing data dengan j = 1,2,, m, x adalah nilai dari variabel lainnya pada setiap observasi yang tidak mengandung missing data dengan j = 1,2,, m. 3. Urutkan jarak berdasarkan observasi yang memiliki nilai jarak terbesar sampai observasi yang memiliki nilai jarak terkecil. 4. Menentukan K observasi terdekat berdasarkan nilai jarak terkecil. 5. Melakukan imputasi missing data dengan menghitung nilai weight mean estimation pada K observasi terdekat yang tidak mengandung nilai missing data dengan rumus [5]: x = dimana x adalah estimasi rata-rata berbobot, v adalah nilai pada data lengkap pada variabel yang mengandung missing data berdasarkan observasi dari k, K adalah jumlah observasi terdekat yang digunakan, k adalah observasi dari K, w adalah bobot observasi tetangga terdekat ke-k dengan rumus w = (, ), dimana d(x, x ) adalah jarak observasi K. (2)

K Nearest Neighbor dalam Imputasi Missing Data 11 EVALUASI HASIL IMPUTASI Evaluasi hasil imputasi missing data dilakukan untuk mengetahui ketepatan hasil imputasi. Dalam penelitian ini digunakan Mean Square Error (MSE) dan Mean Absolute Percentage Error (MAPE) untuk mengetahui ketepatan hasil imputasi. Nilai MSE dan MAPE dari hasil imputasi missing data menunjukkan perbedaan hasil prediksi dengan data aktual. MSE merupakan besaran kesalahan hasil prediksi dengan mengkuadratkan masing-masing kesalahan, semakin kecil nilai MSE maka semakin kecil kesalahan hasil prediksi. MSE dihitung dengan rumus berikut[6]: MSE = (X F ) (3) dimana X merupakan data aktual untuk periode ke-i, F merupakan hasil prediksi untuk periode ke- i dan n merupakan jumlah periode waktu. Sedangkan Mean Absolute Percentage Error (MAPE) merupakan persentase ukuran kesalahan dari hasil prediksi. Semakin kecil nilai MAPE maka semakin kecil kesalahan hasil prediksi, sebaliknya semakin besar nilai MAPE maka semakin besar kesalahan hasil prediksi. Hasil Imputasi sangat baik jika nilai MAPE < 10%, sedangkan hasil imputasi baik jika nilai MAPE diantara 10% dan 20%. MAPE dapat dihitung dengan rumus berikut[6]: MAPE = 100% (4) dimana X merupakan data aktual untuk periode ke-i, F merupakan hasil prediksi untuk periode ke- i dan n merupakan jumlah periode waktu. PEMBAHASAN Data yang digunakan dalam penelitian ini adalah data iris yang diambil pada http://archive.ics.uci.edu/ml/datas/iris. Data iris merupakan kumpulan data multivariate yang di kumpulkan oleh Edgar Anderson dan diperkenalkan oleh Ronald Fisher. Edgar Anderson mengumpulkan data iris untuk mengukur variasi morfologi dari bunga iris yang terdiri atas tiga kelas yaitu iris setosa, iris virgina, dan iris versicolour. Dalam penelitian ini digunakan data iris versicolour. Data iris versicolour terdiri dari 50 observasi dengan empat variabel yaitu v, v, v, v dimana (v ) menyatakan panjang mahkota dari bunga iris, (v ) menyatakan lebar mahkota dari bunga iris, sedangkan (v ) menyatakan panjang kelopak bunga iris, dan (v ) menyatakan lebar dari kelopak bunga iris. Penelitian diawali dengan melakukan simulasi missing data dengan mekanisme MAR dan menggunakan pola missing data univariate. Missing data terjadi pada variabel v. Persentase missing data yang digunakan yaitu 10%, 20% dan 30 %, dimana pada setiap persentase missing data dilakukan 10 kali replikasi. Jumlah K yang digunakan dalam penelitian ini adalah K = 1, K = 5, K = 10, K = 15, dan K = 20. Setelah melakukan simulasi missing data, kemudian dihitung jarak antara data yang mengandung missing data dengan data lengkap. Kemudian urutkan nilai jarak dari nilai jarak terbesar sampai nilai jarak terkecil dan lakukan proses imputasi dengan menggunakan rumus weight mean estimation berdasarkan jumlah K yang digunakan. Hasil imputasi missing data 10% pada salah satu replikasi dapat dilihat pada Tabel 1: Tabel 1. Hasil imputasi missing data 10% Obs Data Asli v 1 NN Hasil imputasi KNN K=5 K=10 K=15 K=20 6 5,7 6,6 6,36 6,18 6,16 6,15 21 5,9 6,3 6,52 6,4 6,42 6,4 23 6,3 6 6,31 6,3 6,27 6,28 29 6 5,6 5,83 5,95 5,99 5,99 32 5,5 5,5 5,54 5,54 5,53 5,53

12 SUSANTI, S. MARTHA, E. SULISTIANINGSIH Pada missing data 10% terdapat 5 data yang dihilangkan yaitu data pada observasi ke 6, 21, 23, 29, dan 32. Pertama-tama dilakukan perhitungan jarak antara observasi missing data dengan observasi lengkap, berikut adalah 20 jarak terkecil antara observasi ke 6 dengan observasi lengkap yang telah diurutkan: d(x, x ) = 0,141 d(x, x ) = 0,316 d(x, x ) = 0,223 d(x, x ) = 0,316 d(x, x ) = 0,223 d(x, x ) = 0,316 d(x, x ) = 0,223 d(x, x ) = 0,331 d(x, x ) = 0,244 d(x, x ) = 0,374 d(x, x ) = 0,244 d(x, x ) = 0,400 d(x, x ) = 0,244 d(x, x ) = 0,412 d(x, x ) = 0,244 d(x, x ) = 0,412 d(x, x ) = 0,282 d(x, x ) = 0,424 d(x, x ) = 0,282 d(x, x ) = 0,447 Setelah didapat 20 jarak terkecil, untuk jarak observasi lain dapat dihitung dengan jarak euclidian. Selanjutnya, dilakukan imputasi missing data dengan weight mean estimation. Berikut adalah imputasi missing data pada observasi ke 6 untuk K = 1, K = 5, K = 10, K = 15, dan K = 20: untuk K=1 yaitu x = untuk K=5 yaitu x = untuk K=10 yaitu x = untuk K=15 yaitu x = untuk K=20 yaitu x = (,), = 6,6 (,) (,), (,), (,), (,), (,), (,) (,) (,) (,) (,), (,), (,), (,), (,) (,) (,) (,) (,), (,), (,), (,), (,) (,) (,) (,) (,), (,), (,), (,), (,) (,) (,) (,) (,) = 6,36 = 6,18 = 6,16 = 6,15 Hasil imputasi pada observasi ke 6 menggunakan K = 1 yaitu 6,6; K = 5 yaitu 6,36; K = 10 yaitu 6,18; K = 15 yaitu 6,16 sedangkan K = 20 yaitu 6,15. Hasil imputasi missing data pada observasi yang lain dapat dihitung dengan cara yang sama seperti pada observasi ke 6. Hasil imputasi pada missing data 20% pada salah satu replikasi dapat dilihat pada Tabel 2 berikut: Obs Data Asli v 1 Tabel 2. Hasil imputasi missing data 20% Hasil imputasi NN KNN K=5 K=10 K=15 K=20 3 6,9 6,7 6,63 6,47 6,42 6,41 4 5,5 5,5 5,64 5,62 5,65 5,66 6 5,7 6,6 6,36 6,16 6,15 6,16 8 4,9 5 5,11 5,14 5,16 5,18 12 5,9 5,7 6,08 5,93 5,92 5,96 13 6 5,5 5,56 5,59 5,62 5,63 14 6,1 6,1 6,45 6,35 6,37 6,34 26 6,6 6,7 6,1 6,14 6,15 6,13 33 5,8 5,8 5,72 5,69 5,69 5,71 49 5,1 5 5,28 5,34 5,4 5,45

K Nearest Neighbor dalam Imputasi Missing Data 13 sedangkan hasil imputasi pada missing data 30% dapat dilihat pada Tabel 3 berikut: Tabel 3. Hasil imputasi missing data 30% Obs Data Asli v 1 NN Hasil imputasi KNN K=5 K=10 K=15 K=20 1 7 6,7 6,38 6,38 6,32 6,17 3 6,9 6,7 6,45 6,32 6,31 5,74 4 5,5 5,5 5,61 5,65 5,67 6,15 7 6,3 6 6,18 6,19 6,19 5,43 11 5 5 5,15 5,26 5,35 5,73 13 6 5,6 5,73 5,69 5,65 6,34 14 6,1 6,6 6,58 6,37 6,34 6,3 24 6,1 6,6 6,34 6,27 6,24 6,1 25 6,4 5,7 5,82 5,87 5,86 5,47 28 6,7 5,9 6,3 6,17 6,2 5,64 31 5,5 5,6 5,59 5,57 5,6 5,58 32 5,5 5,6 5,48 5,52 5,52 6,34 42 6,1 6,6 6,01 6,13 6,14 5,75 43 5,8 5,5 5,69 5,65 5,66 5,76 48 6,2 5,7 5,83 5,87 5,86 5,32 Setelah melakukan proses imputasi, selanjutnya dilakukan evaluasi pada hasil imputasi missing data dengan menghitung nilai MSE dan MAPE pada setiap persentase missing data. Nilai rata-rata MSE dan MAPE pada setiap persentase missing data untuk K = 1, K = 5, K = 10, K = 15, dan K = 20 dapat dilihat pada Tabel 4 berikut: Tabel 4. Rata-rata nilai MSE dan MAPE pada missing data 10% 20% 30% Jumlah K MSE MAPE MSE MAPE MSE MAPE NN 0,1550 5,03% 0,1785 5,30% 0,2296 6,35% K=5 0,1065 4,33% 0,1372 5,25% 0,1694 5,64% K=10 0,0912 4,02% 0,1146 4,83% 0,1525 5,49% K=15 0,0933 4,09% 0,1159 4,87% 0,1522 5,48% K=20 0,0968 4,10% 0,1173 4,93% 0,1530 6,04% Nilai MSE dan MAPE pada Tabel 4 menunjukkan bahwa jumlah K terbaik pada missing data 10% adalah K = 10, dengan persentase kesalahan hasil imputasi terkecil sebesar 4,02%. Demikian juga pada missing data 20% K terbaik pada saat K = 10, dengan tingkat kesalahan hasil imputasi sebesar 4,83%. Pada missing data 30%, K terbaik pada saat K=15 dengan kesalahan hasil imputasi sebesar 5,48%. PENUTUP Berdasarkan penelitian pada hasil imputasi missing data dengan K Nearest Neighbor dapat disimpulkan bahwa hasil imputasi missing data menggunakan KNN lebih baik dari NN karena ratarata nilai MSE dan MAPE dari KNN lebih kecil dari NN. Jumlah K terbaik pada hasil imputasi missing data dipengaruhi oleh besarnya persentase missing data. Semakin besar persentase missing data maka semakin besar pula rata-rata nilai MSE dan MAPE dari setiap K.

14 SUSANTI, S. MARTHA, E. SULISTIANINGSIH UCAPAN TERIMAKASIH Penulis mengucapkan terimakasih kepada Edgar Anderson sebagai pengumpul data iris, dan Ronald Fisher yang telah memperkenalkan data iris. DAFTAR PUSTAKA [1]. Farhangfar, A. Kurgan, L. D.Y, J., 2008, Impact of imputation of missing values on classification error for discrete data, Pattern Recognition, Vol.41, hal 3692-3705. [2]. Davey, A. and Savla, J., 2010, Statistical Power Analysis with Missing Data, Taylor and Francis Group, New York. [3]. Izzah, A. dan Hayatin, N., 2013, Imputasi Missing Data Menggunakan Algoritma Pengelompokan Data K-Harmonic Mean, Seminar Nasional Matematika dan Aplikasinya, Fakultas Sains dan Teknologi Universitas Airlangga., 369-373. [4]. Acuna, E. and Rodrigues, C., 2004, The Treatment of Missing Values and its Effect is the Classifier Accuracy, Classification, Clustering and Data Mining Aplications. Springer Berlin Heidelberg, New York. [5]. Larose, T. D., 2005, Discovering Knowledge in Data, John Wiley & Sons, New Jersey. [6]. Makridakis, S.; Wheelwright, S.C. dan Mcgee, V.E., 1999, Metode dan Aplikasi Peramalan, Binarupa Aksara, Jakarta. SUSANTI SHANTIKA MARTHA EVY SULISTIANINGSIH : Jurusan Matematika FMIPA Untan, Pontianak, susanti534@yahoo.com : Jurusan Matematika FMIPA Untan, Pontianak, shantika.martha@math.untan.ac.id : Jurusan Matematika FMIPA Untan, Pontianak, evysulistianingsih@math.untan.ac.id