PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Transkripsi

1 DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY (LoOP) (STUDI KASUS DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA) Skripsi Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh : Erlita Octaviani PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2014 i

2 OUTLIER DETECTION USING LOCAL OUTLIER PROBABILITY (LoOP) ALGORITHM (STUDY CASE STUDENTS ACADEMIC DATA OF INFORMATICS ENGINEERING STUDY PROGRAM OF SANATA DHARMA UNIVERSITY) A Thesis Presented as Partial Fullfillment of the Requirements To Obtain the Sarjana Komputer Degree In Study Program of Informatics Engineering By : Erlita Octaviani INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2014 ii

3 H ALAMAN PERSETUJUAN SKRIPSI DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY (LoOP) (STUDI KASUS DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA) Oleh : Erlita Octaviani Telah disetujui oleh : Dosen Pembimbing Ridowati Gunawan, S.Kom., M.T. Tanggal.. Desember 2014 iii

4 HALAMAN PENGESAHAN SKRIPSI DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY (LoOP) (STUDI KASUS DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA) Yang dipersiapkan dan disusun oleh : Erlita Octaviani Telah dipertahankan di depan Panitia Penguji Pada tanggal 15 Desember 2014 Dan dinyatakan me menuhi syarat Susunan Panitia Penguji Tanda Tangan Ketua : P.H. Prima Rosa, S.Si., M.Sc. Sekretaris : Sri Hartati Wijono, S.Si., M.Kom. Anggota : Ridowati Gunawan, S.Kom., M.T. Yogyakarta,.. Januari 2015 Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan, (Paulina Heruningsih Prima Rosa, S.Si., M.Sc.) iv

5 HALAMAN PERSEMBAHAN Ada 7 hal yang menghancurkan kita : kekayaan tanpa kerja keras, kesenangan tanpa kesadaran, pengetahuan tanpa karakter, bisnis tanpa moralitas, ilmu pengetahuan tanpa kemanusiaan, ibadah tanpa pengorbanan, dan politik tanpa prinsip (Mahatma Gandhi) Dan bersabarlah, karena sesungguhnya Allah tiada menyia-nyiakan pahala orang-orang yang berbuat kebaikan (Al-Qur an 11:115) Hidup adalah pilihan, segeralah tentukan pilihanmu atau pilihan akan menentukan hidupmu (Nicholas Cage) - JUST DO IT - Karya ini saya persembahkan untuk : Allah SWT Orang tua tercinta Keluarga dan sahabat tersayang v

6 PERNYATAAN KEASLIAN KARYA Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah saya sebutkan dalam kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah. Yogyakarta, 14 Januari 2015 Penulis, Erlita Octaviani vi

7 ABSTRAK Penambangan data merupakan ekstraksi pola terhadap data yang menarik dalam jumlah yang besar. Pola tersebut dikatakan menarik apabila tidak diketahui sebelumnya dan berguna bagi perkembangan ilmu pengetahuan. Data tersebut dapat diolah dengan berbagai teknik penambangan data seperti asosiasi, klasifikasi, clustering dan deteksi outlier. Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam penambangan data. Penelitian tersebut bermanfaat untuk menemukan outlier yang mungkin berguna bagi pengguna. Outlier merupakan sebuah data yang berbeda dibandingkan dengan sifat umum yang dimiliki data lain pada suatu kumpulan data. Pada tugas akhir ini, pendeteksian outlier dilakukan menggunakan algoritma Local Outlier Probability (LoOP). Data yang digunakan adalah data akademik mahasiswa program studi Teknik Informatika Universitas Sanata Dharma, Yogyakarta tahun angkatan 2007 dan Data tersebut terdiri dari data numerik nilai hasil seleksi masuk mahasiswa yang diterima melalui jalur tes tertulis maupun jalur prestasi dan nilai indeks prestasi dari semester satu sampai empat. Hasil dari penelitian ini adalah sebuah perangkat lunak yang dapat digunakan sebagai alat bantu untuk mendeteksi outlier menggunakan algoritma Local Outlier Probability (LoOP). Kata kunci : penambangan data, deteksi outlier, Local Outlier Probability vii

8 ABSTRACT Data mining is the extraction of the data are interesting patterns in large quantities. The pattern is said to be interesting if a previously unknown and useful for the development of science. Such data can be processed by a variety of data mining techniques such as association, classification, clustering and outlier detection. Outlier detection is one of the important research in the field of data mining. The study is useful for finding outliers that may be useful to the user. Outlier is a different data than the common properties owned by other data in a data set. In this thesis, outlier detection is done using algorithms Local Outliers Probability (Loop). The data used is the academic student of Computer Science Sanata Dharma University, Yogyakarta years of 2007 and The data consists of numeric data value of the student admission data from regular tracks and outstanding tracks and accomplishments of the semester index value of one to four. The results of this study is a software that can be used as a tool to detect outliers using Local Outliers Probability algorithm (LOOP). Keywords: data mining, outlier detection, Local Outliers Probability viii

9 LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN KEPENTINGAN AKADEMIS Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dhama Nama : Erlita Octaviani Nomor Mahasiswa : Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul : DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY (STUDI KASUS DATA AKADEMIK MAHASISWA PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS SANATA DHARMA) Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta Pada tanggal 14 Januari 2015 Yang menyatakan, Erlita Octaviani ix

10 KATA PENGANTAR Puji syukur penulis haturkan ke hadirat Tuhan Yang Maha Esa atas segala rahmat dan karunia-nya, sehingga dapat menyelesaikan penelitian tugas akhir yang berjudul Deteksi Outlier Menggunakan Algoritma Local Outlier Probability (Studi Kasus Data Akademik Mahasiswa Program Studi Teknik Informatika Universitas Sanata Dharma). Dalam menyelesaikan keseluruhan penyusunan tugas akhir ini, penulis telah banyak mendapatkan bantuan yang ternilai dari berbagai pihak. Oleh karena itu, pada kesempatan ini penulis dengan segala kerendahan hati ingin mengucapkan banyak terima kasih kepada : 1. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dekan Fakultas Sains dan Teknologi dan juga sebagai dosen penguji atas kritik dan saran yang telah diberikan.. 2. Ibu Ridowati Gunawan, S.Kom., M.T. selaku Ketua Program Studi Teknik Informatika serta selaku dosen pembimbing akademik yang selalu memberikan kesabaran, waktu, saran, dan motivasi kepada penulis. 3. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku Wakil Ketua Program Studi Teknik Informatika serta selaku dosen penguji atas kritik dan saran yang telah diberikan. 4. Ibu Agnes Maria Polina, S.Kom., M.Sc. selaku Dosen Pembimbing Akademik. 5. Semua dosen yang sudah membimbing penulis dan memberikan begitu banyak ilmu yang bermanfaat untuk penulis selama penulis belajar di Universitas Sanata Dharma Yogyakarta. 6. Pihak sekretariat dan laboran yang turut membantu penulis menyelesaikan tugas akhir ini. 7. Kedua orang tua tercinta, Bapak Sis Widyanto dan Ibu Sri Mulyani yang telah memberikan kasih sayang, perhatian, semangat, dan doa sehingga penulis dapat menyelesaikan Tugas Akhir ini. x

11 8. Adik-adik tersayang, Ernanda Rully Novrisanti dan Erwinsyah Rico Agusta yang telah memberikan semangat dan motivasi kepada penulis 9. Chandra Nurseta, terima kasih untuk selalu ada saat suka maupun duka, selalu memberikan semangat, doa dan motivasi kepada penulis 10. Ibu Chatarina Eny Murwaningtyas, M.Si. terima kasih banyak atas bantuan bimbingannya. 11. Daniel Tomi Raharjo, Setyo Resmi Probowati, Agustinus Dwi Budi, Queen Aurellia, terima kasih atas segala bantuan kepada penulis. 12. Felisitas Brillianti, Verena Pratita Aji, Yustina Ayu Ruwidati dan Fidelis Asterina. Terima kasih untuk persahabatan yang indah dan saling mendukung satu sama lain. 13. Kedua rekan skripsi ini, Felisitas Brillianti dan Yustina ayu Ruwidati. Terima kasih telah saling berbagi ilmu serta suka duka dari awal hingga akhir penyelesaian tugas akhir ini. 14. Seluruh teman-teman TI 2010 (HMPS 2010) terima kasih atas kebersamaan dan persaudaraan kita selama menjalani perkuliahan ini. 15. Semua pihak yang berperan baik secara langsung maupun tidak langsung yang tidak bisa disebutkan satu per satu. Penulis berharap, semoga tugas akhir ini dapat memberikan tambahan pengetahuan yang berguna kepada pembaca pada umumnya. Penulis menyadari tugas akhir ini masih memiliki kekurangan, oleh karena itu penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan tugas akhir ini. Yogyakarta, 14 Januari 2015 Penulis xi

12 DAFTAR ISI Halaman Judul... Halaman Judul (Bahasa Inggris)... Halaman Persetujuan... Halaman Pengesahan... Halaman Persembahan... Halaman Pernyataan... Abstrak... Abstract... Halaman Persetujuan Publikasi Karya Ilmiah... Kata Pengantar... Daftar Isi... Daftar Gambar... Daftar Tabel... Daftar Rumus... Daftar Lampiran... i ii iii iv v vi vii viii ix x xii xv xvii xix xx BAB I PENDAHULUAN 1.1 Latar Belakang Rumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Metodologi Penelitian Sistematika Penulisan... 6 BAB II LANDASAN TEORI 2.1 Data Mining Pengertian Data Mining... 8 xii

13 2.1.2 Tahap Data Mining Teknik Data Mining Outlier Pengertian Outlier Dampak Outlier Metode Pendekatan Outlier Algoritma Local Outlier Probability Contoh Perhitungan LoOP BAB III METODOLOGI PENELITIAN 3.1 Data yang dibutuhkan Pengolahan Data BAB IV ANALISIS DAN PERANCANGAN SISTEM 4.1 Identifikasi Sistem Diagram Use Case Narasi Use Case Perancangan Sistem Secara Umum Input Sistem Proses Sistem Output Sistem Perancangan Sistem Diagram Aktivitas Diagram Kelas Analisis Diagram Sequence Diagram Kelas Desain Rincian Algoritma Setiap Method Perancangan Struktur Data Graf Matriks Dua Dimensi Perancangan Antarmuka xiii

14 4.5.1 Tampilan Halaman Awal Tampilan Halaman Utama Tampilan Halaman Bantuan Tampilan Halaman Tentang Tampilan Halaman Keluar Tampilan Halaman Pilih Database Tampilan Halaman Pilih Tabel Tampilan Halaman Pilih File BAB V IMPLEMENTASI PENAMBANGAN DATA 5.1 Implementasi Antarmuka Implementasi Kelas Implementasi Struktur Data BAB VI PENGUJIAN DAN ANALISIS HASIL PENGUJIAN 6.1 Rencana Pengujian Kelebihan dan Kekurangan Sistem BAB VII PENUTUP 7.1 Kesimpulan Saran DAFTAR PUSTAKA LAMPIRAN xiv

15 DAFTAR GAMBAR Gambar 2.1 Tahap data mining dalam proses KDD Gambar 2.2 Data set outlier Gambar 3.1 Database gudangdata Gambar 3.2 Tabel fact_lengkap2 dalam database gudangdata Gambar 3.3 Isi tabel fact_lengkap2 dalam database gudangdata Gambar 3.4 Perhitungan jarak mahasiswa angkatan 2007 jalur tes Gambar 3.5 Pencarian kdistance pada data mahasiswa angkatan 2007 jalur tes Gambar 3.6 Pencarian kdistance neighborhood dari data mahasiswa angkatan 2007 jalur tes Gambar 3.7 Perhitungan standard distance dari data mahasiswa angkatan 2007 jalur tes Gambar 3.8 Pencarian probability set distance dari data mahasiswa angkatan 2007 jalur tes Gambar 3.9 Perhitungan probability local outlier factor dari data mahasiswa angkatan 2007 jalur tes Gambar 3.10 Perhitungan agregat probability local outlier factor dari data mahasiswa angkatan 2007 jalur tes Gambar 3.11 Perhitungan local outlier probability dari data mahasiswa angkatan 2007 jalur tes Gambar 4.1 Ilustrasi struktur data graf Gambar 4.2 Tampilan Halaman Awal Gambar 4.3 Tampilan Halaman Utama - Preprocessing Gambar 4.4 Tampilan Halaman Utama - Deteksi Gambar 4.5 Tampilan Halaman Bantuan Gambar 4.6 Tampilan Halaman Tentang Gambar 4.7 Tampilan Halaman Konfirmasi Keluar Gambar 4.8 Tampilan Halaman Pilih Database xv

16 Gambar 4.9 Tampilan Halaman Pilih Tabel Gambar 4.10 Tampilan Halaman Pilih File Gambar 5.1 Implementasi halaman awal Gambar 5.2 Implementasi halaman utama tab preprocessing Gambar 5.3 Implementasi JFileChooser Gambar 5.4 Proses input data Gambar 5.5 Implementasi seleksi atribut Gambar 5.6 Implementasi halaman utama tab deteksi outlier Gambar 5.7 Tampilan deteksi outlier Gambar 5.8 Tampilan hasil seleksi LoOP Gambar 5.9 Tampilan save dialog Gambar 5.10 Implementasi halaman pilih database Gambar 5.11 Proses konfigurasi database Gambar 5.12 Proses koneksi berhasil Gambar 5.13 Implementasi halaman pilih tabel Gambar 5.14 Hasil input data dari database Gambar 5.15 Implementasi halaman bantuan Gambar 5.16 Implementasi halaman tentang Gambar 5.17 Implementasi halaman konfirmasi keluar Gambar 5.18 Error message input data Gambar 5.19 Error message konfigurasi database Gambar 5.20 Error message input data Gambar 5.21 Error message input data minpts kosong Gambar 5.22 Error message input data minpts non numerik Gambar 5.23 Error message input data lamda kosong Gambar 5.24 Error message input data lamda non numerik Gambar 5.25 Error message input data batas outlier kosong Gambar 5.26 Error message input data batas outlier numerik xvi

17 DAFTAR TABEL Tabel 3.1 Contoh data atribut nil1 nil5 sebelum dinormalisasi Tabel 3.2 Contoh data atribut nil1 nil5 sesudah dinormalisasi Tabel 3.3 Contoh data atribut nilai final sebelum dinormalisasi Tabel 3.4 Contoh data atribut nilai final sesudah dinormalisasi Tabel 3.5 Data akademik mahasiswa angkatan 2007 jalur tes tertulis Tabel 4.1 Tabel keterangan diagram kelas analisis Tabel 4.2 Ilustrasi matriks 2 dimensi Tabel 4.3 Ilustrasi matriks 2 dimensi setelah perhitungan jarak antar verteks Tabel 5.1 Implementasi kelas Tabel 6.1 Tabel rencana pengujian blackbox Tabel 6.2 Tabel pengujian input data Tabel 6.3 Tabel pengujian koneksi basis data Tabel 6.4 Tabel pengujian seleksi atribut Tabel 6.5 Tabel pengujian deteksi outlier Tabel 6.6 Tabel pengujian simpan hasil deteksi outlier Tabel 6.7 Tabel jumlah outlier mahasiswa Teknik Informatika angkatan 2007 dan 2008 jalur tes tertulis semester 1 dengan nilai minpts dan lamda yang berubah-ubah Tabel 6.8 Tabel Data Outlier Mahasiswa Teknik Informatika Angkatan 2007 dan 2008 Jalur Tes Tertulis Semester 1 dengan Nilai k yang berubah-ubah, Lamda = 1 dan batas outlier = 0, Tabel 6.9 Tabel jumlah outlier mahasiswa Teknik Informatika angkatan 2007 dan 2008 jalur prestasi semester 1 dengan nilai minpts dan lamda yang berubah-ubah Tabel 6.10 Tabel Data Outlier Mahasiswa Teknik Informatika Angkatan 2007 dan 2008 Jalur Prestasi Semester 1 dengan Nilai k yang berubah-ubah, Lamda = 1 dan batas outlier = 0, xvii

18 Tabel 6.11 Tabel jumlah outlier mahasiswa Teknik Informatika angkatan 2007 dan 2008 jalur tes tertulis dan prestasi semester 1 dengan nilai minpts dan lamda yang berubah-ubah Tabel 6.12 Tabel Data Outlier Mahasiswa Teknik Informatika Angkatan 2007 dan 2008 Jalur Tes Tertulis dan Jalur Prestasi Semester 1 dengan Nilai k yang berubah-ubah, Lamda = 1 dan batas outlier = 0, Tabel 6.13 Data nilai akademik mahasiswa Teknik Informatika angkatan Tahun 2007 yang diterima melalui jalur tes tertulis yang digunakan untuk perbandingan perhitungan manual dan sistem 116 Tabel 6.14 Hasil perhitungan manual Tabel 6.15 Tabel hasil perhitungan sistem Tabel 6.16 Tabel hasil outlier untuk data mahasiswa Teknik Informatika Angkatan 2007 dan 2008 jalur tes tertulis Tabel 6.17 Tabel hasil outlier untuk data mahasiswa Teknik Informatika Angkatan 2007 dan 2008 jalur prestasi Tabel 6.18 Tabel hasil outlier untuk data mahasiswa Teknik Informatika Angkatan 2007 dan 2008 jalur tes tertulis dan prestasi xviii

19 DAFTAR RUMUS Rumus 2.1 Rumus jarak Euclidean distance Rumus 2.2 Rumus standard distance Rumus 2.3 Rumus probabilistic set distance Rumus 2.4 Rumus probabilistic local outlier factor Rumus 2.5 Rumus agregat probabilistic local outlier factor Rumus 2.6 Rumus local outlier probability Rumus 2.7 Rumus error function Rumus 3.1 Rumus min-max normalization xix

20 DAFTAR LAMPIRAN Lampiran 1 Diagram use case Lampiran 2 Deskripsi use case Lampiran 3 Narasi use case Lampiran 4 Proses umum sistem pendeteksi outlier Lampiran 5 Diagram aktivitas Lampiran 6 Diagram kelas analisis Lampiran 7 Diagram sequence Lampiran 8 Diagram kelas desain Lampiran 9 Diagram kelas Lampiran 10 Listing Program Lampiran 11 Data set Lampiran 12 Outlier Plot Data Akademik Mahasiswa Teknik Informatika Angkatan Jalur Tes Tertulis Lampiran 13 Outlier Plot Data Akademik Mahasiswa Teknik Informatika Angkatan Jalur Prestasi Lampiran 14 Outlier Plot Data Akademik Mahasiswa Teknik Informatika Angkatan Jalur Tes Tertulis dan Jalur Prestasi xx

21 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang akurat sangat dibutuhkan dalam kemajuan teknologi informasi sekarang ini. Namun kebutuhan informasi yang tinggi kadang tidak diimbangi dengan penyajian informasi yang memadai, sehingga sering kali informasi tersebut masih perlu digali ulang dari kumpulan data yang luas. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai jenis data jauh meninggalkan kemampuan untuk menganalisis, meringkas, dan mengekstrak knowledge dari data tersebut. Metode tradisional untuk menganalisis data yang ada tidak dapat menangani data dalam jumlah besar. Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengindentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar (Turban et al. 2005). Data mining adalah bagian dari proses KDD (Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon & Last, 2000). Deteksi outlier pada sekumpulan data adalah salah satu bidang penelitian yang terus berkembang dalam topik data mining. Penelitian ini sangat bermanfaat untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, penggelapan asuransi, diagnosa medis, dan sebagainya. Berbagai macam metode telah dikembangkan baik berdasarkan teknik ataupun jenis data yang dijadikan obyek. Untuk set data numerik, ada banyak teknik yang telah dikembangkan seperti statistic based, distance 1

22 2 based, density based, clustering based, subspace based, dan lain-lain (Han & Kamber, 2006). Metode density based merupakan gagasan outlier berdasarkan bobot / derajat outlier berdasarkan nilai. Salah satu algoritma dengan metode density based adalah algoritma Local Outlier Probability (LoOP). Algoritma Local Outlier Probability (LoOP) adalah metode local density based yang menggunakan beberapa konsep statistik untuk menghasilkan skor akhir. Algoritma ini menggabungkan keunggulan dari kedua pendekatan tersebut. Metode local density based tidak menganggap data mengikuti setiap distribusi dan penalaran matematika pada model statistik. Skor LoOP merupakan probabilitas bahwa suatu titik tertentu adalah local density outlier. Probabilitas ini memungkinkan perbandingan yang mudah dari titik data dengan data yang sama ditetapkan serta seluruh set data yang berbeda (Kriegel et al. 2009). Dalam perkembangannya, teknik data mining juga digunakan untuk meneliti dalam berbagai bidang. Salah satunya adalah di bidang pendidikan. Banyak sekali penelitian dilakukan dalam bidang pendidikan. Universitas Sanata Dharma merupakan salah satu perguruan tinggi di kota Yogyakarta yang memiliki banyak data seperti data akademik mahasiswa yang meliputi data nilai tes Penerimaan Mahasiswa Baru (PMB) dan data nilai Indeks Prestasi per Semester (IPS). Untuk menjamin dan mempertahankan mutu, setiap prodi Universitas Sanata Dharma secara rutin melakukan evaluasi sisip program. Evaluasi ini untuk mengetahui kemampuan setiap mahasiswa dan untuk memutuskan apakah mahasiswa tersebut harus dipertahankan atau harus dikeluarkan (DO). Dalam memutuskan hasil evaluasi tersebut maka seorang Kaprodi harus memperhatikan riwayat akademik setiap mahasiswa dengan membandingkan nilai hasil tes PMB dengan nilai akademik semester 1 sampai 4. Banyak faktor yang menjadi penghalang bagi mahasiswa dalam mencapai dan mempertahankan nilai tinggi yang mencerminkan usaha mereka secara keseluruhan selama masa pembelajaran. Faktor tersebut dapat

23 3 ditargetkan oleh pihak universitas sebagai tindakan mengembangkan strategi untuk meningkatkan prestasi mahasiswa dan meningkatkan kinerja akademik dengan cara memantau perkembangan kinerja mereka. Oleh karena itu, evaluasi kinerja merupakan salah satu dasar untuk memantau perkembangan prestasi mahasiswa. Algoritma Local Outlier Probability dapat diimplementasikan pada sekumpulan data numerik untuk mendeteksi adanya outlier. Salah satu contoh data numerik adalah data akademik mahasiswa yang berupa nilai hasil tes PMB dan nilai IPS. Sejumlah mahasiswa yang memiliki data akademik serupa satu sama lain berarti masuk ke dalam kelompok bukan outlier. Mahasiswa yang tidak memiliki kemiripan data akademik dengan mahasiswa manapun berarti memiliki data akademik yang unik dibandingkan mahasiswa lainnya. Mahasiswa ini akan dianggap sebagai outlier. Berdasarkan hasil deteksi outlier, pihak universitas dapat memperoleh informasi mengenai mahasiswa dengan data akademik yang berbeda atau unik dibandingkan mahasiswa lainnya. Data unik ini dapat dihasilkan dari nilai IPS mahasiswa yang sangat tinggi atau sangat rendah di tiap semester. Selain itu data akademik yang unik juga berasal dari tinggi rendahnya nilai tes PMB mahasiswa. Sebagai contoh, sejumlah mahasiswa dengan nilai IPS dan nilai tes PMB yang tinggi akan tergabung dalam sebuah kelompok yang sama. Kemudian sejumlah mahasiswa yang memiliki nilai IPS dan nilai PMB yang rendah juga akan tergabung dalam sebuah kelompok yang sama. Pihak universitas dapat menganalisis data diri mahasiswa tersebut untuk menemukan faktor tertentu yang berpengaruh pada keunikan data akademik mahasiswa tersebut. Oleh karena itu pada penelitian ini penulis ingin melakukan penelitian menggunakan algoritma Local Outlier Probability (LoOP) untuk mendeteksi outlier dari data nilai IPS mahasiswa dengan membandingkan hasil tes PMB mahasiswa tersebut. Data yang dipakai adalah data akademik

24 4 mahasiswa Teknik Informatika Universitas Sanata Dharma angkatan Rumusan Masalah Berdasarkan latar belakang di atas, rumusan masalah dalam penelitian ini adalah : 1. Bagaimana algoritma Local Outlier Probability (LoOP) dapat mendeteksi outlier dari data nilai akademik mahasiswa? 1.3 Batasan Masalah Batasan masalah pada penelitian ini adalah sebagai berikut : 1. Penggunaan algoritma Local Outlier Probability (LoOP) yang digunakan sebagai sarana untuk mendeteksi outlier pada kumpulan data numerik nilai PMB dan nilai IPS mahasiswa Teknik Informatika Universitas Sanata Dharma. 2. Data yang digunakan adalah kumpulan data numerik nilai PMB dan nilai IPS mahasiswa Teknik Informatika Universitas Sanata Dharma angkatan Tujuan Penelitian Tujuan dari penelitian ini adalah sebagai berikut : 1. Menerapkan algoritma Local Outlier Probability (LoOP) untuk mendeteksi outlier pada kumpulan data numerik nilai PMB dan nilai IPS mahasiswa Teknik Informatika Universitas Sanata Dharma.

25 5 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah sebagai berikut : 1. Menambah pengetahuan tentang kemampuan algoritma Local Outlier Probability (LoOP) dalam mendeteksi outlier dengan studi kasus data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma. 2. Memberikan informasi kepada pihak Universitas dalam mendeteksi anomali data yang ada pada data akademik mahasiswa. 1.6 Metodologi Penelitian Metodologi yang digunakan dalam penelitian ini adalah : 1. Studi Pustaka Metode ini merupakan salah satu metode penelitian yang dilakukan dengan cara mempelajari hal-hal yang berkaitan dengan deteksi outlier menggunakan algoritma Local Outlier Probability (LoOP) dan mengumpulkan informasi yang didapat dari berbagai sumber, diantaranya adalah artikel, karya ilmiah terdahulu, dan website internet. 2. Teknik Data Mining Pada metode ini menggunakan metode KDD (Knowledge Discovery in Databases) yang dikemukakan oleh Jiawei Han dan Kamber. Langkahlangkahnya adalah sebagai berikut : a. Penggabungan Data (Data Integration) Proses menggabungkan data dari beberapa sumber agar data dapat terangkum ke dalam tempat penyimpanan atau satu tabel yang utuh. b. Seleksi Data (Data Selection) Proses pemilihan atribut-atribut yang relevan untuk dilakukan penambangan data. Sedangkan, atribut yang tidak sesuai akan dihilangkan. c. Transformasi Data (Data Transformation) Pada proses ini data yang sudah diseleksi selanjutnya ditransformasikan ke dalam bentuk yang sesuai untuk ditambang.

26 6 d. Penambangan Data (Data Mining) Proses mengaplikasikan metode yang tepat untuk mendapatkan pola pada suatu kumpulan data. Dalam penelitian ini, metode yang digunakan adalah metode analisis outlier dengan menggunakan pendekatan density based. Algoritma yang digunakan untuk mendeteksi outlier adalah algoritma Local Outlier Probability (LoOP). e. Evaluasi Pola (Pattern Evaluation) Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. f. Presentasi Pengetahuan (Knowledge Presentation) Pada tahap ini pola yang telah didapat selanjutnya direpresentasikan kepada pengguna ke dalam bentuk yang lebih mudah untuk dipahami. 1.7 Sistematika Penulisan Untuk mengetahui secara ringkas permasalahan dalam penulisan tugas akhir ini, maka digunakan sistematika penulisan yang bertujuan untuk mempermudah pembaca menelusuri dan memahami tugas akhir ini. BAB I PENDAHULUAN Pada bab ini penulis menguraikan tentang latar belakang secara umum, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian serta sistematika penulisan secara keseluruhan. BAB II LANDASAN TEORI Bab ini berisi uraian tentang alur pikir dan perkembangan keilmuan topik kajian.

27 7 BAB III METODOLOGI PENELITIAN Bab ini menjelaskan tentang metode yang dipakai dalam penelitian dan pembuatan aplikasi sebagai implementasi BAB IV ANALISIS DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa sistem dan perancangan sistem yang akan dibangun dalam penelitian ini. BAB V IMPLEMENTASI SISTEM Bab ini menjelaskan tentang implementasi sistem pendeteksi outlier menggunakan algoritma Local Outlier Probability menggunakan java. BAB VI PENGUJIAN DAN ANALISIS HASIL PENGUJIAN Bab ini menjelaskan pengujian setiap proses yang ada dalam sistem kemudian menjelaskan analisa dari hasil pengujian tersebut. BAB VII KESIMPULAN DAN SARAN Bab ini berisi kesimpulan yang dapat ditarik dari penelitian setelah melakukan uji coba dan analisa hasil. Kesimpulan ini merupakan jawaban dari rumusan masalah dalam penelitian ini. Pada bab ini juga berisi saran untuk pengembangan sistem ini.

28 BAB II LANDASAN TEORI 2.1 Data Mining Pengertian Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono, 2007). Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semi otomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhan dalam jumlah besar (Witten & Frank, 2005). Secara sederhana, data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies & Beynon, 2004). Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2007). Menurut Gatner Group, data mining adalah suatu proses menemukan hubungan yang berarti, pola dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan, dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika. Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). 8

29 9 Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor antara lain (Larose, 2005) : a. Pertumbuhan yang cepat dalam kumpulan data. b. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang handal. c. Adanya peningkatan akses data melalui navigasi web dan intranet. d. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi. e. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi). f. Perkembangan yang hebat dalam kemampuan komputasi dan dan pengembangan kapasitas media penyimpanan. Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi, misalnya dalam dimensi produk, kita dapat melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu hubungan juga dapat dilihat antara 2 atau lebih atribut dan 2 atau lebih obyek (Ponniah, 2001). Pemanfaatan data yang ada di dalam sistem informasi untuk menunjang kegiatan pengambilan keputusan, tidak cukup hanya mengandalkan data operasional saja, diperlukan suatu analisis data untuk menggali potensi-potensi informasi yang ada. Para pengambil keputusan berusaha untuk memanfaatkan gudang data yang sudah dimiliki untuk menggali informasi yang berguna membantu mengambil keputusan, hal ini mendorong munculnya cabang ilmu baru untuk mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam jumlah besar. Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu-ilmu lain seperti database system, data warehousing,

30 10 statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han & Kamber, 2006). Penggunaan teknik data mining diharapkan dapat memberikan pengetahuanpengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi informasi yang berharga. Menurut Bonnie O Neil (1997, p522), Data mining adalah suatu proses yang mengubah data menjadi informasi dimana ini merupakan proses pencarian data dan relasi yang tersembunyi dalam data Tahap Data Mining Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 2.1. Tahaptahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base. Menurut Jiawei Han dan Kamber, proses KDD digambarkan sebagai berikut : Gambar 2.1 Tahap data mining dalam proses KDD

31 11 Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data. Datadata yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data terebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60% dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain : 1. Pembersihan data (Data Cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya. 2. Integrasi Data (Data Integration) Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa

32 12 menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. 3. Seleksi Data (Data Selection) Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. 4. Transformasi Data (Data Transformation) Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagibagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 5. Penambangan Data (Data Mining) Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. 6. Evaluasi Pola (Pattern Evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya

33 13 umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. 7. Presentasi Pengetahuan (Knowledge Presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining Teknik Data Mining Dengan definisi data mining yang luas, ada banyak jenis metode analisis yang dapat digolongkan dalam data mining. Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan: 1. Association Rule Mining Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan dengan studi tentang apa bersama apa. Sebagai contoh dapat berupa berupa studi transaksi di supermarket, misalnya seseorang yang membeli shampoo bersamaan dengan conditioner. Pada kasus ini berarti shampoo bersama dengan conditioner. Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis. Aturan asosiasi ingin

34 14 memberikan informasi tersebut dalam bentuk hubungan if-then atau jika-maka. Aturan ini dihitung dari data yang sifatnya probabilistik (Santosa, 2007). Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang tersebut. Analisis asosiasi dikenal juga sebagai salah satu metode data mining yang menjadi dasar dari berbagai metode data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu prosentase kombinasi item tersebut. dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif. Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007). 2. Classification Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu obyek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-maka, berupa pohon keputusan, formula matematis atau neural network. Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya

35 15 mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 3. Clustering Clustering termasuk metode yang sudah cukup dikenal dan banyak dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data mining masih melakukan berbagai usaha untuk melakukan perbaikan model clustering karena metode yang dikembangkan sekarang masih bersifat heuristic. Usaha-usaha untuk menghitung jumlah cluster yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode yang sekarang, tidak bisa menjamin hasil pengklasteran sudah merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data/obyek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Dalam clustering metode ini berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam clustercluster yang lain. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya (Santosa, 2007). 4. Outlier Analysis Database dapat mengandung obyek data yang tidak sesuai dengan sifat umum atau model data. Obyek data tersebut adalah outlier. Outlier merupakan obyek data yang tidak mengikuti perilaku umum dari data. Outlier dapat dianggap sebagai pengecualian atau noise. Analisis data outlier dinamakan outlier mining. Teknik ini berguna untuk fraud detection (deteksi penipuan) dan rare events analysis (analisis kejadian langka). Outlier dapat dideteksi dengan

36 16 menggunakan tes statistik yang mengasumsikan distribusi atau probabilitas model data menggunakan distance measures, dimana obyek yang memiliki jarak yang jauh dari klaster-klaster lainnya dianggap outlier atau anomali. 5. Decision Tree Dalam decision tree tidak menggunakan vector jarak untuk mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut yang bernilai nominal. Sebagai contoh obyeknya adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan nilai-nilai atribut ini, kemudian dibuat decision tree untuk menentukan suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut diberikan (Santosa, 2007). Decision tree sesuai digunakan untuk kasus-kasus yang keluarannya bernilai diskrit. Walaupun banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri yang cocok untuk diterapkannya decision tree adalah sebagai berikut : 1.) Data dinyatakan dengan pasangan atribut dan nilainya 2.) Label/keluaran data biasanya bernilai diskrit 3.) Data mempunyai missing value (nilai dari suatu atribut tidak diketahui) Dengan cara ini akan mudah mengelompokkan obyek ke dalam beberapa kelompok. Untuk membuat decision tree perlu memperhatikan hal-hal berikut ini : 1. Atribut mana yang akan dipilih untuk pemisahan obyek. 2. Urutan atribut mana yang akan dipilih terlebih dahulu. 3. Struktur tree.

37 17 4. Kriteria pemberhentian. 5. Pruning. 2.2 Outlier Pengertian Outlier Outlier merupakan kumpulan data yang dianggap memiliki sifat yang berbeda, tidak konsisten dibandingkan dengan kebanyakan data lainnya (Han & Kamber, 2006). Adanya data outlier ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain dan juga merupakan pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data (Soemartini, 2007). Analisis outlier dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi outlier (nilai atributnya obyek tsb, signifikan berbeda dengan nilai atribut obyek lainnya ) atau exception mining. Gambar 2.2 data set outlier Beberapa penyebab adanya outlier, yaitu : Data berasal dari sumber yang berbeda Variasi natural data itu sendiri Error pada saat pengukuran atau pengumpulan data

38 18 Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya Sebagai ilustrasi, pada pendapatan toko roti Amanah pada bulan Januari sampai Agustus. Pada bulan Januari pendapatan sekitar Rp 150 ribu, Febuari Rp 300 ribu, Maret Rp 200 ribu, April Rp 150 ribu, Mei Rp 130 ribu, Juni Rp 200 ribu, Juli Rp 300 ribu, dan Agustus Rp 1 juta. Dari data tersebut sangat tampak bahwa nilai 1 juta relatif jauh dibandingkan pendapatan di bulan-bulan sebelumnya Dampak Outlier Deteksi outlier merupakan suatu teknik untuk mencari obyek dimana obyek tersebut mempunyai perilaku berbeda dibandingkan obyek-obyek pada umumnya. Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik penambangan data. Penelitian ini bermanfaat untuk mendeteksi penyalahgunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, analisis medis, segmentasi data pelanggan yang berkaitan dengan pemasaran barang. Keberadaan data outlier akan mengganggu dalam proses analisis data dan harus dihindari dalam banyak hal. Outlier dapat menyebabkan hal-hal berikut ini : Residual yang besar dari model yang terbentuk Varians pada data tersebut menjadi lebih besar Taksiran interval memiliki rentang yang lebar

39 Metode Pendekatan Outlier Menurut Jiawei Han dan Kamber, teknik data mining dapat digunakan untuk mendeteksi adanya suatu outlier pada sebuah dataset. Teknik data mining yang digunakan adalah metode deteksi outlier dengan menggunakan metode statistical distribution based, distance based, density based, dan deviation based. 1.) Statistical Distribution based Dalam metode ini data diasumsikan sebagai sebuah hipotesis kerja. Setiap data obyek di dalam dataset dibandingkan terhadap hipotesis kerja. Data yang dapat diterima maka akan masuk dalam hipotesis kerja, sedangkan data yang ditolak atau tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi hipotesis alternatif (outlier). Kelebihan metode ini jika pengetahuan data akan jenis distribut data dan jenis uji yang diperlukan sudah cukup, maka pendekatan statistik sangat efektif. Akan tetapi kekurangan dari metode pendekatan ini adalah sulit untuk menemukan fungsi distribusi dan jenis uji yang tepat untuk data dikarenakan kebanyakan uji hanya cocok untuk single atribut. Selain itu juga ditemukan kesulitan dalam menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi. 2.) Distance based Metode ini adalah sebuah metode deteksi outlier dengan menghitung jarak pada obyek tetangga terdekat (nearest neighbor). Di dalam pendekatan ini sebuah obyek melihat obyekobyek local neighborhod yang didefinisikan sebagai k-nearest neighbor. Jika ketetanggaan sebuah obyek relatif dekat maka obyek tersebut dikatakan normal, namun jika ketetanggaan antar obyek relative jauh maka obyek tersebut dikatakan tidak normal (outlier).

40 20 Kelebihan dari metode pendekatan ini adalah sederhana. Akan tetapi untuk menangani basis data yang besar akan memakan biaya besar, sangat bergantung dengan nilai parameter yang dipilih dan juga tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah berbeda. 3.) Density based Metode density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk pencarian outlier ini hanya membutuhkan sebuah parameter yaitu k, k adalah jangkauan atau jumlah tetangga terdekat yang digunakan untuk mendefinisikan local Neighborhood suatu obyek. 4.) Deviation based Metode deviation based tidak menggunakan pengujian statistik ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier. Sebaliknya metode ini mengidentifikasi sebuah outlier dengan memeriksa karakteristik utama dari obyek dalam sebuah kumpulan. Obyek yang memiliki karakteristik diluar karakteristik utama maka akan dianggap sebagai outlier. Kelebihan dari metode pendekatan ini adalah dapat digunakan untuk data yang kepadatannya berbeda. Namun pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan.

41 Algoritma Local Outlier Probability Pada penelitian ini, penulis menggunakan algoritma Local Outlier Probability (LoOP) untuk mendeteksi adanya outlier dalam data akademik mahasiswa TI Universitas Sanata Dharma angkatan Algoritma ini bekerja pada k-neighborhood obyek. LoOP adalah metode local density based yang menggunakan beberapa konsep statistik untuk menghasilkan skor akhir. Ini menggabungkan keunggulan dari kedua pendekatan tersebut. Metode local density based tidak menganggap data mengikuti setiap distribusi dan penalaran matematika pada model statistik. Skor LoOP merupakan probabilitas bahwa suatu titik tertentu adalah local density outlier. Probabilitas ini memungkinkan perbandingan yang mudah dari titik data dengan data yang sama ditetapkan serta seluruh set data yang berbeda (Kriegel et al. 2009). Langkah-langkah perhitungan LoOP adalah sebagai berikut. Normalisasi Faktor dinotasikan dengan. 1. Menghitung k-distance dari setiap obyek (o) Tujuan dari perhitungan k-distance ini adalah untuk menentukan tetangga dari o, secara sederhana k-distance dari sebuah obyek o adalah jarak maksimal dari obyek tertentu terhadap tetangga terdekatnya dan di notasikan dengan k-distance(o). Untuk menghitung k-distance, langkah awal adalah menghitung jarak masing-masing obyek dengan menggunakan rumus euclidean distance seperti di bawah ini : d(i,j) = (2.1) setelah menghitung jarak, kemudian menentukan besar k dimana data sebanyak k tersebut tidak lebih besar dari nilai kdistance(o).

42 22 2. Menghitung jumlah tetangga terdekat (k-distance neighborhood) dari setiap obyek o k-distance neighborhood suatu obyek o dinotasikan Nk-distance(o), atau Nk(o) dimana berisi setiap obyek dengan jarak tidak lebih besar dari k- distance (o). 3. Menghitung standard distance σ(o,s) atau standar deviasi dari jarak disekitar o Untuk konteks lokal o dalam S. Jika kita gunakan = erf-1 sebaliknya (galat), di mana erf menunjukkan kesalahan fungsi Gaussian, dalam estimasi kepadatan S, kita dapat mensimulasikan gagasan statistik klasik dan notasi outlier didefinisikan sebagai obyek yang menyimpang. Nilai-nilai secara empiris adalah aturan ( three sigma ), nilai empiris itu adalah = 1 = 68%, = 2 = 95%, dan = 3 = 99,7%. Jadi semakin besar nilai lamda maka akan semakin memperkecil ditemukan error / noise. Dalam hal ini disarankan menggunakan lamda 2. Untuk menghitung standard distance dari obyek di Nk(o) dengan rumus = σ(o,s) = (2.2) Keterangan : σ : standard distance / standar deviasi S : himpunan tetangga dari obyek o s : tetangga dari obyek o / anggota dari S S : banyak anggota dari himpunan S 4. Menghitung Probabilistic set distance (pdist) pdist(, o, S) Setelah ditemukan nilai standard distance, selanjutnya nilai tersebut akan digunakan untuk menghitung probabilistic set distance. Probabilistic set distance dapat memperkirakan tingkat kepadatan obyek o terhadap tetangganya. Parameter lamda memberikan control eror terhadap

43 23 kepadatan. Bagaimanapun, normalization factor ( ) memberikan pengaruh terhadap skore LoOP. Rumus Probabilistic set distance (pdist) pdist(, o, Nk(o)) sebagai berikut : pdist(,o,s) =.σ(o, S) (2.3) 5. Menghitung Probabilistic Local Outlier Factor yang merupakan ratio perkiraan kepadatan plof(,s(o)) = -1 (2.4) 6. Menghitung agregat Probabilistic Local Outlier Factor nplof( ) = nplof( ) =. (2.5) keterangan : D : jumlah dataset dari obyek o 7. Menghitung Local Outlier Probability (LoOP) LoOP S (o) = max (0, )) (2.6) Rumus erf tersebut adalah erf(x) = dt (2.7) Pendekatan ini didasarkan pada dua asumsi sebagai berikut: 1. titik poinnya adalah pusat set neighborhood. 2. nilai jarak mensimulasi nilai positif dari distribusi normal. Asumsi pertama dilanggar terutama ketika titik poinnya adalah outlier. Pelanggaran ini akan mengakibatkan terlalu tinggi PLOF sebagai akibat dari peningkatan standard distance titik outlier. Efek ini sebenarnya diinginkan karena akan menekankan bahwa intinya adalah outlier. Asumsi kedua berbeda dengan metode statistik membuat asumsi hanya sekitar distribusi jarak dan bukan distribusi poin. Asumsi ini berlaku untuk kedua rumus jarak Manhattan dan jarak Euclidean sesuai dengan teorema limit sentral.

44 24 Penambahan konsep statistik untuk metode kepadatan lokal membuat skor LoOP independen dari setiap distribusi. Hal ini membuat mampu menangani kelompok non-seragam seperti kelompok yang dihasilkan oleh model Gaussian yang ditangani buruk oleh LOF misalnya Contoh Perhitungan LoOP Diketahui sebuah data D memiliki 4 buah obyek dan dilambangkan sebagai obyek P1, P2, P3, P4. Masing-masing obyek tersebut memiliki jarak sebagai berikut : (k = 2) Berikut ini merupakan langkah penyelesaian persoalan di atas : 1. Mencari kdistance Langkah mencari kdistance adalah sebagai berikut : a. Menghitung jarak P1 terhadap semua obyek menggunakan rumus jarak ecluidean distance (tabel di atas merupakan data yang sudah dihitung jaraknya) b. Memilih jarak terkecil sebanyak nilai k, yaitu 2.

45 25 c. Kemudian dari 2 jarak terkecil tersebut, pilih yang paling besar jaraknya. Jarak terbesar tersebut adalah kdistance. Obyek yang dekat dengan P1 urut dari kecil adalah P3 P2. Jarak P1 ke P3 adalah 2 sedangkan jarak P1 ke P2 adalah 4. Maka kdistance(p1) = Menemukan kdistance neighborhood Maksudnya adalah mencari tetangga terdekat dimana besar jaraknya tidak lebih dari sama dengan kdistance(o) 3. Menghitung standard distance = Standard distance P1 = = 2,236068

46 26 4. Menghitung probabilistic set distance pdist( disini adalah 2. Maka pdist P1 = 2 x 2, = 4, Menghitung probabilistic PLOF PLOF,Nk (o) (o) = -1 Untuk menghitung PLOF perlu menghitung terlebih dahulu nilai jumlah pdist dari setiap tetangga terkait. Sebagai contoh menghitung pdist P1. Perlu diingat bahwa tetangga P1 adalah P2 dan P3. Maka pdist P1 = pdist P2 + pdist P3. PLOF P1 = = -0,24126

47 27 6. Menghitung agregat PLOF (nplof) nplof( ) =. nplof = 2. = 0, Menghitung derajat LoOP LoOP Nk(o) (o) = max (0, )) LoOP P1 = max (0, )) = max (0, ) = 0 Jika derajat LoOP 0, maka obyek tersebut bukan outlier. Sebaliknya, jika derajat LoOP lebih dari 0, maka obyek tersebut dinyatakan sebagai outlier. Dari tabel di atas, yang termasuk outlier adalah obyek P2 dan P4.

48 BAB III METODOLOGI PENELITIAN Pada bab ini akan dijelaskan mengenai perancangan penelitian yang digunakan untuk mencapai tujuan dalam penelitian tugas akhir ini. Metodologi penelitian ini menggunakan metodologi penambangan data yaitu KDD (Knowledge Discovery in Database) yang dikemukakan oleh Jiawei Han dan Kamber. 3.1 Data yang dibutuhkan Dalam Kamus Besar Bahasa Indonesia, data diartikan sebagai kenyataan yang ada yang berfungsi sebagai bahan sumber untuk menyusun suatu pendapat, keterangan yang benar, dan keterangan atau bahan yang dipakai untuk penalaran dan penyelidikan. Data adalah catatan atas kumpulan fakta (Vardiansyah, 2008). Data merupakan bentuk jamak dari datum, berasal dari bahasa Latin yang berarti sesuatu yang diberikan. Dalam penggunaan sehari-hari data berarti suatu pernyataan yang diterima secara apa adanya. Pernyataan ini adalah hasil pengukuran atau pengamatan suatu variabel yang bentuknya dapat berupa angka, kata-kata, atau citra. Dalam tujuan pencarian fakta tersebut, pada penelitian ini penulis menggunakan data akademik mahasiswa teknik informatika Universitas Sanata Dharma Yogyakarta angkatan Data ini bersifat numerik yang meliputi data nilai hasil seleksi masuk dan indeks prestasi semester satu sampai empat. Data tersebut diperoleh dari gudang data akademik mahasiswa Universitas Sanata Dharma Yogyakarta khususnya mahasiswa teknik informatika. Data penelitian ini diperoleh dari gudang data akademik mahasiswa program studi Teknik Informatika Universitas Sanata Dharma dalam bentuk skrip kueri sql. Dari skrip tersebut, data yang digunakan dalam penelitian adalah data nilai hasil seleksi masuk melalui jalur tes maupun prestasi, dan 28

49 29 nilai indeks prestasi semester dari semester satu hingga empat. Data akademik mahasiswa program studi Teknik Informatika angkatan terdiri dari 126 buah. 3.2 Pengolahan Data Berikut ini merupakan tahap-tahap yang dilakukan dalam pengolahan data : 1. Penggabungan Data (Data Integration) Data mentah dalam skrip sql diekstrak ke dalam database. Lalu hasil ekstrak tersebut menghasilkan basis data bernama gudangdata. Dalam basis data ini terdiri dari beberapa tabel, yaitu tabel dim_angkatan, dim_daftarsmu, dim_fakultas, dim_jeniskel, dim_kabupaten, dim_prodi, dim_prodifaks, dim_statustes, dan factlengkap2. Gambar 3.1 Database gudangdata 2. Seleksi Data (Data Selection) Tahap selanjutnya adalah seleksi data dimana melakukan seleksi terhadap data yang relevan dengan penelitian. Dari database gudangdata tersebut tabel data yang akan dipakai untuk penelitian adalah hanya tabel fact_lengkap2. Tabel fact_lengkap2 dipilih karena memuat atribut yang dibutuhkan untuk penelitian, yaitu atribut nilai hasil seleksi tes masuk dan nilai indeks prestasi semester satu hingga empat.

50 30 Gambar 3.2 Tabel fact_lengkap2 dalam database gudangdata Setelah seleksi terhadap tabel dalam database gudangdata, selanjutnya dilakukan seleksi terhadap data yang diperlukan dalam tabel fact_lengkap2. Langkah pertama adalah menyeleksi data mahasiswa yang berasal dari program studi Teknik Informatika, yaitu data mahasiswa yang memiliki data sk_prodi 27. Baris dengan sk_prodi 27 adalah data mahasiswa yang berasal dari program studi Teknik Informatika. Data ini yang dipilih karena dapat digunakan sebagai variabel numerik untuk mendeteksi outlier dan sesuai untuk mencapai tujuan penelitian.

51 31 Gambar 3.3 Isi tabel fact_lengkap2 dalam database gudangdata Selanjutnya dilakukan seleksi terhadap kolom yang berada dalam tabel fact_lengkap2, kolom-kolom yang tidak dipakai antara lain : nomor, jumsttb, jummsttb, jumnem, jummtnem, sttb, sk_jeniskelamin, sk_status, sk_kabupaten, sk_daftarsmu, sk_prodi 3. Transformasi Data (Data Transformation) Pada tahap ini, data yang sudah diseleksi selanjutnya ditransformasikan kedalam bentuk yang sesuai untuk ditambang. Hal ini dikarenakan adanya perbedaan range nilai antara atribut satu dengan atribut lainnya. Nilai final memiliki range nilai antara Nilai tes masuk memiliki range nilai antara IPS memiliki range nilai antara 0-4. Perbedaan range nilai ini akan disamakan melalui proses transformasi data. Transformasi data dilakukan dengan menggunakan metode normalisasi. Metode normalisasi dilakukan dengan cara membuat skala pada data atribut. Salah satu jenis metode normalisasi yaitu min-max normalization (Han & Kamber, 2006). Normalisasi data untuk menyamaratakan persebaran nilai keseluruhan atribut dengan menggunakan rumus min-max normalization : Keterangan : v = nilai lama yang belum dinormalisasi v = nilai yang sudah dinormalisasi (3.1)

52 32 mina = minimum nilai dari atribut a maxa = maksimum nilai dari atribut a new_min = nilai minimum baru dari atribut a new_max = nilai maksimum baru dari atribut a Proses normalisasi data berikut ini berlaku untuk atribut nil11, nil12, nil13, nil14, dan nil15 menggunakan min-max normalization, semisal nil11 adalah 8.00 maka proses normalisasinya adalah : maxa = 10, mina= 0, new_maxa = 4, new_mina= 0, dan v = nil11 dalam hal ini bernilai 8.00, sehingga proses perhitungannya v1 = (8-0)/(10-0)*(4-0)+0 = Sehingga hasil normalisasi nil11 adalah Normalisasi atribut nil11, nil12, nil13, nil14, dan nil15 Contoh data dibawah ini menggambarkan proses transformasi dari atribut nilai1, nilai2, nilai3, nilai 4 dan nilai 5. Tabel 3.1 merupakan tabel yang berisi data atribut nil11 nil15 sebelum normalisasi. Tabel 3.1 Contoh Data Atribut nil11 sampai nil15 sebelum dinormalisasi Nomor nil11 nil12 nil13 nil14 nil15 ips1 1 7,00 5,00 5,00 5,00 4,00 2,94 2 3,00 2,00 8,00 3,00 1,00 1,72 3 6,00 4,00 5,00 7,00 5,00 2,56 4 5,00 5,00 6,00 5,00 5,00 2,44 5 6,00 4,00 6,00 3,00 7,00 2,94 6 6,00 5,00 6,00 6,00 7,00 1,89 7 6,00 6,00 4,00 4,00 7,00 4, ,00 5,00 9,00 6,00 7,00 1,44 9 8,00 6,00 6,00 7,00 5,00 3, ,00 6,00 8,00 8,00 2,00 1, ,00 6,00 7,00 6,00 6,00 3, ,00 5,00 5,00 7,00 5,00 2, ,00 5,00 8,00 5,00 7,00 2,89

53 33 Data yang ada pada Tabel 3.1 kemudian dinormalisasi menggunakan rumus min-max normalization sehingga menghasilkan data seperti pada Tabel 3.2 di bawah ini : Tabel 3.2 Contoh Data Atribut nil11 sampai nil15 setelah dinormalisasi Nomor nil11 nil12 nil13 nil14 nil15 ips1 1 2,80 2,00 2,00 2,00 1,60 3,72 2 1,20 0,80 3,20 1,20 0,40 2,89 3 2,40 1,60 2,00 2,80 2,00 2,56 4 2,00 2,00 2,40 2,00 2,00 3,28 5 2,40 1,60 2,40 1,20 2,80 1,89 6 2,40 2,00 2,40 2,40 2,80 1,44 7 2,40 2,40 1,60 1,60 2,80 4,00 8 4,00 2,00 3,60 2,40 2,80 1,72 9 3,20 2,40 2,40 2,80 2,00 2, ,80 2,40 3,20 3,20 0,80 2, ,80 2,40 2,80 2,40 2,40 2, ,40 2,00 2,00 2,80 2,00 2, ,00 2,00 3,20 2,00 2,80 1,72 2. Normalisasi atribut nilai Final Berikutnya adalah proses normalisasi data berikut berlaku untuk atribut final menggunakan min-max normalization, semisal nilai final adalah 67,80 maka proses normalisasinya adalah : maxa = 100, mina= 0, new_maxa = 4, new_mina= 0, dan v = final dalam hal ini bernilai 67,80, sehingga proses perhitungannya v1= (67,80-0)/(100-0)*(4-0)+0 = Sehingga hasil normalisasi nilai final yang awalnya bernilai sekarang menjadi

54 34 Contoh data dibawah ini mengambarkan proses transformasi atribut nilai final. Tabel 3.3 merupakan tabel yang berisi data atribut nilai final sebelum normalisasi. Tabel 3.3 Contoh Data Atribut Nilai Final sebelum dinormalisasi Nomor Ips1 Ips2 Ips3 Ips4 Final 1 2,94 3,27 2,96 2,81 54,00 2 1,72 1,65 1,53 1,68 28,00 3 2,56 2,77 2,52 3,13 52,00 4 2,44 2,63 2,00 2,67 51,00 5 2,94 2,59 1,55 2,35 53,00 6 1,89 2,20 2,21 1,95 59,00 7 4,00 3,52 3,43 3,70 58,00 8 1,44 2,42 2,53 1,96 74,00 9 3,72 3,48 3,36 3,65 65, ,72 2,65 2,43 2,24 59, ,28 2,75 2,90 3,00 64, ,89 3,21 3,33 3,36 55, ,89 3,18 3,04 2,95 57,00 Data yang ada pada Tabel 3.3 kemudian dinormalisasi menggunakan rumus min-max normalization sehingga menghasilkan data seperti pada Tabel 3.4 di bawah ini :

55 35 Tabel 3.4 Contoh Data Atribut Nilai Final setelah dinormalisasi Nomor Ips1 Ips2 Ips3 Ips4 Final 1 2,94 3,27 2,96 2,81 2,16 2 1,72 1,65 1,53 1,68 1,12 3 2,56 2,77 2,52 3,13 2,08 4 2,44 2,63 2,00 2,67 2,04 5 2,94 2,59 1,55 2,35 2,12 6 1,89 2,20 2,21 1,95 2,36 7 4,00 3,52 3,43 3,70 2,32 8 1,44 2,42 2,53 1,96 2,96 9 3,72 3,48 3,36 3,65 2, ,72 2,65 2,43 2,24 2, ,28 2,75 2,90 3,00 2, ,89 3,21 3,33 3,36 2, ,89 3,18 3,04 2,95 2,28 Setelah nilai atribut nil11, nil12, nil13, nil14, nil15, dan final di normalisasikan dalam kisaran nilai maka nilai yang sudah dinormalisasikan inilah yang nantinya akan digunakan sebagai input dalam proses deteksi outlier. 4. Penambangan Data (Data Mining) Data yang telah melalui proses transformasi data selanjutnya dicari outliernya menggunakan algoritma deteksi outlier yaitu algoritma Local Outlier Probability (LoOP). Data yang diteliti akan dibatasi pada data dua tahun angkatan di Universitas Sanata Dharma yaitu tahun angkatan 2007 dan Pada tahap ini, akan ditentukan juga variabel-variabel yang akan digunakan untuk menambang data. Variabel-variabel tersebut antara lain :

56 36 1.) Input, yang terdiri dari : a. Nilai hasil seleksi masuk mahasiswa, baik melalui jalur tes maupun jalur prestasi. Masukan tersebut diperoleh dari atribut yang ada pada tabel fact_lengkap2 yaitu yaitu nil11, nil12, nil13, nil14, nil15, dan final. Atribut nil11, nil12, nil13, nil14, dan nil15 hanya dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis. Sedangkan atribut final dimiliki oleh mahasiswa yang masuk melalui jalur tes tertulis maupun jalur prestasi. b. Indeks prestasi mahasiswa dari semester satu hingga empat. Masukan tersebut diperoleh dari atribut yang ada pada tabel fact_lengkap2 yaitu ips1, ips2, ips3, dan ips4. 2.) Output, yaitu : data mahasiswa yang menjadi outlier dari perhitungan yang diambil dari data numerik nilai hasil seleksi masuk dan nilai indeks prestasi selama empat semester. Pada penelitian ini menggunakan data akademik mahasiswa Teknik Informatika Universitas Sanata Dharma angkatan , dimana memiliki atribut ips1, ips2, ips3, ips4, nil11, nil12, nil13, nil14, nil15. Atribut ips1 merupakan nilai indeks prestasi semester 1, dan atribut nil11-nil15 merupakan nilai komponen tes PMB (berlaku untuk mahasiswa yang masuk melalui jalur tes). Tabel 3.5 merupakan data akademik mahasiswa angkatan 2007 yang masuk dan diterima di Universitas Sanata Dharma melalui jalur tes tertulis.

57 37 Tabel 3.5 Data Akademik Mahasiswa Angkatan 2007 Jalur Tes Tertulis No ips1 ips2 ips3 ips4 nil11 nil12 nil13 nil14 nil15 1 2,94 3,27 2,96 2,81 2,80 2,00 2,00 2,00 1,60 2 1,72 1,65 1,53 1,68 1,20 0,80 3,20 1,20 0,40 3 2,56 2,77 2,52 3,13 2,40 1,60 2,00 2,80 2,00 4 2,44 2,63 2,00 2,67 2,00 2,00 2,40 2,00 2,00 5 2,94 2,59 1,55 2,35 2,40 1,60 2,40 1,20 2,80 6 1,89 2,20 2,21 1,95 2,40 2,00 2,40 2,40 2,80 7 4,00 3,52 3,43 3,70 2,40 2,40 1,60 1,60 2,80 8 1,44 2,42 2,53 1,96 4,00 2,00 3,60 2,40 2,80 9 3,72 3,48 3,36 3,65 3,20 2,40 2,40 2,80 2, ,72 2,65 2,43 2,24 2,80 2,40 3,20 3,20 0, ,28 2,75 2,90 3,00 2,80 2,40 2,80 2,40 2, ,89 3,21 3,33 3,36 2,40 2,00 2,00 2,80 2, ,89 3,18 3,04 2,95 2,00 2,00 3,20 2,00 2,80 Langkah 1 Menghitung k-distance Perhitungan data mahasiswa angkatan 2007 melalui jalur tes dengan membandingkan nilai per komponen dan mulai dari indeks prestasi semester 1. Mencari jarak dengan menggunakan rumus jarak ecluidian distance, yaitu = d(i,j) = (2.1) Gambar 3.4 merupakan hasil perhitungan jarak dari data akademik mahasiswa angkatan 2007 jalur tes menggunakan rumus jarak euclidean.

58 38 Gambar 3.4 Perhitungan jarak mahasiswa angkatan 2007 jalur tes Setelah menghitung jarak setiap obyek, maka selanjutnya dicari kdistance dari setiap obyek, dengan asumsi k = 10, k melambangkan jangkauan suatu obyek terhadap tetangganya, sehingga dicari 10 jarak terdekat dari sebuah obyek. Caranya dengan mengurutkan jarak dari yang terkecil sampai jarak terbesar. Lalu memilih sebanyak k, yaitu 10 obyek dengan jarak terkecil. Kemudian pilih jarak terbesar dari kesepuluh jarak tersebut. jarak terbesar tersebut adalah kdistance. Gambar 3.5 merupakan pencarian kdistance dari setiap obyek mahasiswa angkatan 2007 jalur tes. Gambar 3.5 Pencarian kdistance pada data mahasiswa angkatan 2007 jalur tes

59 39 Langkah 2 Menghitung jumlah tetangga terdekat (kdistance neighborhood) dari setiap obyek Setelah pencarian kdistance selesai, selanjutnya adalah mencari kdistance neighborhood dari data mahasiswa angkatan 2007 jalur tes. Gambar 3.6 merupakan pencarian kdistance neighborhood dari data mahasiswa angkatan 2007 jalur tes. Gambar 3.6 Pencarian kdistance neighborhood dari data mahasiswa angkatan 2007 jalur tes Dari data di atas dapat disimpulkan bahwa neighborhood (Nk) dari obyek P1 adalah P3, P4, P5, P6, P7, P9, P10, P11, P12 dan P13 dengan kdistance 2, , dan seterusnya.

60 40 Langkah 3 Menghitung standard distance (σ) = (2.2) Gambar 3.7 di bawah ini merupakan perhitungan standard distance dari mahasiswa angkatan 2007 jalur tes. Perhitungan ini menggunakan Microsoft excel. Gambar 3.7 Perhitungan standard distance dari mahasiswa angkatan 2007 jalur tes Misal pada obyek P1, stdev dari P1 adalah 1,56582 didapat dari : = == == 1,56582 Langkah 4 Menghitung Probabilistic set distance (pdist) pdist( (2.3) Dalam perhitungan ini penulis menggunakan = 2. Dalam melakukan beberapa percobaan, nilai tidak mempengaruhi jumlah outlier yang ditemukan. Catatan pentingnya, nilai harus dalam kisaran angka lebih dari 0. Penulis telah melakukan percobaan nilai sama dengan 1, 2, dan 3 dan jumlah outlier yang dihasilkan adalah sama. Gambar 3.8 di bawah ini merupakan perhitungan probability set distance dari mahasiswa angkatan 2007 jalur tes.

61 41 Gambar 3.8 Perhitungan probability set distance dari data akademik mahasiswa angkatan 2007 jalur tes Contoh perhitungan pada obyek p1 adalah pdist( == 2 * 1,56582 == 3,13164 Langkah 5 Menghitung Probabilistic Local Outlier Factor (PLOF) PLOF,Nk (o) (o) = -1 (2.4) Sebelum menghitung PLOF, langkah utama adalah mencari pdist dari obyek s dimana s tersebut adalah anggota dari Nk(o) dimana Nk(o) adalah tetangga dari obyek itu sendiri. Maksudnya, adalah PLOF dari obyek P1 = -1 Nk(P1) = P3, P4, P5, P6, P7, P9, P10, P11, P12, P13 Gambar 3.9 di bawah ini merupakan perhitungan probability local outlier factor dari mahasiswa angkatan 2007 jalur tes.

62 42 Gambar 3.9 Perhitungan probability local outlier factor dari data akademik mahasiswa angkatan 2007 jalur tes Perhitungannya = PLOF P1-1 = -0,13072 Langkah 6 Menghitung nplof nplof( ) =....(2.5) untuk menghitungan nplof, yang pertama adalah dengan mengkwadratkan nilai PLOF lalu menjumlahkan totalnya. Gambar 3.10 di bawah ini merupakan perhitungan agregat probability local outlier factor dari mahasiswa angkatan 2007 jalur tes.

63 43 Gambar 3.10 Perhitungan agregat probability local outlier factor dari mahasiswa angkatan 2007 jalur tes Total dari PLOF kwadrat adalah 1, Kemudian perhitungannya adalah sebagai berikut : nplof( ) =. == 2. == 0,61688 Langkah 7 Menghitung LoOP LoOP Nk(o) (o) = max (0, )) (2.6) Dalam menghitung LoOP dilakukan perhitungan step by step. Pertama dengan menghitung nilai function dari nilai adalah. Lalu mencari nilai error tersebut. Rumus erf tersebut erf(x) = dt (2.7) Gambar 3.11 di bawah ini merupakan perhitungan local outlier probability dari mahasiswa angkatan 2007 jalur tes.

64 44 Gambar 3.11 Perhitungan local outlier probability dari mahasiswa angkatan 2007 jalur tes Hasil perhitungan di atas, nilai LoOP lebih dari 0 yang diasumsikan menjadi outlier pada semester 1 dari ke13 data di atas. Mahasiswa outlier tersebut adalah mahasiswa ke 2, ke 5, ke 7, ke 8, ke 9, dan ke Evaluasi Pola (Pattern Evaluation) Pada tahap ini dilakukan evaluasi terhadap pola yang telah didapat dari proses penambangan data, dimana hasil dari penambangan data tersebut akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya. Melalui sistem pendeteksi outlier akan diperoleh luaran berupa datadata outlier menggunakan algoritma Local Outlier Probability (LoOP) dan dianalisa kembali oleh pemilik data itu apakah hipotesa outlier yang mereka miliki sama atau tidak dengan hasil yang diperoleh sistem, sehingga dapat diketahui seperti apa tingkat keberhasilan pencarian outlier tersebut.

65 45 6. Presentasi Pengetahuan (Knowledge Presentation) Pada tahap ini pola yang telah didapat selanjutnya direpresentasikan kepada pengguna ke dalam bentuk sistem pendeteksi dengan antarmuka yang lebih mudah untuk dipahami. Melalui sistem pendeteksi outlier ini diharapkan pengguna dalam hal ini pihak internal Universitas Sanata Dharma dapat mencari tahu data-data yang bersifat langka dan berbeda dari kebanyakan data lainnya untuk selanjutnya dianalisa mengapa datadata tersebut bisa muncul. Tidak bisa dipungkiri bahwa outlier sendiri akan didefinisikan dan dianalisa oleh orang yang ahli dan mengerti tentang data itu.

66 BAB IV ANALISIS DAN PERANCANGAN SISTEM 4.1 Identifikasi Sistem Seperti halnya dengan Universitas lain, Universitas Sanata Dharma Yogyakarta juga membuka pendaftaran untuk penerimaan mahasiswa baru dalam tahunnya. Penerimaan mahasiswa baru ini melalui 2 jalur, yaitu jalur prestasi dan jalur tes tertulis. Untuk jalur prestasi syarat utama dari calon mahasiswa adalah mengirimkan nilai hasil belajar saat kelas XI semester 1 dan 2 di SMA/sederajat. Dari nilai tersebut dapat diolah rata-rata nilai yang kemudian menjadi nilai final calon mahasiswa. Sedangkan calon mahasiswa yang mendaftar melalui jalur tes tertulis akan diuji dalam 5 komponen tes, yaitu kemampuan penalaran numerik, penalaran verbal, hubungan ruang, bahasa Inggris, dan kemampuan numerik. Setelah itu akan didapat nilai tes per komponen tes yang akhirnya juga diolah menjadi nilai final. Nilai final dari jalur prestasi dan tes tersebut menjadi pertimbangan calon mahasiswa dapat diterima atau tidak. Mahasiswa baru yang diterima di Universitas Sanata Dharma diharuskan mengikuti kegiatan perkuliahan dan setiap semesternya akan memperoleh nilai indeks prestasi sebagai kalkulasi dadi prestasi akademiknya. Dalam hal ini dapat diidentifikasi apakah ada nilai indeks prestasi per semester ini akan berhubungan dengan nilai seleksi masuk mahasiswa. Hal ini dapat juga menjadi penelitian untuk menemukan kejadian langka dari nilai akademik siswa atau dapat disebut sebagai deteksi outlier. Dari nilai hasil seleksi masuk dan nilai indeks prestasi selama empat semester diharapkan dapat digunakan sebagai bahan untuk melihat kejadian langka pada data akademik mahasiswa. Sebuah sistem pendeteksi outlier yang akan dibangun diharapkan mampu untuk mengenali mahasiswa mana saja yang tergolong menjadi outlier dibandingkan dengan mahasiswa lain. Sistem pendeteksi ini menerapkan algoritma Local Outlier Probability (LoOP) yang merupakan 46

67 47 algoritma menggunakan pendekatan density based yang berguna untuk mencari outlier Diagram Use Case Dalam sebuah sistem, peranan pengguna sangat dibutuhkan karena pengguna sebagai pelaku utama yang menjalankan fungsi-fungsi yang ada dalam sebuah sistem tersebut. Hal ini yang disebut adanya interaksi antara sistem dengan pengguna sistem. Untuk menggambarkan interaksi tersebut digunakan sebuah diagram use case yang terlampir pada lampiran 1. Terdapat tiga fungsi utama yang dapat dijalankan oleh pengguna yaitu memasukkan data file excel atau database, mendeteksi outlier, dan menyimpan deteksi outlier. Ketiga fungsi tersebut saling berkaitan sehingga dalam menjalankan fungsi ini pengguna harus melakukannya secara beurutan. Untuk menyimpan hasil deteksi outlier, pengguna diharuskan melakukan deteksi outlier terlebih dahulu. sedangkan untuk mendeteksi outlier pengguna harus memasukkan file data excel atau database sebagai masukan untuk dapat dideteksi adanya outlier Narasi Use Case Untuk mengetahui deskripsi use case, dapat dilihat pada lampiran 2. Sedangkan narasi use case dapat dilihat pada bagian lampiran Perancangan Sistem Secara Umum Input Sistem Sistem yang dibuat pada penelitian ini dapat menerima masukan berupa data bebas dari pengguna yang bertipe file excel (.xls), (.csv) atau data dalam table yang terdapat di dalam basis data. Dalam penelitian ini data yang digunakan adalah data dengan ukuran bebas, karena aplikasi yang akan dikembangkan bersifat universal, sehingga dapat mencari outlier di semua jenis data.

68 48 Sistem ini juga membutuhkan sebuah inputan untuk memproses pencarian outlier, inputan tersebut yaitu : 1. Data akademik mahasiswa Teknik Informatika angkatan Data yang digunakan dalam penelitian ini adalah data akademik mahasiswa Teknik Informatika angkatan yang terdiri dari 126 buah. Mahasiswa tersebut diterima di Universitas Sanata Dharma melalui jalur prestasi dan jalur tes. Masing-masing jalur masuk tersebut akan dicari data yang outlier. Berikut ini merupakan rincian data yang akan digunakan dalam penelitian: a. Data Seleksi Masuk Jalur Prestasi No Nama Keterangan Range Atribut Nilai 1 nomor urut Atribut ini merupakan nomor alias untuk menunjukkan obyek mahasiswa yang diurutkan dalam suatu nomor 2 nilai final Atribut ini merupakan rata-rata nilai kognitif rapor siswa pada saat SMA/sederajat

69 49 b. Data Seleksi Masuk Jalur Tes No Nama Atribut Keterangan 1 nomor urut Atribut ini merupakan nomor alias untuk menunjukkan obyek mahasiswa yang diurutkan dalam suatu nomor 2 nil11 Atribut ini merupakan nilai komponen tes 1 3 nil12 Atribut ini merupakan nilai komponen tes 2 4 nil13 Atribut ini merupakan nilai komponen tes 3 5 nil14 Atribut ini merupakan nilai komponen tes 4 6 nil15 Atribut ini merupakan nilai komponen tes 5 7 nilai final Atribut ini merupakan nilai akhir hasil kalkulasi semua nilai tes Range Nilai

70 50 c. Data Indeks Prestasi Semester (IPS) No Nama Atribut Keterangan 1 nomor urut Atribut ini merupakan nomor alias untuk menunjukkan obyek mahasiswa yang diurutkan dalam suatu nomor 2 ips1 Atribut ini merupakan nilai IP mahasiswa semester 1 3 ips2 Atribut ini merupakan nilai IP mahasiswa semester 1 4 ips3 Atribut ini merupakan nilai IP mahasiswa semester 1 5 ips4 Atribut ini merupakan nilai IP mahasiswa semester 1 Range Nilai k k adalah jangkauan atau jumlah tetangga terdekat yang digunakan untuk mendefinisikan local Neighborhood suatu obyek. 3. Lamda Lamda adalah sebuah normalization factor yang memberikan kontrol atas perkiraan kepadatan.

71 Proses Sistem Setelah data dimasukkan dan dilakukan pemrosesan data. Proses yang terjadi pada sistem deteksi outlier adalah : 1. Pengambilan Data Pada tahap ini mengambil data sesuai pilihan user, dapat berupa data yang disimpan dalam bentuk file excel (.xls), (.csv) atau mengambil data pada tabel dalam database dan selanjutnya ditampilkan pada tabel view. Setelah itu user melakukan seleksi atribut untuk melakukan proses deteksi outlier. 2. Perhitungan Jarak Obyek Data Setelah menyeleksi atribut dari data yang dimasukkan, selanjutnya melakukan perhitungan jarak antar obyek data menggunakan rumus eucliedean distance. Sehingga diperoleh jarak satu obyek dengan obyek yang lainnya. Perhitungan jarak memakai iterasi sebanyak jumlah data yang dimasukkan. 3. Pencarian Outlier berdasarkan parameter k dan lamda Pada tahap ini dilakukan proses pencarian outlier dengan menggunakan algoritma local outlier probability. Sistem menerima input parameter k dan. Dimana k adalah jumlah maksimum tetangga yang terdekat dengan obyek. Sedangkan inputan adalah untuk normalization factor yang memberikan kontrol atas perkiraan kepadatan. Proses umum yang ada pada sistem pendeteksi outlier menggunakan algoritma Local Outlier Probability dapat dilihat di lampiran 4 dalam tugas akhir ini.

72 Output Sistem Sistem yang dibuat merupakan sistem yang dapat mendeteksi adanya outlier dalam suatu data beserta atribut yang dimiliki data tersebut. berikut ini adalah keluaran yang dihasilkan sistem : 1. Proses input akan menampilkan : a. Sampel data yang akan dideteksi, beserta jumlah data (baris) dan jumlah atributnya. b. Daftar atribut yang akan dipakai untuk proses deteksi. 2. Proses deteksi outlier akan menampilkan : a. Hasil outlier untuk setiap data yang diuji beserta nilai atribut yang dimiliki. b. Parameter k dan yang digunakan dalam perhitungan algoritma Local Outlier Probability. c. Jumlah data. d. Jumlah outlier. e. Lama deteksi outlier. f. Label serta derajat LoOP yang bertujuan untuk memberikan peringkat outlier dari yang nilai LoOP paling tinggi ke nilai LoOP paling rendah. g. Ranking outlier. 4.3 Perancangan Sistem Diagram Aktivitas Diagram aktivitas digunakan untuk menggambarkan alur aktivitas sekuensial yang dilakukan oleh pengguna dan sistem dalam setiap use case yang telah disebutkan pada lampiran 1. (Whitten & Bentley, 2005) Berikut ini adalah diagram aktivitas dari setiap use case : 1. Diagram Aktivitas Input Data File.xls dan.csv 2. Diagram Aktivitas Input Data Tabel Basis Data 3. Diagram Aktivitas Seleksi Atribut

73 53 4. Diagram Aktivitas Deteksi Outlier 5. Diagram Aktivitas Simpan Hasil Outlier Diagram aktivitas yang telah disebutkan di atas dipaparkan pada lampiran 5 dalam tugas akhir ini Diagram Kelas Analisis Diagram kelas analisis dapat dilihat di lampiran 6. Sedangkan keterangan diagram kelas analisis dapat dilihat pada Tabel 4.1 di bawah ini : Tabel 4.1 Tabel Keterangan Diagram Kelas Analisis No Nama Kelas Jenis Keterangan 1 DataLoop Model Kelas ini berfungsi untuk menyimpan data hasil outlier 2 koneksidb Model Kelas ini berisi tentang atributatribut yang berfungsi untuk melakukan koneksi antara sistem dengan server basis data. Atribut tersebut antara lain : username, password, dan jdbc URL. 3 seleksiatribut Model Kelas ini berfungsi untuk menyimpan daftar atribut yang ada dalam tabel preprocessing. Daftar atribut ini akan muncul di tabel seleksi di tab preprocessing. 4 Vertex Model Kelas ini berfungsi untuk menyimpan atribut-atribut yang digunakan dalam proses penghitungan pencarian outlier. 5 checkboxtablemodel Model Kelas ini berfungsi untuk mengatur pembuatan tabel seleksi

74 54 atribut di halaman utama pada tab preprocessing. 6 LoOPTabelModel Model Kelas ini berfungsi untuk mengatur format tabel untuk menampilkan tabel hasil deteksi outlier yang berisi label data, derajat loop, dan ranking 7 DBControl Control Kelas ini berfungsi untuk mengatur konfigurasi koneksi database agar sistem dapat terhubung dengan server database sehingga dapat mengakses tabel yang diinginkan pengguna. 8 graph Control Kelas ini berisi proses perhitungan yang ada dalam algoritma LoOP meliputi : perhitungan jarak antar data, standard distance, probabilistic distance, probabilistic LOF, agregat probabilistic LOF, dan derajat LoOP 9 HalamanAwal View Kelas ini menampilkan halaman saat pertama kali menjalankan sistem. 10 HalamanUtama View Kelas ini merupakan inti dari sistem, kelas ini menampilkan 2 tabbed pane yaitu preprocessing dan deteksi. Pada tab preprocessing pengguna dapat

75 55 menginput tabel lalu menyeleksi atribut yang akan digunakan untuk deteksi. Selanjutnya pada proses deteksi, pengguna menginputkan parameter k dan lamda lalu setelah diklik proses maka sistem akan menampilkan hasil outlier pada tabel. Selain itu pengguna juga dapat menyimpan hasil deteksi outlier tersebut. 11 HalamanPilihFile View Kelas ini digunakan untuk menampilkan direktori pada computer untuk menginputkan file inputan beripa xls atau csv 12 HalamanPilihDatabase View Kelas ini digunakan untuk login ke basisdata untuk mengambil tabel dalam basisdata tersebut 13 HalamanPilihTabel View Kelas ini berfungsi untuk menampilkan tabel dengan syarat pengguna sistem harus login ke basisdata. 14 HalamanTentang View Kelas ini menampilkan informasi umum mengenai sistem (nama sistem, pembuat, instansi, tahun) 15 HalamanBantuan View Kelas ini menampilkan informasi panduan sistem.

76 Diagram Sequence Menurut Whitten dan Bentley (2007), secara grafikal, Sequence Diagram merupakan diagram yang menggambarkan bagaimana obyek berinteraksi satu sama lain melalui pesan dalam eksekusi usecase atau operasi. Diagram ini mengilustrasikan bagaimana pesan dikirim dan diterima antara obyek dan urutan yang seperti apa. Diagram ini lebih detail dalam penggambaran aliran data, termasuk data yang dikirim ataupun diterima. Berikut ini merupakan sequence diagram yang terdapat dalam proses perancangan sistem perancangan outlier menggunakan algoritma Local Outlier Probability (LoOP) : 1. Diagram Sequence Input Data File Excel.xls dan.csv 2. Diagram Sequence Input Data Tabel Basis Data 3. Diagram Sequence Deteksi Outlier 4. Diagram Sequence Simpan Hasil Outlier 5. Diagram Sequence Seleksi Atribut Untuk penjelasan masing-masing diagram sequence dapat dilihat pada lampiran 7 yang terdapat dalam tugas akhir ini Diagram Kelas Desain Diagram kelas desain menunjukkan daftar kelas yang digunakan dalam sistem. Diagram kelas ini memuat semua kelas yang digunakan untuk menjalankan semua fungsi pada sistem serta hubungan apa saja yang terbentuk di antara kelas tersebut. Hubungan yang terbentuk bisa berupa associations, aggregation atau composition. Diagram kelas desain dapat dilihat pada lampiran 8 dalam tugas akhir ini. Untuk penjelasan tentang rincian atribut dan method yang terdapat dalam masing-masing kelas, dapat dilihat pada lampiran 9 dalam tugas akhir ini.

77 Rincian Algoritma Setiap Method 1. Rincian Algoritma pada Method dalam kelas koneksidb Nama method Fungsi method Algoritma method koneksisql (String, String, String) isconnected (String, String, String) Mendapatkan 1. Deklarasi atribut baru jdbcurl nilai username, bertipe static String, user bertipe password, dan static String, password bertipe url dari inputan static String dan conn bertipe pengguna lalu Connection. inputan tersebut 2. Membuat koneksi basis data SQL untuk login ke basisdata SQL ke dalam method yang bernama setconn(drivermanager.getconn ection(url, user, passw)). Parameter tersebut dicocokan dengan nilai dari inputan pengguna dalam form login koneksi database. 3. Jika inputan benar (sesuai), maka sistem berhasil terkoneksi dengan basisdata SQL lalu mencetak pada output koneksi berhasil. 4. Jika tidak sesuai, maka sistem akan mencetak pesan error. 5. Mengembalikan nilai getconn(). Melakukan 1. Cek apabila parameter pada pengecekan method koneksisql(url, user, apakah sistem sudah terkoneksi dengan basis data SQL passw) tidak sama dengan null atau dalam kata lain terisi, maka kembalikan nilai true. 2. Jika tidak, maka kembalikan nilai false.

78 58 koneksiorcl (String, String, String) isconnectedo racle (String, String, String) getclose( ) Mendapatkan nilai parameter url, user, dan passw yang didapat dari inputan pengguna ketika melakukan login untuk koneksi ke basisdata oracle Melakukan pengecekan apakah sistem sudah terkoneksi dengan basis data Oracle Memutuskan koneksi basis data 1. Membuat koneksi basisdata oracle menggunakan method setconn(drivermanager.getconn ection(url, user, passw)). 2. Parameter tersebut dicocokan dengan nilai dari inputan pengguna dalam form login koneksi database. 3. Jika inputan benar (sesuai), maka sistem berhasil terkoneksi dengan basisdata SQL lalu mencetak pada output koneksi berhasil. 4. Jika tidak sesuai, maka sistem akan mencetak pesan error. 5. Mengembalikan nilai getconn(). 1. Cek apabila parameter pada method koneksiorcl(url, user, passw) tidak sama dengan null atau dalam kata lain terisi, maka kembalikan nilai true. 2. Jika tidak, maka kembalikan nilai false. 1. Cek apakah sistem masih terkoneksi dengan basis data. (menjalankan method isconnected( ) ). 2. Jika ya, maka tutup koneksi lalu beri nilai atribut conn menjadi null. Lalu kembalikan nilai true. 3. Jika tidak, maka kembalikan nilai

79 59 false. 2. Rincian Algoritma pada Method dalam kelas DBControl Nama method Fungsi method Algoritma method displaytableo racle(connecti on) displaytable MySql (Connection) selecttable (Connection, String) Menampilkan 1. Deklarasi query untuk daftar tabel yang menampilkan daftar tabel, yaitu : ada pada basis Select table_name from data Oracle user_tables; sesuai login 2. Mengeksekusi query. pengguna 3. Mengembalikan nilai result yang berisi tabel yang ada pada basis data Oracle. Menampilkan 1. Deklarasi query untuk daftar tabel yang ada pada basis data SQL sesuai login pengguna menampilkan daftar tabel, yaitu : Show_tables; 2. Mengeksekusi query. 3. Mengembalikan nilai result yang berisi tabel yang ada pada basis data Oracle. Menampilkan isi 1. Mendeklarasikan query untuk data tabel yang menampilkan isi tabel : dipilih pengguna Select * from table; 2. Mengeksekusi query 3. Mengembalikan nilai result yang berarti menampilkan semua data dari tabel yang diinputkan oleh pengguna.

80 60 3. Rincian Algoritma pada Method dalam kelas GraphNew Nama method Fungsi method Algoritma method addvertex (String, List<Double>) addedge (int, int, double) carijarak (int, int) Membuat vertex 4. Membaca nilai parameter dari untuk method addvertex yaitu membentuk suatu parameter label bertipe String graf dan parameter nilai bertipe List<Double>. 5. Membuat vertex baru dengan parameter label dan nilai sesuai dengan inputan jumlahvertex Membuat edge 1. Membaca nilai dari parameter pada vertex awal bertipe integer, akhir dalam graf bertipe integer, dan nilai bertipe double. 2. Inisialisasi parameter nilai sama dengan matriks[awal][akhir] = matriks[akhir][awal]. Mencari jarak 1. Membuat variabel baru bernama setiap obyek dengan perhitungan rumus Euclidean distance a dan b dengan tipe ArrayList Double. 2. Inisialisasi nilai ArrayList a sebagai ArrayList yang menyimpan nilai obyek awal. 3. Inisialisasi nilai ArrayList b sebagai ArrayList yang menyimpan nilai obyek tujuan. 4. Inisialisasi nilai atribut total bertipe Double bernilai 0.0; 5. Selama i = 0 dan I tidak lebih dari ukuran a, maka lakukan total

81 61 inputdata (jtable) Menginputkan data yang ada dalam jtable ke dalam matriks dalam graf = total + Math.pow(a.get(i) b.get(i)),2) 6. Kembalikan nilai akar dari total. 1. Selama i = 0 dan tidak lebih dari jumlah baris jtable, maka lakukan langkah 2 sampai Membuat variabel baru bernama label. 3. Membuat variabel baru bernama listnilai bertipe array list Double. 4. Selama j = 0 dan j tidak lebih dari jumlah kolom jtable, maka lakukan langkah di bawah ini : a. Cek apakah j bernilai 0, jika ya, maka lakukan b. b. Cek apakah value pada jtable bernilai kosong atau, jika ya, maka set label =. jika tidak, maka set label sama dengan data yang ada di dalam baris dan kolom tabel tersebut. c. Jika tidak, maka lakukan langkah d. d. Cek apakah value pada jtable bernilai kosong atau. jika ya, maka set label =. jika tidak, maka cek apakah data tersebut merupakan data numeric? Jika ya, maka masukkan data pada baris (i,j)

82 62 Kdistance (int, int) Mencari nilai Kdistance dari setiap obyek sesuai dengan inputan k ke dalam arraylist nilai.jika data bukan numeric maka masukkan nilai 0,0 ke dalam arraylist nilai. 5. Panggil method addvertex dengan inputan label dan listnilai. 6. Selama I = 0 dan I tidak lebih dari jumlah baris dari jtable lakukan langkah dibawah ini : a. Selama j = i+1 dan j tidak lebih dari jumlah baris jtable, maka lakukan b. b. Cek apakah nilai I tidak sama dengan j. jika iya, maka jalankan method addedge dengan memasukkan parameter I, j, dan hasil perhitungan dari method carijarak(i,j). 1. Selama i = 0 dan i tidak lebih dari panjang array vertexlist, maka set semua flagkunjungan menjadi false. 2. Membuat variabel array bernama a bertipe Double. 3. Inisialisasi array a bernilai array yang panjangnya sesuai dengan jangkauan (k yang diinputkan pengguna). 4. Membuat variabel kdistance

83 63 bertipe double. 5. Membuat variabel temp1 bertipe double. 6. Jika indeks == -1 maka cetak Data tidak ada 7. Selama t=0 dan t tidak lebih dari panjang array a, maka lakukan : a. Selama i=0 dan I tidak lebih dari panjang arraylist vertexlist, maka lakukan b b. Cek apakah matriks[indeks][i] tidak sama dengan -1, tidak sama dengan 0 dan flagkunjungan bernilai false, maka lakukan c. c. Cek jika matriks[indeks][i] kurang dari nilai temp1, maka inisialisasi nilai temp1 adalah nilai dari matriks[indeks][i]. d. Set nilai array a[t] sama dengan temp1. e. Menjalankan method search2 dengan parameter temp1, indeks. 8. Selama i=0 dan I kurang dari panjang array a, maka cek apakah nilai kdistance kurang dari array a[i], jika ya maka set nilai kdistance sama dengan nilai array a[i]. 9. Kembalikan nilai kdistance.

84 64 carineighborh ood (Double, int) setkdistance (String, int) setneighborh ood (String) Mencari tetangga yang memiliki jarak kurang dari sama dengan kdistance Mengatur variabel kdistance dalam vertex Mengeset variabel neighborhood dalam vertex 1. Membuat ArrayList bertipe String bernama a. 2. Jika indeks sama dengan -1, maka cetak Tidak ada data. 3. Selama i=0 dan I kurang dari panjang array list vertexlist, maka lakukan langkah berikut : a. Cek apakah matriks[indeks][i] tidak sama dengan -1, dan tidak sama dengan 0. Jika ya, lakukan b. b. Cek apakah matriks[indeks][i] kurang dari Kdistance(I, getk( ) +1). Jika yang maka lakukan c. c. Tambahkan vertexlist[i].getlabel( ) pada arraylist a. 4. Kembalikan nilai a. 1. Membuat variabel baru bernama index bertipe integer lalu di set bernilai search(label). 2. Set variabel kdistance pada vertexlist[index][i] dengan inputan parameter index dan jangkauan. 1. Membuat variabel baru bernama indeks bertipe integer lalu di set bernilai search(label). 2. Set variabel neighborhood pada

85 65 Search (String) Search2 (Double, int) Mencari posisi indeks dalam vertekslist Mencari vertexlist dan mengubah flagkunjungan menjadi true vertexlist[indeks] dengan inputan parameter vertexlist[indeks].getanggotane ighborhood(), indeks) 1. Selama i=0 dan i kurang dari panjang array list vertexlist, maka lakukan Jika label bernilai sama dengan label dalam vertexlist[i] maka kembalikan nilai i. 3. Kembalikan nilai -1 dimana artinya tidak terdapat data dalam vertexlist. 1. Selama i=0 dan i kurang dari panjang array list vertexlist, maka lakukan Jika nilai dari matriks[indeks][i] sama dengan nilai jarak, maka atur flag kunjungan menjadi true. 4. Rincian Algoritma pada Method dalam kelas CheckBoxTableModel Nama method Fungsi method Algoritma method Add (int, Menambah data 1. Deklarasi atribut bernama list seleksiatribut) ke dalam format yang bertipe ArrayList tabel CheckBoxTable Model SeleksiAtribut. 2. Menambahkan ke dalam list dengan inputan paramener int dan seleksiatribut. 3. Menambahkan nilai field_m

86 66 removerow( ) Menghapus semua atribut yang telah dihapus ketika melakukan seleksi atribut di tabel seleksi sebagai data di index ke a ke dalam list. 1. Membuat ArrayList bertipe seleksiatribut bernama s. 2. Selama seleksi < list terpenuhi, maka cek terhadap atribut yang akan dihapus tersebut telah terpilih. Jika!seleksi.getPilih() == true, maka nilai seleksi ditambahkan pada ArrayList s. 3. Set nilai list menjadi s. 5. Rincian Algoritma pada Method dalam kelas HalamanUtama Nama method Fungsi method Algoritma method pilihfile( ) 1. Menampilkan JFileChooser 1. Menampilkan JFileChooser open file untuk memilih 2. Mendapatkan nilai atribut file excel bertipe.xls dan.csv nama_file yang dipilih 3. Deklarasi array bertipe String 2. Membaca file bernama potong_nama_file lalu menampilkan ke dalam tabel data preprocessing untuk memberi nama file dengan pemisah \\ 4. Jika potong_nama_file[1].equals( xls ), maka lakukan langkah di bawah ini : a. Membuat vector baru bernama columnname. b. Membuat vector baru

87 67 bernama data. c. Membuat obyek baru yang bernama workbook yang berisi getworkbook(fileexcel) d. Membuat obyek bernama sheet yang berisi getsheet(0). e. Menghapus columnname f. Selama i=0 dan i tidak lebih dari kolom dalam sheet, maka lakukan g dan h. g. Membuat cell baru dengan isi sheet.getcell(i,0). h. Menambahkan konten pada cell ke dalam columnname. i. Menghapus data j. Selama j=0 dan j tidak lebih dari cheet.getrows( ), maka lakukan langkah k m. k. Membuat vector baru bernama data2. l. Selama i=0 dan i tidak lebih dari sheet.getcolumns( ) maka cell diisi dengan cell pada baris ke i pada kolom ke j lalu cell.getcontents() dimasukkan ke data2. m. Menambahkan data2 kedalam data. n. Membuat DefaultTableModel bernama model dengan isi baris berisi data dan kolom

88 68 pilihdb (koneksidb, String) Memanggil kelas HalamanPilihDB untuk menghubungkan sistem dengan berisi columnname. o. Atur tabel preprocess menjadi seperti model. p. Cetak data.size( ) ke dalam text field jumlah data. q. Cetak columnname.size( ) ke dalam text field jumlah atribut. r. Cetak fileexcel.getpath( ) ke dalam text file path data. s. Selama i=0 dan i kurang dari model.getcolumncount( ) maka setatribut pada seleksiatribut menjadi model.getcolumnname(i) lalu setpilih(false) lalu atur tabel checkbox menjadi baris berisi i dan kolom berisi seleksiatribut. t. Atur tabel seleksi atribut menjadi tabel check box. 5. Jika potong_nama_file.equals ( csv ) maka lakukan seperti langkah Jika tidak keduanya, tampilkan pesan eror. 1. Membuat obyek baru bernama dc dari kelas DBControl. 2. Membuat variabel bernama rset bertipe ResultSet. 3. Membuat obyek bernama rsmd

89 69 database dan mengambil data dari tabel database bertipe ResultMetaData lalu menginisialisasi dengan nilai rset.getmetadata( ). 4. Deklarasi variabel baru bernama columncount bertipe int yang berisi nilai rsmd.getcolumncount( ). 5. Membuat vector bernama headers dan data. 6. Menghapus header. 7. Selama i=0 dan I tidak lebih dari sama dengan jumlah kolom, maka tambahkan pada header rsmd.getcolumnname( ). 8. Hapus data. 9. Selama rset.next, lakukan langkah di bawah ini : a. Membuat vector baru bernama d. b. Selama i=1 dan I kurang dari sama dengan columncount, maka tambahkan rset pada d. c. Tambahkan d pada data. 10. Membuat tabel model bernama model atur nilai baris adalah data dan nilai kolom adalah headers. 11. Setmodel tabel data preprocess. 12. Selama i=0 dan I kurang dari model.getcolumncount( ) lakukan langkah Membuat obyek dari kelas

90 70 submitdata( ) Memasukkan data dari tabel preprocess ke tabel deteksi outlier seleksiatribut bernama seleksi_atribut. 14. Set atribut menjadil model.getcolumnname(i). 15. setpilih(false) 16. tambahkan (I, selekci_atribut) pada tabel_checkbox. 17. Set model tabel seleksi atribut menjadi tabel checkbox. 18. Membuat obyek baru bernama model pada kelas TableModel lalu inisialisasikan dengan nilai tabel_datapreprocess.getmodel() 19. Cetak jumlah data 20. Cetak jumlah atribut 1. Membuat obyek baru bernama tablemodel di kelas TableModel lalu diatur sebagai model dari tabel preprocess. 2. Jika jumlah kolom pada tablemodel adalah 0, maka cetak Anda belum memasukkan data!. lalu atur textfield pathdata adalah null. 3. Jika tidak, lakukan langkah 4 4. atur tabel deteksi menjadi setmodel(tablemodel). 5. Deklarasi variabel bernama baris bertipe int dengan inisialisasi tablemodel.getrowcount( ). 6. Cetak jumlah baris deteksi.

91 71 hapusatribut() Menghapus atribut yang ada pada tabel data preprocess untuk 1. Selama i=0 dan I tidak lebih dari nilai tabel_seleksiatribut.getrowcou nt( ), maka lakukan langkah 2- proses seleksi 2. Cek apakah atribut tabel_seleksiatribut.getvalueat( i,1) samadengan true. Jika ya lakukan langkah di bawah ini : a. Selama j=0 dan j kurang dari jumlah kolom tabel seleksi atribut, maka lakukan b-f. b. Cek apakah tabel seleksi atribut berisi nama kolom dari tabel data preprocess. Jika ya lakukan langkah c-f. c. Membuat obyek baru bernama tcol di kelas TableColumn dengan inisialisasi nilai tabel_datapreprocess.getcolu mnmodel().getcolumn(j). d. Membuat obyek baru bernama tcol2 di kelas TableColumn dengan inisialisasi nilai tabel_deteksioutlier.getcolu mnmodel().getcolumn(j). e. Hapus kolom tcol pada tabel data preprocess f. Hapus kolom tcol2 pada tabel deteksi outlier. 3. Hapus baris tabel checkbox. prosesdeteksi Melakukan 1. Cek apakah text field k kosong,

92 72 pemanggilan pada kelas GraphNew untuk menampilkan hasil perhitungan jika ya, cetak Nilai k tidak boleh kosong. Jika tidak, lakukan langkah Cek apakah text field k tidak berisi numeric positif. Jika ya, cetak Nilai k tidak boleh berisi huruf atau angka negative. Jika tidak lakukan langkah Cek apakah text field lamda kosong, jika ya, cetak Nilai lamda tidak boleh kosong. Jika tidak, lakukan langkah Cek apakah text field lamda tidak berisi numeric positif. Jika ya, cetak Nilai lamda tidak boleh berisi huruf atau angka negative. Jika tidak lakukan langkah Cek apakah text field k dan text field lamda berisi numeric positif. Jika ya, lakukan langkah 6-6. Deklarasi variabel baru bernama k dan lamda. 7. Cek apakah nilai k dan lamda lebih dari 0. Jika ya lakukan langkah 8. Jika tidak munculkan pesan error. 8. Membuat obyek bernama graph di kelas GraphNew. 9. Memanggil method input data ke

93 73 batasoutlier Untuk membatasi nilai derajad LOOP dalam tabel_deteksioutlier. 10. setk agar sesuai dengan inputan pengguna. 11. SetLamda agra sesuai dengan inputan pengguna. 12. Memanggil method tampiljarak untuk menampilkan hasil perhitungan jarak. 13. Memanggil method tampilneighbor untuk menampilkan obyek yang menjadi tetangga obyek tersebut. 14. Memanggil method caristdev() untuk menampilkan hasil perhitungan standard deviasi. 15. Memanggil method caripdist() untuk menampilkan hasil perhitungan probabilistic distance. 16. Memanggil method jumlahpdist untuk menampilkan hasil perhitungan probabilistic LOF, agregat PLOF dan nilai LoOP. 17. Mencetak jumlah outlier. 18. Mencetak lama deteksi outlier. 1. Cek apakah text field batas outlier kosong, maka cetak Nilai batas outlier tidak boleh kosong!. Jika tidak lakukan langkah Cek apakah text field batas

94 74 simpanloop() Menyimpan hasil outlier ke dalam file bertipe doc xls atau txt outlier berisi data numeric positif. Jika ya, lakukan langkah 3 -. jika tidak tampilkan Nilai batas outlier tidak boleh mengandung karakter huruf! 3. Atur model pada tabel deteksi dengan memanggil method setdataloop2 dengan parameter kolom tabel deteksi dan nilai batas outlier. 4. Mengurutkan data hasil outlier. 5. Cetak jumlah hasil outlier. 1. Menampilkan filechooser untuk lokasi penyimpanan file hasil outlier. 2. Mengatur file filter agar hanya bisa disimpan dalam tipe file doc, xls, dan txt. 3. Deklarasi variabel bernama file_output_stream bertipe FileOutputStream. 4. Deklarasi variabel bernama returnvalue bertipe int dengan inisialisasi filechooser menampilkan kotak dialog simpan. 5. Cek apakah returnvalue == JFileChooser.APPROVE_OPTI ON. Jika ya lakukan langkah Membuat variabel bernama

95 75 filename bertipe String berisi path data yang di pilih. 7. Membuat variabel ext berisi filter terhadap tipe file. 8. Cek apakah ext berisi Microsoft Excel (*.xls). jika ya lakukan langkah Membuat variabel bernama ff bertipe File. 10. Inisialisasi ff sama dengan file baru dengan nama file diikuti.xls 11. Menampilkan output ff. 12. Mengirimkan isi data tabel hasil outlier 13. Cek apakah ext berisi Microsoft Word (*.doc) jika ya lakukan seperti langkah Jika tidak lakukan langkah Cek apakah ext bertipe.txt, jika ya lakukan seperti langkah Cetak Hasil deteksi berhasil disimpan 6. Rincian Algoritma pada Method dalam kelas HalamanPilihDB Nama method Fungsi method Algoritma method pilihdatabase( ) Menampilkan basisdata yang tersedia dan memberikan 1. Cek jika combo box pilih koneksi adalah indeks ke 0 yaitu mysql, maka lakukan langkah 2 4. akses kepada 2. Jika textfield username,

96 76 pengguna untuk login ke basisdata yang dipilih pengguna password, dbname, atau url kosong, maka lakukan pengisian kembali. 3. Jika textfield username, password, dbname, dan url diisi dengan benar, maka berhasil login ke basisdata yang dipilih, yaitu mysql. 4. Menampilkan pesan berhasil terkoneksi lalu menampilkan form halaman pilih tabel. 5. jika combo box pilih koneksi adalah indeks ke 1, yaitu oracle, maka lakukan langkah Jika textfield username, password, dbname atau url kosong, maka lakukan pengisian kembali. 7. Jika textfield username, password, dbname, dan url diisi dengan benar, maka berhasil login ke basisdata yang dipilih, yaitu oracle. 8. Menampilkan pesan berhasil terkoneksi lalu menampilkan form halaman pilih tabel. 7. Rincian Algoritma pada Method dalam kelas HalamanPilihTabel

97 77 Nama method Fungsi method Algoritma method tampildaftartabel Menampilkan daftar 1. Membuat obyek baru di kelas (kodensidb, tabel dalam basis DBControl bernama dbc. String) data yang dipilih 2. Membuat obyek ResultSet pengguna bernama rset. 3. Jika basisdata oracle, maka tampilkan daftar tabel dalam oracle dengan menggunakan method displaytableoracle(koneksi.ge tconn()) 4. Jika basisdata mysql, maka tampilkan daftar tabel yang ada dalam basis data mysql dengan memanggil method displaytablemysql(koneksi.ge tconn()) 4.4 Perancangan Struktur Data Perancangan struktur data dalam sistem atau aplikasi sangat diperlukan untuk menggambarkan bagaimana sebuah data diolah dan disimpan dalam program. Konsep struktur data yang dipakai adalah konsep graf tak berarah dengan matriks 2 dimensi. Graf dapat memudahkan dalam memetakan obyek data beserta jarak sebuah obyek data dengan obyek yang lainnya. Konsep graf digunakan dalam menghubungkan satu obyek data dengan yang lain sehingga jika data tersebut saling terhubung maka dapat memudahkan perhitungan jarak antar data. Hal ini dikarenakan algoritma Local Outlier Probability mempertimbangkan sebuah data dinyatakan sebagai outlier berdasarkan jumlah tetangga yang dimiliki dalam nilai jangkauan tertentu. Graf memiliki vertex dan edge.

98 78 Sebuah graf adalah sekumpulan vertex yang saling terhubung melalui edge. Setiap edge menghubungkan dua node. Namun, tidak semua node harus saling terhubung. Data akan dianalogikan sebagai vertex dimana vertex tersebut memiliki list yang nantinya dapat diisi dengan banyak nilai atribut pada sebuah obyek data. Jarak masing-masing obyek data dinyatakan dalam edge dan nilai edge dari satu vertex ke vertex lain disimpan dalam bentuk matriks dua dimensi. Berikut merupakan ilustrasi untuk perancangan struktur data yang akan digunakan dalam sistem pendeteksi outlier : Graf Sebuah graf berisi kumpulan vertex yang saling terhubung melalui edge. Pada kasus ini obyek data mahasiswa dinyatakan sebagai vertex. Vertex tersebut akan berisi list yang nantinya dapat diisi dengan banyak nilai atribut pada sebuah obyek data. Pada gambar 3.5 dapat dilihat terdapat vertex mahasiswa 1, mahasiswa 2, dan mahasiswa 3 yang masing-masing memiliki atribut yang menampung nilai dalam bentuk list. Untuk masing-masing obyek mahasiswa akan terhubung dengan obyek data mahasiswa lain dan jarak antar obyek data mahasiswa tersebut dinyatakan sebagai edge. Ilustrasi struktur data graf dapat dilihat pada Gambar 4.1 di bawah ini. Verteks Mahasiswa[1] (List) nilai edge : 3,0014 edge : 3,0014 edge : 1,1244 Verteks Mahasiswa[2] edge : 1,1244 (List) nilai edge : 3,057 Verteks Mahasiswa[3] edge : 3,057 (List) nilai Gambar 4.1 Ilustrasi Struktur Data Graf

99 Matriks Dua Dimensi Jarak masing-masing obyek data akan disimpan dalam edge dan masing-masing nilai edge antar dua vertex lalu disimpan dalam matriks dua dimensi. Dalam kata lain matriks ini akan menyimpan vertex dan edge dari graf tersebut. Dimana vertex adalah representasi dari obyek data dan edge adalah representasi dari jarak antar obyek data. Awal graf dibentuk, edge antar obyek data mahasiswa dinyatakan dengan nilai -1, yang artinya jarak antar dua obyek mahasiswa tersebut masih belum ada atau dengan kata lain obyek tersebut tidak terhubung. Sedangkan edge yang bernilai 0 menyatakan jarak obyek data terhadap dirinya sendiri. Ilustrasi struktur data matriks 2 dimensi dapat dilihat pada Tabel 4.2 di bawah ini Tabel 4.2 Ilustrasi matriks dua dimensi Mahasiswa [1] Mahasiswa [2] Mahasiswa [3] Mahasiswa [1] Mahasiswa [2] Mahasiswa [3] Kemudian dilakukan perhitungan jarak antar obyek data dengan menggunakan rumus jarak Euclidean Distance. Jarak dua obyek yang awalnya bernilai -1 akan diganti dengan hasil perhitungan rumus jarak tersebut. Sedangkan edge yang menyatakan jarak obyek terhadap obyek itu sendiri tetap bernilai 0. Ilustrasi perhitungan jarak pada matrks 2 dimensi digambarkan pada Tabel 4.3 di bawah ini : Tabel 4.3 Ilustrasi matriks dua dimensi setelah perhitungan jarak antar verteks Mahasiswa [1] Mahasiswa [2] Mahasiswa [3] Mahasiswa [1] 0 3,0014 1,1244 Mahasiswa [2] 3, ,057 Mahasiswa [3] 1,1244 3,057 0

100 Perancangan Antarmuka Tampilan Halaman Awal Halaman awal merupakan tampilan awal ketika program pertama kali dijalankan. Pada halaman ini terdapat button masuk yang berfungsi untuk menuju ke halaman selanjutnya yaitu halaman utama. Tampilan ini dapat dilihat pada Gambar 4.2 di bawah ini : SISTEM PENDETEKSI OUTLIER MASUK Erlita Octaviani Universitas Sanata Dharma Yogyakarta Copyright 2014 Gambar 4.2 Tampilan Halaman Awal Tampilan Halaman Utama Halaman utama merupakan halaman dimana fungsi utama dari sistem pendeteksi outlier ini dilakukan oleh pengguna. Pada bagian sidebar halaman ini terdapat button Bantuan, button Tentang, dan button Keluar sebagai jalan pintas sistem. Lalu pada halaman ini juga terdapat dua buah tabbed pane (tab), yaitu tab Preprocessing dan tab Deteksi Outlier. Tab Preprocessing berfungsi untuk mengimport file dalam excel dan database yang kemudian terjadi proses seleksi atribut. Selanjutnya tab Deteksi Outlier memungkinkan pengguna untuk memasukkan nilai parameter k dan lamda untuk melakukan proses deteksi outlier. Setelah button proses diklik, maka terjadilah proses deteksi outlier

101 81 dan hasil outlier ditampilkan ke dalam tabel. Pengguna dapat menyimpan hasil outlier tersebut dalam format file.doc.xls atau.txt. Tampilan ini dapat dilihat pada Gambar 4.3 dan Gambar 4.4 di bawah ini : SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY Preprosessing Deteksi Outlier Pilih File Pilih Database Tentang Atribut 1 Atribut 2 Atribut 3 Atribut 4 Bantuan Keluar Seleksi Atribut Jumlah Data Jumlah Atribut Atribut Atribut 1 Atribut 2 Tandai Semua Batal Seleksi Hapus SUBMIT BATAL Gambar 4.3 Tampilan Halaman Utama - Preprocessing

102 82 SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY Tentang Preprosessing Deteksi Outlier Proses Algoritma Local Outlier Probability minpts lamda Proses Atribut 1 Atribut 2 Atribut 3 Atribut 4 Bantuan Jumlah Data Hasil Deteksi Outlier No Mahasiswa MDEF KOMDEF Keluar Jumlah Outlier Lama Deteksi SIMPAN HAPUS Gambar 4.4 Tampilan Halaman Utama Deteksi Tampilan Halaman Bantuan Halaman bantuan merupakan halaman yang berisi informasi petunjuk penggunaan Sistem Pendeteksi Outlier menggunakan algoritma Local Outlier Probability. Tampilan ini dapat dilihat pada Gambar 4.5 di bawah ini :

103 83 SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY Petunjuk Penggunaan A. Petunjuk Preprocessing Tentang Bantuan B. Petunjuk Deteksi Outlier Keluar Gambar 4.5 Tampilan Halaman Bantuan Tampilan Halaman Tentang Halaman Tentang berisi mengenai informasi sistem pendeteksi outlier seperti informasi pengembang, nama sistem, versi dan juga lisensi sistem. Halaman ini dapat diakses dengan memilih button Tentang pada halaman utama. Tampilan ini dapat dilihat pada Gambar 4.6 di bawah ini : SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY Tentang PENGEMBANGAN ALAT BANTU DETEKSI OUTLIER MENGGUNAKAN ALGORITMA LOCAL OUTLIER PROBABILITY Bantuan Keluar Dibuat oleh : ERLITA OCTAVIANI PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2014 Gambar 4.6 Tampilan Halaman Tentang

104 Tampilan Halaman Konfirmasi Keluar Halaman keluar yang muncul setelah pengguna menekan button Keluar pada Halaman Utama dan memunculkan dialog box apakah pengguna benar-benar akan keluar dari sistem atau tidak. Tampilan ini dapat dilihat pada Gambar 4.7 di bawah ini : Apakah anda ingin keluar dari sistem? YA TIDAK Gambar 4.7 Tampilan Halaman Konfirmasi Keluar Tampilan Halaman Pilih Database Pada halaman pilih database, pengguna dapat memilih database yang akan digunakan dalam hal ini Oracle atau MySql. Kemudian memasukkan konfigurasi database seperti username, password, dan URL. Jika berhasil login ke dalam database maka pengguna dapat melihat daftar tabel yang ada pada database lalu memilihnya untuk dimasukkan sebagai data yang akan dicari outliernya. Tampilan ini dapat dilihat pada Gambar 4.8 di bawah ini : PILIH KONEKSI DATABASE Username Password Database Name Url OK BATAL Gambar 4.8 Tampilan Halaman Pilih Database

105 Tampilan Halaman Pilih Tabel Halaman pilih tabel memungkinkan pengguna yang telah berhasil login ke dalam database untuk dapat memilih tabel sebagai masukan ke dalam sistem. Data tabel ini selanjutnya akan ditampilkan ke halaman utama. Tampilan ini dapat dilihat pada Gambar 4.9 di bawah ini : PILIH TABEL OK BATAL Gambar 4.9 Tampilan Halaman Pilih Tabel Tampilan Halaman Pilih File Halaman Pilih File muncul ketika button pilih file pada Halaman Utama diklik. Kemudian akan muncul jfilechooser. Pada jfilechooser ini pengguna dapat memilih file bertipe.xls maupun.csv. Tampilan ini dapat dilihat pada Gambar 4.10 di bawah ini : Look In: File Name: Files of type: OPEN CANCEL Gambar 4.10 Tampilan Halaman Pilih File

106 BAB V IMPLEMENTASI SISTEM Bab ini menjelaskan tentang implementasi sistem deteksi outlier menggunakan algoritma Local Outlier Probability. Sistem ini dibuat sesuai dengan perancangan sistem sesuai dengan yang dicantumkan pada bab IV. Implementasi aplikasi ini menggunakan bahasa pemrograman Java menggunakan aplikasi pemrograman Netbeans IDE pada computer dengan spesifikasi prosesor Intel Core 2 Duo CPU 2.10 GHz 2.10 GHz, RAM 4GB dan hardisk 500 GB. 5.1 Implementasi Antarmuka Sistem Deteksi Outlier menggunakan algoritma Local Outlier Probability telah diimplementasikan menjadi sebuah aplikasi java yang siap digunakan. Berikut ini merupakan detail dari implementasi antarmuka dari sistem terkait : Implementasi Antarmuka Halaman Awal Halaman awal adalah halaman pertama ketika menjalankan sistem. Pada halaman awal terdapat button simpan dan apabila diklik akan memasuki halaman utama. Gambar 5.1 merupakan implementasi dari halaman awal. Gambar 5.1 Implementasi halaman awal 86

107 Implementasi Antarmuka Halaman Utama Pada halaman utama sistem menampilkan button tentang (jika diklik akan memasuki halaman tentang), button bantuan (jika diklik akan memasuki halaman bantuan), button keluar (jika diklik akan muncul dialog box konfirmasi keluar untuk keluar dari sistem). Pada halaman utama tersedia 2 tabbed pane yaitu tab preprocessing dan tab deteksi outlier. Gambar 5.2 merupakan implementasi dari halaman utama. Gambar 5.2 Implementasi halaman utama tab preprocessing Tab preprocessing berfungsi untuk melakukan proses preprocessing pada data mining, yaitu proses input data lalu seleksi atribut. Pada tab ini pengguna dapat menginput data berupa excel dan basisdata. Ketika pengguna mengklik button pilih file maka sistem akan menjalankan halaman pilih file yang berupa JFileChooser. Pengguna dapat menginput file excel dengan tipe.xls dan.csv. Gambar 5.3 merupakan implementasi dari JFileChooser.

108 88 Gambar 5.3 Implementasi JFileChooser Setelah memilih file, maka sistem akan menampilkan data tersebut ke dalam jtable. Proses input data dapat dilihat pada Gambar 5.4 di bawah ini : Gambar 5.4 Proses input data

109 89 Setelah itu melakukan seleksi atribut dengan memilih atribut yang akan dihapus. Sistem dapat menghapus lebih dari 1 atribut. Seleksi atribut dapat dilihat pada Gambar 5.5 di bawah ini : Gambar 5.5 Implementasi seleksi atribut Setelah sistem selesai melakukan seleksi atribut, maka selanjutnya adalah proses deteksi outlier. Dengan menekan button submt maka sistem akan memasuki tab deteksi outlier. Gambar 5.6 merupakan implementasi dari halaman awal pda tab deteksi outlier. Gambar 5.6 Implementasi halaman utama tab deteksi outlier Pada tab deteksi outlier terdapat text field untuk masukan parameter k dan lamda. Setelah pengguna menginputkan parameter, pengguna harus menekan button proses untuk memulai proses deteksi. Setelah

110 90 itu hasil deteksi akan ditampilkan dalam tabel hasil deteksi. Gambar 5.7 merupakan tampilan hasil deteksi outlier. Gambar 5.7 Tampilan hasil deteksi outlier Sistem dapat membatasi hasil outlier dengan cara menginputkan nilai textfield batas outlier. Gambar 5.8 merupakan tampilan hasil seleksi LoOP. Gambar 5.8 Tampilan hasil seleksi LoOP Sistem mampu menyimpan hasil deteksi outlier. Pengguna menekan button simpan lalu pengguna memilih lokasi penyimpanan,

111 91 menginput nama file dan ekstensi file. Maka sistem berhasil menyimpan hasil deteksi outlier. Gambar 5.9 Tampilan save dialog Implementasi Antarmuka Halaman Pilih Database Halaman Pilih Database berfungsi untuk menginput data yang berasal dari tabel basis data. Pengguna menekan button pilih database pada halaman utama, lalu sistem akan menjalankan halaman pilih database. Pada halaman ini pengguna dapat memili database Oracle atau MySql. Gambar 5.10 merupakan implementasi dari halaman pilih database. Gambar 5.10 Implementasi Halaman Pilih Database

112 92 Setelah itu pengguna memilih koneksi database (Oracle atau MySql) lalu menginputkan username, password, database name dan URL untuk melakukan login koneksi ke database terkait. Gambar 5.11 merupakan proses konfigurasi database. Jika berhasil maka akan muncul tampilan seperti di Gambar Gambar 5.11 Proses konfigurasi database Gambar 5.12 Proses koneksi berhasil Setelah memasukkan data konfigurasi database, jika berhasil maka muncul dialog box koneksi berhasil. Setelah itu pengguna memilih tabel untuk input data. Sistem menjalankan halaman pilih tabel bila telah berhasil terkoneksi dengan database. Gambar 5.13 merupakan implementasi dari halaman pilih tabel.

113 93 Gambar 5.13 Implementasi halaman pilih tabel Ketika pengguna telah memilih tabel, maka data dalam tabel basis data tersebut akan terinput dalam jtable pada halaman utama. Gambar 5.14 merupakan hasil input data dari database. Gambar 5.14 Hasil input data dari database Implementasi Antarmuka Halaman Bantuan Halaman ini berisi tentang informasi tentang prosedur penggunaan sistem pendeteksi outlier menggunakan algoritma Local Outlier Probability. Sistem dapat menjalankan halaman ini setelah button

114 94 bantuan diklik. Gambar 5.15 merupakan implementasi dari halaman bantuan. Gambar 5.15 Implementasi halaman bantuan Implementasi Antarmuka Halaman Tentang Halaman ini memberikan informasi tentang nama sistem, nama pembuat, versi dan lisensi dari sistem pendeteksi outlier menggunakan algoritma Local Outlier Probability. Halaman ini dapat diakses apabila pengguna menekan button tentang. Gambar 5.16 merupakan implementasi dari halaman tentang. Gambar 5.16 Implementasi Halaman Tentang

115 Implementasi Antarmuka Konfirmasi Keluar Antarmuka ini muncul ketika pengguna menekan button keluar. Sistem akan menampilkan dialog box konfirmasi keluar untuk keluar dari sistem. Jika pengguna menekan button yes, maka akan keluar dari sistem. Akan tetapi jika pengguna memilik no, maka sistem akan kembali ke halaman utama. Gambar 5.17 merupakan implementasi dari halaman konfirmasi keluar. Gambar 5.17 Implementasi Konfirmasi Keluar Implementasi Pengecekan Masukan Sistem ini dilengkapi dengan error handling sehingga ketika ada inputan yang tidak sesuai dengan sistem, sistem dapat menangani dan mengkonfirmasikan kepada pengguna tentang kesalahan tersebut. Penanganan error ini sangat penting agar tidak terjadi kesalahan dalam sistem. Berikut ini error handling yang terdapat pada sistem pendeteksi outlier dengan menggunakan algoritma Local Outlier Probability : 1. Tampilan pesan kesalahan input data Error message ini muncul apabila pengguna menginputkan file selain yang bertipe.xls atau.csv. Gambar 5.18 merupakan error mesaage ketika menginput suatu data. Gambar 5.18 Error message input data

116 96 2. Tampilan pesan kesalahan konfigurasi database Tampilan error message ini akan muncul apabila pengguna salah dalam melakukan konfigurasi basis data. Gambar 5.19 merupakan error mesaage ketika melakukan konfigurasi database. Gambar 5.19 Error message konfigurasi database Apabila pengguna tidak lengkap dalam mengisi konfigurasi basis data, maka akan muncul seperti di bawah ini : Gambar 5.20 Error message input data 3. Tampilan pesan kesalahan input nilai k Tampilan error message pada input nilai k ini muncul apabila text field k tidak diisi dan atau diisi dengan nilai yang bukan numeric positif, contohnya diisi dengan nilai negative atau

117 97 karakter. Gambar 5.21 merupakan error mesaage ketika melakukan input data k kosong. Sedangkan Gambar 5.22 merupakan error mesaage ketika melakukan input k dengan huruf, karakter atau bilangan negative. Gambar 5.21 Error Message input data k kosong Gambar 5.22 error message input data k non numerik 4. Tampilan pesan kesalahan input nilai lamda Tampilan error message pada input nilai lamda ini muncul apabila text field lamda tidak diisi dan atau diisi dengan nilai yang bukan numeric positif, contohnya diisi dengan nilai negative atau karakter. Gambar 5.23 merupakan error mesaage ketika melakukan input lamda kosong. Sedangkan Gambar 5.24 merupakan error mesaage ketika melakukan input lamda dengan huruf, karakter atau bilangan negative. Gambar 5.23 Error Message input data lamda kosong

Menunjukkan lagi