SKRIPSI. Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

Transkripsi

1 PENERAPAN METODE ENHANCED CLASS OUTLIER DISTANCE BASED UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS DAN AKREDITASI SEKOLAH MENENGAH ATAS SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh: Angela Mediatrix Melly PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2017

2 IMPLEMENTATION OF ENHANCED CLASS OUTLIER DISTANCE BASED ALGORITHM FOR OUTLIER IDENTIFICATION ON THE DATA OF NATIONAL EXAM RESULT, INTEGRITY INDEX AND ACCREDITATION OF SENIOR HIGH SCHOOL THESIS Present as Partial Fulfillment of the Requirement to Obtain the Sarjana Komputer Degree in Informatics Engineering Study Program By : Angela Mediatrix Melly INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2017

3 HALAMAN PERSETUJUAN SKRIPSI PENERAPAN METOI}E ENEANCED CI^ASS OUTLIER DISTANCE BASED UI{TT'K IDEI{TIflKASI OUTI,TER FAI}A I}ATA HASIL UJIAN NASTONAI, TNDEKS INTEGRTTAS DAI\I AKREIIITASI SEKOT,AH MENtrNGAE ATAS 4*g 6{er-vqi qt'aneela ffiarix Mdlfr $=a"g.h ffiatrix Ir; rdsrlsta + gjge gtr ffitnh = b:e=5 +!i:- J z,l, E /dn..'.''." -p rc i4;'-,,,\\ F -,";. = E xl,- -.v 1.. r,,^l Y)- r t,l -1-Y l- _a gj 11^ -1 =-f,=lrgf ^*i = - ^^ g! { l-ra - Dosen Pembimbing, P. H. PrimaRosa, S.Si., M.Sc. ranggar,... i5...i.:lt I llt

4 HALAMAN PENGESAHAN SKRIPSI PENMRAPAN METODE ENHANCED CTASS OIJTLIER DISTANCE BASED T}NTUK IDENTIFIKASI OUTI,TER PAI}A I}ATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS I}AN AKREDITASI SBKOLAH MENENGAH ATAS F _r- *7 rrvr ; r JJJTTI{FIIi _a-- -\-_E :-r t =.*_ 1_,A!: =. -t 7L AJ1A - q,-l \ te 1 L ' IE tt.g \! r.-lft a p"*n*r,&rio*pan rani ti a$nsu:,\ Ketua Sekretaris Anggota \ Dan fipyatirtarl n_i ifienffi syarat-1.g f t ri+t.'l!r-,r r:!)! rili\li i,tr:r t i t_ E! _!# lr:,'' 'E- '..,1r-.'- 4 -;ffi e.--+.e? II@$ap ' "EE -r _-... _4. Susunan PJnitia Penguji *) "\- = si f,* -+(- r\t' s-s{fip4o3ro, M.Ko4g \ \3 lff+e-reaearia Pofind SKft.lM.sc. = a - Yogyakarta,..t.4. J.UN!.39ff Fakultas Sains dan Teknologi niversitas Sanata Dharma Dekan &9", S.Si, M.Math.Sc., Ph.D iv

5 HALAMAN PERSEMBAHAN Menjadi Garam dan Terang Dunia Tugas akhir ini saya persembahkan kepada : Allah Bapa, Putra, Roh Kudus Bunda Maria Orangtua Terkasih dan Saudara saudara Tersayang v

6 PER}IYATAAN KEASLIAN KARI A Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan daftar pustak4 sebagaimana layaknya karya ilmiah. yogryakarta,... L('..J.gni......zafi Penulis, Angela Mediatrix Melly vi

7 ABSTRAK Pertumbuhan data yang semakin pesat menyebabkan penumpukan data yang sangat besar. Untuk itu diperlukan penambangan data untuk mengubah data yang sangat banyak dan tidak informatif menjadi data yang memberi suatu informasi. Outlier merupakan salah satu bidang penelitian di dalam penambangan data. Outliers adalah data yang menyimpang terlalu jauh dari data yang lainnya dalam suatu rangkaian data. Salah satu algoritma deteksi outlier adalah algoritma Enhanced Class Outlier Distance Based (ECODB) yang merupakan peningkatan algoritma Class Outlier Distance Based (CODB). Algoritma ECODB mengurangi parameter dalam CODB dengan melakukan normalisasi. Algoritma ECODB dapat mengidentifikasi outlier pada data yang memiliki class label. Pada penelitian ini algoritma ECODB dipergunakan untuk mengidentifikasi outlier pada data hasil UN, indeks integritas dan akreditasi Sekolah Menengah Atas (SMA) pada Provinsi Daerah Istimewa Yogyakarta tahun Berdasarkan dari hasil pengujian dapat disimpulkan bahwa algoritma ECODB dapat mengidentifikasi outlier pada hasil UN, indeks integritas dan akreditasi Sekolah Menengah Atas (SMA) pada Provinsi Daerah Istimewa Yogyakarta tahun Nilai jumlah tetangga terdekat (K) dan jumlah outlier yang diharapkan (N) dapat berpengaruh terhadap hasil identifikasi outlier. Memvariasi nilai K dapat mempengaruhi nilai Probability Class Label (PCL) setiap instance. Memvariasi nilai N dapat mempengaruhi nilai Class Outlier Factor (COF) setiap instance. Kata Kunci : Penambangan Data, Identifikasi Outlier, Algoritma Enhanced Class Outlier Distance Based vii

8 ABSTRACT Rapid data growth leads to huge data stacks. Therefore, data mining is needed to change the large and uninformative data into more informative. Outlier detection is one field of research in data mining. Outliers are data that deviate too far from other data in a dataset. One of the outlier detection algorithms is the Enhanced Class Outlier distance based (ECODB) algorithm. ECODB algorithm is enhancement from Class Outlier Distance Based (CODB) algorithm. ECODB algorithm reduces CODB parameter using normalization technique. ECODB algorithm can identify outliers in data that have class label. In this study, the ECODB algorithm is used to identify outliers on national exam results, integrity index and accreditation of senior high schools in the Yogyakarta province year From the experimental results, it can be concluded that ECODB algorithm can identify outliers on national exam results, integrity index and accreditation of senior high school in the Yogyakarta province year The value of the nearest neighbor (K) and the expected number of outliers (N) effect the result of outlier identification. Varying the K value can affect the Probability Class Label (PCL) of each instance. Varying the N value can affect the Class Outlier Factor (COF) of each instance. Keywords: Data Mining, Outlier Identification, Enhanced Class Outlier Distance Based Algorithm viii

9 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI LEMBARAN PERI{YATAAN PERSETUJUAN PUBLIKASI KARYA TLMIAH UNTUK KEPERLUAN KDPENTINGAN AKADEMIS Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Angela Mediatrix Melly NIM :13fi14474 Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul : PENERAPAN METODE ENHANCED CLASS OUTLIER DISTANCE BASED UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS I}AN AKREDITASI SEKOLAH MENTf,NGAH ATAS Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, di internet atau media lain untuk kepentingan akademis tanpa perlu meminta rjin dari saya maupun mengalihkan dalam bentuk media lain, mengetota memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pemyataan ini saya buat dengan sebenarnya Dibuat di Yogyakarta Pada tanggal...\6..jttti.... z0t7 Yang menyatakan, Angela Mediatrix Melly ix

10 KATA PENGANTAR Puji dan syukur penulis haturkan kepada Tuhan Yang Maha Esa karena berkat rahmat dan karunianya, penulis dapat menyelesaikan tugas akhir ini yang berjudul PENERAPAN METODE ENHANCED CLASS OUTLIER DISTANCE BASED UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS DAN AKREDITASI SEKOLAH MENENGAH ATAS. Dalam proses penyelesaian penyusunan tugas akhir ini penulis diberi banyak dukungan, doa dan motivasi dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih kepada : 1. Tuhan Yesus Kristus dan Bunda Maria yang telah memberi kekuatan, bimbingan, keyakinan dan menyertai penulis. 2. Orang tua penulis, Bapak Herkulanus dan Ibu Fransisca Xaveria Sujarwati yang begitu menyayangi penulis dan selalu memberikan dukungan, doa, perhatian, nasihat dan motivasi. 3. Kakak dan adik yaitu Fidelia Diniarie, Silvia Dian Senja Sakti dan Septian Rendy Padangoan yang selalu menghibur dan mendukung. 4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi. 5. Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik Informatika. 6. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen Pembimbing Skripsi yang telah mencurahkan pikiran dan memberikan waktu serta membimbing penulis. 7. Bapak Albertus Agung Hadhiatma, S.T., M.T selaku Dosen Pembimbing Akademik. 8. Seluruh dosen yang telah mendidik, mengajarkan pengetahuan dan pengalaman yang sangat berharga selama proses perkuliahan di Universitas Sanata Dharma. x

11 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9. Sahabat-sahabat yaitu Windia Salura, Purbarini Sulysthian, Valencia hfaria G. Sitompul, I. Kristanto Ri]radi, Kasih ]Iandoyo dan Saftio Bagus Wijalsono yang selalu mendtrkung, merrberikan kisah dan pengalarnan yang tidak akan penulis lupakan 10. Teman-teman Program Snrdi Teknik Informatika 2013 yarg bersama-sama dalam mengikuti kegiaun perkulialun selama 4 Ahun. Penulis berharap penelitian ini dapat berguna dan membantu bagi pembaca Penulis menyadari laporan penelitian ini tidak sepenuhnya sempurnq oleh karena ifir penulis mengharapkan ldtik dan saran agar penelitian ini menjadi lebih baik lagi. yogyakarta,...lb...j.,,ln.... z0l7 Penulis, Angela Mediatrix Melly xi

12 Daftar Isi HALAMAN PERSETUJUAN... iii HALAMAN PENGESAHAN... iv HALAMAN PERSEMBAHAN... v PERNYATAAN KEASLIAN KARYA... vi ABSTRAK... vii ABSTRACT... viii LEMBARAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN KEPENTINGAN AKADEMIS... ix KATA PENGANTAR... x Daftar Isi... xii Daftar Tabel... xv Daftar Gambar... xvii Daftar Rumus... xviii Daftar Lampiran... xix BAB I PENDAHULUAN Latar Belakang Rumusan Masalah Tujuan Batasan Masalah Manfaat Penelitian Metodologi Penelitian Sistematika Penulisan... 5 BAB II LANDASAN TEORI Penambangan Data Pengertian Penambangan Data Fungsi Penambangan Data Outlier Pengertian Outlier Metode Deteksi Outlier Algoritma Enhanced Class Outlier Distance Based Struktur Data BAB III METODE PENELITIAN Bahan Riset/Data xii

13 3.2 Peralatan Penelitian Tahap-tahap Penelitian Studi Pustaka Knowledge Discovery in Database (KDD) Desain Alat Uji Analisis dan Pembuatan Laporan BAB IV PERANCANGAN PERANGKAT LUNAK Perancangan Umum Input Proses Output Diagram Use Case Gambaran Umum Use Case Narasi Use Case Diagram Aktivitas Perancangan Struktur Data Diagram Kelas Analisis Diagram Sekuen Diagram Kelas Disain Algoritma per Method Perancangan Antarmuka Perancangan Halaman Home Perancangan Halaman Preprocessing Perancangan Halaman Hasil Perancangan Halaman Tentang Perancangan Halaman Bantuan BAB V IMPLEMENTASI DAN PENGUJIAN PERANGKAT LUNAK Implementasi Rancangan Perangkat Lunak Implementasi Kelas Model Implementasi Kelas View Implementasi Kelas Control Pengujian Perangkat Lunak Pengujian Perangkat Lunak (Black Box) Rencana Pengujian Black Box xiii

14 Prosedur Pengujian Black Box dan Kasus Uji Evaluasi Pengujian Black Box Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Hasil Pencarian Outlier Menggunakan Perangkat Lunak Pencarian Outlier Secara Manual Pencarian Outlier Menggunakan Perangkat Lunak Evaluasi Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Perangkat Lunak BAB VI ANALISA HASIL DAN PEMBAHASAN Dataset Hasil Identifikasi Outlier Hasil Identifikasi Outlier Dataset Jurusan IPA Hasil Identifikasi Outliet Dasaset Jurusan IPS Analisa Hasil Identifikasi Outlier Analisa Hasil Identifikasi Outlier Dataset Jurusan IPA Analisa Hasil Identifikasi Outlier Dataset Jurusan IPS Kelebihan Dan Kekurangan Perangkat Lunak Kelebihan Perangkat Lunak Kekurangan Perangkat Lunak BAB VII PENUTUP Kesimpulan Saran Daftar Pustaka xiv

15 Daftar Tabel Tabel 3. 1 Tabel Atribut Data Hasil UN Tabel 3. 2 Tabel Atribut Data Nilai Indeks Integritas Tabel 3. 3 Tabel Atribut Data Nilai Akreditasi Sekolah Tabel 3. 4 Tabel Atribut Terpilih Tabel 4. 1 Objek Data Sekolah Tabel 4. 2 Rincian Algoritma per Method Kelas controlecodb Tabel 4. 3 Rincian Algoritma per Method Kelas controlexcel Tabel 4. 4 Rincian Algoritma per Method Kelas DataModel Tabel 4. 5 Rincian Algoritma per Method Kelas HasilECODBModel Tabel 5. 1 Implementasi Kelas Model Tabel 5. 2 Implementasi Kelas View Tabel 5. 3 Spesifikasi Detail Kelas Home.java Tabel 5. 4 Spesifikasi Detail Kelas Preprocessing.java Tabel 5. 5 Spesifikasi Detail Kelas Hasil.java Tabel 5. 6 Spesifikasi Detail Kelas Tentang.java Tabel 5. 7 Spesifikasi Detail Kelas Bantuan.java Tabel 5. 8 Implementasi Kelas Controller Tabel 5. 9 Rencana Pengujian Black Box Tabel Data Hasil UN, Indeks Integritas, Akreditasi SMA Jurusan SMA Kabupaten Kulonprogo Tabel Distance atau Similarity Data Antar Sekolah Tabel Hasil Probability of Class Label Tabel Hasil Ranking Probability of Class Label Tabel Hasil Penghitungan Deviation, KDist, normdev, dan normkdist Tabel Hasil Penghitungan Class Outlier Factor Tabel Hasil Rangking Class Outlier Factor Tabel 6. 1 Hasil Identifikasi dengan N=5, K bervariasi Tabel 6. 2 Hasil Identifikasi dengan K=10, N bervariasi Tabel 6. 3 Hasil Identifikasi dengan N=5, K bervariasi Tabel 6. 4 Hasil Identifikasi dengan K=10, N bervariasi Tabel 6. 5 Tetangga Terdekat SMA ISLAM TERPADU ABU BAKAR Tabel 6. 6 Tetangga Terdekat SMA MUHAMMADIYAH 1 SLEMAN Tabel 6. 7 Tetangga Terdekat SMA GAJAH MADA YOGYAKARTA Tabel 6. 8 Tetangga Terdekat SMA MUHAMMADIYAH PIYUNGAN Tabel 6. 9 Tetangga Terdekat SMA MUHAMMADIYAH MLATI xv

16 Tabel Tetangga Terdekat SMA NEGERI 1 NGAGLIK Tabel Tetangga Terdekat SMA ISLAM TERPADU ABU BAKAR Tabel Tetangga Terdekat SMA MUHAMMADIYAH MLATI Tabel Tetangga Terdekat SMA 17 YOGYAKARTA Tabel Tetangga Terdekat SMA NEGERI 1 LENDAH xvi

17 Daftar Gambar Gambar 4. 1 Diagram Flowchart Gambar 4. 2 Diagram Use Case Gambar 4. 3 Objek Jarak Gambar 4. 4 Rancangan Antarmuka Halaman Home Gambar 4. 5 Antarmuka Halaman Preprocessing Gambar 4. 6 Antarmuka Halaman Hasil Gambar 4. 7 Antarmuka Halaman Tentang Gambar 4. 8 Antarmuka Halaman Bantuan Gambar 5. 1 Implementasi Antarmuka Kelas Home Gambar 5. 2 Implementasi Antarmuka Kelas Preprocessing Gambar 5. 3 Implementasi Antarmuka Kelas Hasil Gambar 5. 4 Implementasi Antarmuka kelas Tentang Gambar 5. 5 Implementasi Antarmuka Kelas Bantuan Gambar 5. 6 Hasil Identifikasi Outlier Kabupaten Kulonprogo xvii

18 Daftar Rumus Rumus 2.1 : PCL(T,K) Rumus 2.2 : Deviation(T) Rumus 2.3 : KDist(T) Rumus 2.4 : norm(deviation(t)) Rumus 2.5 : norm(kdist(t)) Rumus 2.6 : COF(T) Rumus 5.1 : Ecludean Distance(X, Y) xviii

19 Daftar Lampiran LAMPIRAN 1 : Gambar Umum Use Case LAMPIRAN 2 : Narasi Use Case LAMPIRAN 3 : Diagram Aktivitas LAMPIRAN 4 : Diagram Kelas Analisis LAMPIRAN 5 : Diagram Sekuen LAMPIRAN 6 : Diagram Kelas Disain LAMPIRAN 7 : Algoritma Per Method LAMPIRAN 8 : Prosedur Pengujian dan Kasus Uji LAMPIRAN 9 : Proses Penghitungan Manual LAMPIRAN 10 : Tetangga Terdekat dan Kelas Label Hasil Running Dataset IPA LAMPIRAN 11 : Tetangga Terdekat dan Kelas Label Hasil Running Dataset IPA xix

20 BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan data yang semakin pesat menyebabkan penumpukan data yang sangat besar. Penumpukan data yang terlalu besar seringkali hanya dianggap sebagai hal yang tidak berguna karena memenuhi ruang penyimpanan dan berisi informasi atau data yang sudah tidak gunakan. Untuk itu diperlukan penambangan data untuk mengubah data yang sangat banyak dan tidak informatif menjadi data yang memberi suatu informasi. Di dalam penambangan data terdapat banyak metode atau teknik yang sering digunakan. Salah satunya adalah outlier yang merupakan salah satu bidang penelitian di dalam penambangan data. Outliers adalah data yang menyimpang terlalu jauh dari data yang lainnya dalam suatu rangkaian data. Adanya data outliers ini akan membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Outlier sering dianggap sebagai noise dan sebagian besar algoritma di dalam penambangan data mencoba meminimalkan dan mengeliminasi outlier(fiona & Rosa, 2013). Namun outlier bisa merupakan representasi suatu data atau kejadian yang unik atau langka yang perlu dianalisa lebih lanjut(fiona & Rosa, 2013). Ada banyak teknik atau metode yang digunakan untuk mendeteksi outlier. Kebanyakan dari metode-metode tersebut mengidentifikasi outlier terlepas dari class label set data yang digunakan. Metode-metode tersebut hanya mengidentifikasi outlier secara keseluruhan dalam set data. Class Outlier Mining mengidentifikasi outliers dengan memperhitungkan class label yaitu mendeteksi outliers yang berbeda dari kelas label. Algoritma Class Outlier Distance Based (CODB) merupakan metode Class Outlier Mining berdasarkan pendekatan jarak dan tetangga terdekat dengan menggunakan Class Outlier Factor (COF) yang mewakili derajat kelas outlier dalam objek data (Hewahi & Saad, 2007). Menurut Hewahi dan Saad 1

21 (2009) algoritma Enhanced Class Outlier Distance Based merupakan peningkatan algoritma Class Outlier Distance Based. Dalam algortima ECODB mengurangi parameter dalam CODB dengan melakukan normalisasi. Pada penelitian yang dilakukan oleh Widowati (2015), algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur XYZ. Pada bidang pendidikan banyak data yang merupakan data yang memiliki class label salah satunya adalah mengenai Ujian Nasional(UN). Data UN memiliki atribut yaitu nama sekolah, nilai UN, indeks integritas sekolah dan akreditasi sekolah. Nilai UN merupakan nilai yang dihasilkan dari Ujian Nasional yang diselenggarakan secara nasional pada tingkat akhir sekolah menengah pertama dan sekolah menengah atas. Atribut nilai UN merupakan atribut numerik. Indeks integritas sekolah merupakan nilai kejujuran dari sekolah tersebut. Atribut indeks integritas merupakan atribut numerik. Akreditasi sekolah merupakan penilaian yang dilakukan oleh pemerintah yang berwenang untuk menentukan kelayakan program dan/atau satuan pendidikan berdasarkan kriteria yang telah ditetapkan. Atribut akreditasi sekolah merupakan class label. Deteksi outlier pada data UN pernah diteliti oleh Octaviani (2015), yang mendeteksi outlier pada data UN SMA tahun ajaran di Provinsi Daerah Istimewa Yogyakarta menggunakan algoritma Influenced Outlierness (INFLO). Pada penelitian tersebut data UN yang digunakan merupakan data yang tidak memiliki class label. Dalam mendeteksi outlier, tidak setiap metode dapat digunakan untuk setiap kasus. Suatu metode digunakan untuk mendeteksi outlier suatu kasus dengan karakteristik data tertentu. Suatu metode harus tidak hanya mampu untuk menemukan outlier namun juga memberikan interpretasi dari outlier(han & Kamber, 2012). Metode ECODB mungkin saja dapat digunakan untuk mengidentikasi outlier pada data UN dan memahami arti atau makna dari outlier yang teridentifikasi. Oleh karena itu pada penelitian ini akan diidentifikasi outlier pada data hasil UN, indeks integritas dan akreditasi Sekolah Menengah Atas (SMA) pada Provinsi Daerah Istimewa 2

22 Yogyakarta tahun 2015 menggunakan metode ECODB. Data UN yang digunakan adalah data mulai tahun 2015 karena baru pada tahun tersebut indeks integritas digunakan. Dengan melakukan penelitian ini diharapkan dapat memberikan informasi kejadian langka dari data UN. Data UN setiap sekolah menjadi representasi dari karakteristik sekolah tersebut. Dari penelitian ini pihak pemerintah dapat memperoleh informasi mengenai sekolah dengan data UN yang langka atau unik dari sekolah yang lainnya. Data UN yang unik bisa dihasilkan misalnya dari nilai UN yang tinggi namun memiliki indeks integritas yang rendah atau akreditasi yang rendah begitu pula sebaliknya. Hasil dari penelitian ini dapat dianalisa lebih lanjut oleh pihak sekolah atau pemerintah untuk pembinaan dan pengembangan sekolah. 1.2 Rumusan Masalah 1. Bagaimana menerapkan algoritma Enhanced Class Outlier Distance Based untuk mencari outlier pada data berlabel kelas dalam set data hasil UN, nilai indeks integritas dan akreditasi sekolah? 2. Sekolah mana sajakah yang diidentifikasi sebagai outlier? 1.3 Tujuan 1. Menganalisa kemampuan algoritma ECODB dapat mengidentifikasi outlier pada data berlabel kelas dalam set data hasil UN, nilai indeks integritas dan akreditasi sekolah. 2. Menganalisa sekolah yang teridentifikasi sebagai outlier. 1.4 Batasan Masalah Batasan masalah pada penelitian ini, yaitu : 1. Data yang digunakan adalah data nilai UN, nilai indeks integritas dan akreditasi tahun Sekolah yang diteliti adalah Sekolah Menengah Atas jurusan IPA dan IPS di Provinsi Daerah Istimewa Yogyakarta (DIY). 3

23 1.5 Manfaat Penelitian Manfaat dari penelitian ini, yaitu : 1. Menjelaskan mengenai cara mendeteksi outlier dengan menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB). 2. Memberikan informasi mengenai outlier atau kejadian langka yang ada dalam data UN Sekolah Menengah Atas (SMA). 1.6 Metodologi Penelitian Metodologi penelitian yang digunakan dalam menyelesaikan tugas akhir ini yaitu : 1. Studi Pustaka Tahap studi pustaka merupakan proses mengumpulkan informasi mengenai teori-teori outlier dan algoritma yang dapat mengidentifikasi outlier dari berbagai sumber atau referensi. Kemudian mempelajari dan menganalisa informasi yang didapat sehingga menentukan algoritma Enhanced Class Outlier Distance Based untuk mengidentifikasi outlier pada data UN Sekolah Menengah Atas (SMA). 2. Knowledge Discovery in Database (KDD) Metodologi Knowlegde Discovery in Database dikemukan oleh Han & Kamber (2011). Proses dalam Knowlegde Discovery in Database adalah sebagai berikut : a. Data Cleaning Proses untuk menghilangkan kebisingan (noise) dan data yang tidak konsisten. b. Data Integration Proses menggabungkan beberapa sumber data. c. Data Selection Proses memilih data atau atribut yang relevan untuk penelitian ini. d. Data Transformation Proses dimana data diubah dan dikonsolidasikan ke dalam bentuk yang sesuai untuk ditambang. 4

24 e. Data Mining Proses menerapkan metode yang digunakan untuk menemukan pola pada data. f. Pattern Evaluation Proses mengidentifikasi pola-pola yang benar-benar menarik yang merupakan hasil dari penambangan data. g. Knowledge Presentation Proses menyajikan pengetahuan dari hasil penambangan data kepada pengguna. 3. Analisa Hasil Analisa hasil merupakan proses menganalisa hasil identifikasi outlier yang dilakukan oleh perangkat lunak. 1.7 Sistematika Penulisan Sistematika pada penelitian ini yaitu : 1. BAB 1 Pendahuluan Berisi latar belakang masalah, rumusan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian dan sistematika penulisan tugas akhir. 2. BAB II Landasan Teori Berisi penjelasan teori-teori yang mendukung mengenai penambangan data, outlier dan algoritma Enhanced Class Outlier Distance Based. 3. BAB III Metodologi Penelitian Berisi penjelasan mengenai langkah-langkah atau metodologi penelitian tugas akhir ini. 4. BAB IV Perancangan Perangkat Lunak Berisi penjelasan mengenai tahapan perancangan parangkat lunak atau sistem yang akan dibangun. Tahapan perancangan perangkat lunak atau sistem terdiri dari perancangan umum, diagram use case, diagram aktivitas, diagram kelas analisis, diagram sekuen, diagram kelas disain, 5

25 algoritma per method, perancangan struktur data dan perancangan antarmuka. 5. BAB V Implementasi Dan Pengujian Perangkat Lunak Berisi penjelasan mengenai implementasi dan pengujian perangkat lunak. 6. BAB VI Analisa Hasil dan Pembahasan Berisi penjelasan mengenai dataset, hasil Identifikasi outlier, analisa hasil identifikasi outlier dan kelebihan dan kekurangan perangkat lunak. 7. BAB VII Penutup Berisi kesimpulan penelitian dan saran untuk penelitian selanjutnya. 6

26 BAB II LANDASAN TEORI 2.1 Penambangan Data Pengertian Penambangan Data Penambangan data adalah proses menemukan informasi yang berguna dalam repositori data yang besar secara otomatis. Teknik penambangan data digunakan untuk menemukan pola yang baru dan berguna yang mungkin tidak diketahui pada database yang besar. Penambangan data juga memiliki kemampuan untuk memprediksi hasil dari pengamatan masa depan. Penambangan data adalah bagian dari knowledge discovery in database yang mana merupakan proses mengubah data mentah menjadi informasi berguna. Tidak semua penemuan informasi dianggap penambangan data. Sebagai contoh, mencari data menggunakan sistem manajemen database atau menemukan halaman web tertentu melalui query ke mesin pencarian pada internet merupakan tugas yang berhubungan dengan bidang pencarian informasi. Meskipun demikian, teknik penambangan data telah digunakan untuk meningkatkan sistem pencarian informasi (Tan et.al 2006) Fungsi Penambangan Data Menurut Han & Kamber (2012) ada sejumlah fungsi dalam penambangan data. Fungsi penambangan data yang digunakan untuk menentukan jenis pola dapat ditemukan dalam tugas-tugas penambangan data. Secara umum, tugas penambangan data dapat diklasifikasikan menjadi dua kategori yaitu deskriptif dan prediktif. Deskriptif bertugas mencirikan atau menggambarkan sifat data dari data sasaran. Prediktif bertugas membuat prediksi dengan menggunakan data saat ini. Fungsi penambangan data meliputi : a. Kelas/Konsep Deskripsi : Karakterisasi dan Diskriminasi 7

27 Deskripsi kelas atau konsep dapat berasal dari menggunakan karakterisasi data atau diskriminasi data atau baik karakterisasi data dan diskriminasi data. Karaterisasi data adalah dengan merangkum data dari kelas yang diteliti atau sering disebut kelas target. Diskriminasi data adalah dengan membandingkan kelas target dan kelas komparatif. b. Penambangan Pola yang Sering Muncul, Asosiasi dan Korelasi Ada banyak jenis pola yang sering muncul dalam data yaitu itemset yang sering muncul, subsequence atau pola berurutan yang sering muncul dan substruktur yang sering muncul. Sebuah itemset yang sering muncul biasanya mengacu pada satu itemset yang sering muncul bersamaan dalam transaksi seperti susu dan roti sering dibeli bersama-sama di toko-toko oleh banyak pelanggan. Sebuah subsequence yang sering muncul seperti pelanggan cenderung untuk membeli pertama laptop kemudian kamera digital dan kemudian kartu memori yang merupakan pola berurutan. Sebuah substruktur dapat merujuk ke berbagai bentuk struktural yang dapat dikombinasikan dengan itemsets atau sequences. Jika substruktur sering terjadi disebut pola terstruktur. Penambangan pola sering mengarah pada penemuan asosiasi menarik dan korelasi dalam data. c. Analisis Prediktif Klasifikasi dan Regresi Klasifikasi adalah proses menemukan model yang mengambarkan dan membedakan kelas data atau konsep. Model berasal berdasarkan pada analisis dari serangkaian data pelatihan, yaitu objek data yang label kelasnya sudah diketahui. Model yang digunakan untuk memprediksi label kelas dari objek yang label kelasnya tidak diketahui. Klasifikasi digunakan untuk memprediksi kategori dari label kelas sedangkan regresi digunakan untuk memprediksi data nilai numerik yang hilang atau tidak tersedia dari label kelas. Analisis regresi adalah 8

28 metode statistik yang paling sering digunakan untuk memprediksi numerik meskipun ada metode lainnya. Regresi juga mencakup identifikasi distribusi tren berdasarkan data yang tersedia. Klasifikasi dan regresi perlu didahului dengan analisis relevansi yaitu upaya untuk mengidentifikasi atribut yang relevan klasifikasi dan proses regresi. Atribut tersebut kemudian dipilih untuk proses klasifikasi dan regresi. Atribut yang tidak relevan dikeluarkan atau tidak digunakan. d. Analisis Pengelompokan atau Klastering Tidak seperti klasifikasi dan regresi yang menganalisa set data kelas berlabel, klastering menganalisa datatabpa label kelas. Dalam banyak kasus data dengan kelas berlabel mungkim tidak ada diawal. Klastering dapat digunakan untuk menghasilkan label kelas untuk sekelompok data. Objek yang bergerombol atau berkelompok berdasarkan pada prinsip memaksimalkan kesamaan intrakelas dan meminimalkan kesamaan antarkelas, sehingga objek dalam sebuah kelompok memiliki kesamaan yang tinggi dibandingkan satu sama lain tapi berbeda dengan objek dalam kelompok lainnya. e. Analisis Outlier Satu set data yang mungkin berisi objek yang tidak sesuai dengan perilaku umum atau model dari data atau yang disebut outlier. Banyak metode dalam penambangan data membuang oulier karena dianggap sebagai kebisingan atau pengecualian. Namun, dalam beberapa aplikasi identifikasi peristiwa langka lebih menarik daripada peristiwa yang terjadi lebih teratur. Outlier dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau probabilitas model untuk data, atau menggunakan jarak antarobjek dimana objek yang jauh dari setiap kelompok lainnya adalah outlier. Metode density-based mengidentifikasi outlier di bagian lokal meskipun outlier tersebut 9

29 teridentifikasi sebagai data yang normal dengan menggunakan metode statistik. 2.2 Outlier Pengertian Outlier Menurut Han dan Kamber (2012) outlier adalah objek data yang menyimpang jauh dalam suatu set data, seolah-olah objek tersebut dihasilkan dengan mekanisme yang berbeda. Deteksi outlier adalah proses mencari objek data dengan perilaku atau karakteristik yang sangat berbeda dari harapan. Objek data tersebut disebut outlier atau anomali. Banyak algoritma dalam penambangan data mencoba meminimalisasikan atau bahkan mengeliminasi outlier. Namun outlier bisa saja menghasilkan informasi penting yang tersembunyi karena noise satu orang bisa menjadi sinyal bagi orang lain. Deteksi outlier penting dalam banyak aplikasi untuk mendeteksi penipuan seperti perawatan medis, keselamatan publik dan keamanan, deteksi kerusakan industri, pengolahan gambar, pengawasan jaringan sensor/video dan deteksi gangguan. Deteksi outlier dan analisis pengelompokan atau klastering merupakan dua tugas yang sangat terkait namun memiliki tujuan yang berbeda. Pengelompokan digunakan untuk menemukan pola mayoritas dalam kumpulan data dan mengatur data dalam kelompok yang sesuai, sedangkan deteksi outlier digunakan untuk mendeteksi kasus-kasus yang menyimpang jauh dari pola mayoritas. sebagai berikut : Menurut Tan et.al (2006) outlier dapat disebabkan oleh 1. Data Dari Kelas Yang Berbeda Suatu objek mungkin saja berbeda dari objek lainnya karena objek tersebut dari tipe atau kelas yang berbeda. Sebagai contoh, seseorang yang melakukan penipuan kartu kredit memiliki kelas 10

30 yang berbeda dari pengguna kartu kredit yang menggunakan kartu kredit secara sah. 2. Variasi Alami Sebagian besar suatu objek dekat dengan pusat objek (rata-rata objek) dan memiliki kemungkinan yang kecil suatu objek berbeda secara signifikan. Sebagai contoh orang yang sangat tinggi bukan anomali jika dari kelas objek yang terpisah, namun menjadi ekstrim jika dalam karakteristik tinggi badan rata-rata orang pada umumnya. 3. Pengukuran Data Dan Kesalahan Pengumpulan Data Pengukuran data dan kesalahan pengumpulan data adalah sumber lain dari outlier. Sebagai contoh, pengukuran dan pengumpulan data dapat dicatat secara tidak benar karena human error Metode Deteksi Outlier Menurut Han & Kamber (2012) ada dua cara pengelompokan metode deteksi outlier. Pertama pengelompokan metode pendeteksian outlier berdasarkan ketersediaan label pada sampel data yang dianalisis yang dapat digunakan untuk membangun model deteksi outlier. Kedua pengelompokan metode menjadi kelompok-kelompok dengan mengasumsikan membandingkan obyek normal dengan outlier. Berikut ini adalah penjelasan dari kedua jenis pengelompokan tersebut : 1. Metode Supervised, Semi-Supervised, dan Unsupervised Metode supervised untuk model data normal dan abnormal dengan memeriksa label sampel data yang mendasarinya. Deteksi outlier dapat dimodelkan dengan klasifikasi. Dalam beberapa aplikasi label hanya pada objek yang normal, objek lain yang tidak cocok dengan model objek normal dianggap sebagai outlier.dalam beberapa aplikasi objek yang diberi label normal atau outlier tidak tersedia, dengan demikian diperluka metode 11

31 unsupervised. Mendeteksi outlier dengan menggunakan metode unsupervised mengasumsikan objek yang normal akan membentuk kelompok. Dengan kata lain metode unsupervised mengharapkan objek-objek yang normal akan mengikuti pola yang jauh lebih sering daripada outlier. Objek yang normal tidak harus selalu memiliki kesamaan yang tinggi dalam satu kelompok, namun dapat membentuk beberapa kelompok dimana setiap kelompok memiliki fitur yang berbeda. Outlier diharapkan berada jauh dari setiap kelompok objek yang normal. Dalam banyak aplikasi, jumlah objek yang memiliki label biasanya kecil. Ada beberapa kasus dimana hanya satu set kecil dari objek normal dan/atau outlier yang berlabel, sedangkan sebagian besar data tidak berlabel. Deteksi outlier menggunakan metode semisupervised dikembangkan untuk mengatasi kasus tersebut. Model objek yang normal dapat digunakan untuk mendeteksi benda-benda yang tidak sesuai dengan model objek normal diklasifikasikan sebagai outlier. 2. Metode Statistical, Proximity-Based dan Clustering-Based Metode statistik atau juga dikenal sebagai metode berbasis model membuat asumsi dari normalitas data. Metode statistik menganggap bahwa objek data normal dihasilkan oleh model statistik dan tidak mengikuti model yang outlier. Efektivitas metode statistik sangat bergantung pada asumsi yang dibuat untuk model statistik berlaku untuk data yang diberikan. Metode proximity-based berasumsi bahwa sebuah objek dianggap outlier jika tetangga terdekat jauh dari ruang fitur, yaitu kedekatan objek kepada tetangganya signifikan menyimpang dari kedekatan sebagian besar objek lain dengan tetangga mereka dalam kumpulan data yang sama. Efektivitas metode proximity-based sangat bergantung pada ukuran kedekatan atau jarak yang digunakan. Metode proximity-based sering mengalami kesulitan 12

32 dalam mendeteksi outlier jika outlier dekat satu sama lain. Metode clustering-based mengasumsikan data yang normal termasuk dalam kelompok yang besar dan padat, sedangkan outlier termasuk dalam kelompok yang kecil dan jarang atau bahkan tidak termasuk dalam setiap kelompok. 2.3 Algoritma Enhanced Class Outlier Distance Based Class label adalah atribut yang dipilih dalam satu data set berdasarkan permintaan pengguna dan jenis aplikasi. Sebuah class label dapat berisi diagnosa medis, keputusan persetujuan kredit atau pinjaman, golongan pelanggan, dll. Metode konvensional (Outlier Mining) mencari outliers dalam kumpulan data terlepas dari class label, dianggap sebagai outliers dalam seluruh dataset. Class Outlier Mining mencari outliers dengan memperhitungkan class label. Outlier Mining tidak dapat mendeteksi outliers yang berbeda dari class label, sedangkan Class Outlier Mining dapat melakukannya (Hewahi & Saad, 2009). Hewahi dan Saad mengusulkan definisi baru untuk class outlier dan metode baru untuk Class Outlier Mining yang berdasarkan pendekatan jarak dan tetangga terdekat. Metode ini disebut algoritma Class Outlier Distance Based (CODB). Algoritma CODB didasarkan pada COF (Class Outlier Faktor) yaitu derajat outlier class dalam objek data. Algoritma Enhanced Class Outlier Distance Based merupakan peningkatan algoritma dari algortima Class Outlier Distance Based. Algortima Enhanced Class Outlier Distance Based dikembangkan oleh Hewahi dan Saad (2009). Berdasarkan algoritma ECODB untuk instance T menghilangkan parameter α dan β untuk menghilangkan trial dan eror, sehingga melakukan proses normalisasi pada Deviation(T) dan KDist(T). Langkah-langkah algoritma ECODB adalah sebagai berikut : 1. Untuk semua dataset hitung PCL (T, K). dimana PCL (Probability of Class Label) adalah probabilitas label kelas dari instance T dengan 13

33 kelas label K tetangga terdekat. PCL (T, K) dapat dihitung dengan rumus berikut ini : PCL(T, K) = Jumlah instance yang memiliki label kelas yang sama dengan instance T K (2.1) Misalkan ada 7 tetangga terdekat dari instance T (termasuk dirinya) di dalam sebuah dataset dengan dua class label yaitu x dan y, dimana ada 5 dari tetangga terdekat memiliki class label x dan 2 memiliki class label y. Instance T memiliki class label y, oleh karena itu PCL dari instance T yaitu 2/7. 2. Merangking daftar top N dari instance dengan nilai PCL (T, K) dari yang terkecil. 3. Untuk setiap instance pada daftar top N hitung Deviation(T) dan Kdist(T). Deviation(T) adalah seberapa besar nilai instance T menyimpang dari instances dengan kelas label yang sama. Deviation(T) dihitung dengan menjumlahkan jarak antara instance T dan setiap instance yang memiliki kelas yang sama dengan instance T. Deviation(T) dapat dihitung dengan rumus sebagai berikut : Deviation(T) = n i=0 d(t, t i ) (2.2) Keterangan : n = jumlah instances yang memiliki kelas yang sama terhadap instance T d(t,ti) = jarak antara instances yang memiliki kelas yang sama terhadap instance T KDist(T) adalah jumlah jarak antara instance T dan K tetangga terdekat. KDist(T) dapat dihitung dengan menggunakan rumus sebagai berikut : KDist(T) = K i=0 d(t, t i ) (2.3) 14

34 Keterangan : K = jumlah tetangga terdekat d(t,ti) = jarak antara tetangga terdekat terhadap instance T Kemudian lakukan normalisasi pada Deviation dan KDist agar Deviation dan KDist berada dalam range 0-1. Normalisasi Deviation dan KDist dapat dihitung dengan rumus berikut ini : norm(deviation(t)) = (Deviation(T) MinDev)/(MaxDev MinDev) (2.4) norm(kdist(t)) = (KDist(T) MinKDist)/(MaxKDist MinKDist) (2.5) Keterangan : norm(deviation(t)) = nilai Deviation(T) yang telah dinormalisasi norm(kdist(t)) = nilai KDist(T) yang telah dinormalisasi MaxDev = nilai deviation tertinggi dari top N class outliers MinDev = nilai deviation terendah dari top N class outliers MaxKDist = nilai KDist tertinggi dari top N class outliers MinKDist = nilai KDist terendah dari top N class outliers 4. Hitung nilai COF (Class Outlier Factor) untuk seluruh instances di dalam top N dengan rumus sebagai berikut : COF(T) = K PCL(T, K) norm(deviation(t)) + norm(kdist(t)) (2.6) Keterangan : COF(T) = nilai Class Outlier Faktor instance T K = jumlah tetangga terdekat instance T PCL(T,K) = nilai probabilitas label kelas dari instance T dengan kelas label K tetangga terdekat norm(deviation(t)) = nilai Deviation(T) yang telah di normalisasi norm(kdist(t)) = nilai KDist(T) yang telah di normalisasi 15

35 5. Kemudian mengurutkan daftar top N berdasarkan nilai COF dari yang terkecil. 2.4 Struktur Data Struktur data adalah cara penyimpanan, penyusunan, pengaturan atau merepresentasikan data didalam komputer agar bisa dipakai secara efisien. Pada penelitian struktur data yang digunakan adalah sebagai berikut: 1. ArrayList Arraylist merupakan struktur data berbentuk array namun memiliki jumlah indeks yang dinamis. Pada ArrayList saat mendeklarasi tidak perlu terlebih dahulu menentukan jumlah maksimum indeksnya. ArrayList a = new ArrayList(); Pernyataan di atas merupakan contoh mendeklarasikan sebuah objek ArrayList dengan nama a. Ilustrasi ArrayList sebagai berikut : a.add(5); a.add(2); a.add(1); [5 2 1] size : 3 a.add(4); [ ] size : 4 2. Matriks atau Array 2 dimensi Array merupakan sejumlah data yang dirujuk berdasarkan indeksnya. Array 2 dimensi digambarkan dengan matriks yang memiliki baris dan kolom. Array 2 dimensi merupakan struktur data statis oleh karena itu saat mendeklarasikan array 2 dimensi harus terlebih dahulu menentukan maksimum jumlah indeks baris dan kolomnya. int [][] a = new int [3][4]; 16

36 Pernyataan di atas merupakan contoh mendeklarasikan array 2 dimensi dengan nama a, bertipe Integer, jumlah baris 3 dan jumlah kolom 4. Ilustrasi dalam matriks sebagai berikut null null null null [ null null null null] null null null null Kemudian untuk menyimpan dan mengambil data pada array 2 dimensi diilustrasikan sebagai berikut : Pernyataan di atas berarti x = 5. Pernyataan di atas berarti b = null. a [0][1] = 5; a [0][3] = 2; a [2][3] = 1; null 5 null 2 [ null null null null] null null null 1 x = a [0][1]; b = a [0][0]; 17

37 BAB III METODE PENELITIAN 3.1 Bahan Riset/Data Pada penelitian ini mengunakan data hasil ujian nasional untuk jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu Pengetahuan Sosial (IPS), nilai indeks integritas dan nilai akreditasi Sekolah Menengah Atas (SMA) Daerah Istimewa Yogyakarta pada tahun Data yang digunakan merupakan file dengan ekstensi.xls yang diperoleh dari tiga sumber. Data hasil UN jurusan IPA dan IPS bersumber dari website resmi dari Badan Penelitian Pendidikan dan Pengembangan Kementrian Pendidikan dan Kebudayaan Data nilai akreditasi sekolah bersumber dari website resmi dari Badan Penelitian Pendidikan dan Pengembangan Kementrian Pendidikan dan Kebudayaan Data nilai indeks integritas bersumber dari Badan Penelitian Pendidikan dan Pengembangan Kementrian Pendidikan dan Kebudayaan Untuk data hasil UN jurusan IPA sejumlah 169 record dan data jurusan IPS 198 record. Data nilai indeks integritas sejumlah 143 record untuk jurusan ipa dan 164 record untuk jurusan ips. Data akreditasi sejumlah 195 record. Kode Sekolah Nama Sekolah Status Sekolah Jumlah Peserta Rank Tabel 3. 1 Tabel Atribut Data Hasil UN Nama Atribut Keterangan Kode sekolah Nama sekolah Status sekolah (Swasta/Negeri) Jumlah peserta ujian Urutan ranking Mata Ujian Bahasa Indonesia Nilai Bahasa Indonesia 18

38 Bahasa Inggris Matematika Fisika/Ekonomi Kimia/Sosiologi Biologi/Geografi Total Nilai Bahasa Inggris Nilai Matematika Nilai Fisika/Ekonomi Nilai Kimis/Sosiologi Nilai Biologi/Geografi Total nilai UN Kode Sekolah NPSN Nama Sekolah Status Sekolah Jumlah Peserta Tahun 2016 Tahun 2015 Tabel 3. 2 Tabel Atribut Data Nilai Indeks Integritas Nama Atribut Keterangan Rerata UN IIUN Rerata UN IIUN Kode sekolah Nomor Pokok Sekolah Nasional Nama sekolah Status sekolah (Swasta/Negeri) Jumlah peserta ujian Rata-rata nilai UN Nilai Indeks Integritas Rata-rata nilai UN Indeks Integritas Ujian Nasional NPSN Nama Sekolah Status Sekolah Tipe Sekolah Provinsi Kota/Kabupaten Nilai Peringkat Tabel 3. 3 Tabel Atribut Data Nilai Akreditasi Sekolah Nama Atribut Keterangan Nomor Pokok Sekolah Nasional Nama sekolah Status sekolah (Swasta/Negeri) Tipe sekolah (Sekolah/MA) Nama provinsi dari sekolah Nama kota/kabupaten dari sekolah Nilai akreditasi Peringkat akreditasi 19

39 3.2 Peralatan Penelitian Peralatan yang akan digunakan pada penelitian ini antara lain pc dengan spesifikasi RAM 6GB, prosesor Intel Core i3-3217u 1.8GHz, hardisk 500GB. Kemudian menggunakan Netbeans sebagai aplikasi Integrated Development Environment (IDE) yang berbasis java. Menggunakan mysql sebagai manajemen basis data sql. 3.3 Tahap-tahap Penelitian Studi Pustaka Tahap studi pustaka merupakan proses mengumpulkan informasi mengenai teori-teori outlier dan algoritma yang dapat mengidentifikasi outlier dari berbagai sumber atau referensi. Kemudian mempelajari dan menganalisa informasi yang didapat sehingga menentukan algoritma Enhanced Class Outlier Distance Based untuk mengidentifikasi outlier pada data UN Sekolah Menengah Atas (SMA) Knowledge Discovery in Database (KDD) Metodologi Knowledge Discovery in Database dikemukan oleh Han & Kamber (2011). Proses dalam Knowledge Discovery in Database adalah sebagai berikut : a. Data Cleaning Proses untuk menghilangkan kebisingan (noise) dan data yang tidak konsisten. Data yang digunakan memiliki missing value pada atribut IIUN sehingga pada tahap data cleaning menghilangkan atau menghapus data yang tidak memiliki nilai IIUN. b. Data Integration Proses menggabungkan beberapa sumber data. Data yang digunakan terdapat dalam tiga file yang berbeda yaitu data akreditasi, data hasil ujian nasional dan data nilai indeks 20

40 integritas. Atribut dari data akreditasi dapat dilihat pada tabel 3.3. Atribut dari data hasil ujian nasional dapat dilihat pada tabel 3.1. Atribut dari data nilai indeks integritas dapat dilihat pada tabel 3.2. Pada tahap ini menggabungkan 3 file tersebut. c. Data Selection Proses memilih data atau atribut yang relevan untuk penelitian ini. Pada proses ini memilih atribut yang relevan untuk digunakan pada penelitian ini dan menghapus atribut yang tidak digunakan. Atribut yang digunakan pada penelitian ini yaitu : Tabel 3. 4 Tabel Atribut Terpilih Nama Atribut Keterangan Jenis Atribut Bahasa Indonesia Nilai Bahasa Indonesia Numerik Bahasa Inggris Nilai Bahasa Inggris Numerik Matematika Nilai Matematika Numerik Fisika/Ekonomi Nilai Fisika/Ekonomi Numerik Kimia/Sosiologi Nilai Kimia/Sosiologi Numerik Biologi/Geografi Nilai Biologi/Geografi Numerik IIUN 2015 Indeks Integritas Ujian Numerik Nasional Peringkat Peringkat Akreditasi Class Label Tabel 3.5 Tabel Contoh Data Kode Bahasa Bahasa Sekolah Indonesia Inggris Matematika Fisika Kimia Biologi IIUN Akreditasi A A A A A A A A 21

41 A A d. Data Transformation Proses dimana data diubah dan dikonsolidasikan ke dalam bentuk yang sesuai untuk ditambang. Pada penelitian ini set data yang digunakan memiliki skala data yang sama antar atribut yaitu antara Class label tidak digunakan dalam perhitungan jarak sehingga tidak perlu diubah menjadi numerik. Pada penelitian ini tidak dilakukan tahap transformasi karena data yang digunakan memiliki atribut dengan skala yang sama dan tidak perlu diubah dalam bentuk numerik. e. Data Mining Proses menerapkan metode yang digunakan untuk menemukan pola pada data yaitu algoritma Enhance Class Outlier Distance Based. f. Pattern Evaluation Proses mengidentifikasi pola-pola yang benar-benar menarik yang merupakan hasil dari penambangan data. Pada tahap ini hasil dari identifikasi outlier akan dievaluasi dengan hipotesa yang telah dibentuk sebelumnya. g. Knowledge Presentation Proses menyajikan pengetahuan dari hasil penambangan data kepada pengguna. Pada tahap ini hasil dari identifikasi outlier akan ditampilkan dengan bentuk yang mudah dimengerti oleh pengguna atau pihak yang berkepentingan. Pada tahap ini akan dilakukan pembuatan aplikasi komputer berbasis dekstop dengan bahasa pemrograman Java Desain Alat Uji Pada tahap desain alat uji atau pengembangan perangkat lunak menggunakan model waterfall. Model waterfall merupakan 22

42 metode yang paling sering digunakan dalam tahap pengembangan perangkat lunak (Utami & Asnawati, 2015). Model waterfall merupakan model klasik yang sederhana dengan aliran sistem yang linier. Output dari setiap tahap merupakan input bagi tahap berikutnya (Kristanto, 2004). Menurut Utami & Asnawati (2015) tahapan model waterfall meliputi : a. Analisa Kebutuhan Perangkat Lunak Analisa kebutuhan perangkat lunak merupakan tahap awal untuk menentukan gambaran perangkat lunak. Perangkat lunak yang baik dan sesuai dengan kebutuhan pengguna tergantung pada keberhasilan dalam melakukan analisa kebutuhan. Tahap ini merupakan proses untuk mendapatkan informasi, mode dan spesifikasi tentang perangkat lunak. Pada penelitian ini pengumpulan informasi didapatkan dengan cara mengunduh data hasil UN, indeks integritas dan akreditasi sekolah. b. Desain Perangkat Lunak Desain perangkat lunak merupakan langkah yang berfokus pada empat atribut yang berbeda dari sebuah program yaitu struktur data, arsitektur perangkat lunak, representasi interface dan prosedural rinci. Pada tahap merupakan proses mengubah kebutuhan perangkat lunak menjadi rancangan perangkat lunak. Tahap in menghasilkan sebuah arsitektur sistem yang dapat ditranformasikan ke dalam satu atau lebih program yang dapat dijalankan. c. Pembuatan Kode (Coding) Pada tahap ini merupakan proses menerjemahkan desain perangakat lunak ke dalam mesin yang dapat dibaca. Dalam tahap ini dilakukan pembuatan kode. d. Pengujian (Testing) Tahap ini merupakan proses pengujian pada sistem yang telah dibuat. Pengujian yang dilakukan secara internal (benar tidaknya 23

43 pernyataan yang dibuat dalam coding) dan eksternal (melakukan tes untuk menemukan kesalahan dan memastikan bahwa input sesuai dengan apa yang dibutuhkan). Pada penelitian ini pengujian sistem menggunakan pendekatan black-box testing. Pendekatan inimerupakan pengujian terhadap fungsi operasional software Analisis dan Pembuatan Laporan Analisis yang dilakukan pada penelitian ini adalah menganalisa sekolah yang teridentifikasi sebagai outlier menggunakan algoritma Enhanced Class Outlier Distance Based. Kemudian menganalisa pengaruh nilai masukan K dan N. Hasil dari analisis tersebut akan disusun ke dalam sebuah laporan tugas akhir. 24

44 BAB IV PERANCANGAN PERANGKAT LUNAK 4.1 Perancangan Umum Input Masukan pada sistem ini berupa file dengan ekstensi.xls. Pengguna dapat memilih file yang ingin digunakan dari direktori komputer. Pengguna memasukan nilai N dan nilai K yang akan digunakan dalam proses identifikasi outlier. Nilai N merupakan jumlah outlier yang diharapkan. Nilai K merupakan jumlah tetangga terdekat Proses Proses sistem dalam mengidentifikasi outlier terdapat beberapa tahap. Tahap atau langkah-langkah tersebut yaitu : 1. Memilih data yang telah melalui proses preprocessing yang digunakan pada proses penambangan data 2. Menentukan nilai N dan K 3. Proses mengidentifikasi outlier 4. Menyimpan hasil identifikasi outlier Proses umum pada sistem digambarkan dengan diagram flowchart pada Gambar

45 Gambar 4. 1 Diagram Flowchart 26

46 4.1.3 Output Pada sistem ini keluaran yang dihasilkan adalah daftar sekolah yang teridentifikasi sebagai outlier. 4.2 Diagram Use Case Pada sistem ini terdapat beberapa aktivitas atau interaksi yang dapat dilakukan oleh actor (pengguna sistem). Aktivitas atau interaksi tersebut berupa skenario yang mengidentifikasikan urutan pemakaian sistem yang sering disebut use case. Pada sistem yang akan dibangun hanya terdapat satu actor (pengguna sistem) dan diinisialisasikan dengan User. Actor dapat melakukan beberapa aktivitas atau interaksi yaitu memilih data, mengidentifikasi outlier dan menyimpan hasil identifikasi outlier. Ketiga aktivitas atau interaksi tersebut harus dijalankan berurutan karena saling berhubungan. Diagram use case dapat dilihat pada gambar 4.2 berikut ini. pilih file identifikasi outlier User simpan hasil identifikasi outlier Gambar 4. 2 Diagram Use Case Gambaran Umum Use Case Gambaran umum dari masing-masing usecase yang terdapat pada diagram use case terlampir pada lampiran Narasi Use Case Narasi use case berisi serangkaian langkah-langkah aksi actor terhadap sistem dan reaksi sistem terhadap aksi actor pada 27

47 setiap use case. Narasi use case terlampir pada lampiran Diagram Aktivitas Terdapat tiga diagram aktivitas yang merupakan aktivitas dari masing-masing use case yaitu memilih data, mengidentifikasi outlier dan menyimpan hasil identifikasi outlier. Diagram aktivitas terlampir pada lampiran Perancangan Struktur Data Sruktur data digunakan untuk mengelola penyimpan data agar data dapat dengan mudah diakses sewaktu-waktu jika sedang diperlukan. Pada penelitian ini konsep struktur data yang digunakan adalah : 1. ArrayList Pada penelitian ini ArrayList digunakan untuk menampung data sekolah dan hasil identifikasi outlier. Data sekolah dan hasil identifikasi outlier sebagai elemen pada ArrayList. Sebagai contoh dapat lihat pada ilustrasi berikut ini : [Data1 Data2 Data3 Data4] Objek Data1, Data2, Data3 dan Data4 merupakan representasi dari data sekolah yang dijelaskan pada tabel 4.1 berikut ini : Objek Kode Sek. Data Data Data Tabel 4. 1 Objek Data Sekolah Atribut Nama Nilai1 Nilai2 Nilai3 Nilai4 Nilai5 Nilai6 Nilai7 Akreditasi Sek. SMA A SMA B 2 SMA Belum 3 28

48 Akreditasi Data SMA B 2. Matriks atau Array 2 Dimensi Pada penelitian ini array 2 dimensi atau matriks digunakan untuk menampung jarak antar sekolah. Setiap elemen dari matriks berisi jarak sekolah dan sekolah tujuan. Setiap indeks baris merupakan jarak sekolah dari sekolah di indeks yang sama dari ArrayList data sekolah. Sebagai contoh dapat dilihat dari ilustrasi berikut ini : ArrayList Data Sekolah sebagai berikut, [Data1 Data2 Data3 Data4] Kemudian matriks jarak antar sekolah berikut ini, Jarak1 Jarak2 Jarak3 Jarak4 Jarak1 Jarak2 Jarak3 Jarak4 [ ] Jarak1 Jarak2 Jarak3 Jarak4 Jarak1 Jarak2 Jarak3 Jarak4 Pada ilustrasi diatas matrik pada baris pertama merupakan jarak antar sekolah dari sekolah di kolom pertama dari ArrayList data sekolah, demikian pula pada baris selanjutnya. Jarak1, Jarak2, Jarak3 dan Jarak4 merupakan suatu objek dengan atribut jaraksekolah dan sekolahtujuan dapat dilihat pada gambar 4.3 berikut ini : Jarak1 jaraksekolah sekolahtujuan Gambar 4. 3 Objek Jarak1 4.5 Diagram Kelas Analisis Diagram kelas analisis digambarkan dalam lampiran 4. 29

49 4.6 Diagram Sekuen lampiran 5. Diagram sequance dari masing-masing use case terlampir pada 4.7 Diagram Kelas Disain Diagram kelas disain terlampir pada lampiran Algoritma per Method Rincian algoritma per method terlampir pada lampiran Perancangan Antarmuka Antarmuka digunakan sebagai penghubung antara pengguna dan sistem. Pada penelitian ini sistem yang akan dibangun memiliki 5 interface atau antarmuka. Antar muka yang akan dibangun yaitu halaman home, halaman tentang, halaman bantuan, halaman preprocessing, dan halaman hasil Perancangan Halaman Home Perancangan antarmuka halaman home dapat dilihat pada gambar 4.4 berikut ini: 30

50 Gambar 4. 4 Rancangan Antarmuka Halaman Home Halaman home merupakan halaman pertama saat memasuki sistem. Pada halaman home terdapat tiga tombol yaitu MASUK SISTEM, TENTANG, dan BANTUAN. Tombol MASUK SISTEM digunakan untuk menuju halaman preprocessing untuk memulai proses identifikasi outlier. Tombol TENTANG digunakan untuk menuju halaman tentang. Tombol BANTUAN digunakan untuk menuju halaman bantuan Perancangan Halaman Preprocessing 31

51 Perancangan antarmuka halaman preprocessing dapat dilihat pada gambar 4.5 berikut ini : Sistem Identifikasi Outlier Menggunakan Algoritma ECODB BERANDA _ X DATA FILE TITLE1 TITLE2 TITLE3 TITLE4 TITLE5 Jumlah Tetangga Jumlah Outlier Jumlah Data Jumlah Kolom IDENTIFIKASI Angela Mediatrix Melly Fakultas Sains dan Teknologi 2017 Gambar 4. 5 Antarmuka Halaman Preprocessing Halaman preprocessing merupakan halaman untuk menyiapkan data atau preprocessing data yang akan digunakan untuk mengidentifikasi outlier. Pada halaman preprocessing terdapat dua tombol yaitu tombol BERANDA dan IDENTIFIKASI. Tombol BERANDA digunakan untuk menuju halaman home. Preprocessing data dimulai dengan memilih file berekstensi.xls. Proses memilih data yaitu dengan menggunakan tombol FILE. Tombol FILE digunakan untuk membuka direktori file yang akan digunakan. 32

52 Tahap selanjutnya adalah menentukan jumlah tetangga terdekat dan jumlah outlier yang diinginkan. Setelah user memasukan nilai jumlah tetangga terdekat dan jumlah outlier yang diinginkan kemudian menggunakan tombol IDENTIFIKASI untuk menuju halaman hasil. Kemudian terdapat tombol KEMBALI yang digunakan untuk menuju halaman home Perancangan Halaman Hasil Perancangan antarmuka halaman hasil dapat dilihat pada gambar 4.6 berikut ini : Sistem Identifikasi Outlier Menggunakan Algoritma ECODB BERANDA HASIL IDENTIFIKASI OUTLIER _ X TITLE1 TITLE2 TITLE3 TITLE4 TITLE5 Jumlah Tetangga Jumlah Outlier KEMBALI SIMPAN Angela Mediatrix Melly Fakultas Sains dan Teknologi 2017 Gambar 4. 6 Antarmuka Halaman Hasil 33

53 Halaman hasil merupakan halaman untuk menampilkan hasil identifikasi outlier. Pada halaman hasil terdapat tiga tombol yaitu tombol BERANDA, KEMBALI dan tombol SIMPAN. Tombol KEMBALI digunakan untuk menuju halaman preprocessing. Kemudian tombol SIMPAN digunakan untuk menyimpan hasil identifikasi outlier dalam file berekstensi.xls pada direktori komputer. Tombol BERANDA digunakan untuk menuju halaman home Perancangan Halaman Tentang Perancangan antarmuka halaman tentang dapat dilihat pada gambar 4.7 berikut ini : Sistem Identifikasi Outlier Menggunakan Algoritma ECODB BERANDA _ X TENTANG PENULIS Angela Mediatrix Melly Fakultas Sains dan Teknologi 2017 Gambar 4. 7 Antarmuka Halaman Tentang 34

54 Halaman tentang merupakan halaman yang berisi penjelasan mengenai identitas pembuat sistem atau perangkat lunak. Pada halaman tentang terdapat tombol BERANDA. Tombol BERANDA digunakan untuk menuju halaman awal atau halaman home Perancangan Halaman Bantuan Perancangan antarmuka halaman tentang dapat dilihat pada gambar 4.8 berikut ini : Sistem Identifikasi Outlier Menggunakan Algoritma ECODB BERANDA PANDUAN PENGGUNAAN SISTEM _ X Angela Mediatrix Melly Fakultas Sains dan Teknologi 2017 Gambar 4. 8 Antarmuka Halaman Bantuan Halaman tentang merupakan halaman yang berisi penjelasan mengenai identitas pembuat sistem atau perangkat lunak. Pada halaman tentang terdapat tombol BERANDA. Tombol 35

55 BERANDA digunakan untuk menuju halaman awal atau halaman home. 36

56 BAB V IMPLEMENTASI DAN PENGUJIAN PERANGKAT LUNAK 5.1 Implementasi Rancangan Perangkat Lunak Perangngkat lunak identifikasi outlier menggunakan algoritma ECODB terdapat 12 kelas yang terdiri dari tiga kelas model, lima kelas view, dan empat kelas controller Implementasi Kelas Model Implementasi kelas model dapat dilihat pada tabel berikut ini : Tabel 5. 1 Implementasi Kelas Model No Nama Kelas Nama File Fisik Nama File Excetable 1 Data Data.java Data.class 2 HasilECODB HasilECODB.java HasilECODB.class 3 Jarak Jarak.java Jarak.class Implementasi Kelas View Implementasi kelas view dapat dilihat pada tabel berikut ini : Tabel 5. 2 Implementasi Kelas View No Use Case Antarmuka Nama Kelas Boundary 1 Memilih data Gambar 4.3 preprocessing.class 2 Identifikasi outlier Gambar 4.4 hasil.class 3 Simpan hasil Gambar 4.4 hasil.class 5.3 berikut ini. Spesifikasi detail dari kelas home dapat dilihat pada tabel 37

57 Tabel 5. 3 Spesifikasi Detail Kelas Home.java Id_Objek Jenis Teks Keterangan lblogo Label logo.png Gambar logo lbjudul Label SISTEM IDENTIFIKASI OUTLIER lbjudul1 Label MENGGUNAKAN ALGORITMA ECODB Universitas Sanata Dharma. Judul sistem atau perangkat lunak yang dibangun. Judul sistem atau perangkat lunak yang dibangun. sistem Button MASUK SISTEM Jika di click maka lbnama Label Angela Mediatrix Melly lbfakultas Label Fakultas Sains dan Teknologi akan menuju halaman preprocessing. Identitas pembuat sistem atau perangkat lunak. Identitas fakultas pembuat sistem atau perangkat lunak. lbtahun Label 2017 Tahun pembuatan sistem atau perangkat lunak. tentang Button TENTANG Jika di click maka akan menuju halaman tentang. bantuan Button BANTUAN Jika di click maka akan menuju halaman bantuan. 38

58 Implementasi antarmuka dari kelas home (halaman home) dapat dilihat pada gambar 5.1 berikut ini. Gambar 5. 1 Implementasi Antarmuka Kelas Home Spesifikasi detail dari kelas preprocessing dapat dilihat pada tabel 5.4 berikut ini. Tabel 5. 4 Spesifikasi Detail Kelas Preprocessing.java Id_Objek Jenis Teks Keterangan lbdata Label Data Mendeksripsikan lokasi file yang akan digunakan. path TextField Lokasi file berekstensi.xls 39

59 yang akan digunakan. pilihfile Button FILE Jika di click maka akan membuka direktori file yang akan digunakan. tabeldata Table Berisi data yang akan digunakan. lbljmltetangga Label Jumlah Tetangga Terdekat Mendeksripsikan jumlah tetangga terdekat. tetangga TextField Isi jumlah tetangga terdekat. lbjmloutlier Label Jumlah Outlier Mendeskrispiskan jumlah outlier. n TextField Isi jumlah outlier. identifikasi Button IDENTIFIKASI Jika di click maka akan menuju halaman hasil. lbjmldata Label Jumlah Data Mendeskrispsikan jumlah dari dari file yang dipilih. jmldata TextField Isi jumlah data dari file yang dipilih. jmlatribut TextField Isi jumlah kolom dari file yang dipilih. lbjmlatribut Label Jumlah Atribut Mendeskripsikan jumlah kolom dari file yang dipilih. 40

60 beranda Button BERANDA Jika di click maka akan menuju halaman home. lbnama Label Angela Mediatrix Melly Identitas pembuat sistem atau perangkat lunak. lbfakultas Label Fakultas Sains dan Teknologi Identitas fakultas pembuat sistem atau perangkat lunak. lbtahun Label 2017 Tahun pembuatan sistem atau perangkat lunak. Implementasi antarmuka dari kelas preprocessing (halaman preprocessing) dapat dilihat pada gambar 5.2 berikut ini. Gambar 5. 2 Implementasi Antarmuka Kelas Preprocessing berikut ini. Spesifikasi detail dari kelas hasil dapat dilihat pada tabel

61 Tabel 5. 5 Spesifikasi Detail Kelas Hasil.java Id_Objek Jenis Teks Keterangan tabelhasil Table Berisi hasil identfikasi outlier. simpan Button SIMPAN Jika di click maka lbjmltetngga Label Jumlah Tetangga Terdekat akan menyimpan hasill identifikasi outlier dalam file berekstensi.xls pada direktori komputer. Mendeskripsikan jumlah tetangga terdekat. tetangga TextField Isi jumlah tetangga terdekat. lbjmloutlier Label Jumlah Outlier Mendeskripsikan jumlah outlier. topn TextField Isi jumlah outlier. lbhasil Label HASIL IDENTIFIKASI OUTLIER Judul tabel pada halaman hasil. kembali Button KEMBALI Jika di click maka akan menuju halaman preprocessing. beranda Button BERANDA Jika di click maka lbnama Label Angela Mediatrix Melly akan menuju halaman home. Identitas pembuat sistem atau perangkat lunak. 42

62 lbfakultas Label Fakultas Sains dan Teknologi Identitas fakultas pembuat sistem atau perangkat lunak. lbtahun Label 2017 Tahun pembuatan sistem atau perangkat lunak. Implementasi antarmuka dari kelas hasil (halaman hasil) dapat dilihat pada gambar 5.3 berikut ini. Gambar 5. 3 Implementasi Antarmuka Kelas Hasil 5.6 berikut ini. Spesifikasi detail dari kelas tentang dapat dilihat pada tabel Tabel 5. 6 Spesifikasi Detail Kelas Tentang.java Id_Objek Jenis Teks Keterangan beranda Button BERANDA Jika di click maka akan menuju halaman home. 43

63 lbtetang Label TENTANG PENULIS Judul dari halaman tentang. informasi TextArea Berisi deskripsi mengenai pembuat sistem atau perangkat lunak. lbnama Label Angela Mediatrix Melly Identitas pembuat sistem atau perangkat lunak. lbfakultas Label Fakultas Sains dan Teknologi Identitas fakultas pembuat sistem atau perangkat lunak. lbtahun Label 2017 Tahun pembuatan sistem atau perangkat lunak. Implementasi antarmuka dari kelas tentang (halaman tentang) dapat dilihat pada gambar 5.4 berikut ini. Gambar 5. 4 Implementasi Antarmuka kelas Tentang 44

64 5.7 berikut ini. Spesifikasi detail dari kelas bantuan dapat dilihat pada tabel Tabel 5. 7 Spesifikasi Detail Kelas Bantuan.java Id_Objek Jenis Teks Keterangan beranda Button BERANDA Jika di click maka lbbantuan Label PANDUAN PENGGUNAAN SISTEM akan menuju halaman home. Judul dari halaman bantuan. informasi TextArea Berisi deskripsi cara lbnama Label Angela Mediatrix Melly lbfakultas Label Fakultas Sains dan Teknologi menggunakan sistem atau perangkat lunak. Identitas pembuat sistem atau perangkat lunak. Identitas fakultas pembuat sistem atau perangkat lunak. lbtahun Label 2017 Tahun pembuatan sistem atau perangkat lunak. Implementasi antarmuka dari kelas bantuan (halaman bantuan) dapat dilihat pada gambar 5.5 berikut ini. 45

65 Gambar 5. 5 Implementasi Antarmuka Kelas Bantuan Implementasi Kelas Control Implementasi kelas controller dapat dilihat pada tabel 5.8 berikut ini. Tabel 5. 8 Implementasi Kelas Controller No Use Case Nama File Fisik Nama File 1 Memilih Data 1. ControlExcel. 2 Mengidentifikasi Outlier 3 Menyimpan hasil identifikasi java 2. DataModel. java 1. ControlECODB. java 2. HasilECODB Model.java 1. ControlExcel. java Excecutable 1. ExcelControl. class 2. DataModel. class 1. ControlECODB. class 2. HasilECODB Model.java 1. ControlExcel. class 46

66 outlier 5.2 Pengujian Perangkat Lunak Pengujian Perangkat Lunak (Black Box) Rencana Pengujian Black Box Pada tabel 5.9 dibawah ini akan dijelaskan rencana pengujian dengan menggunakan metode black box. Tabel 5. 9 Rencana Pengujian Black Box No Use Case Butir Uji Kasus Uji 1. Memilih data Pengujian 2. Identifikasi outlier menggunakan algoritma ECODB 3. Menyimpan hasil identifikasi outlier memasukan data dari file berekstensi.xls Pengujian memasukan data dari file berekstensi.doc Pengujian memasukan data dari file berekstensi.txt Pengujian melakukan proses identifikasi outlier Pengujian menyimpan hasil identifikasi outlier ke dalam file UC1-01 UC1-02 UC1-03 UC2-01 UC

67 berekstensi.xls Pengujian menyimpan hasil identifikasi outlier ke dalam file berekstensi.doc Pengujian menyimpan hasil identifikasi outlier ke dalam file berekstensi.txt UC3-02 UC Prosedur Pengujian Black Box dan Kasus Uji Setelah menyusun rencana pengujian pada tabel 5.9, maka dilakukan pengujian serta kasus uji yang terlampir pada lampiran Evaluasi Pengujian Black Box Hasil pengujian black box yang terlampir pada lampiran 8 menunjukan bahwa perangkat lunak sudah berjalan dengan baik. Perangkat lunak sudah berjalan sesuai dengan perancangan yang telah dibuat. Hal ini dapat dilihat dari fungsi dalam perangkat lunak berjalan sesuai yang diharapkan. Perangkat lunak mampu memberikan peringatan atau pemberitahuan jika pengguna melakukan kesalahan saat menggunakan perangkat lunak. Peringatan atau pemberitahuan tersebut berupa menampilkan pesan kesalahan. Hal ini tentu membantu pengguna menggunakan perangkat lunak. 48

68 5.2.2 Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Hasil Pencarian Outlier Menggunakan Perangkat Lunak Pencarian Outlier Secara Manual Pengujian pencarian outlier secara manual menggunakan data hasil UN, indeks integritas dan akreditasi Sekolah Menengah Atas jurusan IPA di kabupaten Kulonprogo, Daerah Istimewa Yogyakarta tahun Proses pencarian outlier secara manual dilakukan dengan menggunakan Microsoft Excel. Dalam proses identifikasi outlier menggunakan jumlah tetangga terdekat sebesar 6 dan topn sebesar 6. Proses dan hasil dari pencarian outlier secara manual dapat dilihat pada lampiran Pencarian Outlier Menggunakan Perangkat Lunak Pengujian pencarian outlier menggunakan perangkat lunak menggunakan data yang sama dengan penghitungan manual yaitu data hasil UN, indeks integritas dan akreditasi Sekolah Menengah Atas jurusan IPA di kabupaten Kulonprogo, Daerah Istimewa Yogyakarta tahun Dalam proses pencarian outlier, menggunakan jumlah tetangga terdekat sebesar 6 dan topn sebesar 6. Hasil dari pencarian outlier menggunakan perangkat lunak dapat dilihat pada gambar 5.6 berikut ini. 49

69 Gambar 5. 6 Hasil Identifikasi Outlier Kabupaten Kulonprogo Evaluasi Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Perangkat Lunak Hasil identifikasi outlier yang diperoleh dengan pencarian outlier secara manual sama dengan hasil yang diperoleh dengan menggunakan perangkat lunak. Oleh karena itu dapat disimpulkan bahwa perangkat lunak berjalan dengan baik dan sesuai dengan yang diharapkan. 50

70 BAB VI ANALISA HASIL DAN PEMBAHASAN 6.1 Dataset Pada penelitian ini menggunakan dataset yang akan digunakan untuk mengidentifikasi outlier. Dataset yang akan digunakan sebagai berikut : 1. Data hasil UN, nilai indeks integritas dan akreditasi Sekolah Menengah Atas Jurusan IPA di Daerah Istimewa Yogyakarta tahun Data hasil UN, nilai indeks integritas dan akreditasi Sekolah Menengah Atas Jurusan IPS di Daerah Istimewa Yogyakarta tahun Proses identifikasi outlier menggunakan kombinasi nilai K dan N yang bervariasi. 6.2 Hasil Identifikasi Outlier Hasil Identifikasi Outlier Dataset Jurusan IPA Hasil identifikasi outlier menggunakan dataset jurusan IPA dengan masukan N sebesar 5 dan K bervariasi dapat dilihat pada tabel 6.1 berikut ini. Tabel 6. 1 Hasil Identifikasi dengan N=5, K bervariasi Jumlah Sekolah K N Sekolah COF yang Sama dengan K=10 SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH SLEMAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN

71 SMA MUHAMMADIYAH MLATI SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH 1 SLEMAN SMA GAJAH MADA YOGYAKARTA 1 SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA NEGERI 1 NGAGLIK SMA MUHAMMADIYAH 1 SLEMAN SMA GAJAH MADA YOGYAKARTA 1 SMA MUHAMMADIYAH PIYUNGAN 1 SMA MUHAMMADIYAH MLATI Dari hasil identifikasi outlier pada tabel 6.1 dapat dilihat bahwa dengan memvariasi nilai K atau tetangga terdekat dapat mempengaruhi keanggotaan sekolah yang teridentifikasi sebagai outlier. Memvariasi nilai K dapat mempengaruhi nilai PCL setiap sekolah. Semakin besar nilai K maka nilai KDist juga akan semakin besar. Dengan mempengaruhi nilai PCL dan KDist tentu saja akan mempengaruhi COF setiap sekolah. Sekolah yang selalu teridentifikasi sebagai outlier dengan nilai K bervariasi dan N sebesar 5 adalah sebagai berikut : 1. SMA MUHAMMADIYAH 1 SLEMAN 2. SMA GAJAH MADA YOGYAKARTA 3. SMA MUHAMMADIYAH PIYUNGAN 4. SMA MUHAMMADIYAH MLATI 52

72 Hasil identifikasi outlier menggunakan dataset jurusan IPA dengan masukan K sebesar 10 dan N bervariasi dapat dilihat pada tabel 6.2 berikut ini. Tabel 6. 2 Hasil Identifikasi dengan K=10, N bervariasi Jumlah Sekolah K N Sekolah COF yang Sama dengan N=5 SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH 1 SLEMAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH 1 SLEMAN SMA GAJAH MADA YOGYAKARTA 1 SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PAKEM SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR

73 10 20 SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA 2 WONOSARI SMA MUHAMMADIYAH 1 PRAMBANAN SMA GAMA YOGYAKARTA SMA BUDI LUHUR YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH KALASAN SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH PIYUNGAN SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA MUHAMMADIYAH 1 SLEMAN SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA 2 WONOSARI

74 10 25 SMA ISLAM 1 PRAMBANAN SMA MUHAMMADIYAH PAKEM SMA GAMA YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA BUDI LUHUR YOGYAKARTA SMA MUHAMMADIYAH 1 PRAMBANAN SMA NEGERI 2 WATES SMA '17' YOGYAKARTA SMA 1 SEMANU SMA NEGERI 1 PENGASIH SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH PIYUNGAN SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA MUHAMMADIYAH 1 SLEMAN SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA 2 WONOSARI SMA ISLAM 1 PRAMBANAN SMA MUHAMMADIYAH PAKEM SMA GAMA YOGYAKARTA

75 10 30 SMA MUHAMMADIYAH KALASAN SMA BUDI LUHUR YOGYAKARTA SMA MUHAMMADIYAH 1 PRAMBANAN SMA NEGERI 2 WATES SMA '17' YOGYAKARTA SMA DOMINIKUS WONOSARI SMA MUHAMMADIYAH SEWON SMA MUHAMMADIYAH 5 YOGYAKARTA SMA TAMAN MADYA IBU PAWIYATAN YOGYAKARTA SMA ISLAM 3 SLEMAN SMA 1 SEMANU SMA NEGERI 1 PENGASIH SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH PIYUNGAN SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA MUHAMMADIYAH 1 SLEMAN SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA 2 WONOSARI SMA ISLAM 1 PRAMBANAN

76 SMA MUHAMMADIYAH PAKEM SMA GAMA YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA BUDI LUHUR YOGYAKARTA SMA MUHAMMADIYAH 1 PRAMBANAN SMA NEGERI 2 WATES SMA '17' YOGYAKARTA SMA MUHAMMADIYAH IMOGIRI SMA DOMINIKUS WONOSARI SMA MUHAMMADIYAH SEWON SMA MUHAMMADIYAH 5 YOGYAKARTA SMA PIRI 1 YOGYAKARTA SMA TAMAN MADYA IBU PAWIYATAN YOGYAKARTA SMA ISLAM 3 SLEMAN SMA 1 SEMANU SMA NEGERI 1 PENGASIH SMA STELLA DUCE 1 YOGYAKARTA SMA NEGERI 1 JETIS SMA NEGERI 3 BANTUL Dari hasil identifikasi outlier pada tabel 6.2 dapat dilihat bahwa dengan memvariasi nilai N atau jumlah outlier yang diharapkan dapat mempengaruhi nilai COF setiap sekolah. Nilai COF dapat berubah karena dengan memvariasi jumlah keanggotaan 57

77 sekolah yang menjadi outlier dapat mempengaruhi nilai normkdist dan normdev yang merupakan tahap normalisasi. Memvariasi nilai N tidak merubah keanggotaan sekolah yang teridentifikasi sebagai outlier. Sekolah yang selalu teridentifikasi sebagai outlier dengan nilai K sebesar 10 dan N bervariasi adalah sebagai berikut : 1. SMA ISLAM TERPADU ABU BAKAR 2. SMA MUHAMMADIYAH 1 SLEMAN 3. SMA GAJAH MADA YOGYAKARTA 4. SMA MUHAMMADIYAH PIYUNGAN 5. SMA MUHAMMADIYAH MLATI Hasil Identifikasi Outliet Dasaset Jurusan IPS Hasil identifikasi outlier menggunakan dataset jurusan IPS dengan masukan N sebesar 5 dan K bervariasi dapat dilihat pada tabel 6.3 berikut ini. Tabel 6. 3 Hasil Identifikasi dengan N=5, K bervariasi Jumlah Sekolah K N Sekolah COF yang Sama dengan K= SMA NEGERI 1 NGAGLIK SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH MLATI 1 SMA '17' YOGYAKARTA SMA NEGERI 1 LENDAH SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA ISLAM TERPADU ABU BAKAR 1 SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN

78 20 5 SMA NEGERI 1 NGAGLIK SMA ISLAM TERPADU ABU BAKAR SMA 2 WONOSARI SMA NEGERI 2 WATES 2 SMA SANJAYA XIV NANGGULAN Dari hasil identifikasi outlier pada tabel 6.3 dapat dilihat bahwa dengan memvariasi nilai K atau tetangga terdekat dapat mempengaruhi keanggotaan sekolah yang teridentifikasi sebagai outlier. Memvariasi nilai K dapat mempengaruhi nilai PCL setiap sekolah. Semakin besar nilai K maka nilai KDist juga akan semakin besar. Dengan mempengaruhi nilai PCL dan KDist tentu saja akan mempengaruhi COF setiap sekolah. Sekolah yang selalu teridentifikasi sebagai outlier dengan nilai K bervariasi dan N sebesar 5 adalah sebagai berikut : 1. SMA NEGERI 1 NGAGLIK 2. SMA ISLAM TERPADU ABU BAKAR Hasil identifikasi outlier menggunakan dataset jurusan IPS dengan masukan K sebesar 10 dan N bervariasi dapat dilihat pada tabel 6.4 berikut ini. Tabel 6. 4 Hasil Identifikasi dengan K=10, N bervariasi Jumlah Sekolah K N Sekolah COF yang Sama dengan K= SMA NEGERI 1 NGAGLIK SMA ISLAM TERPADU ABU BAKAR SMA MUHAMMADIYAH MLATI 1 SMA '17' YOGYAKARTA

79 SMA NEGERI 1 LENDAH SMA NEGERI 1 NGAGLIK SMA 1 PLAYEN SMA ISLAM TERPADU ABU BAKAR SMA BUDYA WACANA YOGYAKARTA SMA DR. WAHIDIN SMA GAMA YOGYAKARTA SMA MUHAMMADIYAH MLATI SMA NEGERI 1 LENDAH SMA '17' YOGYAKARTA SMA SANJAYA XIV NANGGULAN SMA NEGERI 1 NGAGLIK SMA ISLAM TERPADU ABU BAKAR SMA 1 PLAYEN SMA BUDYA WACANA YOGYAKARTA SMA DR. WAHIDIN SMA GAMA YOGYAKARTA SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA '17' YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA 17 BANTUL SMA MUHAMMADIYAH 1 SLEMAN SMA SANJAYA XIV NANGGULAN

80 SMA BHINNEKA TUNGGAL IKA YOGYAKARTA SMA IKIP VETERAN SMA ISLAM TERPADU ABU BAKAR SMA NEGERI 1 NGAGLIK SMA BUDYA WACANA YOGYAKARTA SMA 1 PLAYEN SMA DR. WAHIDIN SMA GAMA YOGYAKARTA SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA '17' YOGYAKARTA SMA 2 WONOSARI SMA NEGERI 2 WATES SMA MUHAMMADIYAH PAKEM SMA 17 BANTUL SMA SANJAYA XIV NANGGULAN SMA MUHAMMADIYAH 1 SLEMAN SMA BHINNEKA TUNGGAL IKA YOGYAKARTA SMA IKIP VETERAN SMA MA'ARIF YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR

81 SMA NEGERI 1 NGAGLIK SMA BUDYA WACANA YOGYAKARTA SMA 1 PLAYEN SMA DR. WAHIDIN SMA GAMA YOGYAKARTA SMA NEGERI 1 LENDAH SMA MUHAMMADIYAH MLATI SMA '17' YOGYAKARTA SMA 2 WONOSARI SMA NEGERI 2 WATES SMA MUHAMMADIYAH PAKEM SMA 17 BANTUL SMA SANJAYA XIV NANGGULAN SMA MUHAMMADIYAH 1 SLEMAN SMA BHINNEKA TUNGGAL IKA YOGYAKARTA SMA IKIP VETERAN SMA MA'ARIF YOGYAKARTA SMA MUHAMMADIYAH KASIHAN SMA BUDI MULIA SMA MUHAMMADIYAH 1 PRAMBANAN SMA MUHAMMADIYAH PIYUNGAN SMA SANTO THOMAS YOGYAKARTA SMA GAJAH MADA YOGYAKARTA SMA SUNAN KALIJOGO

82 10 30 SMA 1 PLAYEN SMA NEGERI 1 NGAGLIK SMA DR. WAHIDIN SMA BUDYA WACANA YOGYAKARTA SMA ISLAM TERPADU ABU BAKAR SMA GAMA YOGYAKARTA SMA MUHAMMADIYAH MLATI SMA '17' YOGYAKARTA SMA NEGERI 1 LENDAH SMA 2 WONOSARI SMA MUHAMMADIYAH PAKEM SMA 17 BANTUL SMA NEGERI 2 WATES SMA MUHAMMADIYAH 1 SLEMAN SMA SANJAYA XIV NANGGULAN SMA BHINNEKA TUNGGAL IKA YOGYAKARTA SMA IKIP VETERAN SMA MA'ARIF YOGYAKARTA SMA MUHAMMADIYAH KASIHAN SMA BUDI MULIA SMA MUHAMMADIYAH 1 PRAMBANAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH SEWON SMA MUHAMMADIYAH IMOGIRI

83 SMA MUHAMMADIYAH BANTUL SMA SANTO THOMAS YOGYAKARTA SMA GAJAH MADA YOGYAKARTA SMA PEMBANGUNAN 1 WONOSARI SMA ISLAM 1 PRAMBANAN SMA SUNAN KALIJOGO Dari hasil identifikasi outlier pada tabel 6.4 dapat dilihat bahwa dengan memvariasi nilai N atau jumlah outlier yang diharapkan dapat mempengaruhi nilai COF setiap sekolah. Nilai COF dapat berubah karena dengan memvariasi jumlah keanggotaan sekolah yang menjadi outlier dapat mempengaruhi nilai normkdist dan normdev yang merupakan tahap normalisasi. Memvariasi nilai N tidak merubah keanggotaan sekolah yang teridentifikasi sebagai outlier. Sekolah yang selalu teridentifikasi sebagai outlier dengan nilai K sebesar 10 dan N bervariasi adalah sebagai berikut : 1. SMA NEGERI 1 NGAGLIK 2. SMA ISLAM TERPADU ABU BAKAR 3. SMA MUHAMMADIYAH MLATI 4. SMA 17 YOGYAKARTA 5. SMA NEGERI 1 LENDAH 6.3 Analisa Hasil Identifikasi Outlier Analisa Hasil Identifikasi Outlier Dataset Jurusan IPA Berdasarkan hasil identifikasi outlier pada dataset jurusan IPA yang sering muncul sebagai outlier memiliki karakteristik sebagai berikut : 64

84 1. SMA ISLAM TERPADU ABU BAKAR dinyatakan sebagai outlier karena memiliki nilai Matematika, Fisika dan Kimia cukup rendah yaitu sebesar 48.12, dan Pada nilai Bahasa Indonesia memiliki nilai yang cukup tinggi yaitu 83.98, kemudian nilai Bahasa Inggris dan Biologi yang cukup baik yaitu dan Sekolah tersebut juga memiliki indeks itegritas yang tinggi yaitu namun sekolah tersebut termasuk dalam sekolah dengan akreditasi Belum Akreditasi. Sekolah tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa sekolah tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan sekolah tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 10 : Tetangga Terdekat Tabel 6. 5 Tetangga Terdekat SMA ISLAM TERPADU ABU BAKAR B. Indonesia B. Inggris Matematika Fisika Kimia Biologi IIUN Kelas Label SMA ISLAM TERPADU ABU BAKAR SMA BINA ANAK SHOLEH A SMA NEGERI 2 NGAGLIK A SMA ALI MAKSUM A SMA BOPKRI A SMA STELLA DUCE 2 YOGYAKART A A SMA NEGERI 1 SENTOLO A SMA 2 PLAYEN A BELUM AKREDIT ASI 65

85 SMA NEGERI 1 GAMPING A SMA STELLA DUCE BANTUL A Tetangga Terdekat 2. SMA MUHAMMADIYAH 1 SLEMAN dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi yang rendah yaitu sebesar 48.13, 38.54, 38.45, 53.5 dan Pada nilai Bahasa Indonesia memiliki nilai yang cukup tinggi yaitu Sekolah tersebut juga memiliki indeks integritas yang tinggi yaitu 84.4 namun sekolah tersebut termasuk dalam sekolah dengan akreditasi B. Sekolah tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa sekolah tersebut tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 10 : Tabel 6. 6 Tetangga Terdekat SMA MUHAMMADIYAH 1 SLEMAN B. Indonesia B. Inggris Matematika Fisika Kimia Biologi IIUN SMA MUHAMMADI YAH 1 SLEMAN B SMA 1 PANGGANG A SMA 1 SEMANU A SMA NEGERI 1 KOKAP A SMA NEGERI 1 MINGGIR A SMA 1 PATUK A SMA A Kelas Label 66

86 TANJUNGSAR I SMA NEGERI 1 GIRIMULYO A SMA 1 PLAYEN SMA NEGERI 1 DLINGO A BELUM AKREDI TASI Tetangga Terdekat 3. SMA GAJAH MADA YOGYAKARTA dinyatakan sebagai outlier karena memiliki nilai Bahasa Indonesia, Kimia dan indeks integritas yang rendah yaitu 57.32, dan Pada nilai Bahasa Inggris, Matematika, Fisika dan Biologi yang cukup tinggi yaitu sebesar 63.86, 73.81, dan 71, 37. Instance tersebut termasuk dalam sekolah dengan akreditasi B. Instance tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa instance tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 10 : Tabel 6. 7 Tetangga Terdekat SMA GAJAH MADA YOGYAKARTA B. Indonesia B. Inggris Matematika Fisika Kimia Biologi IIUN SMA GAJAH MADA YOGYAKART A B SMA KOLOMBO SLEMAN A SMA NEGERI 1 GALUR A SMA NEGERI 1 KRETEK A SMA NEGERI A Kelas Label 67

87 BAMBANGLIP URO SMA NEGERI 1 CANGKRING AN A SMA MUHAMMADI YAH BANTUL A SMA NEGERI 1 NGEMPLAK A SMA NEGERI 1 SEYEGAN A SMA TAMAN MADYA JETIS YOGYAKART A A 4. SMA MUHAMMADIYAH PIYUNGAN dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi yaitu sebesar 46.14, 30.06, 36.16, 41.5 dan Pada nilai Bahasa Indonesia memiliki nilai yang baik yaitu Instance tersebut juga memiliki indeks integritas yang baik yaitu namun instance tersebut termasuk dalam sekolah dengan akreditasi B. Instance tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa instance tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 10 : Tetangga Terdekat Tabel 6. 8 Tetangga Terdekat SMA MUHAMMADIYAH PIYUNGAN B. Indonesia B. Inggris Matematika Fisika Kimia Biologi IIUN SMA MUHAMMADI YAH PIYUNGAN B Kelas Label 68

88 SMA ISLAM 3 SLEMAN A SMA PEMBANGUN AN 2 KARANGMOJ O A SMA NEGERI 1 KALIBAWAN G A SMA NEGERI 1 SAMIGALUH A SMA NEGERI 1 MINGGIR A SMA TAMAN MADYA IBU PAWIYATAN YOGYAKART A A SMA MUHAMMADI YAH WONOSARI A SMA NEGERI 1 DLINGO A SMA ISLAM 1 PRAMBANAN BELUM AKREDIT ASI 5. SMA MUHAMMADIYAH MLATI dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Fisika dan Kimia yang rendah yaitu sebesar 46.14, 26.55, 59.6 dan Pada nilai Bahasa Indonesia yang baik yaitu kemudian nilai Biologi yang cukup baik yaitu sebesar Instance tersebut juga memiliki indeks integritas yang baik yaitu sebesar namun instance tersebut termasuk dalam sekolah dengan akreditasi B. Instance tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa instance tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas 69

89 Tetangga Terdekat SMA MUHAMMADI YAH MLATI SMA UII BANGUNTAP AN SMA NEGERI 1 TURI SMA MUHAMMADI YAH 7 YOGYAKART A SMA ANGKASA SMA NEGERI 1 LENDAH labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 10 : Tabel 6. 9 Tetangga Terdekat SMA MUHAMMADIYAH MLATI B. Indonesia B. Inggris Matematika Fisika Kimia Biologi IIUN B A A A A Kelas Label BELUM AKREDI TASI A SMA NEGERI 1 SRANDAKAN SMA SANTO MIKAEL SLEMAN SMA MUHAMMADI YAH BANTUL SMA NEGERI 1 NGAGLIK Analisa Hasil Identifikasi Outlier Dataset Jurusan IPS Berdasarkan hasil identifikasi outlier pada dataset jurusan IPA yang sering muncul sebagai outlier memiliki karakteristik sebagai berikut : 1. SMA NEGERI 1 NGAGLIK dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Ekonomi, Sosiologi dan Geografi yang rendah yaitu sebesar 63.36, 47.42, 50.76, dan Pada nilai Bahasa Indonesia memiliki nilai yang tinggi yaitu Sekolah tersebut juga memiliki indeks A A BELUM AKREDI TASI 70

90 Tetangga Terdekat integritas yang baik yaitu sebesar 72.8 namun sekolah tersebut termasuk dalam sekolah dengan akreditasi Belum Akreditasi. Sekolah tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa sekolah tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan sekolah tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 11 : Tabel Tetangga Terdekat SMA NEGERI 1 NGAGLIK B. Indonesia B. Inggris Matematika Ekonomi Sosiologi Geografi IIUN Kelas Label BELUM SMA NEGERI 1 NGAGLIK AKREDI TASI SMA NEGERI 1 PLERET A SMA NEGERI 1 NGEMPLAK A SMA NEGERI 1 PENGASIH A SMA NEGERI 1 IMOGIRI A SMA NEGERI 1 TEMON A SMA NEGERI 1 PAJANGAN A SMA NEGERI 1 SEYEGAN A SMA NEGERI 1 PRAMBANAN A SMA BOPKRI 1 YOGYAKART A A 2. SMA ISLAM TERPADU ABU BAKAR dinyatakan sebagai outlier karena memiliki nilai Bahasa Matematika dan Ekonomi yang rendah yaitu sebesar dan Pada nilai Bahasa Indonesia memiliki nilai yang tinggi yaitu sebesar

91 Tetangga Terdekat kemudian memiliki nilai Bahasa Inggris, Sosiologi dan Geografi yang cukup baik yaitu 61.08, dan sekolah tersebut juga memiliki indeks integritas yang tinggi yaitu namun sekolah tersebut termasuk dalam sekolah dengan akreditasi Belum Akreditasi. Sekolah tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa sekolah tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan sekolah tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 11 : Tabel Tetangga Terdekat SMA ISLAM TERPADU ABU BAKAR B. Indonesia B. Inggris Matematika Ekonomi Sosiologi Geografi IIUN Kelas Label SMA ISLAM TERPADU ABU BAKAR SMA ALI MAKSUM A SMA STELLA DUCE 2 YOGYAKART A A SMA NEGERI 2 SLEMAN A SMA NEGERI 1 TEMPEL A SMA NEGERI 1 GAMPING A SMA NEGERI 1 PRAMBANAN A SMA NEGERI 4 YOGYAKART A A SMA 2 PLAYEN A BELUM AKREDIT ASI 72

92 SMANEGERI 1 SENTOLO A Tetangga Terdekat 3. SMA MUHAMMADIYAH MLATI dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Ekonomi, Sosiologi dan Geografi yaitu sebesar 40.72, 30.89, 35.95, dan Pada nilai Bahasa Indonesia memiliki nilai yang baik yaitu sebesar Instance tersebut juga memiliki indeks integritas yang baik yaitu sebesar 71.8 namun instance tersebut termasuk dalam sekolah dengan akreditasi B. Instance tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa instance tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 11 : Tabel Tetangga Terdekat SMA MUHAMMADIYAH MLATI B. Indonesia B. Inggris Matematika Ekonomi Sosiologi Geografi IIUN SMA MUHAMMADI YAH MLATI B SMA MUHAMMADI YAH 6 YOGYAKART A A SMA MUHAMMADI YAH 1 PRAMBANAN SMA ISLAM 1 PRAMBANAN SMA MUHAMMADI YAH BANTUL A 71.7 Kelas Label BELUM AKREDIT ASI BELUM AKREDIT ASI 73

93 SMA PEMBANGUN AN 1 WONOSARI BELUM AKREDIT ASI SMA BUDI MULIA BELUM AKREDIT ASI SMA PGRI 1 KASIHAN A SMA MUHAMMADI YAH 5 YOGYAKART A A SMA 1 TANJUNGSAR I A 4. SMA 17 YOGYAKARTA dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Ekonomi, Sosiologi dan Geografi yang rendah yaitu sebesar 35.33, 21.66, 34.32, dan Pada nilai Bahasa Indonesia memiliki nilai yang baik yaitu Instance tersebut juga memiliki nilai indeks integritas yang tinggi yaitu 80.6 namun instance tersebut termasuk dalam sekolah yang memiliki akreditasi B. Instance tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa instance tersebut dari 10 sekolah terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan instance tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 11 : Tetangga Terdekat Tabel Tetangga Terdekat SMA 17 YOGYAKARTA B. Indonesia B. Inggris Matematika Ekonomi Sosiologi Geografi IIUN SMA 17 YOGYAKART A B Kelas Label 74

94 SMA TAMAN MADYA IBU PAWIYATAN YOGYAKART A SMA MUHAMMADI YAH KASIHAN SMA SULTAN AGUNG YOGYAKART A SMA TAMAN MADYA JETIS YOGYAKART A SMA PGRI 1 KASIHAN SMA MUHAMMADI YAH SEWON SMA INSTITUT INDONESIA SLEMAN SMA PEMBANGUN AN 4 PLAYEN SMA BUDI LUHUR YOGYAKART A A BELUM AKREDIT ASI BELUM AKREDIT ASI A A A BELUM AKREDIT ASI BELUM AKREDIT ASI BELUM AKREDIT ASI 5. SMA NEGERI 1 LENDAH dinyatakan sebagai outlier karena memiliki nilai Bahasa Inggris, Matematika, Ekonomi, Sosiologi dan Geografi yang rendah yaitu sebesar 54.7, 45.64, 48.07, dan Pada nilai Bahasa Indonesia memiliki nilai yang baik yaitu sebesar Sekolah tersebut juga memiliki indeks integritas yang baik yaitu namun sekolah tersebut termasuk dalam sekolah dengan akreditasi Belum Akreditasi. Sekolah tersebut memiliki PCL yang sangat kecil yaitu 0.1 dengan jumlah tetangga terdekat sebesar 10. Dari pernyataan tersebut dapat dilihat bahwa sekolah tersebut dari 10 sekolah 75

95 Tetangga Terdekat terdekat termasuk dirinya sendiri tidak ada 1 pun sekolah yang memiliki kelas label yang sama dengan sekolah tersebut. Berikut merupakan tetangga terdekat beserta kelas labelnya dari sekolah tersebut yang sesuai dengan hasil running pada lampiran 11 : Tabel Tetangga Terdekat SMA NEGERI 1 LENDAH B. Indonesia B. Inggris Matematika Ekonomi Sosiologi Geografi IIUN Kelas Label BELUM SMA NEGERI 1 LENDAH AKREDIT ASI SMA STELLA DUCE BANTUL A SMA NEGERI 1 BAMBANGLIP URO A SMA NEGERI 1 GALUR A SMA NEGERI 1 SEDAYU A SMA NEGERI 1 SRANDAKAN A SMA 1 RONGKOP A SMA NEGERI 1 TEMON A SMA NEGERI 1 CANGKRINGA N A SMA 1 KARANGMOJ O A 6.4 Kelebihan Dan Kekurangan Perangkat Lunak Kelebihan Perangkat Lunak Kelebihan yang dimiliki oleh perangkat lunak atau sistem identifikasi outlier menggunakan algoritma ECODB adalah : 1. Sistem atau perangkat lunak dapat mengidentifikasi outlier pada data hasil UN, nilai indeks integritas dan akreditasi SMA 76

96 Jurusan IPA dan IPS di Daerah Istimewa Yogyakarta dengan hasil penghitungan yang akurat Kekurangan Perangkat Lunak 1. Data yang digunakan sebagai masukan oleh sistem atau perangkat lunak terbatas yaitu hanya file berekstensi.xls. 2. File berekstensi.xls yang digunakan sebagai masukan pada sistem atau perangkat lunak baris pertama harus merupakan nama kolom dan baris berikutnya merupakan datanya. 3. Sistem atau perangkat lunak tidak dapat melakukan proses preprocessing data yang akan digunakan secara otomatis. 4. Sistem atau perangkat lunak hanya dapat menyimpan hasil identifikasi outlier dalam file berekstensi.xls 5. Sistem tidak dapat menerima masukan data dengan jumlah kolom yang berbeda dengan dataset. 77

97 BAB VII PENUTUP 7.1 Kesimpulan Hasil penelitian penerapan algoritma ECODB untuk mengidentifikasi outlier pada data nilai hasil UN, indeks integritas dan akreditasi SMA jurusan IPA dan IPS di Daerah Istimewa Yogyakarta memiliki kesimpulan sebagai berikut : 1. Algoritma ECODB dapat diterapkan untuk mengidentifikasi outlier pada data hasil UN, indeks integritas dan akreditasi SMA jurusan IPA dan IPS di Daerah Istimewa Yogyakarta. 2. Penentukan nilai K (jumlah tetangga terdekat) dan N (jumlah outlier yang diharapkan) dapat berpengaruh dalam hasil identifikasi outlier : a. Memvariasi nilai K dapat mempengaruhi nilai PCL setiap instance. Semakin besar nilai K maka nilai KDist juga akan semakin besar. Dengan mempengaruhi nilai PCL dan KDist akan mempengaruhi COF setiap instances. b. Memvariasi nilai N atau jumlah outlier yang diharapkan dapat mempengaruhi nilai COF setiap instance. Nilai COF dapat berubah karena dengan memvariasi jumlah keanggotaan isntances yang menjadi outlier dapat mempengaruhi nilai normkdist dan normdev yang merupakan tahap normalisasi. c. Memvariasi nilai N tidak merubah keanggotaan isntance yang teridentifikasi sebagai outlier. d. Menentukan nilai N yang terlalu kecil dapat menyebabkan instance dengan PCL yang kecil tidak teridentifikasi sebagai outlier begitu pula sebaliknya jika menentukan nilai N yang terlalu besar dapat menyebabkan instance dengan PCL yang besat teridentifikasi sebagai outlier. 3. Pada dataset IPA sekolah yang selalu teridentifikasi sebagai outlier : 78

98 a. Dengan jumlah K bervariasi dan N = 5 adalah SMA MUHAMMADIYAH 1 SLEMAN, SMA GAJAH MADA YOGYAKARTA, SMA MUHAMMADIYAH PIYUNGAN dan SMA MUHAMMADIYAH MLATI. b. Dengan jumlah K = 10 dan N bervariasi adalah SMA ISLAM TERPADU ABU BAKAR, SMA MUHAMMADIYAH 1 SLEMAN, SMA GAJAH MADA YOGYAKARTA, SMA MUHAMMADIYAH PIYUNGAN dan SMA MUHAMMADIYAH MLATI. 4. Pada dataset IPS sekolah yang selalu teridentifikasi sebagai outlier : a. Dengan jumlah K bervariasi dan N = 5 adalah SMA NEGERI 1 NGAGLIK dan SMA ISLAM TERPADU ABU BAKAR. b. Dengan jumlah K = 10 dan N bervariasi adalah SMA NEGERI 1 NGAGLIK, SMA ISLAM ISLAM TERPADU ABU BAKAR, SMA 17 YOGYAKARTA, SMA MUHAMMADIYAH MLATI dan SMA NEGERI 1 LENDAH. 7.2 Saran Hasil penelitian penerapan algoritma ECODB untuk mengidentifikasi outlier pada data nilai hasil UN, indeks integritas dan akreditasi SMA jurusan IPA dan IPS di Daerah Istimewa Yogyakarta memiliki saran untuk pengembangan penelitian di masa mendatang adalah sebagai berikut : 1. Perangkat lunak tidak hanya dapat menerima masukan data dari file berekstensi.xls namun juga dapat menerima masukan data dari file berekstensi lainnya. 2. Perangkat lunak tidak hanya dapat menyimpan hasil identifikasi outlier dengan file berekstensi.xls namun juga dapat menyimpan dengan file berekstensi lainnya. 3. Perangkat lunak dapat melakukan preprocessing secara otomatis yaitu pengguna dapat memiliki atribut dan menyeleksi data atau baris. 79

99 4. Perangkat lunak dapat mengidentifikasi dataset yang berbeda. 5. Penelitian menggunakan dataset yang berbeda atau algoritma yang berbeda. 80

100 Daftar Pustaka Han, J dan M. Kamber. (2012). Data Mining : Concepts and Techniques 3 rd Edition. San Fransisco : Morgan Kaufmann Publishers. Hewahi, N. M. dan M. K. Saad. (2007). Class Outlier Mining : Distance-Based Approach. Internasional Journal of Electrical and Computer Engineering. Hewahi, N. M. dan M. K. Saad. (2009). A comparative Study of Outlier Mining and Class Outlier Minir. ISSR Journal. Kwa, Fiona Endah dan Paulina H. Prima Rosa. (2013). Deteksi Outlier Menggunakan Algoritma Block-based Nested Loop(Studi Kasus: Data Akademik Mahasiswa Prodi PS Universitas XYZ). Prosiding Seminar RiTekTra. Kristanto, Andri. (2004). Rekayasa Perangkat Lunak. Yogyakarta : Gava Media. Maryono, D. (2010). Deteksi Outlier Berbasis Klaster pada Set Data dengan Atribut Campuran Numerik dan Kategorikal. Jurnal Ilmiah Kursor. 5 (3) : Octaviani, Maria Renia. (2015). Deteksi Outlier untuk Nilai Ujian Sekolah Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness (INFLO). Skripsi. Jurusan Teknik Informatika. Universitas Sanata Dharma. Yogyakarta. Tan, P. N., M. Steinbach dan V. Kumar. (2006). Introduction to Data Mining. Boston : Pearson Addison Weisley. Utami, Feri Hari dan Asnawati. (2015). Rekayasa Perangkat Lunak. Yogyakarta : Deepublish. Widowati, Maria Kristilia. (2015). Deteksi Outlier Pada Data Dengan Atribut Campuran Numerik dan Kategorikal Menggunakan Algoritma Enhanced Class Outlier Distance Based (ECODB). Skripsi. Jurusan Teknik Informatika. Yogyakarta. 81

101 LAMPIRAN 82

102 LAMPIRAN 1 : Gambar Umum Use Case ID Use Nama Use Case Deskripsi Aktor Case 1 Use case ini merupakan proses Memilih Data memilih file berekstensi.xls yang akan digunakan dalam proses User mengidentifikasi outlier. 2 Use case ini merupakan proses Mengidentifikasi mengidentifikasi outlier menggunakan Outlier metode Enhanced Class Outlier User Distance Based (ECODB). 3 Menyimpan Hasil Use case ini merupakan proses Indentifikasi Outlier menyimpan hasil identifikasi outlier dalam bentuk file berekstensi.xls User 83

103 LAMPIRAN 2 : Narasi Use Case 1. Narasi Use Case Memilih Data Memilih Data Nama Use Case Memasukan data ID Use Case 1 Aktor User Deskripsi Use case ini merupakan proses memilih file berekstensi.xls yang akan digunakan dalam proses mengidentifikasi outlier. Kondisi Awal User telah masuk pada sistem dan berada pada halaman preprocessing. Kondisi Akhir Menampilkan data dalam tabel pada halaman preprocessing. Aksi Aktor Reaksi Sistem 1. Menekan tombol File untuk memasukan file berekstensi.xls untuk digunakan dalam proses mengidentifikasi Typical Course outlier. 2. Menampilkan kotak dialog untuk memilih file yang berada pada direktori komputer. 3. Memilih file yang akan digunakan 84

104 dalam proses indentifikasi outlier. 4. Menampilkan data pada tabel di halaman preprocessing. 2. Narasi Use Case Identifikasi Outlier Memilih Data Nama Use Case Mengidentifikasi outlier ID Use Case 2 Aktor User Deskripsi Use case ini merupakan proses mengidentifikasi outlier menggunakan metode Enhanced Class Outlier Distance Based (ECODB). Kondisi Awal User telah memilih data atau file berekstensi.xls dan menampilkan data tersebut dalam tabel pada halaman preprocessing. Kondisi Akhir Menampilkan hasil identifikasi outlier dalam tabel pada halaman hasil. Aksi Aktor Reaksi Sistem 1. Mengisi nilai K pada textfield pada halaman preprocessing. Typical Course 2. Mengisi nilai N pada textfield pada halaman preprocessing. 3. Menekan tombol 85

105 Identifikasi pada halaman preprocessing. 5. Menjalankan algoritma ECODB 6. Menampilkan hasil identifikasi outlier pada halaman hasil. 3. Narasi Use Case Menyimpan Hasil Identifikasi Outlier Memilih Data Nama Use Case Menyimpan hasil identifikasi outlier ID Use Case 3 Aktor User Deskripsi Use case ini merupakan proses menyimpan hasil identifikasi outlier dalam bentuk file berekstensi.xls Kondisi Awal Menampilkan hasil identifikasi outlier pada tabel pada halaman hasil. Kondisi Akhir Menyimpan hasil identifikasi outlier berupa file dengan ekstensi.xls pada direktori komputer yang telah dipilih. Aksi Aktor Reaksi Sistem 1. Menekan tombol Simpan pada halaman hasil. Typical Course 2. Menampilkan kotak dialog save 3. Memilih lokasi 86

106 pemyimpanan di direktori komputer. 4. Menyimpan hasil identifikasi outlier berupa file dengan ekstensi.xls pada direktori komputer yang telah dipilih. 87

107 LAMPIRAN 3 : Diagram Aktivitas 1. Diagram Aktivitas Memilih Data Pilih Data User Sistem Menekan tombol FILE Menampilkan kotak dialog file chooser Memilih file Apakah file.xls false e Menampilkan kotak dialog berisi peringatan tipe file yang dipilih salah true Menekan tombol FILE 88

108 2. Diagram Aktivitas Identifikasi Outlier Identifikasi Outlier User Sistem Mengisi nilai K Mengisi nilai N Menekan tombol IDENTIFIKASI Menjalankan algoritma ECODB Menampilkan hasil identifikasi outlier 89

109 3. Diagram Aktivitas Menyimpan Hasil Identifikasi Outlier Simpan Hasil Identifikasi Outlier User Sistem Menekan tombol SIMPAN Menjalankan algoritma ECODB Memilih lokasi penyimpanan di direktori komputer Menyimpan hasil identifikasi outlier pada direktori komputer yang telah dipilih 90

110 LAMPIRAN 4 : Diagram Kelas Analisis Tentang Bantuan User Home DataModel Preprocessing ControlExcel Data Hasil ECODBControl HasilECODB HasilECODBModel Jarak 91

111 User LAMPIRAN 5 : Diagram Sekuen 1. Diagram Sekuen Memilih Data 92

112 User 2. Diagram Sekuen Mengidentifikasi Outlier 93

113 3. Diagram Sekuen Menyimpan Hasil Identifikasi Outlier User 94

114 LAMPIRAN 6 : Diagram Kelas Disain 95

115 LAMPIRAN 7 : Algoritma Per Method Tabel 4. 2 Rincian Algoritma per Method Kelas controlecodb Nama Method Fungsi Method Algoritma Method distance(arraylist<data> data) tetanggaterdekat(jarak[][] jaraksekolah,int k) Menyimpan jarak antar sekolah Menyimpan jarak sekolah terdekat 1. Membuat array 2 dimensi bertipe Jarak dengan nama hasil, kemudian menentukan jumlah baris sebanyak jumlah data dan jumlah kolom sebanyak jumlah data. 2. Kemudian menghitung jarak antar sekolah dan disimpan ke dalam array 2 dimensi hasil. 3. Mengembalikan array 2 dimensi hasil. 1. Membuat array 2 dimensi bertipe Jarak dengan nama hasil, kemudian menentukan jumlah baris sebanyak jumlah baris dari jaraksekolah dan jumlah kolom sebanyak k. 2. Untuk setiap baris dari jaraksekolah, mengambil isi per baris dari jaraksekolah dan disimpan di dalam array tampung yang bertipe Jarak. 3. Mengurutkan isi array tampung. 4. Kemudian top k dari array tampung disimpan dalam array 2 dimensi hasil. 5. Mengembalikan array 2 dimensi hasil. 96

116 pcl(jarak[][] tetangga, ArrayList<Data> data) deviation(jarak[][] jaraksekolah, ArrayList<HasilECODB> data, ArrayList<Data> dt) Kdist(Jarak[][] tetangga, ArrayList<HasilECODB> data, ArrayList<Data> dt) normalisasi(double [] data) Menentukan pcl setiap instance T Menentukan nilai deviation untuk setiap instance T Menentukan nilai kdist untuk setiap instance T Menormalisasi setiap nilai pada instance T 1. Membuat objek dari ArrayList<HasilECODB> dengan nama hasil. 2. Untuk setiap instance T pada data, hitung jumlah instance pada tetangga yang memiliki akreditasi yang sama dengan instance T pada data. 3. Kemudian hitung nilai PCL (Probability of Class Label) dengan membagi jumlah instance yang memiliki kelas sama dengan jumlah tetangga. 4. Kemudian simpan hasil perhitungan PCL ke dalam objek hasil. 5. Kemudian mengembalikan objek hasil. 1. Untuk setiap instance T pada dt, cek apakah instance T pada dt memiliki kelas label yang sama dengan instance pada matriks jaraksekolah. 2. Jika iya maka menjumlahkan nilai jaraksekolah. 3. Kemudian menyimpan hasil penjumlahan ke dalam ArrayList data. 4. Kemudian mengembalikan ArrayList data. 1. Untuk setiap instance T pada dt, jumlahkan nilai jaraksekolah setiap instance pada matriks tetangga. 2. Kemudian menyimpan hasil penjumlahan ke ArrayList data. 3. Kemudian mengembalikan ArrayList data. 1. Menentukan nilai max pada data. 2. Menentukan nilai min pada data. 97

117 cof(arraylist <HasilECODB> data, int k) getoutliers(int k, int n, ArrayList<Data> data) Menentukan nilai cof (class outlier factor) untuk setiap instance T Mendapatkan outliers dari data. 3. Kemudian normalisasi setiap instance T pada data dengan rumus instance T dikurangi nilai min dibagi max kurang min. 4. Kemudian mengembalikan data. 1. Membuat variabel bertipe double dengan nama cof. 2. Untuk setiap instance T pada data hitung nilai cof dengan rumus Kemudian simpan nilai cof pada ArrayList cof. 4. Kemudian mengembalikan ArrayList data. 1. Menentukan jarak antar sekolah dengan membuat array 2 dimensi bertipe Jarak dengan nama jarak sekolah, isi array 2 dimensi jarak sekolah dengan memanggil method distance dan isi parameter dengan ArrayList data. 2. Menentukan jarak antar sekolah terdekat dengan membuat array 2 dimensi bertipe Jarak dengan nama tetangga, kemudian isi array 2 dimensi tetangga dengan memanggil method tetanggaterdekat dan isi parameter dengan array 2 dimensi jaraksekolah dan k. 3. Membuat ArrayList bertipe HasilECODB dengan nama dt. 4. Kemudian isi ArrayList dt dengan probability of class label dengan memanggil method pcl dan isi parameter dengan array 2 dimensi tetangga dan ArrayList data. 98

118 5. Kemudian mengurutkan ArrayList dt berdasarkan probability of class label. 6. Membuat ArrayList bertipe HasilECODB dengan nama topn. 7. Kemudian isi ArrayList topn dengan n terkecil dari ArrayList dt. 8. Kemudian isi deviation pada ArrayList topn dengan memanggil method deviation dan isi parameter dengan array 2 dimensi jaraksekolah, ArrayList topn dan ArrayList data. 9. Kemudian isi kdist pada ArrayList topn dengan memanggil method kdist dan isi parameter dengan array 2 dimensi tetangga, ArrayList topn dan ArrayList data. 10. Membuat array normdev bertipe double kemudian isi dengan deviation dari ArrayList topn. 11. Membuat array normdist bertipe double kemudian isi dengan kdist dari ArrayList topn. 12. Kemudian normalisasi normdist dengan memanggil method normalisasi dan isi parameter dengan normdist. 13. Kemudian normalisasi normdev dengan memanggil method normalisasi dan isi parameter dengan normdev. 14. Kemudian isi normdeviation dan normkdist pada ArrayList topn 99

119 search(arraylist<data> data, String kodeskl) Mencari indeks dari data yang dicari. dengan normdev dan normkdist. 15. Kemudian isi class outlier factor pada ArrayList topn dengan memanggil method cof dan isi parameter ArrayList topn dan k. 16. Kemudian mengurutkan ArrayList topn berdasarkan nilai class outlier factor. 17. Kemudian mengembalikan ArrayList topn. 1. Untuk setiap instance T pada data, cek apakah kodeskl pada instance T data sama dengan kodeskl yang dicari. 2. Jika iya maka akan mengembalikan indeks dari instance T pada data. 3. Jika tidak maka akan mengembalikan -1. Tabel 4. 3 Rincian Algoritma per Method Kelas controlexcel Nama Method Fungsi Method Algoritma Method bacaexcel(string path) Menyimpan isi dari file.xls ke dalam ArrayList bertipe Data 1. Membuat ArrayList bertipe Data dengan nama data. 2. Membuat objek w bertipe Workbook kemudian panggil method getworkbook dan isi parameter dengan file.xls yang akan diolah yaitu menggunakan atribut path. 3. Membuat objek s1 bertipe Sheet yaitu untuk menentukan sheet yang akan diolah pada file.xls. 100

120 header(string path) simpanexcel(string path, ArrayList<HasilECODB> data, ArrayList header) Menyimpan header atau label kolom dari file.xls ke dalam ArrayList Menyimpan ArrayList bertipe HasilECODB ke dalam file.xls pada direktori tertentu. 4. Kemudian untuk setiap baris objek s1 simpan isi pada setiap barisnya ke dalam ArrayList data. 5. Kemudian mengembalikan ArrayList data. 1. Membuat ArrayList dengan nama namakolom. 2. Membuat objek w bertipe Workbook kemudian panggil method getworkbook dan isi parameter dengan file.xls yang akan diolah yaitu menggunakan atribut path. 3. Membuat objek s1 bertipe Sheet yaitu untuk menentukan sheet yang akan diolah pada file.xls. 4. Untuk setiap kolom simpan label kolom ke dalam ArrayList namakolom. 5. Mengembalikan ArrayList namakolom. 1. Membuat objek bertipe File dengan nama file kemudian isi constructor dengan path. 2. Membuat objek bertipe WorkbookSettings dengan nama wbsettings. 3. Kemudian memanggil method setlocale dari objek wbsettings. 4. Membuat objek bertipe WritableWorbook dengan nama workbook. 5. Objek workbook sama dengan memanggil method createworkbook dan isi parameter dengan objek file dan wbsettings untuk menentukan direktori penyimpanan file.xls yang akan dibuat. 101

121 createlabel( WritableSheet, ArrayList header) Membuat header pada file.xls yang akan dibuat. 6. Kemudian memanggil method createsheet dari objek workbook untuk membuat sheet. 7. Membuat objek bertipe WritableSheet dengan nama excelsheet untuk menentukan sheet yang akan dibuat dengan memanggil method getsheet dari objek workbook. 8. Kemudian memanggil method createlabel dan isi parameter dengan objek excelsheet dan ArrayList header. 9. Kemudian memanggil method createcontent dan isi parameter dengan objek excelsheet dan ArrayList data. 10. Kemudian memanggil method write dari objek workbook. 11. Kemudian memanggil method close dari objek workbook. 1. Membuat objek dari WritableFont dengan nama times10pt, kemudian isi constructor dengan jenis font dan ukuran font. 2. Mengisi constructor dari objek times dengan objek times10pt. 3. Memanggil method setwrap dari objek times dan isi parameter dengan boolean true. 4. Membuat objek dari WritableFont dengan nama times10ptboldunderline, kemudian isi constructor dengan jenis font dan ukuran font, bold dan bergaris bawah. 102

122 createcontent( WritableSheet sheet, ArrayList<HasilECODB> data) Mengisi file.xls dengan ArrayList data. 5. Kemudian isi constructor dari objek timesboldunderline dengan objek times10ptboldunderline. 6. Kemudian memanggil method setwrap dari objek timesboldunderline dan isi parameter dengan boolean true. 7. Membuat objek dari CellView dengan nama cv. 8. Kemudian memanggil method setformat dari objek cv dan isi parameter dengan objek times. 9. Kemudian memanggil method setformat dari objek cv dan isi parameter dengan objek timesboldunderline. 10. Kemudian memanggil method setautosize dari objek cv dan isi parameter dengan boolean true. 11. Kemudian untuk setiap value pada ArrayList header memanggil method addcaption dan isi parameter dengan objek sheet, kolom, baris dan label kolom dari ArrayList header. 1. Untuk setiap value pada ArrayList data, memanggil method addlabel dan isi parameter dengan objek sheet, kolom, baris dan label dari ArrayList data untuk label berupa kategorikal, memanggil method addnumber dan isi parameter dengan objek sheet, kolom, baris dan label dari ArrayList data untuk label berupa numerik. 103

123 addcaption( WritableSheet sheet, int column, int row, String s) addnumber( WritableSheet sheet, int column, int row, Double isi) addlabel( WritableSheet sheet, int column, int row, String s) Membuat label berupa kategorikal dengan jenis font bold dan bergaris bawah. Membuat label berupa numerik. Membuat label berupa kategorikal. 1. Membuat objek bertipe Label dengan nama label, kemudian isi constructor dengan column, row, s, dan objek timesboldunderline. 2. Kemudian memanggil method addcell() dari objek dan isi parameter dengan objek label. 1. Membuat objek bertipe Number dengan nama number, kemudian isi constructor dengan column, row, isi, dan objek times. 2. Kemudian memanggil method addcell() dari objek dan isi parameter dengan objek number. 1. Membuat objek bertipe Label dengan nama label, kemudian isi constructor dengan column, row, s, dan objek times. 2. Kemudian memanggil method addcell() dari objek dan isi parameter dengan objek label. Tabel 4. 4 Rincian Algoritma per Method Kelas DataModel Nama Method Fungsi Method Algoritma Method getrowcount() getcolumncount() Mendapatkan jumlah baris dari tabel. Mendapatkan jumlah kolom dari tabel. 1. Mengembalikan jumlah baris yaitu dari jumlah ArrayList data. 1. Mengembalikan jumlah kolom. 104

124 getvalueat(int rowindex, int column Index) Mendapatkan value pada baris dan kolom tertentu. 1. Membuat objek bertipe Data dengan nama dt. 2. Objek dt sama dengan ArrayList data index ke rowindex. 3. Kemudian masuk ke dalam percabangan switch case, dengan switch menggunakan columnindex. 4. Ketika kondisi columnindex sama dengan 0 maka akan mengembalikan method getkodeskl dari objek dt. 5. Ketika kondisi columnindex sama dengan 1 maka akan mengembalikan method getnmskl dari objek dt. 6. Ketika kondisi columnindex sama dengan 2 maka akan mengembalikan method getnilai1 dari objek dt. 7. Ketika kondisi columnindex sama dengan 3 maka akan mengembalikan method getnilai2 dari objek dt. 8. Ketika kondisi columnindex sama dengan 4 maka akan mengembalikan method getnilai3 dari objek dt. 9. Ketika kondisi columnindex sama dengan 5 maka akan mengembalikan method getnilai4 dari objek dt. 10. Ketika kondisi columnindex sama dengan 6 maka akan mengembalikan method getnilai5 dari objek dt. 11. Ketika kondisi columnindex sama dengan 7 maka akan mengembalikan 105

125 getcolumnname(int column) Mendapatkan label kolom dari tabel. method getnilai6 dari objek dt. 12. Ketika kondisi columnindex sama dengan 8 maka akan mengembalikan method getiiun dari objek dt. 13. Ketika kondisi columnindex sama dengan 9 maka akan mengembalikan method getakreditasi dari objek dt. 1. Masuk ke dalam percabangan swith case, dengan switch menggunakan column. 2. Ketika kondisi column sama dengan 0 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 1 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 2 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 3 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 4 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 5 maka akan mengembalikan ArrayList header index ke

126 8. Ketika kondisi column sama dengan 6 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 7 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 8 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 9 maka akan mengembalikan ArrayList header index ke 9. Tabel 4. 5 Rincian Algoritma per Method Kelas HasilECODBModel Nama Method Fungsi Method Algoritma Method getrowcount() Mendapatkan jumlah 1. Mengembalikan jumlah baris yaitu dari jumlah ArrayList data. baris dari tabel. getcolumncount() Mendapatkan jumlah 1. Mengembalikan jumlah kolom. kolom dari tabel. getvalueat(int rowindex, int column Index) Mendapatkan value pada baris dan kolom tertentu. 1. Membuat objek bertipe HasilECODB dengan nama dt. 2. Objek dt sama dengan ArrayList data index ke rowindex. 3. Kemudian masuk ke dalam percabangan switch case, dengan switch menggunakan columnindex. 107

127 4. Ketika kondisi columnindex sama dengan 0 maka akan mengembalikan method getkodeskl dari objek dt. 5. Ketika kondisi columnindex sama dengan 1 maka akan mengembalikan method getnmskl dari objek dt. 6. Ketika kondisi columnindex sama dengan 2 maka akan mengembalikan method getnilai1 dari objek dt. 7. Ketika kondisi columnindex sama dengan 3 maka akan mengembalikan method getnilai2 dari objek dt. 8. Ketika kondisi columnindex sama dengan 4 maka akan mengembalikan method getnilai3 dari objek dt. 9. Ketika kondisi columnindex sama dengan 5 maka akan mengembalikan method getnilai4 dari objek dt. 10. Ketika kondisi columnindex sama dengan 6 maka akan mengembalikan method getnilai5 dari objek dt. 11. Ketika kondisi columnindex sama dengan 7 maka akan mengembalikan method getnilai6 dari objek dt. 12. Ketika kondisi columnindex sama dengan 8 maka akan mengembalikan method getiiun dari objek dt. 13. Ketika kondisi columnindex sama dengan 9 maka akan mengembalikan 108

128 getcolumnname(int column) Mendapatkan label kolom dari tabel. method getakreditasi dari objek dt. 14. Ketika kondisi columnindex sama dengan 10 maka akan mengembalikan method getcof dari objek dt. 1. Masuk ke dalam percabangan swith case, dengan switch menggunakan column. 2. Ketika kondisi column sama dengan 0 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 1 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 2 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 3 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 4 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 5 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 6 maka akan mengembalikan ArrayList header index ke

129 9. Ketika kondisi column sama dengan 7 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 8 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 9 maka akan mengembalikan ArrayList header index ke Ketika kondisi column sama dengan 10 maka akan mengembalikan COF. 110

130 LAMPIRAN 8 : Prosedur Pengujian dan Kasus Uji Identifikasi Use Case Deskrispsi Prosedur Pengujian Masukkan Keluaran yang Diharapkan Hasil yang Didapat Catatan Proses Pengembangan UC1-01 Pengujian 1. Jalankan sistem Testing.xls Data pada file Data pada file Tidak diperbaiki memasukan data 2. Pada halaman Testing.xls Testing.xls dari file home, click tombol ditampilkan pada ditampilkan pada berekstensi.xls MASUK tabel di halaman tabel di halaman SISTEM preprocessing preprocessing UC1-02 Pengujian 3. Pada halaman Testing.doc Menampilkan Menampilkan Tidak diperbaiki memasukan data preprocessing click peringatan atau peringatan atau dari file tombol FILE pemberitahuan pemberitahuan berekstensi.doc 4. Kemudian pilih file file yang dipilih file yang dipilih yang akan tidak berekstensi tidak berekstensi digunakan.xls.xls UC3-03 Pengujian 5. Click tombol Testing.txt Menampilkan Menampilkan Tidak diperbaiki memasukan data OPEN peringatan atau peringatan atau dari file pemberitahuan pemberitahuan berekstensi.txt file yang dipilih file yang dipilih 111

131 tidak berekstensi tidak berekstensi.xls UC2-01 Pengujian 1. Mengisi textfield Jumlah tetangga Menampilkan Menampilkan Tidak diperbaiki melakukan jumlah tetangga terdekat : 6 hasil identifikasi hasil identifikasi proses terdekat dan jumlah Jumlah outlier : 6 outlier pada tabel outlier pada tabel identifikasi outlier pada di halaman hasil di halaman hasil outlier halaman UC3-01 Pengujian preprocessing Nama file : Menyimpan file Menyimpan file menyimpan 2. Kemudian click hasil.xls pada direktori pada direktori hasil identifikasi tombol Tipe file :.xls yang dipilih dan yang dipilih outlier ke dalam IDENTIFIKASI menampilkan file berekstensi pada halaman.xls preprocessing UC3-02 Pengujian 1. Proses identifkasi Nama file : Menampilkan menyimpan outlier telah hasil.doc peringatan atau hasil identifikasi berhasil dilakukan Tipe file :.doc pemberitahuan outlier ke dalam 2. Click tombol tipe file yang file berekstensi SIMPAN dipilih tidak.doc 3. Memilih direktori berekstenxi.xls 112

132 UC3-03 Pengujian penyimpanan Nama file : Menampilkan menyimpan 4. Mengisi nama file hasil.txt peringatan atau hasil identifikasi dan ekstensi file Tipe file :.txt pemberitahuan outlier ke dalam tipe file yang file berekstensi dipilih tidak.txt berekstenxi.xls 113

133 LAMPIRAN 9 : Proses Penghitungan Manual Proses penghitungan manual menggunakan Microsoft Excel. Data yang digunakan untuk pengujian penghitungan manual dapat dilihat pada tabel 5.10 berikut ini. Kode Sek. Tabel Data Hasil UN, Indeks Integritas, Akreditasi SMA Jurusan SMA Kabupaten Kulonprogo NAMA SEKOLAH Bahasa Indonesia Bahasa Inggris Matematika Fisika Kimia Biologi IIUN Akreditasi SMA NEGERI 1 WATES A SMA NEGERI 2 WATES BELUM AKREDITASI SMA NEGERI 1 PENGASIH A SMA NEGERI 1 GALUR A SMA NEGERI 1 SENTOLO A SMA NEGERI 1 TEMON A SMA NEGERI 1 BELUM LENDAH AKREDITASI MADRASAH ALIYAH NEGERI 2 WATES A SMA NEGERI 1 KOKAP A 114

134 SMA NEGERI 1 GIRIMULYO MADRASAH ALIYAH NEGERI WATES I SMA MUHAMMADIYAH WATES SMA NEGERI 1 KALIBAWANG SMA NEGERI 1 SAMIGALUH MADRASAH ALIYAH DARUL'ULUM MUHAMMADIYAH GALUR MADRASAH ALIYAH NEGERI 1 KALIBAWANG A A A A A A A Proses identifikasi outlier menggunakan algoritma ECODB memiliki beberapa tahap yaitu : 1. Menentukan distance atau similarity menggunakan rumus Ecludean Distance berikut ini : d 2 (X, Y) = m i=1 (x i y i ) 2 (5.1) Hasil penghitungan distance atau similarity menggunakan rumus Ecludean Distance dapat dilihat pada tabel 5.11 berikut ini. 115

135 Tabel Distance atau Similarity Data Antar Sekolah Jarak antar sekolah = Tetangga Terdekat 116

136 2. Kemudian hitung PCL (Probability of Class Label) setiap instance dengan 6 tetangga terdekat. Hasil PCL dapat dilihat pada tabel 5.12 berikut ini. Tabel Hasil Probability of Class Label Kode PCL Sek

137 3. Merangking setiap instance dengan menggunakan nilai PCL menjadi 6 terkecil. Hasil rangking dapat dilihat pada tabel 5.13 berikut ini. Tabel Hasil Ranking Probability of Class Label Kode Sek. PCL

138 4. Untuk setiap instance pada daftar 6 teratas hitung Deviation(T) dengan menggunakan rumus 2.1 dan hitung KDist(T) dengan menggunakan rumus 2.2. Kemudian lakukan normalisasi pada Deviation dan KDist dengan menggunakan rumus 2.3 dan 2.4. Hasil penghitungan Deviation, KDist, normdev, dan normkdist dapat dilihat pada tabel 5.14 berikut ini. Tabel Hasil Penghitungan Deviation, KDist, normdev, dan normkdist Kode Sek. Deviation normdev KDist normkdist Kemudian hitung nilai COF (Class Outlier Factor) untuk seluruh instance di dalam 6 teratas dengan rumus 2.5. Hasil penghitungan COF dapat dilihat pada tabel 5.15 berikut ini. Tabel Hasil Penghitungan Class Outlier Factor Kode Sek. COF

139 Kemudian mengurutkan 6 teratas berdasarkan nilai COF dari yang terkecil. Hasil rangking COF dapat dilihat pada tabel 5.16 berikut ini. Tabel Hasil Rangking Class Outlier Factor Kode Sek. COF

140 LAMPIRAN 10 : Tetangga Terdekat dan Kelas Label Hasil Running Dataset IPA Berikut tetangga terdekat dan kelas label dari sekolah yang teridentifikasi sebagai outlier hasil running dataset IPA dengan jumlah tetangga terdekat sebesar 10 dan jumlah outlier sebesar 5 : 1. SMA ISLAM TERPADU ABU BAKAR 2. SMA MUHAMMADIYAH 1 SLEMAN 3. SMA GAJAH MADA YOGYAKARTA 4. SMA MUHAMMADIYAH PIYUNGAN 121

141 5. SMA MUHAMMADIYAH MLATI 122

142 LAMPIRAN 11 : Tetangga Terdekat dan Kelas Label Hasil Running Dataset IPA Berikut tetangga terdekat dan kelas label dari sekolah yang teridentifikasi sebagai outlier hasil running dataset IPS dengan jumlah tetangga terdekat sebesar 10 dan jumlah outlier sebesar 5 : 1. SMA NEGERI 1 NGAGLIK 2. SMA ISLAM TERPADU ABU BAKAR 3. SMA MUHAMMADIYAH MLATI 4. SMA 17 YOGYAKARTA 123

143 5. SMA NEGERI 1 LENDAH 124

Menunjukkan lagi