CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PPMB IPB) Oleh: EDWARD G

dokumen-dokumen yang mirip
CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PPMB IPB)

Lingkungan Implementasi Clustering Menggunakan SOM HASIL DAN PEMBAHASAN Pengumpulan Data Perkembangan Anak Validasi Cluster Menggunakan

Proses Pengelompompokan Saraf Menggunakan Jaringan Saraf Tiruan (JST) dengan Algoritme Self-Organizing Maps (SOM)

CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PERKEMBANGAN ANAK DI KABUPATEN BOGOR) WANGI SARASWATI

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

Student Clustering Based on Academic Using K-Means Algoritms

INTEGRASI SELF ORGANIZING

Disusun oleh MUHAMMAD NAJIB HILMI SKRIPSI. Diajukan Sebagai Syarat untuk Mendapatkan Gelar Sarjana Pada Jurusan Statistika

DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA

PEMANFAATAN METODE CLUSTER SOM IDB SEBAGAI ANALISA PENGELOMPOKAN PENERIMA BEASISWA

KLASIFIKASI BERBASIS LVQ MENGGUNAKAN OPTIMASI LEARNING RATE UNTUK MEMILIH SISWA PESERTA OSN

PENERAPAN METODE LEARNING VECTOR QUANTIZATION (LVQ) PADA PREDIKSI JURUSAN DI SMA PGRI 1 BANJARBARU

PENGEMBANGAN APLIKASI FUZZY TEMPORAL ASSOCIATION RULE MINING (STUDI KASUS : DATA TRANSAKSI PASAR SWALAYAN ) HANDAYANI RETNO SUMINAR

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

PENGELOMPOKAN CITRA TANDA TANGAN MENGGUNAKAN METODE SOM KOHONEN DUA DIMENSI DAN PRAPROSES WAVELET SARIBATIARA

PENGELOMPOKAN DATA KORDINAT BTS MENGGUNAKAN k-means DAN VISUALISASI BERBASIS GOOGLE MAP

Implementasi Sistem HASIL DAN PEMBAHASAN Data Penelitian

PENDAHULUAN TINJAUAN PUSTAKA

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB 2 LANDASAN TEORI

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II LANDASAN TEORI

PE DAHULUA. Latar Belakang

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

LAPORAN SKRIPSI PENERAPAN ALGORITMA FUZZY C_MEANS DALAM PENENTUAN BEASISWA. Oleh : ARI IRAWAN

PEMETAAN PREFERENSI MAHASISWA BARU DALAM MEMILIH JURUSAN MENGGUNAKAN ARTIFICIAL NEURAL NETWORK (ANN) DENGAN ALGORITMA SELF ORGANIZING MAPS (SOM)

Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,

PENGELOMPOKKAN PERFORMA AKADEMIK MAHASISWA BERDASARKAN INDEKS PRESTASI MENGGUNAKAN K-MEANS CLUSTERING

CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS

PEMANFAATAN NEURAL NETWORK PERCEPTRON PADA PENGENALAN POLA KARAKTER

SEGMENTASI PELANGGAN MENGGUNAKAN METODE PARTICLE SWARM OPTIMIZATION DAN K-MEANS

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

KLASIFIKASI PROSES BUSINESS DATA MAHASISWA UNIVERSITAS KANJURUHAN MALANG MENGGUNAKAN TEKNIK DATA MINING

BAB 2 TINJAUAN PUSTAKA

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

BAB II TINJAUAN PUSTAKA

Training. Level Transformasi Wavelet. Banyak Fitur. Ukuran Dimensi. 0 40x x30 600

BAB 2 TINJAUAN PUSTAKA

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

REKOMENDASI PEMBELIAN PERSONAL KOMPUTER DENGAN METODE RANKED CLUSTERING

PENDAHULUAN TINJAUAN PUSTAKA

SISTEM PENDUKUNG KEPUTUSAN MULTIDIMENSI MENGGUNAKAN K-MEANS CLUSTERING BERBASIS MAHALANOBIS DISTANCE

PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB IV PEMBAHASAN. Pada penelitian ini menggunakan data mahasiswa Fakultas Teknik alumni

3. METODE PENELITIAN

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

SKRIPSI RONNY BENEDIKTUS SIRINGORINGO

Analisa Data Mahasiswa Baru Terhadap Program Studi Yang. Dipilih Di Universitas Pembangunan Nasional Veteran Jawa

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.

III. METODOLOGI PENELITIAN

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

dengan Algoritma K Means

METODE PENELITIAN HASIL DAN PEMBAHASAN

Student Clustering Based Olll Academic Using K.. Means Algoritms

BAB II LANDASAN TEORI 2.1. Sistem Pendukung keputusan Pengertian keputusan Keputusan adalah suatu reaksi terhadap beberapa solusi alternative

BAB 1 PENDAHULUAN Building A Data WareHouse for Decision Support Second Edition Data Mining : Concepts, Models, Methods, and Algorithms

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

PENGEMBANGAN APLIKASI PENENTUAN TINGKAT KEUNTUNGAN PADA E- COMMERCE DENGAN MENGGUNAKAN ALGORITMA K-MEANS DAN APRIORI

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

ISSN: JURNAL GAUSSIAN, Volume 6, Nomor 3, Tahun 2017, Halaman Online di:

BAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran

2.1 Definisi Operasional Indikator Pemerataan Pendidikan

IMPLEMENTASI FUZZY OLAP PADA DATA POTENSI DESA DI PROVINSI JAWA BARAT TAHUN 2003 DAN 2006 SOFIYANTI INDRIASARI G

SEMINAR PROGRESS TUGAS AKHIR

2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian

HASIL DAN PEMBAHASAN. Generalisasi =

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

PENDAHULUAN. 1.1 Latar Belakang

METODE ADAPTIVE-SECTING DIVISIVE CLUSTERING DENGAN PENDEKATAN GRAF HUTAN YANG MINIMUM

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

Data Mining dengan Algoritma Fuzzy C-Means Clustering Dalam Kasus Penjualan di PT Sepatu Bata

BAB 2 LANDASAN TEORI

Pengelompokan Data Guru Untuk Pemilihan Calon Pengawas Satuan Pendidikan Menggunakan Metode Fuzzy C-Means dan Kohonen Self Organizing Maps

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

BAB III PEMBAHASAN. Algoritma Self Organizing Map (SOM) merupakan suatu metode NN yang

II. TINJAUAN PUSTAKA

PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI

PEMBENTUKAN SISTEM INFERENSI FUZZY MAMDANI DENGAN FUZZY C-MEANS UNTUK DATA MAHASISWA BARU IPB TAHUN Oleh: INU WISNUJATI G

BAB II LANDASAN TEORI

Teknik Informatika, Universitas Kanjuruhan Malang, 2. Teknik Informatika, Universitas Kanjuruhan Malang,

BAB I PENDAHULUAN Latar Belakang

BAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI

Lingkungan Pengembangan HASIL DAN PEMBAHASAN

APLIKASI JARINGAN SYARAF TIRUAN DALAM PENGHITUNGAN PERSENTASE KEBENARAN KLASIFIKASI PADA KLASIFIKASI JURUSAN SISWA DI SMA N 8 SURAKARTA

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

BAB 3 METODE PENELITIAN. Jenis sumber data yang didapatkan peneliti adalah data primer dan data sekunder.

KOMPRESI CITRA BERWARNA DENGAN ALGORITMA ENHANCED SELF ORGANIZING MAP (ENHANCED SOM)

Transkripsi:

CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PPMB IPB) Oleh: EDWARD G64102008 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006

CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PPMB IPB) Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Oleh: EDWARD G64102008 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006

Judul Skripsi Nama NIM : Clustering Menggunakan Self Organizing Maps (Studi Kasus: Data PPMB IPB) : Edward : G64102008 Menyetujui: Pembimbing I, Pembimbing II, Irman Hermadi, S.Kom., M.S. Imas S. Sitanggang, S.Si., M.Kom. NIP 132 206 235 Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor Dr. Ir. Yonny Koesmaryono, M.S. NIP 131 473 999 Tanggal Lulus: 26 Juni 2006

ABSTRAK EDWARD. Clustering Menggunakan Self Organizing Maps (Studi Kasus: Data PPMB IPB). Dibimbing oleh IRMAN HERMADI dan IMAS S. SITANGGANG. Perkembangan teknologi mengakibatkan meningkatnya data dalam jumlah besar. Data berukuran besar yang sudah disimpan tidak digunakan secara optimal karena manusia seringkali tidak memiliki waktu dan ilmu yang cukup untuk mengelolanya. Kasus ini terjadi di Panitia Penerimaan Mahasiswa Baru Institut Pertanian Bogor (PPMB IPB). Penelitian ini bertujuan untuk mengimplementasikan Algoritma Self Organizing Maps (SOM) dalam clustering data, dan untuk mendapatkan karakteristik data dari hasil clustering. Data yang digunakan adalah rata-rata nilai Biologi, Fisika, Matematika, dan Kimia (cawu 1 sampai cawu 7) dari pelamar tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian, IPB. Data (sebanyak 1899 baris dan 4 field yaitu: Biologi, Fisika, Kimia, dan Matematika) akan menjadi masukan algoritma SOM, dengan parameter awal algoritma SOM: ukuran vektor bobot/ output: 3, 4, 5, 6, 7, 8, 9, 10; learning rate: 0.1, 0.5, 0.9; ukuran lingkungan: 0, dan penurunan learning rate: 0.1, 0.5, 0.9, 1. Penentuan bobot pemenang dalam algoritma SOM menggunakan Jarak Mahalanobis, dengan fungsi topologi adalah Gridtop, dan inisialisasi nilai bobot awal dengan nilai midpoint. Kriteria pemberhentian algoritma SOM dalam penelitian ini adalah iterasi, dengan banyak iterasi 1, 5, dan 10. Hasil clustering dari SOM divalidasi menggunakan Indeks Davies-Bouldin. Penelitian menunjukkan bahwa hasil clustering data yang memiliki DBI minimal (53.472) adalah ukuran vektor bobot 9 dengan learning rate 0.9, penurunan learning rate 0.1, dan 5 iterasi. Pelamar dari Sumatera banyak berada pada cluster yang memiliki rataan nilai Biologi, Fisika, Kimia, dan Matematika lebih tinggi (81.12, 77.50, dan 74.16). Berbeda dengan daerah asal Jawa, yang banyak berada di cluster yang memiliki rataan lebih rendah (74.08, 73.09, 71.91, 70.04, 68.59, dan 67.93). Pelamar dari Luar Negeri tergolong pelamar dengan nilai rendah, hanya berada di cluster dengan rataan 68.59. Peluang diterima dari masing-masing kategori SMA bergantung kepada nilai, namun nilai pelamar bukan satu-satunya acuan dalam seleksi penerimaan mahasiswa baru. Kategori SMA juga berkontribusi terhadap diterima/tidaknya pelamar. Penelitian selanjutnya dapat difokuskan untuk optimasi kombinasi nilai-nilai parameter algoritma SOM untuk memperoleh hasil yang optimal. Kata kunci: Self Organizing Maps, Jarak Mahalanobis, Indeks Davies Bouldin, Analisis Cluster.

ABSTRACT EDWARD. Clustering using Self Organizing Maps (Case Study: PPMB IPB Data). Under the direction of IRMAN HERMADI and IMAS S. SITANGGANG. Technology development results in the increasing of large volumes of data. Large data which have been stored has not been optimally used due to time limitation and insufficient data management knowledge. This case is happened in The Committee of New Students Recruitment, Bogor Institute of Agriculture (Panitia Penerimaan Mahasiswa Baru Institut Pertanian Bogor - PPMB IPB). The purpose of this research is to implement Self Organizing Maps (SOM) for data clustering and to gain data characteristics as the results of data clustering. Data used is the average mark of Biology, Physics, Mathematics and Chemistry (from first term until seventh term in High School) from applicants in 2004 that chose undergraduate program in Agricultural Faculty IPB as the first choice. Data which contain 1899 rows and 4 fields (which are Biology, Physics, Chemistry and Mathematics) are the input for the SOM algorithm, with the initial parameters are: output size: 3, 4, 5, 6, 7, 8, 9, 10; learning rate: 0.1, 0.5, 0.9; neighbor size: 0, and learning rate decrement: 0.1, 0.5, 0.9, 1. Mahalanobis Distance was used to determine winner nodes in SOM algorithm, by using Gridtop topology function, with midpoint as the initial weight. Iteration was used as a method to terminate SOM algorithm, with numbers of iteration are 1, 5 and 10. SOM clustering result is validated using Davies-Bouldin index. Experimental result shows that data clustering with minimum DBI (53.472) has output size 9 and learning rate 0.9, learning rate decrement 0.1, and 5 iterations. Applicants from Sumatera dominate cluster with the highest average mark of Biology, Physics, Chemistry, and Mathematics (81.12, 77.50, and 74.16). On the other hand, applicants from Java dominate cluster with lower average mark (74.08, 73.09, 71.91, 70.04, 68.59, and 67.93). Overseas applicants are categorized as low applicants at average of 68.59. Acceptance probability from each high-school categories depends on the average mark, although that is not the only influencing factor in the recruitment of new student process. High school category also affects this process. Further research might be focused on optimizing the combination of SOM algorithm parameters to achieve optimal result. Keywords: Self Organizing Maps, Mahalanobis Distance, Davies Bouldin Index, Cluster Analysis.

KATA PENGANTAR Alhamdulillahirabbil alamin. Segala Puji bagi Allah SWT tugas akhir ini dapat penulis selesaikan. Dalam penelitian ini, penulis mengambil judul Clustering Menggunakan Self Organizing Maps (Studi Kasus: Data PPMB IPB). Terima kasih penulis ucapkan kepada Bapak Irman Hermadi, S.Kom., MS. dan Ibu Imas S.Sitanggang, S.Si., M.Kom. selaku pembimbing, kepada Bapak Aziz Kustiyo, S.Si., M.Kom. yang telah bersedia menjadi penguji, serta kepada Ibu Desina Kartika, S.Si., M. Comp. Sc. yang telah banyak memberikan perhatian, saran, dan dukungan. Ungkapan terimakasih juga disampaikan kepada kedua orang tua, kakak-kakak penulis, dan rekan-rekan ilkomerz 39 atas perhatian, do a, nasehat, dan dukungannya. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih jauh dari sempurna. Namun semoga tugas akhir ini dapat bermanfaat bagi yang membutuhkannya. Bogor, Juni 2006 Edward

RIWAYAT HIDUP Penulis dilahirkan di Manggar pada tanggal 27 Mei 1984 sebagai anak keempat dari empat bersaudara, dari pasangan Idhar Said dan Saindun. Tahun 2002, penulis lulus dari SMU Negeri 1 Manggar dan pada tahun yang sama diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk Institut Pertanian Bogor (USMI). Penulis melakukan praktik lapangan di PT. Global Informasi Bermutu (Global TV) pada tanggal 27 Juni 2005 sampai 26 Agustus 2005. Dari hasil praktek lapang tersebut penulis telah membuat laporan dengan judul K-Means Clustering Weekly Global TV Programs Based On TVR and Share. Bogor, Juni 2006 Edward

DAFTAR ISI Halaman DAFTAR TABEL...vi DAFTAR LAMPIRAN...vii PENDAHULUAN...1 Latar Belakang...1 Tujuan Penelitian...1 Ruang Lingkup...1 Manfaat Penelitian...1 TINJAUAN PUSTAKA...1 Knowledge Discovery in Database...1 Pembersihan Data...2 Integrasi dan Transformasi Data...2 Data Mining...2 Analisis Cluster...2 Self Organizing Maps (SOM)...3 Algoritma Self Organizing Maps...3 Validitas Cluster...4 Indeks Davies-Bouldin...4 METODE PENELITIAN...4 Praproses...4 Data Mining...4 Deskripsi Aplikasi Self Organizing Maps...5 Representasi Pengetahuan...5 Lingkungan Penelitian...5 HASIL DAN PEMBAHASAN...5 Indeks Davies Bouldin (DBI)...5 DBI Terbaik...6 Deskripsi Clustering Terbaik...6 Daerah Asal...7 Putusan...8 Kategori Sekolah Asal Pelamar...8 KESIMPULAN DAN SARAN...9 Kesimpulan...9 Saran...9 DAFTAR PUSTAKA...9 LAMPIRAN...10

DAFTAR TABEL Halaman 1 Indeks Davies-Bouldin terbaik untuk tiap ukuran output....6 2 Banyak anggota masing-masing cluster dengan ukuran output 9...6 3 Centroid masing-masing cluster dengan ukuran output 9....6 4 Rataan masing-masing cluster dengan ukuran output 9....6 5 Urutan cluster berdasarkan nilai...6 6 Persentase asal pelamar dalam setiap cluster...7 7 Persentase pelamar yang diterima dalam setiap daerah asal...8 8 Detail putusan masing-masing cluster diurut berdasarkan rataan nilai....8 9 Persentase pelamar dari setiap cluster dalam satu kategori SMA...8 10 Persentase pelamar yang diterima dari setiap cluster dalam satu kategori SMA...8 11 Persentase pelamar yang diterima dari setiap kategori SMA dalam satu cluster...8

DAFTAR LAMPIRAN Halaman 1 Data Pelamar Fakultas Pertanian tahun 2004 yang berasal dari Nusa Tenggara...11 2 Halaman Home Aplikasi Self Organizing Maps...11 3 Halaman Arsip Aplikasi Self Organizing Maps...12 4 Halaman Resume Aplikasi Self Organizing Maps...12 5 Halaman Tabel Input Aplikasi Self Organizing Maps...13 6 Halaman Scatter Graph Aplikasi Self Organizing Maps...13 7 Halaman Frekuensi Graph Aplikasi Self Organizing Maps...14 8 Halaman Centroid dan Rataan Aplikasi Self Organizing Maps...14 9 Halaman Bobot Graph Aplikasi Self Organizing Maps...15 10 Halaman phpmyadmin...15 11 Halaman About...16 12 Pengamatan terhadap Indeks Davies-Bouldin...17 13 DBI minimal, centroid, dan rataan untuk masing-masing ukuran output...18 14 Scatter plot untuk ukuran output 9...19

PENDAHULUAN Latar Belakang Perkembangan teknologi telah mengakibatkan meningkatnya data dalam jumlah besar. Data berukuran besar yang sudah disimpan tidak digunakan secara optimal karena manusia seringkali tidak punya waktu dan ilmu yang cukup untuk mengelolanya. Kasus ini terjadi di Panitia Penerimaan Mahasiswa Baru Institut Pertanian Bogor (PPMB IPB). PPMB IPB mengumpulkan data pelamar program sarjana setiap tahun, meliputi data akademik, data penilaian terhadap sekolah asal, serta data pribadi. Data pelamar disimpan setelah digunakan untuk menyeleksi calon mahasiswa baru IPB. Data mining sangat sesuai untuk diterapkan pada data berukuran besar. Penerapan data mining pada data PPMB IPB diharapkan bisa menambang ilmu pengetahuan dan informasi yang penting dan berguna untuk pengambilan keputusan di masa depan. Metode data mining yang akan diterapkan dalam penelitian ini adalah clustering dengan menggunakan algoritma Self Organizing Maps (SOM). Clustering digunakan untuk melakukan pengelompokan data tanpa berdasarkan target variabel kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Clustering menggunakan Fuzzy C- Means pernah dilakukan pada data pelamar melalui jalur Undangan Seleksi Masuk IPB (USMI) yang terpilih di Fakultas Pertanian (Wisnujati 2006). Hasil clustering yang lebih baik dari penelitian sebelumnya diharapkan bisa didapatkan dan bisa memberikan ilmu pengetahuan dan informasi yang berguna. Tujuan Penelitian Penelitian ini memiliki tujuan: 1 mengimplementasikan algoritma SOM dalam clustering data pelamar jalur USMI tahun 2004 dengan pilihan pertama program studi di Fakultas Pertanian IPB, 2 mendapatkan karakteristik data dari hasil clustering menggunakan SOM. Ruang Lingkup Penelitian ini meliputi penerapan salah satu fungsionalitas dari data mining yaitu analisis cluster. Analisis cluster menggunakan metode SOM akan diimplementasikan pada rata-rata nilai Biologi, Fisika, Matematika, dan Kimia (cawu 1 sampai cawu 7) dari pelamar jalur USMI tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian, IPB. Persentase masing-masing cluster berdasarkan daerah asal pelamar, kategori SMA, dan putusan diterima akan dilihat untuk melihat pola yang mungkin terjadi dari clustering. Manfaat Penelitian Informasi yang bernilai berupa karakteristik pelamar dengan pilihan pertama program studi di Fakultas Pertanian IPB akan dihasilkan dari penelitian ini. Analisis cluster menggunakan SOM diharapkan akan bermanfaat sebagai pertimbangan pengambilan keputusan di masa depan. TINJAUAN PUSTAKA Knowledge Discovery in Database Data mining merupakan salah satu tahap pada proses Knowledge Discovery in Database (KDD). KDD adalah penyulingan informasi menarik yang tidak biasa, yang terkandung dalam basis data berukuran besar, yang sebelumnya tidak diketahui dan potensial bermanfaat (Han & Kamber 2001). Data Warehouse Data Cleaning Data Selection Databases Pattern Data mining Data Integration Gambar 1 Tahapan dalam KDD (Han & Kamber 2001).

Tahap-tahap proses KDD (Gambar 1) menurut (Han & Kamber 2001), adalah: 1 Pembersihan Data 2 Integrasi Data 3 Seleksi Data 4 Transformasi Data 5 Data mining 6 Evaluasi Pola 7 Presentasi Pengetahuan Pembersihan Data Data yang bersih adalah data yang konsisten dan tidak mengandung nilai yang tidak lengkap dan noise. Proses pembersihan data bertujuan untuk melengkapi nilai yang tidak lengkap, memperhalus noise ketika teridentifikasi, dan memperbaiki ketidakkonsistenan data. Secara umum data yang tidak bersih adalah: nilai yang tidak lengkap, data yang mengandung noise, dan data yang tidak konsisten (Han & Kamber 2001). Integrasi dan Transformasi Data Integrasi data mengkombinasikan data dari sumber-sumber yang berbeda menjadi bentuk sebuah penyimpanan data yang koheren, seperti dalam data warehousing. Proses transformasi data mengubah data menjadi bentuk yang sesuai untuk dilakukan tahapan data mining. Proses ini meliputi: penghalusan, agregasi, generalisasi dari data, normalisasi, dan konstruksi atribut (atau konstruksi fitur) (Han & Kamber 2001). Data Mining Data mining adalah kegiatan penemuan pola-pola yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse, atau sarana penyimpanan yang lain. Data mining dapat diklasifikasikan menjadi dua kategori: descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan himpunan data dengan memberikan banyak informasi secara jelas dalam kalimat yang singkat dan memberikan sifat-sifat umum yang menarik dari data. Predictive data mining menganalisis data yang bertujuan untuk membangun sebuah atau himpunan model, dan berusaha untuk meramalkan karakteristik dari himpunan data baru (Han & Kamber 2001). Menurut (Han & Kamber 2001), fungsionalitas data mining adalah: 1 Deskripsi kelas/ deskripsi konsep dan diskriminasi, 2 Analisis asosiasi, 3 Klasifikasi dan prediksi, 4 Analisis cluster, 5 Analisis pencilan, dan 6 Analisis evolusi. Analisis Cluster Clustering adalah pengelompokan dari record, observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan objekobjeknya. Cluster adalah koleksi dari record yang mirip, dan tidak mirip dengan record dari cluster lain. Clustering berbeda dengan klasifikasi, dalam hal tidak ada variabel target untuk clustering. Clustering tidak mengklasifikasikan, meramalkan, atau memprediksi nilai dari sebuah variabel target. Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster, dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose 2005). Secara umum metode utama clustering dapat diklasifikasikan menjadi kategorikategori berikut (Han & Kamber 2001): Metode partisi. Misalkan ada sebuah basis data berisi n objek. Metode partisi membangun k partisi pada basis data tersebut, dengan tiap partisi merepresentasikan cluster dan k n. Partisi yang terbentuk harus memenuhi syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek harus termasuk tepat satu cluster. Metode hirarkhi, yaitu membuat sebuah dekomposisi berhirarki dari himpunan data (atau objek) menggunakan beberapa kriteria. Metode ini memiliki dua jenis pendekatan yaitu : o Agglomerative, dimulai dengan titiktitik sebagai cluster individu. Pada setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster sampai hanya satu titik (atau cluster) yang tertinggal. o Divisive, dimulai dengan satu cluster besar yang berisi semua titik data. Pada setiap langkah, dilakukan pemecahan sebuah cluster sampai setiap cluster berisi sebuah titik (atau terdapat k cluster). Metode berdasarkan kepekatan, merupakan pendekatan yang berdasarkan pada konektivitas dan fungsi kepadatan. Metode berdasarkan grid, merupakan pendekatan yang berdasarkan pada struktur multiple-level granularity.

Metode berdasarkan model, yaitu: sebuah model yang dihipotesis untuk tiap cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk tiap cluster. Self Organizing Maps (SOM) Jaringan Kohonen diperkenalkan oleh Teuvo Kohonen seorang ilmuwan Finlandia pada tahun 1982. Jaringan Kohonen memberikan sebuah tipe dari SOM; kelas khusus dari jaringan syaraf tiruan (Larose 2004). SOM merupakan metode berdasarkan model dari pendekatan jaringan syaraf tiruan (Han & Kamber 2001). SOM adalah metode terkemuka pendekatan jaringan syaraf tiruan untuk clustering, setelah competitive learning (Han & Kamber 2001). SOM berbeda dengan competitive learning yaitu syaraf dalam satu lingkungan belajar untuk mengenali bagian lingkungan dari ruang input. SOM mengenali distribusi (seperti competitive learning) dan topologi dari vektor input yang melalui proses training (Demuth & Beale 2003). SOM memperlihatkan tiga karakteristik: kompetisi yaitu setiap vektor bobot saling berlomba untuk menjadi simpul pemenang, kooperasi yaitu setiap simpul pemenang bekerjasama dengan lingkungannya, dan adaptasi yaitu perubahan simpul pemenang dan lingkungannya (Larose 2004). Algoritma Self Organizing Maps Misalkan himpunan dari m nilai-nilai field untuk record ke-n menjadi sebuah vektor input x n = xn1, xn2, xn3, L, xnm, dan himpunan dari m bobot untuk simpul output tertentu j menjadi vektor bobot w j = w1 j, w2 j, K, wmj (Larose 2004). Berikut ini adalah langkah-langkah algoritma SOM (Larose 2004): Untuk setiap vektor x, lakukan: Kompetisi. Untuk setiap simpul output j, hitung nilai D ( w j, xn ) dari fungsi jarak. Tentukan simpul pemenang J yang meminimumkan D ( w j, xn ) dari semua simpul output. Kooperasi. Identifikasikan semua simpul output j dalam lingkungan simpul pemenang J didefinisikan oleh lingkungan berukuran R. Untuk simpul-simpul ini, lakukan: Adaptasi. Perbaharui nilai bobot: = w + η x w. ( ) w ij, new ij, current ni ij, current Perbaharui learning rate ( η ) dan ukuran lingkungan (R) seperlunya. Hentikan perlakuan ketika kriteria pemberhentian dicapai. Keterangan: Inisialisasi nilai bobot biasanya menggunakan nilai tengah (middle point/midpoint) atau menggunakan nilai acak (Demuth & Beale 2003). Lingkungan berukuran R berisi indeks dari semua simpul-simpul yang berada dalam radius R dari simpul pemenang i *. Ni ( d ) = { j, dij R} (Demuth & Beale 2003). Gambar 2 Ilustrasi lingkungan (Demuth & Beale 2003). Gambar 2 mengilustrasikan konsep lingkungan. Gambar 2 kiri menunjukkan lingkungan dari radius R=1 sekeliling simpul 13. Gambar 2 kanan menunjukkan lingkungan dari radius R=2. Topologi lingkungan yang umum digunakan ada 3: topologi grid, topologi hexagonal, dan topologi random (Demuth & Beale 2003). Fungsi jarak biasanya digunakan Jarak Euclidean ( w x ) D( w j, xn ) = i ij ni (Kaski 1997, Demuth & Beale 2003). Jarak Mahalanobis digunakan untuk atribut yang berkorelasi satu sama lain D( w, x ) = ( w x ) 1 ( w x T, j n j i j i ) dengan Σ ialah matriks kovarian dari vektor input ( x n ), 1 n Σ j, k = ( X ij X j )( X ik X k ) n 1i = 1 (Tan et al. 2004). Perubahan tingkat pembelajaran (LR/α /η ) 0 < η < 1, dengan rumus α ( t +1 ) = θ α( t). Lambang θ adalah penurunan tingkat pembelajaran (PLR), menurun seiring perubahan waktu t (Laurence 1994). Kriteria pemberhentian bisa berupa pembatasan jumlah iterasi, atau ketikaη = 0 (Larose 2004). 2

Validitas Cluster Validasi cluster ialah prosedur yang mengevaluasi hasil analisis cluster secara kuantitatif dan objektif (Jain & Dubes 1988). Terdapat tiga pendekatan untuk mengeksplorasi validitas cluster: 1 kriteria eksternal, mengevaluasi hasil dari metode clustering berdasarkan praspesifikasi struktur yang diterima dari sebuah data yang mencerminkan intuisi pengguna tentang struktur clustering dari data, 2 kriteria internal, mengevaluasi hasil clustering dalam konsep kuantitatif yang didapat dari data, dan 3 kriteria relatif, membandingkan sebuah struktur clustering dengan struktur clustering yang lain yang didapatkan dari metode clustering yang sama tetapi nilainilai parameternya dimodifikasi (Salazar et al. 2002). Untuk memilih skema clustering optimal, ada dua kriteria (Salazar et al. 2002): 1 Compactness, yaitu anggota dari masingmasing cluster harus sedekat mungkin dengan yang lain, dan 2 Separation, yaitu cluster harus terpisah secara luas dari cluster lain. Indeks validitas digunakan sebagai metode validasi cluster untuk evaluasi kuantitatif dari hasil clustering (Salazar et al. 2002). Beberapa indeks yang biasa digunakan adalah: Hubert Statistic, Indeks Dun, Indeks Davies- Bouldin, Root-mean-square standard deviation (RMSSTD), dan R-squared (RS) (Salazar et al. 2002). Indeks Davies-Bouldin Pendekatan pengukuran ini untuk memaksimalkan jarak inter-cluster antara Cluster Ci dan C j dan pada waktu yang sama mencoba untuk meminimalkan jarak antara titik dalam sebuah cluster. Jarak intra-cluster s c ( Q k ) dalam Cluster Qk ialah i X i Ck sc ( Qk ) =, N k dengan N k adalah banyak titik yang termasuk dalam Cluster Q k dan C k adalah centroid dari Cluster Q k. Jarak Inter-cluster didefinisikan sebagai dkl = Ck Cl, dengan C k dan C l ialah centroid Cluster k dan Cluster l. Di lain pihak, Indeks Davies- Bouldin didefinisikan sebagai DB ( nc) ( Qk ) sc ( Ql ) d ( Q, Q ) 1 nc sc + = max n k = 1 kl k k l l, dengan nc ialah banyak cluster. Skema clustering yang optimal menurut Indeks Davies-Bouldin adalah yang memiliki Indeks Davies-Bouldin minimal (Salazar et al. 2002). METODE PENELITIAN Praproses Penelitian ini akan dilakukan menggunakan proses KDD. Tahapan yang termasuk dalam praproses yaitu: pembersihan data, integrasi data, transformasi data, dan seleksi data. Tahap pembersihan data, integrasi data, dan transformasi data telah dilakukan oleh peneliti sebelumnya (Riyanti 2005). Pada tahap Seleksi data akan dipilih ratarata nilai Biologi, Fisika, Matematika, dan Kimia (cawu 1 sampai cawu 7) dari pelamar tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian, IPB. Pemilihan atribut nilai Biologi, Fisika, Kimia, dan Matematika karena atribut ini selalu diacu dalam seleksi penerimaan mahasiswa baru jalur USMI (Wisnujati 2006). Data hasil seleksi sebanyak 1899 baris dan 4 field yaitu: Biologi, Fisika, Kimia, dan Matematika. Contoh data pelamar Fakultas Pertanian tahun 2004 yang berasal dari Nusa Tenggara bisa dilihat di Lampiran 1. Data Mining Data mining yang dilakukan pada penelitian ini adalah clustering data menggunakan algoritma SOM untuk melihat karakteristik (deskripsi) pelamar tahun 2004 dengan pilihan pertama program studi yang ada di Fakultas Pertanian IPB melalui jalur USMI. Tahapan data mining dilakukan menggunakan aplikasi yang dibangun. Masukan ke algoritma SOM adalah data dari praproses dengan kombinasi dari parameter awal. Parameter awal dari algoritma SOM yang akan digunakan adalah: 1 ukuran ( j ) dari vektor bobot ( w j ) : 3, 4, 5, 6, 7, 8, 9, dan 10, 2 learning rate (η ) : 0.1, 0.5, dan 0.9, 3 ukuran lingkungan (R) : 0, dan 4 penurunan learning rate (θ ) : 0.1, 0.5, 0.9, dan 1.

Metode inisialisasi nilai vektor bobot menggunakan midpoint dengan topologi yang digunakan adalah topologi grid. Jarak Mahalanobis digunakan sebagai fungsi jarak karena antar atribut saling berkorelasi (Wisnujati 2006). Kriteria pemberhentian algoritma SOM dalam penelitian ini adalah iterasi, dengan banyak iterasi: 1, 5, dan 10. Seluruh hasil clustering dari algoritma SOM akan divalidasi menggunakan validasi cluster Indeks Davies-Bouldin (DBI). Dari berbagai kombinasi parameter awal dan iterasi, akan dipilih clustering yang menghasilkan DBI minimal sebagai clustering terbaik. Deskripsi Aplikasi Self Organizing Maps Aplikasi Self Organizing Maps dibangun untuk digunakan pada tahap data mining. Aplikasi ini memiliki menu: Home, o Resume, o Tabel Input, o Scatter Graph, o Frekuensi Graph, o Centroid dan Rataan, o Bobot Graph, o Begin New Train, dan o Reset Eksekusi, Arsip, o Resume, o Tabel Input, o Scatter Graph, o Frekuensi Graph, o Centroid dan Rataan, o Bobot Graph, o Begin New Train, dan o Reset Eksekusi, PHP, Help, dan About. Menu Home digunakan untuk menampilkan form isian parameter awal dan data yang akan digunakan (Lampiran 2). Menu Home memiliki anak menu yang sama dengan menu Arsip. Menu Arsip digunakan untuk menampilkan parameter awal, data, DBI, dan waktu dari perlakuan yang pernah dilakukan (Lampiran 3). Menu Resume untuk menampilkan parameter awal, data, DBI, dan waktu (Lampiran 4). Menu Tabel Input (Lampiran 5) untuk menampilkan data yang telah di lakukan tahap clustering dengan parameter awal, DBI, dan waktu di Menu Resume (Lampiran 4). Menu Scatter Graph (Lampiran 6) untuk menampilkan data dan centroid dalam bentuk scatter plot. Menu Frekuensi Graph (Lampiran 7) untuk menampilkan banyaknya data untuk masingmasing cluster dalam bentuk grafik batang. Menu Centroid dan Rataan (Lampiran 8) digunakan untuk menampilkan tabel centroid dan rataan dari hasil clustering. Menu Bobot Graph (Lampiran 9) digunakan untuk menampilkan graph dari bobot/centroid masing-masing cluster dalam bentuk grafik titik garis. Menu PHP digunakan sebagai penghubung ke halaman phpmyadmin (Lampiran 10). Menu About digunakan untuk menampilkan halaman tentang aplikasi secara singkat (Lampiran 11). Representasi Pengetahuan Representasi pengetahuan akan dilakukan terhadap cluster yang sudah divalidasi. Representasi pengetahuan akan memperlihatkan karakteristik cluster dari SOM berupa rataan dan centroid dari cluster. Persentase masing-masing cluster berdasarkan daerah asal pelamar, kategori SMA, dan putusan diterima akan dilihat untuk melihat pola yang mungkin terjadi dari hasil clustering. Lingkungan Penelitian Lingkungan penelitian yang digunakan adalah sebagai berikut: Perangkat lunak: Microsoft Windows XP Professional 2002 SP2, Microsoft Internet Explorer 6.0, PHP 5.0.3, Apache Webserver. Perangkat keras: komputer personal dengan spesifikasi Pentium IV 2.4 GHz, RAM 512 MB. HASIL DAN PEMBAHASAN Indeks Davies Bouldin (DBI) Pengamatan terhadap DBI dilakukan untuk mengukur validitas dari hasil clustering. Parameter penurunan learning rate (PLR) dari learning rate (LR) akan berpengaruh terhadap DBI mulai pada iterasi 2. Hal ini bisa dilihat dengan PLR yang berbeda pada iterasi 1 akan menghasilkan DBI yang sama. Hasil dari pengamatan terhadap DBI bisa dilihat di Lampiran 12. DBI terbaik untuk masing-masing ukuran output/ vektor bobot dapat dilihat pada Tabel 1. Adapun centroid, rataan, dan kombinasi parameter yang menghasilkan DBI terbaik untuk semua ukuran output terdapat di Lampiran 13.

Tabel 1 Indeks Davies-Bouldin terbaik untuk tiap ukuran output. Ukuran Output LR PLR ITERASI DBI 3 0.9-1 209.285 4 0.1 0.5 5 353.452 5 0.5-1 202.856 6 0.5 0.1 5 164.302 7 0.5 0.9 10 113.370 8 0.1-1 87.917 9 0.9 0.1 5 53.472 10 0.1 0.9 5 79.743 DBI Terbaik Dari hasil penelitian, Indeks Davies- Bouldin terbaik dihasilkan dengan parameter awal: ukuran output 9, LR 0.9, PLR 0.1, dan 5 iterasi, yang menghasilkan DBI 53.472 (Tabel 1). Banyaknya data masing-masing cluster dengan ukuran output 9 dapat dilihat pada Tabel 2 (penomoran cluster tidak menunjukkan tingkatan). Rataan dan centroid masing-masing cluster dengan ukuran output 9 dapat dilihat pada Tabel 3 dan Tabel 4. Pada Lampiran 14 ditampilkan scatter plot untuk ukuran output 9. Tabel 2 Banyak anggota masing-masing cluster dengan ukuran output 9. Cluster ke- Banyak anggota Persentase banyak anggota 1 188 9.90 2 284 14.96 3 197 10.37 4 212 11.16 5 199 10.48 6 243 12.80 7 272 14.32 8 189 9.95 9 115 6.06 Tabel 3 Centroid masing-masing cluster dengan ukuran output 9. Cluster Centroid ke- Biologi Fisika Kimia Matematika 1 69.62 69.76 65.20 66.34 2 68.49 67.43 68.89 69.51 3 83.39 80.48 81.34 79.50 4 74.15 76.03 74.74 71.52 5 74.77 68.84 76.28 76.33 6 77.12 70.97 70.43 75.55 7 75.84 67.27 69.41 66.65 8 73.38 68.79 76.81 68.22 9 73.18 77.11 79.35 82.17 Tabel 4 Rataan nilai mata ajaran masingmasing cluster dengan ukuran output 9. Cluster ke- Rataan Biologi Fisika Kimia Matematika Rataan 3 83.31 80.37 81.13 79.66 81.12 9 73.33 76.86 78.61 81.20 77.50 5 74.99 68.83 76.57 76.26 74.16 4 74.11 75.87 74.61 71.73 74.08 6 76.28 70.74 69.92 75.41 73.09 8 73.47 68.82 76.94 68.42 71.91 7 76.12 67.44 69.68 66.94 70.04 2 68.60 67.39 68.88 69.50 68.59 1 69.78 69.88 65.46 66.60 67.93 Rataan 74.44 71.80 73.53 72.86 73.16 Deskripsi Clustering Terbaik Cluster 3 yang memiliki 10.37% dari data (Tabel 2), adalah cluster yang memiliki rataan Biologi, Fisika, Kimia, dan Matematika tertinggi (Tabel 4). Namun Cluster 3 bukan cluster yang memiliki nilai yang terbaik untuk seluruh atribut, peringkat ke dua untuk nilai Matematika (Tabel 5). Tabel 5 Urutan cluster berdasarkan nilai Peringkat Cluster ke- Biologi Fisika Kimia Matematika 1 3 3 3 9 2 6 9 9 3 3 7 4 8 5 4 5 6 5 6 5 4 1 4 4 6 8 5 6 2 7 9 8 7 8 8 1 7 2 7 9 2 2 1 1

Cluster 9 yang memiliki 6.06% dari data (Tabel 2), menduduki peringkat ke dua dari rataan secara keseluruhan (Tabel 4). Cluster 9 memiliki nilai Matematika tertinggi, namun hanya menduduki peringkat ke dua dari nilai Fisika dan Kimia, bahkan ke tujuh untuk nilai Biologi (Tabel 5). Cluster 9 memiliki kemampuan yang cukup kuat untuk nilai Matematika, Fisika, dan Kimia, namun lemah di Biologi. Cluster 5 (10.48% dari data) adalah cluster yang menduduki peringkat ke tiga dari rataan (Tabel 2 dan Tabel 4). Cluster 5 menduduki peringkat ke tiga untuk nilai Matematika, peringkat ke 4 untuk nilai Biologi dan Kimia, dan peringkat ke 6 untuk nilai Fisika (Tabel 5). Cluster 5 memiliki kelemahan di nilai Fisika. Nilai Fisika Cluster 5 di bawah ratarata, yaitu 68.83% dari rata-rata 71.80% (Tabel 4). Cluster 4 (11.16% dari data) adalah Cluster yang menduduki peringkat ke empat dari rataan keseluruhan (Tabel 2 dan Tabel 4). Cluster 4 memiliki kelebihan di nilai Fisika (menduduki peringkat ke 3), sedangkan untuk nilai Biologi, Kimia, dan Matematika, Cluster 4 menduduki peringkat ke lima (Tabel 5). Cluster 6 menempati peringkat ke 5 untuk rataan keseluruhan (Tabel 4), memiliki anggota terbanyak ke 2 dari data yaitu 12% (Tabel 2). Cluster 6 memiliki kemampuan lebih di bidang Biologi dengan peringkat ke dua untuk nilai Biologi (Tabel 5). Nilai Fisika dan Matematika Cluster 6 menduduki peringkat ke empat, sedangkan nilai Kimia menduduki peringkat ke enam (Tabel 5). Cluster 8 yang menduduki peringkat ke enam memiliki 9.95% dari data (Tabel 2 dan Tabel 4). Cluster 8 menduduki peringkat ke 3 untuk nilai Kimia (Tabel 5). Cluster 8 memiliki kemampuan yang kurang di bidang Biologi, Fisika, dan Matematika dengan masing-masing peringkat ke 6, 7, dan 7 (Tabel 5). Secara keseluruhan, rata-rata nilai Biologi, Fisika, Kimia, dan Matematika Cluster 8 berada di bawah rata-rata (71.91 dari rata-rata 73.16), Tabel 4. Cluster 7, 2, dan 1 merupakan 3 cluster dengan rata-rata nilai di bawah rataan keseluruhan. Cluster 7 menduduki peringkat ke tiga untuk nilai Biologi (Tabel 5), namun nilai yang lainnya di bawah rata-rata. Daerah Asal Secara keseluruhan dari semua cluster, bisa kita lihat bahwa pelamar dari Sumatera (1) paling banyak di Cluster 3, dan semakin menurun mengikuti turunnya rataan cluster (Tabel 6). Demikian juga dengan pelamar yang berasal dari Nusa Tenggara (5) dan Sulawesi (7) (Tabel 6). Tabel 6 Persentase asal pelamar dalam setiap cluster Cluster ke- Asal Pelamar 1 3 5 6 7 8 9 3 45.18 46.19 3.05 0.00 4.57 1.02 0.00 9 28.70 69.57 1.74 0.00 0.00 0.00 0.00 5 21.61 76.88 0.50 1.01 0.00 0.00 0.00 4 17.92 79.72 0.94 0.47 0.47 0.47 0.00 6 18.11 78.19 2.06 0.82 0.82 0.00 0.00 8 14.29 81.48 2.12 1.59 0.00 0.53 0.00 7 10.66 86.03 0.37 1.47 0.74 0.74 0.00 2 13.73 84.51 0.00 1.06 0.35 0.00 0.35 1 11.70 87.23 0.53 0.53 0.00 0.00 0.00 n 19.17 77.67 1.16 0.84 0.79 0.32 0.05 Keterangan: n = data keseluruhan. Sumatera memiliki persentase yang lebih besar dari persentase dia sendiri secara keseluruhan di Cluster 3, Cluster 9, dan Cluster 5 (Tabel 6). Hal ini menunjukkan bahwa, pelamar dari Sumatera banyak berada pada cluster yang memiliki rataan lebih tinggi. Mayoritas anggota dari data berasal dari Jawa (3) sebesar 77.67% (Tabel 6), dengan persentase terkecil di Cluster 9. Secara keseluruhan persentase pelamar dari Jawa semakin meningkat mengikuti turunnya rataan cluster (Tabel 6). Terlihat bahwa pelamar yang berasal dari Jawa banyak berada di cluster yang memiliki rataan lebih rendah (Cluster 4, Cluster 6, Cluster 8, Cluster 7, Cluster 2, dan Cluster 1) (Tabel 6). Pelamar dari Luar Negeri 0.05% dari data berada hanya di Cluster 2 (Tabel 6). Persentase pelamar yang diterima menunjukkan penurunan sebanding dengan penurunan nilai rataan cluster. Hal ini berlaku untuk daerah asal Sumatera, Jawa, dan Nusa Tenggara (Tabel 7). Untuk pelamar dengan daerah asal Kalimantan, Sulawesi, Irian Jaya, dan Luar Negeri hanya diterima untuk satu cluster tertentu (Tabel 7). Secara keseluruhan, pelamar yang terbanyak diterima adalah yang berasal dari Jawa yaitu sebesar 80.43%, bahkan seluruh pelamar Cluster 1 berasal dari Jawa (Tabel 7).

Tabel 7 Persentase pelamar yang diterima dalam setiap daerah asal Cluster ke- Asal Pelamar 1 3 5 6 7 8 9 3 54.12 14.60 66.67 0 100 100 0 9 17.65 11.68 16.67 0 0 0 0 5 10.59 15.09 0 0 0 0 0 4 3.53 16.30 0 0 0 0 0 6 5.88 16.30 0 0 0 0 0 8 5.88 9.49 16.67 0 0 0 0 7 2.35 9.49 0 100.00 0 0 0 2 0 4.87 0 0 0 0 100 1 0 2.19 0 0 0 0 0 n 16.63 80.43 1.17 0.20 1.17 0.20 0.20 Keterangan: n = data keseluruhan. Putusan Persentase putusan tidak diterimanya pelamar dari tiap cluster berbanding terbalik dengan rataan nilai keseluruhan (Tabel 8, dengan 0=tidak diterima, 1=diterima di IPB, A=diterima di Fakultas Pertanian, dan lain=diterima di fakultas selain Fakultas Pertanian). Kendati Cluster 6, Cluster 8, Cluster 7, Cluster 2, dan Cluster 1 memiliki rataan nilai keseluruhan di bawah rata-rata (Tabel 4), cluster-cluster tersebut masih memiliki persentase diterima (Tabel 8). Hal ini menunjukkan bahwa nilai pelamar bukan satu-satunya acuan dalam seleksi penerimaan mahasiswa baru. Tabel 8 Detail putusan masing-masing cluster diurut berdasarkan rataan nilai. Cluster 1 0 ke- A lain 3 5.76 23.59 20.19 9 3.67 13.27 9.62 5 9.22 12.04 21.15 4 10.23 13.76 13.46 6 12.32 14.25 13.46 8 10.37 8.60 9.62 7 16.57 8.11 8.65 2 18.95 4.67 1.92 1 12.90 1.72 1.92 n 73.09 21.43 5.78 Keterangan: n = data keseluruhan. Kategori Sekolah Asal Pelamar Dari keseluruhan data terlihat persentase dari pelamar dalam setiap kategori SMA tersebar merata dalam tiap-tiap cluster (Tabel 9). Persentase pelamar dalam satu kategori SMA, semakin meningkat sebanding dengan rataan cluster (Tabel 10). Hal ini menunjukkan bahwa peluang untuk diterima dari masing-masing kategori bergantung kepada nilai. Tabel 9 Persentase pelamar dari setiap cluster dalam satu kategori SMA Cluster ke- A+ A A- B+ B B- C+ C C- D 3 9.1 7.4 9.1 12.1 28.1 14.3 0 57.1 0.0 12.8 9 8.4 5.1 4.4 5.2 5.5 10.7 0 0.0 0.0 10.3 5 12.1 12.7 7.5 5.2 10.3 21.4 0 0.0 0.0 5.1 4 13.3 10.3 10.6 6.9 10.3 14.3 0 14.3 10.3 5.1 6 10.9 13.5 14.3 20.7 11.6 7.1 0 0.0 17.2 10.3 8 9.1 12.1 10.6 17.2 6.2 0.0 50 0.0 3.4 2.6 7 13.6 14.2 14.1 20.7 15.1 14.3 50 14.3 6.9 20.5 2 14.3 17.0 15.8 6.9 8.9 10.7 0 14.3 24.1 20.5 1 9.4 7.8 13.5 5.2 4.1 7.1 0 0.0 37.9 12.8 n 31.4 27.0 25.3 3.1 7.7 1.5 0.1 0.4 1.5 2.1 Keterangan: n = data keseluruhan. Tabel 10 Persentase pelamar yang diterima dari setiap cluster dalam satu kategori SMA Cluster ke- A+ A A- B+ B B- C+ C C- D 3 18.8315.4427.4038.4651.2216.67 0 100 0 41.67 9 13.4511.0312.3315.3812.2016.67 0 0 0 8.33 5 15.2514.7113.70 0 9.76 25 0 0 0 0 4 14.3515.4417.81 0 7.32 8.33 0 0 0 0 6 13.0017.6512.3323.08 9.76 16.67 0 0 0 8.33 8 8.97 11.76 5.48 23.08 4.88 0.00 0 0 0 0 7 9.87 8.09 6.85 0 2.44 0.00 0 0 0 25.00 2 4.04 4.41 2.74 0 2.44 16.67 0 0 0 8.33 1 2.24 1.47 1.37 0 0 0 0 0 0 8.33 n 43.6426.6114.29 2.54 8.02 2.35 0 0.20 0 2.35 Keterangan: n = data keseluruhan. Dalam sebuah cluster, semakin baik kategori sebuah SMA, maka persentase pelamar yang diterima semakin tinggi (Tabel 11). Hal ini menunjukkan bahwa dari data terlihat kategori SMA berkontribusi terhadap diterima/tidaknya pelamar.

Tabel 11 Persentase pelamar yang diterima dari setiap kategori SMA dalam satu cluster Cluster ke- A+ A A- B+ B B- C+ C C- D 3 35.9017.9517.09 4.27 17.95 1.71 0 0.85 0 4.27 9 46.8823.4414.06 3.13 7.81 3.13 0 0 0 1.56 5 47.8928.1714.08 0 5.63 4.23 0 0 0 0 4 45.7130.0018.57 00 4.29 1.43 0 0 0 0.00 6 40.2833.3312.50 4.17 5.56 2.78 0 0 0 1.39 8 44.4435.56 8.89 6.67 4.44 0.00 0 0 0 0 7 52.3826.1911.90 0 2.38 0.00 0 0 0 7.14 2 42.8628.57 9.52 0 4.76 9.52 0 0 0 4.76 1 55.5622.2211.11 0 0 0 0 0 0 11.11 n 43.6426.6114.29 2.54 8.02 2.35 0 0.20 0 2.35 Keterangan: n = data keseluruhan. KESIMPULAN DAN SARAN Kesimpulan Dari hasil percobaan ditemukan bahwa clustering terhadap data yang memiliki DBI minimal adalah ukuran output 9 dengan learning rate 0.9, penurunan learning rate 0.1, dan 5 iterasi yang menghasilkan DBI 53.472. Pelamar dengan pilihan pertama Fakultas Pertanian dari Sumatera banyak berada pada cluster yang memiliki rataan lebih tinggi (Cluster 3, Cluster 9, dan Cluster 5, dengan rataan nilai Biologi, Fisika, Kimia, dan Matematika dari masing-masing cluster (81.12, 77.50, dan 74.16). Berbeda dengan daerah asal Jawa, pelamar yang berasal dari Jawa banyak berada di cluster yang memiliki rataan lebih rendah (Cluster 4, Cluster 6, Cluster 8, Cluster 7, Cluster 2, dan Cluster 1, dengan rataan masing-masing 74.08, 73.09, 71.91, 70.04, 68.59, dan 67.93). Pelamar dari Luar Negeri tergolong pelamar dengan nilai rendah hanya berada di Cluster 2 dengan rataan 68.59. Peluang untuk diterima dari masingmasing kategori bergantung kepada nilai, namun nilai pelamar bukan satu-satunya acuan dalam seleksi penerimaan mahasiswa baru. Kategori SMA juga berkontribusi terhadap diterima/tidaknya pelamar. Saran Penelitian selanjutnya dapat difokuskan untuk optimasi kombinasi nilai-nilai parameter algoritma SOM untuk memperoleh hasil yang optimal. DAFTAR PUSTAKA Demuth H, Beale M. 2003. Neural Network Toolbox For Use with MATLAB. USA: The MathWorks, Inc. Han J, Kamber M. 2001. Data mining: Concepts and Techniques. USA: Academic Press. Jain AK, Dubes RC. 1988. Algorithms for Clustering Data. New Jersey: Prentice Hall Inc. Kaski S. 1997. Data Exploration Using Self organizing maps [tesis]. Finlandia: Laboratory of Computer and Information Science, Department of Computer Science and Engineering, Helsinki University of Technology. Larose DT. 2004. Discovering Knowledge in Data: An Introduction to Data mining. USA: John Wiley&Sons Inc. Laurence F. 1994. Fundamentals of Neural Networks. New Jersey: Prentice Hall Inc. Riyanti EF. 2005. Pengembangan Aplikasi Data Mining Menggunakan Metode Induksi Berorientasi Atribut (Studi Kasus: Data PPMB IPB) [skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA-IPB. Salazar GEJ, Veles AC, Parra MCM, Ortega LO. 2002. A Cluster Validity Index for Comparing Non-hierarchical Clustering Methods [terhubung berkala]. http://citeseer.ist.psu.edu/rd/salazar02clust er.pdf [10 Januari 2006] Tan PN, Steinbach M, Kumar V. 2004. Introduction to Data Mining [terhubung berkala]. http://wwwusers.cs.umn.edu/~kumar/dmbook/dmslide s/chap2_data.ppt [23 Mei 2006]. Wisnujati I. 2006. Pembentukan Sistem Inferensi Fuzzy Mamdani dengan Fuzzy C- Means untuk Data Mahasiswa Baru IPB Tahun 2000-2004 [skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA-IPB.

LAMPIRAN

Lampiran 1 Data Pelamar Fakultas Pertanian tahun 2004 yang berasal dari Nusa Tenggara id_input BIOLOGI FISIKA KIMIA MATEMATIKA 27 93.00 86.67 88.33 88.33 49 73.33 73.33 83.33 73.33 77 83.33 85.00 85.00 80.00 206 73.33 81.67 75.00 86.67 452 90.00 81.67 85.00 76.67 462 81.67 85.00 71.67 80.00 530 73.33 73.33 78.33 71.67 546 66.67 70.00 61.67 68.33 547 90.00 83.33 86.67 80.00 548 76.67 70.00 66.67 71.67 549 70.00 75.00 73.33 73.33 550 83.33 88.33 78.33 80.00 551 70.00 68.33 73.33 63.33 552 78.33 70.00 71.67 70.00 553 73.33 68.33 73.33 65.00 554 73.33 76.67 73.33 71.67 555 73.33 70.00 71.67 75.00 556 71.67 68.33 71.67 78.33 557 75.00 63.33 68.33 76.67 558 71.67 73.33 78.33 80.00 559 76.67 66.67 70.00 71.67 560 80.00 70.00 68.33 73.33 Lampiran 2 Halaman Home Aplikasi Self Organizing Maps

Lampiran 3 Halaman Arsip Aplikasi Self Organizing Maps Lampiran 4 Halaman Resume Aplikasi Self Organizing Maps

Lampiran 5 Halaman Tabel Input Aplikasi Self Organizing Maps Lampiran 6 Halaman Scatter Graph Aplikasi Self Organizing Maps

Lampiran 7 Halaman Frekuensi Graph Aplikasi Self Organizing Maps Lampiran 8 Halaman Centroid dan Rataan Aplikasi Self Organizing Maps

Lampiran 9 Halaman Bobot Graph Aplikasi Self Organizing Maps Lampiran 10 Halaman phpmyadmin

Lampiran 11 Halaman About

Lampiran 12 Pengamatan terhadap Indeks Davies-Bouldin No LR PLR Iterasi Indeks Davies-Bouldin 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Cluster 10 Cluster 1 0.1 893.96467 400.45751 283.35648 181.80830 129.73671 87.91734 92.69308 90.65272 2 0.5 1 708.32060 610.85346 202.85574 431.06273 337.13515 221.25481 264.64693 270.94807 3 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 4 0.1 470.66293 400.45751 242.05261 169.59149 168.44856 115.38015 94.39916 82.53870 5 0.5 1 5 708.32060 610.85346 202.85574 431.06273 337.13515 221.25481 299.24732 253.29104 6 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 7 0.1 470.66293 400.45751 239.75113 169.59149 144.28861 111.38015 114.15160 83.54420 8 0.5 10 708.32060 610.85346 202.85574 431.06273 337.13515 301.59743 264.64693 204.02508 9 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 10 0.1 893.96467 400.45751 283.35648 181.80830 129.73671 87.91734 92.69308 90.65272 11 0.5 1 708.32060 610.85346 202.85574 431.06273 337.13515 221.25481 264.64693 270.94807 12 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 13 0.1 594.00313 362.32084 257.17779 253.93154 155.88348 124.34475 96.82973 79.74349 14 0.5 0.9 5 528.79947 492.92126 319.56364 281.00183 354.05346 95.24885 171.29826 112.81417 15 0.9 675.71825 598.65050 403.71410 433.81492 351.96922 347.69309 341.77351 207.34016 16 0.1 763.53521 416.83785 226.38032 233.40199 160.04689 102.26724 108.63813 92.12833 17 0.5 10 792.42124 396.76942 313.13120 218.04439 113.37021 99.40974 127.22071 97.37798 18 0.9 639.86845 657.37144 307.30718 343.01829 300.67641 187.46907 124.16010 155.85952 19 0.1 893.96467 400.45751 283.35648 181.80830 129.73671 87.91734 92.69308 90.65272 20 0.5 1 708.32060 610.85346 202.85574 431.06273 337.13515 221.25481 264.64693 270.94807 21 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 22 0.1 660.95028 353.45190 274.64140 201.57743 163.49007 113.97299 103.27910 89.02139 23 0.5 0.5 5 760.50537 358.83523 267.02668 170.28727 141.21501 111.55281 84.92160 102.18618 24 0.9 802.73029 453.55987 238.96757 191.53862 144.83259 111.39453 100.92679 86.95392 25 0.1 658.24832 369.67897 262.55784 207.01524 169.23902 112.16417 99.60092 89.82676 26 0.5 10 693.28011 390.58495 267.35350 174.35622 142.66549 115.77397 86.16323 97.31666 27 0.9 686.12225 414.15176 265.13830 195.88612 156.01221 111.83604 78.54976 82.09851 28 0.1 893.96467 400.45751 283.35648 181.80830 129.73671 87.91734 92.69308 90.65272 29 0.5 1 708.32060 610.85346 202.85574 431.06273 337.13515 221.25481 264.64693 270.94807 30 0.9 209.28539 464.72692 387.37893 357.85511 320.84143 309.92691 243.12647 222.29098 31 0.1 731.45617 378.56489 249.23554 202.65598 163.61580 104.28710 97.45969 95.67150 32 0.5 0.1 5 698.48347 407.73890 237.26179 186.44670 145.30619 106.49671 108.37064 108.02614 33 0.9 722.25871 373.11087 244.47484 164.30238 143.90998 109.49532 53.47232 96.14470 34 0.1 731.46747 378.56311 249.23469 202.65723 163.61732 104.28757 97.45998 95.66617 35 0.5 10 698.53676 407.76075 237.26616 186.44661 145.30775 106.49552 108.36730 108.02064 36 0.9 722.45579 373.11415 244.47117 164.31041 143.90879 109.50037 53.47451 96.14555 LR= Learning Rate, PLR= Penurunan Learning Rate, Iterasi= banyak Iterasi.

Lampiran 13 DBI minimal, centroid, dan rataan untuk masing-masing ukuran output Ukuran Output LR PLR Iterasi DBI Cluster ke- Jumlah Centroid Rataan B F K M B F K M 3 0.9-1 4 0.1 0.5 5 5 0.5-1 6 0.5 0.1 5 7 0.5 0.9 10 8 0.1-1 9 0.9 0.1 5 10 0.1 0.9 5 209.29 353.45 202.86 164.30 113.37 87.92 53.47 79.74 1 362 64.15 71.57 62.90 66.38 68.70 70.97 68.66 70.09 2 865 78.27 73.34 76.77 67.96 75.37 71.76 75.83 71.35 3 672 79.60 71.54 68.72 74.57 76.10 70.70 71.41 74.48 1 524 69.83 70.49 68.57 68.30 70.12 70.85 68.90 68.58 2 499 80.59 76.38 77.16 75.18 80.55 76.50 77.40 75.58 3 448 73.48 67.47 68.74 72.42 73.87 67.81 68.98 72.76 4 428 72.32 68.43 76.04 71.46 72.84 69.14 76.63 72.16 1 703 79.79 73.14 75.52 78.54 76.20 70.33 73.23 75.00 2 79 70.93 77.62 79.74 71.01 71.86 76.29 79.24 74.43 3 145 87.68 83.13 85.78 82.57 84.09 81.37 82.56 80.31 4 449 74.61 70.89 75.07 65.83 73.71 68.90 73.37 67.30 5 523 68.58 72.58 67.13 69.88 70.11 70.88 68.40 70.12 1 284 71.89 74.19 74.64 77.45 72.31 74.60 74.93 77.87 2 297 72.82 67.48 76.16 70.46 73.02 67.55 76.41 70.79 3 278 74.83 75.66 74.73 70.99 74.60 75.60 74.80 71.18 4 317 82.33 76.08 77.34 75.35 81.94 75.92 77.30 75.35 5 416 69.49 66.42 65.93 65.50 69.79 66.61 66.08 65.58 6 307 75.66 69.16 70.76 75.16 75.68 69.14 70.57 75.06 1 282 71.81 66.01 75.53 72.55 72.15 66.76 74.94 72.71 2 118 85.36 82.27 83.89 81.55 84.62 82.53 83.23 82.07 3 253 69.31 73.42 66.54 70.66 70.72 72.61 67.93 72.23 4 363 67.94 66.80 68.81 64.96 69.06 66.44 68.15 65.50 5 316 78.40 74.81 74.53 70.58 77.34 72.67 72.72 69.41 6 208 74.10 77.31 79.70 76.08 74.10 76.50 78.90 76.52 7 359 80.98 72.82 76.30 77.61 78.15 70.59 72.87 75.34 1 376 68.09 66.62 66.65 65.67 68.86 66.30 66.55 65.77 2 190 79.32 74.07 70.59 72.12 77.86 72.68 69.38 71.46 3 201 77.75 76.70 76.69 71.91 76.76 76.39 76.09 71.94 4 227 71.25 70.97 77.48 70.48 71.51 70.10 77.30 71.06 5 193 68.93 73.55 69.06 73.66 70.51 74.14 70.74 75.01 6 244 79.16 70.40 74.61 70.71 77.88 68.31 73.55 69.34 7 331 76.66 70.99 74.53 78.30 74.97 69.86 73.50 77.03 8 137 84.44 81.38 84.23 82.47 83.44 81.49 83.63 82.80 1 188 69.62 69.76 65.20 66.34 69.78 69.88 65.46 66.60 2 284 68.49 67.43 68.89 69.51 68.60 67.39 68.88 69.50 3 197 83.39 80.48 81.34 79.50 83.31 80.37 81.13 79.66 4 212 74.15 76.03 74.74 71.52 74.11 75.87 74.61 71.73 5 199 74.77 68.84 76.28 76.33 74.99 68.83 76.57 76.26 6 243 77.12 70.97 70.43 75.55 76.28 70.74 69.92 75.41 7 272 75.84 67.27 69.41 66.65 76.12 67.44 69.68 66.94 8 189 73.38 68.79 76.81 68.22 73.47 68.82 76.94 68.42 9 115 73.18 77.11 79.35 82.17 73.33 76.86 78.61 81.20 1 220 67.56 63.35 64.47 64.14 68.60 64.05 65.03 64.55 2 210 80.09 69.92 72.26 72.45 79.33 69.17 71.69 71.36 3 223 69.26 71.40 71.56 68.68 69.71 71.86 71.64 68.98 4 246 76.43 74.01 71.18 70.19 75.90 73.54 70.70 69.99 5 159 73.67 73.73 78.07 79.49 74.21 74.86 78.68 79.88 6 140 69.90 73.58 68.38 74.79 70.98 73.89 69.18 75.30 7 166 76.13 71.63 77.43 68.65 75.82 70.90 77.13 68.37 8 203 74.37 68.86 71.46 75.59 74.29 69.06 70.87 75.67 9 170 72.18 66.54 75.87 72.69 72.45 66.50 76.11 72.12 10 162 83.85 81.44 82.55 80.45 83.43 81.44 82.59 81.09 Keterangan: B= Biologi;F=Fisika;K=Kimia;M=Matematika.

Lampiran 14 Scatter plot untuk ukuran output 9 Keterangan: X=Biologi;Y=Fisika Keterangan: X=Biologi; Y=Kimia Keterangan: X=Biologi;Y=Matematika Keterangan: X=Fisika; Y=Kimia Keterangan: X=Fisika;Y=Matematika Keterangan: X=Kimia; Y=Matematika Keterangan: Titik Biru ialah data, dan Titik Merah adalah Centroid Cluster