DATA DAN METODE Data

dokumen-dokumen yang mirip
PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

TINJAUAN PUSTAKA. Definisi Data Mining

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Data

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

Versi Online tersedia di : JURNAL TECH-E (Online)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. waktu mendatang. Perkembangan teknologi informasi membuat pencarian. data data sangat mudah bahkan cenderung berlebihan.

IMPLEMENTASI DECISION TREE UNTUK MEMPREDIKSI JUMLAH MAHASISWA PENGAMBIL MATAKULIAH DENGAN MENGGUNAKAN STUDI KASUS DI JURUSAN TEKNIK INFORMATIKA ITS

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

BAB 3 METODE PENELITIAN. Bahan dan peralatan yang dibutuhkan dalam penelitian ini antara lain :

BAB 1 PENDAHULUAN 1-1

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU


Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

JURNAL IMPLEMENTASI ALGORITMA C4.5 DALAM PENENTUAN JURUSAN DI SMK PEMUDA PAPAR KEDIRI

BAB 2 TINJAUAN PUSTAKA

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

IMPLEMENTASI DATA MINING PADA PENENTUAN JUMLAH SKS MENGGUNAKAN DECISION TREE

BAB 3 METODE PENELITIAN

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

BAB 4 IMPLEMENTASI DAN PENGUJIAN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Belajar Mudah Algoritma Data Mining : C4.5

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB I PENDAHULUAN. 1.1 Latar Belakang

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

BAB 2 LANDASAN TEORI

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

BAB I PENDAHULUAN Latar Belakang

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

BAB II LANDASAN TEORI

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB III METODE PENELITIAN

PENENTUAN PENERIMA BEASISWA PENINGKATAN PRESTASI AKADEMIK DENGAN ALGORITME C5.0

BAB II TINJAUAN PUSTAKA

DAFTAR ISI Transformasi data... 47

PENERAPAN METODE DECISION TREE ALGORITMA C4.5 UNTUK SELEKSI CALON PENERIMA BEASISWA TINGKAT UNIVERSITAS

PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

BAB I PENDAHULUAN 1.1 Latar Belakang

PERBANDINGAN DECISION TREE

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

Analisis Algoritma Decision Tree untuk Prediksi Mahasiswa Non Aktif

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

SISTEM PENUNJANG KEPUTUSAN PENERIMA BEASISWA DENGAN METODE DESCISION TREE C4.5 Pada SMAK YOS SUDARSO BATU

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS PENYAKIT PARU-PARU MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS PADA RUMAH SAKIT ALOEI SABOE KOTA GORONTALO

SATIN Sains dan Teknologi Informasi

Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naïve Bayes (Studi Kasus: Fasilkom Unilak)

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah 1.2. Rumusan Masalah

KLASIFIKASI PADA TEXT MINING

BAB III METODOLOGI 3.1. Kerangka Pemikiran

1 PE DAHULUA. 1.1 Latar Belakang

PENERAPAN METODE POHON KEPUTUSAN DENGAN ALGORITME ITERATIVE DYCHOTOMISER 3 (ID3) PADA DATA PRODUKSI JAGUNG DI PULAU JAWA

IDENTIFIKASI MAHASISWA YANG MEMPUNYAI KECENDERUNGAN LULUS TIDAK TEPAT WAKTU PADA PROGRAM STUDI MMT-ITS DENGAN MENGGUNAKAN ALGORITMA C4.

KETEPATAN KLASIFIKASI STATUS KERJA DI KOTA TEGAL MENGGUNAKAN ALGORITMA C4.5 DAN FUZZY K-NEAREST NEIGHBOR IN EVERY CLASS (FK-NNC) SKRIPSI

Transkripsi:

DATA DAN METODE Data Sumber data yang digunakan dalam penelitian berasal dari data mahasiswa tahun angkatan 2000 sampai dengan 2005, dan dari tiga program studi yaitu S1- Sistem Informasi, S1-Teknik Informatika, serta D3-Manajemen Informatika. Beberapa jenis data diperoleh dari sistem yang berjalan namun hanya data identitas mahasiswa dan data IPK mahasiswa saja yang digunakan untuk penelitian, dikarenakan informasi yang terkandung di dalamnya sudah mewakili informasi yang dibutuhkan untuk dijadikan indikator penentu dalam klasifikasi data keluaran yang diinginkan. Jumlah data yang diperoleh adalah sebanyak 2.115 record data yang berasal dari dataset identitas mahasiswa dan 1.088 record data yang berasal dari dataset IPK. Dataset mahasiswa terdiri dari 64 atribut yang menjelaskan identitas diri mahasiswa dan informasi tentang keadaan mahasiswa yang bersangkutan saat mendaftarkan diri pada UPNVJ. Atribut-atribut tersebut diantaranya adalah nama, tanggal lahir, alamat, asal sekolah, nama orangtua, pekerjaan orangtua, gelombang daftar, no ujian, dan no registrasi pokok (NRP). Sedangkan dataset IPK hanya terdiri dari 7 atribut, dimana memberikan informasi mengenai prestasi akademik dan beban studi yang sudah diambil mahasiswa yang bersangkutan. Atributatribut tersebut adalah NRP, tahun akademik, semester, sks semester, IP semester, sks kumulatif, dan IP Kumulatif. Keterangan atribut pada dataset mahasiswa dan contoh datanya dapat dilihat pada lampiran yang terdapat dalam tesis ini. Dan untuk keterangan atribut pada dataset IPK dan contoh datanya dapat dilihat pula pada lampiran yang terdapat dalam tesis ini. Seluruh atribut pada kedua dataset di atas selanjutnya akan diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang relevan, tidak missing value, dan tidak redundant, dimana ketiga syarat tersebut merupakan syarat awal yang harus dikerjakan dalam data mining sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap mining data. Dikatakan missing value jika atribut-

atribut dalam dataset tidak berisi nilai atau kosong, sementara itu data dikatakan redundant jika dalam satu dataset yang sama terdapat lebih dari satu record yang berisi nilai yang sama. Relevan tidaknya sebuah atribut dapat ditentukan oleh keluaran yang ingin dihasilkan, misalnya untuk mengetahui bahwa seorang mahasiswa tidak aktif, tidak relevan jika indikator yang dilihat adalah agamanya. Contoh dataset dengan atribut yang missing value dapat dilihat pada Tabel 3 di bawah ini. Tabel 3. Contoh instances dengan missing value pada sebagian atributnya NAMA TGLHR ALMHS KDPOS MAYA YULIETNA 7/19/1982 PERUM. I KARAWACI RACHMAD NUR RIFAI 10/23/1981 12520 MUHAMNAD ICHSAN KURNIA 8/31/1983 JL.MENTENG 14270 ATIKAH 4/10/1985 KEL. BAKTI JAYA 16418 WAHMI ARDIANSYAH 10/31/1984 16418 MULTARINI CHANDRA SEVILLA 1/7/1983 GG.ALI ANDONG 16516 URUPAN MAGDALENA 1/10/1984 12320 OVIRINA PUTRI WARDHANI 10/31/1984 BLOK AA XI, RENI JAYA 15417 HARDIANTO 1/26/1985 12790 Pada tabel di atas terlihat bahwa record ke 1, 2, 5, 6, 8 dan 10, beberapa atributnya tidak berisi data atau kosong. Maka keadaan seperti diatas dikatakan bahwa atribut tersebut missing value. Selain atribut yang missing value, disajikan pula contoh dataset dengan data yang redundant seperti pada Tabel 4 di bawah ini. Tabel 4. Contoh redundancy data NAMA TGLHR ALMHS KOTA NMSLA ALMSLA Widya sitha P 11/16/1981 komp. Kehakiman Tangerang SMU 7 Tangerang M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK Andri suhardi 1/18/1982 Jak-Pus SMK Bahariwan 45-3 Jak-Ut Bondan andira 9/15/1981 Cibubur Jak-Tim STM TELKOM Jak-bar M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK Siti komalasari 9/24/1983 Jak-Sel SMU Darul Ma arif Jak-Sel

Record 2 dan record 5 pada tabel di atas berisi data yang sama, maka dikatakan record tersebut redundant. Metode Kerangka Pemikiran Sebagai langkah awal maka perlu adanya identifikasi masalah berkenaan dengan masalah yang di bahas. Kemudian dilakukan pengumpulan data berkaitan dengan permasalahan yang akan diteliti dan studi literatur untuk menentukan metode data mining untuk pengolahan data dan penentuan alternatif solusi. Selanjutnya dilakukan pengumpulan data untuk menentukan parameter-parameter yang menyebabkan berkurangnya jumlah mahasiswa FIK-UPNVJ dalam hampir tiap semesternya. Kerangka pemikiran dalam pengembangan model sistem pada penelitian ini dapat digambarkan dalam suatu diagram alir penelitian seperti pada Gambar 5. Mulai Identifikasi Masalah Pengumpulan Data Studi Literatur Data Praproses Feature Selection Dataset C5.0 KNN Selesai Hasil Evaluasi Gambar 5. Kerangka pemikiran penelitian

Dengan demikian diharapkan dapat diperoleh gambaran yang lengkap dan menyeluruh tentang tahap-tahap penelitian yang akan dilaksanakan serta keterkaitan antara satu tahap dengan tahap selanjutnya. 1. Identifikasi Masalah Menggali permasalahan yang ditemukan pada obyek yang di teliti guna mencari alternatif solusi yang terkait dengan permasalahan, diantaranya, a. Jumlah mahasiswa tidak aktif yang bertambah. b. Karakteristik mahasiswa tidak aktif yang tidak tersedia. 2. Studi Literatur Kegiatan mempelajari dan memahami fungsi-fungsi data mining, teknik-teknik dan algoritma yang digunakan dalam data mining. Adapun literatur yang digunakan berasal dari buku-buku data mining dan jurnal penelitian bidang data mining untuk teknik klasifikasi dengan algoritma C5.0 dan K-Nearest Neighbor. Penelitian yang dilakukan sebelumnya oleh Moertini, Beikzadeh dan Phon menggunakan C5.0 & KNN menunjukkan bahwa kedua algoritma ini dapat melakukan klasifikasi data di atas 80%. 3. Pengumpulan data Tahap pengumpulan data untuk mendapatkan sejumlah informasi yang dibutuhkan dengan mengambil data akademik mahasiswa pada Sistem Informasi Akademik FIK-UPNVJ. Maka diperolehlah dataset mahasiswa dan dataset IPK untuk digunakan dalam penelitian karena kedua dataset ini sudah mewakili informasi yang dibutuhkan. 4. Data Praproses Adalah tahap seleksi data bertujuan untuk mendapatkan data yang bersih dan siap untuk digunakan dalam penelitian. Tahapan yang dikerjakan adalah dengan melakukan perubahan terhadap beberapa tipe data pada atribut dataset dengan tujuan untuk mempermudah pemahaman terhadap isi record, juga melakukan seleksi dengan memperhatikan konsistensi data, missing value, dan redundant pada data. Beberapa atribut yang bertipe numeric diubah menjadi string, dan atribut Tgllhr yang

bertipe data date menjadi numeric. Untuk atribut Tgllhr selanjutnya berubah nama menjadi Usia. Atribut Anakke dan Dari digabung dengan nama Anakke dan tipe data string. Sebanyak 6 atribut terpilih yang berasal dari 64 atribut dataset mahasiswa dan 7 atribut dataset IPK. 5. Feature Selection Adalah tahapan seleksi atribut, dimana atribut-atribut yang diperoleh dari tahap praproses selanjutnya diseleksi lagi menggunakan formula Information Gain yang menghasilkan nilai Gain dari seluruh atribut dalam dataset yang mana formula ini terdapat dalam algoritma C5.0 dengan fungsinya untuk mendapatkan atribut yang berfungsi sebagai root atau akar pada decision tree, node dan leaf. 6. Teknik Data Mining Tahap pengolahan data dengan memfungsikan algoritma dan teknik yang telah ditentukan sebelumnya, yaitu klasifikasi menggunakan algoritma C5.0 dan KNN. Algoritma C5.0 bekerja untuk menghasilkan aturan-aturan klasifikasi dalam bentuk pohon keputusan (decision tree) yang selanjutnya aturan-aturan tersebut akan digunakan pada dataset yang baru. KNN berfungsi sebagai algoritma pembanding yang akan melakukan prediksi klasifikasi data dengan menentukan sejumlah data tetangga yang sudah terklasifikasi. 7. Dataset Tahap seleksi atribut menghasilkan himpunan data akhir yang digunakan untuk tahap klasifikasi data berupa dataset akademik. Dataset akademik adalah data yang sudah tidak lagi mengandung data dengan missing value dan redundant. Dengan menggunakan teknik 3-fold cross validation, data dibagi menjadi dua bagian sebagai data training dan satu bagian sebagai data testing, yang mana training dan testing dilakukan sebanyak 3 kali. 8. Hasil Klasifikasi dengan algoritma C5.0 memberikan hasil berupa aturan-aturan klasifikasi dalam bentuk if-then dan dalam bentuk pohon

keputusan (decision tree) serta menunjukkan karakteristik data yang diklasifikasi, sedangkan KNN hanya memberikan hasil berupa jumlah ketepatan dan ketidaktepatan data yang diklasifikasi namun tidak dapat menunjukkan karakterisitk dari data yang di klasifikasi. Sehingga dapat dikatakan bahwa telah diperoleh sebanyak dua model yang berasal dari kedua penerapan algoritma yang dipilih. 9. Evaluasi Analisis terhadap hasil klasifikasi yang diperoleh dengan menggunakan kedua algoritma menunjukkan bahwa rata-rata lama waktu yang dibutuhkan sangat singkat yaitu 0.01 seconds. Dilakukan pula analisis dengan beberapa alat evaluasi yang lain dengan menggunakan tabel confusion matrix, yaitu hasil klasifikasi dengan proporsi positif dan negatif yang diperoleh akan dievaluasi sehingga diperoleh persentase kelas positif dalam lift chart, persentase jumlah proporsi positif dan negatif dalam ROC, dan nilai rata-rata keberhasilan klasifikasi ke dalam kelas yang sesuai dalam overall success rate. Tata Laksana Kegiatan yang dilakukan dalam penelitian ini diantaranya adalah pembentukan model klasifikasi untuk memperoleh aturan-aturan yang dibutuhkan. Proses dimulai dengan pendefinisian masalah serta mempelajari bisnis proses dari sistem yang sedang berjalan. Pada tahap selanjutnya melakukan uji coba terhadap dataset baru yang belum terklasifikasi dengan menggunakan aturan-aturan yang diperoleh dari tahap sebelumnya. Metodologi data mining didasarkan pada tiga tahapan yang dilakukan untuk mendeteksi mahasiswa yang berpotensi untuk tidak aktif pada waktu yang akan datang dengan memperhatikan karakteristik data dalam dataset. Ketiga tahapan tersebut adalah a) seleksi atribut dataset b) menangani data yang tidak konsisten, redundant dan missing value c) rule mining dan klasifikasi.

Pada tahap pertama, seleksi atribut dalam dataset untuk mendapatkan atribut dengan record yang relevan terhadap keluaran yang diinginkan. Pada tahap kedua, pemrosesan awal data mahasiswa dilakukan untuk menghapus data atau record yang tidak konsisten, redundant dan missing value dan mengekstrak data yang akan digunakan untuk mengelompokkan mahasiswa ke dalam klas aktif dan tidak aktif. Pada tahap ketiga, algoritme decision tree classifier digunakan untuk menghasilkan aturan-aturan yang berguna untuk mendeteksi mahasiswa yang tidak aktif. Waktu dan Tempat Penelitian Penelitian dilaksanakan mulai bulan Juli 2006 hingga Januari 2007, dan bertempat di Laboratorium Komputer Pascasarjana Ilmu Komputer IPB serta Laboratorium Komputer FIK-UPNVJ.