PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

Ukuran: px
Mulai penontonan dengan halaman:

Download "PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G"

Transkripsi

1 PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008

2 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa Tesis Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritma C5.0 dan K-Nearest Neighbor, adalah karya saya sendiri dan belum diajukan dalam bentuk apapun kepada Perguruan Tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Bogor, Juni 2008 Iin Ernawati NRP. G

3 ABSTRAK IIN ERNAWATI. Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor (KNN). Dibimbing oleh Irman Hermadi dan Hari Agung Adrianto. Diperlukan suatu metode data mining yang bisa memanfaatkan gunungan data yang dihasilkan oleh sebuah sistem dalam sebuah organisasi maupun lembaga, sehingga menjadi informasi yang bernilai strategis. Dalam penelitian ini teknik data mining digunakan untuk membantu menemukan karakteristik mahasiswa aktif maupun tidak aktif pada sebuah fakultas di sebuah Perguruan Tinggi Swasta di Jakarta selatan, sehingga untuk selanjutnya dapat digunakan dalam memprediksi status studi mahasiswa yang akan datang. Penggunaan perangkat lunak weka sebagai alat bantu dalam proses klasifikasi memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) adalah atribut yang menentukan status studi mahasiswa. Hasil percobaan memberikan informasi bahwa Algoritme C5.0 lebih baik dibandingkan algoritme KNN. Kata kunci : Karakteristik mahasiswa aktif dan tidak aktif, C5.0, K-Nearest Neighbor, weka classifier.

4 ABSTRACT IIN ERNAWATI. Prediction of University Student Status Using C5.0 and K- Nearest Neighbor Algorithms (KNN). Under the direction of Irman Hermadi and Hari Agung Adrianto. Data mining methods are required to explore pyramid of data such that strategic information is uncovered. In this thesis, data mining techniques are used to find student characteristics whom is active or inactive academically. Further, these characteristics can be employed to classify students based on their academic status one semester in advance. This research made use an open source data mining application software named WEKA Classifier. The experimental results showed that C5.0 Algorithm is better than KNN and Grade Point Average (GPA) contributes significantly in determining next coming semester student status. Keywords: inactive student, active student, C5.0, K-Nearest Neighbor, weka classifier.

5 RINGKASAN IIN ERNAWATI. Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor. Dibimbing oleh IRMAN HERMADI dan HARI AGUNG ADRIANTO. Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang besar, teknologi untuk membantu menganalisis, memahami, atau bahkan memvisualisasikan data belum banyak tersedia. Hal inilah yang melatarbelakangi dikembangkannya konsep data mining. Klasifikasi sebagai salah satu teknik dalam data mining yang digunakan dalam penelitian ini untuk mengolah data akademik mahasiswa dalam sebuah fakultas sehingga diperoleh aturan klasifikasi untuk prediksi status studi mahasiswa pada waktu yang akan datang. Sebanyak data diperoleh dari sistem akademik fakultas namun setelah melalui tahap pembersihan data (data cleaning), hanya sebanyak data yang berhasil digunakan untuk proses klasifikasi. Sebanyak 925 data diklasifikasi sebagai data mahasiswa aktif dan sebanyak 250 data diklasifikasi sebagai data mahasiswa tidak aktif. Algoritme C5.0 yang digunakan dalam klasifikasi model decision tree (pohon keputusan) memberikan hasil dalam bentuk if-then dan bentuk pohon keputusan yang menyatakan bahwa aktif dan tidak aktif seorang mahasiswa ditentukan oleh Indeks Prestasi Kumulatif (IPK) mahasiswa yang bersangkutan. Hasil klasifikasi yang diperoleh dari algoritme C5.0 ini menunjukkan bahwa apabila seorang mahasiswa memperoleh IPK 1,77 maka dapat diprediksi bahwa mahasiswa yang bersangkutan berpotensi untuk tidak aktif pada semester yang akan datang. Keberhasilan klasifikasi yang diperoleh dari algoritme C5.0 mencapai lebih dari 90%, yang menyatakan bahwa algoritme C5.0 mampu melakukan klasifikasi data akademik dengan memberikan output berupa aturan klasifikasi. K-Nearest Neighbor melakukan klasifikasi dengan menghitung jarak antara data yang sudah terklasifikasi ke data yang belum terklasifikasi dengan menentukan jumlah tetangga data k yang dipilih yaitu k=1, k=3 dan k=5 sehingga diperoleh hasil yang reasonable dari ketiga nilai k yang diberikan tadi. Persentase klasifikasi tertinggi diperoleh dari k=1 yaitu mencapai lebih dari 90%, yang menyatakan bahwa untuk menentukan kelas bagi data baru maka data baru tersebut dihitung jaraknya ke setiap data yang sudah diketahui kelasnya. Berbeda dengan hasil yang diperoleh dari algoritme C5.0, K-Nearest Neighbor tidak dapat menunjukkan karakteristik data yang diklasifikasi sebagai mahasiswa aktif dan mahasiswa tidak aktif. Algoritme C5.0 tetap dianggap sebagai algoritma yang sangat membantu dalam melakukan klasifikasi data karena karakteristik data yang diklasifikasi dapat diperoleh dengan jelas baik dalam bentuk struktur pohon keputusan maupun aturan if-then, sehingga memudahkan pengguna dalam melakukan penggalian informasi terhadap data yang bersangkutan. Kata kunci : status aktif dan tidak aktif, algoritme C5.0, K-Nearest Neighbor

6 Hak cipta milik IPB, tahun 2008 Hak cipta dilindungi Dilarang mengutip dan memperbanyak tanpa izin tertulis dari Institut Pertanian Bogor, sebagian atau seluruhnya dalam bentuk apapun, baik cetak, fotokopi, microfilm, dan sebagainya

7 PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008

8 Judul Tesis Nama NIM : Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor : Iin Ernawati : G Disetujui Komisi Pembimbing Irman Hermadi, S.Kom, MS Ketua Hari Agung Adrianto, S.Kom, MSi Anggota Diketahui Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana Dr. Sugi Guritman Prof. Dr.Ir. Khairil Anwar Notodiputro, MS Tanggal Lulus : Tanggal Ujian: 20 Juni 2008

9 RIWAYAT HIDUP Penulis dilahirkan di Madiun, pada tanggal 2 Januari 1976 dari ayah S. Soegiarto dan ibu Sri Lestari. Penulis merupakan putri pertama dari tiga bersaudara. Pada tahun 1993 penulis lulus dari MAN (Madrasah Aliyah Negeri) 1 Tangerang, dan pada tahun 2000 berhasil menyelesaikan pendidikan S1 jurusan Manajemen Informatika pada Universitas Pembangunan Nasional veteran Jakarta. Penulis diterima sebagai staf laboratorium komputer Fakultas Ilmu Komputer, UPN veteran Jakarta pada tahun 2001 sampai dengan sekarang.

10 Penguji Luar Komisi pada Ujian Tesis: Aziz Kustiyo, S.Si, M.Kom.

11 PRAKATA Syukur Alhamdulillah penulis panjatkan kehadirat Allah SWT, karena atas segala karunia-nya penulisan tesis dengan judul Prediksi Status Keaktifan Studi Mahasiswa dengan Algoritme C5.0 dan K-Nearest Neighbor. Tesis ini disusun sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer, Sekolah Pascasarjana Institut Pertanian Bogor. Pada kesempatan ini penulis menyampaikan penghargaan dan ucapan terima kasih kepada : 1. Bapak Irman Hermadi, SKom, MS selaku ketua komisi pembimbing dan Hari Agung Adrianto, SKom, Msi selaku anggota komisi pembimbing yang telah meluangkan waktu, tenaga dan pikiran sehingga tesis ini dapat diselesaikan. 2. Bapak Aziz Kustiyo, SSi, Mkom selaku dosen penguji yang telah memberikan arahan dan masukan untuk perbaikan tesis ini. 3. Bapak Dr. Sugi Guritman selaku Ketua Program Studi Ilmu Komputer atas kerjasamanya selama studi dan penelitian. 4. Staff Pengajar Program Studi Ilmu Komputer yang telah memberi bekal pengetahuan. 5. Staff Departemen Ilmu Komputer atas kerjasamanya selama studi dan penelitian. 6. Rekan mahasiswa Program Studi Ilmu Komputer mulai dari angkatan 2 sampai dengan angkatan Ayah, ibu, adik-adik dan kekasihku tercinta Bambang Dwi Raharjo atas dorongan semangat, doa dan kesabaran yang telah dicurahkan. Penulis menyadari masih banyak kekurangan dalam penyajian tesis ini. Meskipun demikian penulis berharap semoga tesis ini bermanfaat bagi bidang ilmu komputer dan dunia pendidikan. Bogor, Juli 2008 Iin Ernawati

12 DAFTAR ISI Halaman DAFTAR TABEL... iii DAFTAR GAMBAR.. iv DAFTAR LAMPIRAN... v PENDAHULUAN Latar Belakang... 1 Tujuan Penelitian 2 Ruang Lingkup 2 Output dan Manfaat Penelitian 3 TINJAUAN PUSTAKA Definisi Data Mining.. Klasifikasi... Model Klasifikasi.. Decision Tree (Pohon Keputusan) Algoritme C5.0.. K-Nearest Neighbor Algorithm Membangun model prediksi Alat ukur dalam evaluasi Review Riset yang Relevan DATA DAN METODE Data. Metode Kerangka Pemikiran.. Tata Laksana. Waktu dan Tempat Penelitian... HASIL DAN PEMBAHASAN Praproses Data Data Mining

13 Evaluasi... KESIMPULAN DAN SARAN Kesimpulan. Saran DAFTAR PUSTAKA.. LAMPIRAN

14 DAFTAR TABEL Halaman Tabel klasifikasi kualitas baik atau tidak baik sebuah kertas tisu Perbedaan hasil yang diperoleh dari dua kelas prediksi.. 14 Contoh instances dengan missing value pada sebagian atributnya Contoh redundancy data.. 17 Contoh data pada dataset mahasiswa Contoh data pada dataset IPK Contoh instances dengan beberapa atribut pada dataset mahasiswa.. 24 Contoh instances dengan atribut pada dataset IPK Contoh instances dengan atribut yang akan diubah tipe datanya Keterangan kode pada atribut PkOrtu dan JenisSLA Contoh instances dengan tipe data dan nama atribut yang baru Contoh instances dengan atribut terpilih. 28 Kombinasi dataset hasil pemisahan dengan metode 3-fold cross vali-dation Contoh data dengan kelas mahasiswa aktif dan tidak aktif berdasarkan atribut JnsSLA Nilai gain seluruh atribut pada kelompok data training dan data testing 32 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi confusion matrix (overall success rate, lift chart, dan recall precision)... 39

15 DAFTAR GAMBAR Halaman Data Mining sebagai salah satu tahapan dalam proses KDD.. 5 Klasifikasi sebagai pemetaan sebuah himpunan atribut input x ke dalam label kelasnya.. 6 Contoh penggunaan metode Decision Tree untuk menentukan jenis buah.. 8 Ilustrasi 1-, 2-, 3-nearest neighbor terhadap data baru (x).. 11 Kerangka pemikiran penelitian 18 Gambar hasil klasifikasi data testing 3 menggunakan weka classifier.. 34 Aturan-aturan klasifikasi hasil data testing Hasil klasifikasi dengan algoritma C5.0 menggunakan weka classifier dalam bentuk struktur pohon keputusan Hasil klasifikasi dengan KNN=1 pada data testing 3 menggunakan Weka classifier 37 Grafik Overall Success Rate pada dataset akademik menggunakan metode decision tree (C5.0) dan KNN Grafik Lift Chart pada dataset akademik menggunakan metode decision tree (5.0) dan KNN Grafik Recall Precision pada dataset akademik menggunakan metode decision tree (5.0) dan KNN Grafik persentase true classified dan missclassified. 42

16 DAFTAR LAMPIRAN Halaman Atribut dataset mahasiswa Atribut dataset IPK Dataset Mahasiswa Dataset IPK Sample data training Sample data testing Hasil klasifikasi dengan C5.0 menggunakan weka classifier dalam bentuk if-then Hasil klasifikasi C5.0 menggunakan weka classifier dalam bentuk pohon keputusan Grafik klasifikasi KNN dengan k=1 (a), k=3 (b), k=5 (c) pada atribut IPK... 61

17 PENDAHULUAN Latar Belakang Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang besar, teknologi untuk membantu menganalisis, memahami, atau bahkan memvisualisasikan data belum banyak tersedia. Hal inilah yang melatarbelakangi dikembangkannya konsep data mining. Sejak awal berdiri 1980, sebuah fakultas pada sebuah Perguruan Tinggi Swasta di Jakarta telah menghasilkan gunungan data akademik. Diketahui dalam jangka waktu enam tahun terakhir ( ) banyaknya mahasiswa yang melakukan registrasi ulang pada hampir tiap semester berkurang dibandingkan saat registrasi pada semester awal (satu). Misal, pada semester 1 total mahasiswa baru sebanyak 335 mahasiswa, lalu pada saat semester ke dua menjadi 280 mahasiswa, semester ke tiga menjadi 276 mahasiswa, semester ke empat 260 mahasiswa, demikian pula selanjutnya. Banyaknya mahasiswa yang tidak aktif selalu ditemukan pada hampir tiap semester dan pada setiap program studi, dan jumlahnya cenderung bertambah. Berdasarkan panduan akademik tahun dijelaskan bahwa mahasiswa tidak aktif adalah mahasiswa yang masih tercatat sebagai mahasiswa dari program studi masing-masing namun tidak memenuhi semua persyaratan administrasi keuangan dan akademik dalam jangka waktu tertentu, sedangkan mahasiswa aktif adalah mahasiswa yang telah memenuhi semua persyaratan administrasi keuangan dan akademik serta berhak dan wajib mengikuti semua kegiatan akademik [UPNVJ, 2004]. Tidak tersedianya data yang cukup dan informasi yang terkait dengan status keaktifan studi mahasiswa menyebabkan tidak dapat ditemukannya karakteristik mahasiswa yang aktif dan tidak aktif, sehingga mendorong dilakukannya penelitian tentang karakteristik mahasiswa yang aktif dan tidak aktif. Berdasarkan hal tersebut maka penulis melakukan penelitian terhadap data-data akademik untuk menemukan ciri atau karakteristik mahasiswa yang aktif dan tidak aktif.

18 Diharapkan penelitian yang dilakukan dapat memberikan hasil berupa informasi yang bermanfaat dalam melakukan pengambilan keputusan manajerial, terutama yang berkaitan dengan prediksi status keaktifan studi mahasiswa. Salah satu alternatif solusi dari masalah tersebut adalah dengan menerapkan teknik data mining sehingga dapat dilakukan penelusuran pada data historis untuk mengidentifikasi karakteristik data yang dimiliki terhadap subyek yang diteliti yang didasarkan pada sifat-sifat data yang teridentifikasi sebelumnya. Adapun teknik yang dipilih untuk menganalisis data yang dimiliki adalah klasifikasi dengan algoritma C5.0 dan K-Nearest Neighbor. Diketahui klasifikasi merupakan bentuk analisis data yang dapat digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Sehingga diharapkan dengan menggunakan teknik ini maka diperoleh karakteristik dari seorang mahasiswa terhadap status keaktifannya dalam masa studi yang ditempuh. Tujuan penelitian Beberapa tujuan yang dilakukan dalam penelitian adalah diantaranya: 1. Menerapkan dan melakukan analisis algoritma C5.0 dan K-Nearest Neighbor pada dataset akademik untuk melihat karakteristik mahasiswa yang tidak aktif. 2. Membentuk aturan klasifikasi untuk memprediksi status studi mahasiswa pada waktu yang akan datang. Ruang lingkup 1. Menerapkan proses Knowledge Discovery in Database (KDD) untuk mengolah data akademik mahasiswa dan melakukan analisis terhadap penerapan algoritma C5.0 dan K-Nearest Neighbor. 2. Data penelitian berasal dari data identitas mahasiswa dan data Indeks prestasi Kumulatif (IPK) pada tiga program studi (S1-SI, S1-TI, D3-MI) tahun angkatan 2000 sampai dengan Transformasi & pengolahan data menggunakan weka classifier.

19 Output dan manfaat penelitian Output yang dihasilkan dari penelitian ini adalah informasi karakteristik mahasiswa aktif dan tidak aktif. Manfaat yang dapat diambil dengan tersedianya karakteristik mahasiswa aktif dan tidak aktif adalah: 1. Membantu sistem dalam mengambil tindakan untuk mengatasi mahasiswa yang berpotensi untuk tidak aktif pada waktu yang akan datang. 2. Membantu untuk memperbaiki standar kualitas mahasiswa yang melamar sehingga jumlah mahasiswa yang berpotensi tidak aktif dapat dikurangi.

20 TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data yang berukuran besar. Diperlukan teknik baru yang secara pintar dan otomatis mentransformasikan data-data yang diproses untuk menghasilkan informasi dan pengetahuan yang berguna. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Kata mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar (Pramudiono, 2003). Data mining merupakan proses pencarian pola dan relasi-relasi yang tersembunyi dalam sejumlah data yang besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, association rule, clustering, deskripsi dan visualisasi (Han dan Kamber, 2001). Secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu (Tan et al, 2005) : 1. Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining. 2. Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Secara sederhana data mining bisa dikatakan sebagai proses menyaring atau menambang pengetahuan dari sejumlah data yang besar. Istilah lain untuk data mining adalah Knowledge Discovery in Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian dari tahapan proses dalam KDD, seperti yang terlihat pada Gambar 1 (Han dan Kamber, 2001).

21 Pattern evaluation Knowledge Data mining Task-relevant Data warehouse Selection Data cleaning Database Gambar 1. Data mining sebagai salah satu tahapan dalam proses Knowledge Discovery Tujuan dari adanya data mining adalah (Thomas, 2004) : 1. explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu kondisi. 2. confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah ada. 3. exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal. Klasifikasi Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk kategori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Misalnya model klasifikasi bisa dibuat untuk mengelompokkan aplikasi peminjaman pada bank apakah berisiko atau aman, sedangkan model prediksi bisa dibuat untuk memprediksi pengeluaran untuk membeli peralatan komputer dari pelanggan potensial berdasarkan pendapatan dan lokasi tinggalnya. Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sampel yang tidak berlabel, atau menguji nilai atau rentang

22 nilai dari suatu atribut. Dalam pendangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilainilai diskrit atau nominal, sedangkan regresi digunakan untuk memprediksi nilainilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan penggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction (Han & Kamber, 2001). Model Klasifikasi Data input untuk klasifikasi adalah koleksi dari record. Setiap record dikenal sebagai instance atau contoh, yang ditentukan oleh sebuah tuple (x,y), dimana x adalah himpunan atribut dan y adalah atribut tertentu, yang dinyatakan sebagai label kelas (juga dikenal sebagai kategori atau atribut target). Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang memetakan setiap himpunan atribut x ke salah satu label kelas y yang telah didefinisikan sebelumnya. Fungsi target juga dikenal secara informal sebagai model klasifikasi. Model klasifikasi berguna untuk keperluan berikut : Pemodelan Deskriptif. Model klasifikasi dapat bertindak sebagai alat penjelas untuk membedakan objek-objek dari kelas-kelas yang berbeda. Sebagai contoh untuk para ahli Biologi, model deskriptif yang meringkas data. Pemodelan Prediktif. Model klasifikasi juga dapat digunakan untuk memprediksi label kelas dari rekord yang tidak diketahui. Seperti pada Gambar 2 tampak sebuah model klasifikasi dapat dipandang sebagai kotak hitam yang secara otomatis memberikan sebuah label ketika dipresentasikan dengan himpunan atribut dari record yang tidak diketahui. Attribut set (x) Input Classification model Output Class label (y) Gambar 2. Klasifikasi sebagai pemetaan sebuah himpunan atribut input x ke dalam label kelasnya

23 Beberapa teknik klasifikasi yang digunakan adalah decision tree classifier, rule-based classifier, neural-network, support vector machine, dan naive Bayes classifier. Setiap teknik menggunakan algoritme pembelajaran untuk mengidentifikasi model yang memberikan hubungan yang paling sesuai antara himpunan atribut dan label kelas dari data input. Pendekatan umum yang digunakan dalam masalah klasifikasi adalah, pertama, training set berisi record yang mempunyai label kelas yang diketahui haruslah tersedia. Training set digunakan untuk membangun model klasifikasi, yang kemudian diaplikasikan ke test set, yang berisi record-record dengan label kelas yang tidak diketahui. Decision Tree (Pohon Keputusan) Apakah yang dimaksud dengan decision tree? Decision tree (pohon keputusan) adalah sebuah diagram alir yang mirip dengan struktur pohon, di mana setiap internal node menotasikan atribut yang diuji, setiap cabangnya merepresentasikan hasil dari atribut tes tersebut, dan leaf node merepresentasikan kelas-kelas tertentu atau distribusi dari kelas-kelas (Han & Kamber, 2001). Klasifier pohon keputusan merupakan teknik klasifikasi yang sederhana yang banyak digunakan. Bagian ini membahas bagaimana pohon keputusan bekerja dan bagaimana pohon keputusan dibangun. Seringkali untuk mengklasifikasikan obyek, kita ajukan urutan pertanyaan sebelum bisa kita tentukan kelompoknya. Jawaban pertanyaan pertama akan mempengaruhi pertanyaan berikutnya dan seterusnya. Dalam decision tree, pertanyaan pertama akan kita tanyakan pada simpul akar pada level 0. Jawaban dari pertanyaan ini dikemukakan dalam cabang-cabang. Jawaban dalam cabang akan disusul dengan pertanyaan kedua lewat simpul yang berikutnya pada level 1. Dengan memperhatikan decision tree dalam Gambar 3 akan nampak ada 4 level pertanyaan. Dalam setiap level ditanyakan nilai atribut melalui sebuah simpul. Jawaban dari pertanyaan itu dikemukakan lewat cabang-cabang. Langkah ini akan berakhir di suatu simpul jika pada simpul tersebut sudah ditemukan kelas atau jenis obyeknya. Kalau dalam satu tingkat suatu obyek sudah diketahui termasuk

24 dalam kelas tertentu, maka kita berhenti di level tersebut. Jika tidak, maka dilanjutkan dengan pertanyaan di level berikutnya hingga jelas ciri-cirinya dan jenis obyek dapat ditentukan (Santosa, 2007). warna Level 0 Ukuran? Bentuk? Ukuran? Level 1 Semangka Anggur Ukuran? Pisang Apel Rasa Level 2 Apel Level 3 Gambar 3. Contoh penggunaan metode Decision Tree untuk menentukan jenis buah Walaupun banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri kasus cocok untuk diterapkan decision tree (Santosa, 2007) : 1. Data dinyatakan dengan pasangan atribut dan nilainya. Misalnya atribut satu data adalah temperatur dan nilainya adalah dingin. Biasanya untuk satu data nilai dari satu atribut tidak terlalu banyak jenisnya. Dalam contoh atribut warna buah ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. 2. Label/output data biasanya bernilai diskrit. Output ini bisa bernilai ya atau tidak, sakit atau tidak sakit, diterima atau ditolak. Dalam beberapa kasus mungkin saja outputnya tidak hanya dua kelas, tetapi penerapan decision tree lebih banyak untuk kasus binary. 3. Data mempunyai missing value. Misalkan untuk beberapa data, nilai dari suatu atributnya tidak diketahui. Dalam keadaan seperti ini decision tree masih mampu memberi solusi yang baik.

25 Algoritme C5.0 Algoritme C5.0 adalah salah satu algoritme yang terdapat dalam klasifikasi data mining disamping algoritme CART, yang khususnya diterapkan pada teknik decision tree. C5.0 merupakan penyempurnaan algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritme C5.0, pemilihan atribut yang akan diproses menggunakan information gain. Secara heuristik akan dipilih atribut yang menghasilkan simpul yang paling bersih (purest). Kalau dalam cabang suatu decision tree anggotanya berasal dari satu kelas maka cabang ini disebut pure. Kriteria yang digunakan adalah information gain. Jadi dalam memilih atribut untuk memecah obyek dalam beberapa kelas harus kita pilih atribut yang menghasilkan information gain paling besar. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Ukuran ini digunakan untuk memilih atribut atau node pada pohon. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic, 2003): I m 1 pi log 2 ( pi ) i = 1 ( s s2,..., sm ) =, (2.1) S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah m dimana mendefinisikan kelas-kelas di dalamnya, C i (for i= 1,, m), s i adalah jumlah sampel pada S dalam class C i. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan menggunakan aturan seperti di atas (2.1). Dimana p i adalah proporsi kelas dalam output seperti pada kelas C i dan diestimasikan dengan s i /s. Atribut A memiliki nilai tertentu {a 1, a 2,, a v }. Atribut A dapat digunakan pada partisi S ke dalam v subset, {S 1, S 2,, S v }, dimana S j berisi sample pada S yang bernilai a j pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split), maka subset ini akan berhubungan pada cabang dari node himpunan S. S ij adalah jumlah sample pada class C i dalam sebuah subset S j. Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula,

26 y s1 j smj E ( A) = I( s1 j,... smj) (2.2) s j= 1 s1 j smj adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, s maka untuk mendapatkan nilai gain, selanjutnya digunakan formula Gain(A)=I(s 1,s 2,...,s m ) E(A) (2.3) C5.0 memiliki fitur penting yang membuat algoritme ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya dan mengurangi kelemahan yang ada pada algoritme decision tree sebelumnya. Fitur tersebut adalah (Quinlan, 2004) : 1. C5.0 telah dirancang untuk dapat menganalisis basis data subtansial yang berisi puluhan sampai ratusan record dan satuan hingga ratusan field numerik dan nominal. 2. untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan pohon keputusan dan sekumpulan aturan IF-then yang lebih mudah untuk dimengerti dibandingkan neural network. 3. C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi tentang statistik atau machine learning. K-Nearest Neighbor Algorithm Seperti halnya decision tree, K-Nearest Neighbor sangat sering digunakan dalam klasifikasi dengan tujuan dari algoritme ini adalah untuk mengklasifikasi objek baru berdasarkan atribut dan training samples (Larose, 2002 ). Algoritme k-nearest neighbor (k-nn atau KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Teknik ini sangat sederhana dan mudah diimplementasikan. Mirip dengan teknik klastering, pengelompokkan suatu data baru berdasarkan jarak data baru itu ke beberapa data/tetangga

27 (neighbor) terdekat. Dalam hal ini jumlah data/tetangga terdekat ditentukan oleh user yang dinyatakan dengan k. Misalkan ditentukan k=5, maka setiap data testing dihitung jaraknya terhadap data training dan dipilih 5 data training yang jaraknya paling dekat ke data testing. Lalu periksa output atau labelnya masing-masing, kemudian tentukan output mana yang frekuensinya paling banyak. Lalu masukkan suatu data testing ke kelompok dengan output paling banyak. Misalkan dalam kasus klasifikasi dengan 3 kelas, lima data tadi terbagi atas tiga data dengan output kelas 1, satu data dengan output kelas 2 dan satu data dengan output kelas 3, maka dapat disimpulkan bahwa output dengan label kelas 1 adalah yang paling banyak. Maka data baru tadi dapat dikelompokkan ke dalam kelas 1. Prosedur ini dilakukan untuk semua data testing (Santosa, 2007). Gambar 4 berikut ini adalah bentuk representasi K-NN dengan 1, 2 dan 3 tetangga data terhadap data baru x (Pramudiono, 2003) x x x (a)1-nearest neighbor (b)2-nearest neighbor (c)3-nearest neighbor Gambar 4. Ilustrasi 1-, 2-, 3-nearest neighbor terhadap data baru (x) Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training (x) dan titik pada data testing (y) maka digunakan rumus Euclidean, d ( x, y) = ( xi yi) 2 n i = 1 (2.4) dengan d adalah jarak antara titik pada data training x dan titik data testing y yang akan diklasifikasi, dimana x=x 1,x 2,,x i dan y=y 1,y 2,,y i dan I merepresentasikan nilai atribut serta n merupakan dimensi atribut (Han & Kamber, 2001). Sebagai ilustrasi, pada Tabel 1 berikut ini disajikan contoh penerapan rumus Euclidean, pada empat data klasifikasi kualitas baik dan tidak baik sebuah kertas tisu yang dinilai berdasarkan daya tahan kertas tersebut dan fungsinya. Sebanyak tiga data yang sudah terklasifikasi yaitu data no 1,2, dan 3

28 masing-masing data dihitung jaraknya ke data no 4 untuk mendapatkan kelas yang sesuai bagi data no 4 maka k=1 (Teknomo, 2006). Tabel 1. Tabel klasifikasi kualitas baik atau tidak baik sebuah kertas tisu No Fungsi Daya Tahan Klasifikasi Tidak baik Tidak baik Baik 4 1 4? Berikut ini disajikan pula perhitungan yang dilakukan terhadap tiga data yang sudah terklasifikasi dengan data yang belum terklasifikasi pada Tabel 1 di atas. Jarak data no satu ke data no empat: d 1,4 = (7 1) + (7 4) = = 45 = 6.07 Jarak data no dua ke data no empat: d 2,4 = (7 1) + (4 + 4) = = 36 = 6 Jarak data no tiga ke data no empat: d 3, 4 = (3 1) + (4 + 4) = = 4 = 2 Dari hasil perhitungan di atas diperoleh jarak antara data no tiga dan data no empat adalah jarak yang terdekat maka kelas data no empat adalah baik. Teknik ini akan diujicobakan terhadap dataset akademik yang belum terklasifikasi atau data yang belum dikenal, untuk menemukan kelas yang sesuai dengan berdasarkan pada data tetangga terdekatnya yang sudah terklasifikasi. Tingkat ketepatan klasifikasi terhadap data dari kedua algoritma yang digunakan menjadi titik fokus analisa dalam penelitian. Membangun Model Prediksi Secara umum, proses dasar dalam membangun model prediksi adalah sama, terlepas dari teknik data mining yang akan digunakan. Keberhasilan dalam membangun model lebih banyak tergantung pada proses bukan pada teknik yang

29 digunakan, dan proses tersebut sangat tergantung pada data yang digunakan untuk menghasilkan model. Hal ini terkait dengan tahapan praproses data dalam data mining yaitu pembersihan data (data cleaning) yang harus dikerjakan sebelum melakukan tahap pengolahan data dengan tujuan membersihkan data yang akan diolah dari redudancy dan missing value. Tantangan utama dalam membangun model prediksi adalah mengumpulkan data awal yang cukup banyak jumlahnya. Data preclassified, hasilnya sudah diketahui, dan oleh karena itu data preclassified digunakan untuk melatih model, sehingga disebut model set. Data dibagi secara acak menggunakan teknik 3-fold cross validation ke dalam kelompok data training dan data testing. Masingmasing kelompok akan diujicobakan ke dalam kedua algoritma yang dipakai. Alat ukur dalam evaluasi Evaluasi model merupakan tahapan yang juga dikerjakan dalam penelitian dengan tujuan untuk memperoleh informasi yang terdapat pada hasil klasifikasi terhadap kedua algoritma yang digunakan. Dalam weka classifier hasil klasifikasi yang diperoleh disertakan dengan beberapa alat ukur yang tersedia di dalamnya, diantaranya adalah sebagai berikut : - Confusion matrix Dalam penelitian ini dipilih alat ukur evaluasi berupa confusion matrix yang terdapat pada weka classifier dengan tujuan untuk mempermudah dalam menganilisis performa algoritma karena confusion matrix memberikan informasi dalam bentuk angka sehingga dapat dihitung rasio keberhasilan klasifikasi. Confusion matrix adalah salah satu alat ukur berbentuk matrik 2x2 yang digunakan untuk mendapatkan jumlah ketepatan klasifikasi dataset terhadap kelas aktif dan tidak aktif pada kedua algoritma yang dipakai. Dalam kasus dengan dua klasifikasi data keluaran seperti contoh : ya dan tidak, pinjam atau tidak pinjam, atau contoh lainnya, tiap kelas yang diprediksi memiliki empat kemungkinan keluaran yang berbeda, yaitu true positives (TP) dan true negatives (TN) menunjukkan ketepatan klasifikasi. Jika prediksi keluaran bernilai positif sedangkan nilai aslinya adalah negatif

30 maka disebut dengan false positive (FP) dan jika prediksi keluaran bernilai negatif sedangkan nilai aslinya adalah positif maka disebut dengan false negative (FN). Berikut ini pada Tabel 2 disajikan bentuk confusion matrix seperti yang telah dijelaskan sebelumnya. Tabel 2. Perbedaan hasil yang diperoleh dari dua kelas prediksi Actual Class Yes No Predicted Class Yes True Positive False Positive No False Negative True Negative Beberapa kegiatan yang dapat dilakukan dengan menggunakan data hasil klasifikasi dalam confusion matrix diantaranya : - menghitung nilai rata-rata keberhasilan klasifikasi (overall success rate) ke dalam kelas yang sesuai dengan cara membagi jumlah data yang terklasifikasi dengan benar, dengan seluruh data yang diklasifikasi. - Selain itu dilakukan pula penghitungan persentase kelas positif ( true positive & false positive ) yang diperoleh dalam klasifikasi, yang disebut dengan lift chart. - Lift chart terkait erat dengan sebuah tehnik dalam mengevaluasi skema data mining yang dikenal dengan ROC (receiver operating characteristic) yang berfungsi mengekspresikan persentase jumlah proporsi positif dan negatif yang diperoleh. - Recall precision berfungsi menghitung persentase false positive dan false negative untuk menemukan informasi di dalamnya. Review Riset yang Relevan Moertini (2003) melakukan penelitian menggunakan algoritma C4.5 yang merupakan algoritma pendahulu dari C5.0. Hasil dari penelitian tersebut menyebutkan bahwa algoritma C4.5 memiliki performa yang baik dalam

31 mengkonstruksi sebuah pohon keputusan dan menghasilkan aturan-aturan yang dapat digunakan pada waktu yang akan datang. Salah satu kesimpulan yang diperoleh mempertegas alasan bahwa algoritma ini digunakan untuk klasifikasi data yang memiliki atribut-atribut numerik dan kategorikal. Sufandi (2007) melakukan penelitian untuk memprediksi kemajuan belajar mahasiswa aktif yaitu dengan melakukan pengujian menggunakan data dengan kategori mahasiswa aktif dengan metode Neural Network Multi Layer Perceptron namun tidak selesai dikejakan karena hasil klasifikasi mahasiswa aktif & tidak aktif tidak diperoleh dengan jelas.

32 DATA DAN METODE Data Sumber data yang digunakan dalam penelitian berasal dari data mahasiswa tahun angkatan 2000 sampai dengan 2005, dan dari tiga program studi yaitu S1- Sistem Informasi, S1-Teknik Informatika, serta D3-Manajemen Informatika. Beberapa jenis data diperoleh dari sistem yang berjalan namun hanya data identitas mahasiswa dan data IPK mahasiswa saja yang digunakan untuk penelitian, dikarenakan informasi yang terkandung di dalamnya sudah mewakili informasi yang dibutuhkan untuk dijadikan indikator penentu dalam klasifikasi data keluaran yang diinginkan. Jumlah data yang diperoleh adalah sebanyak record data yang berasal dari dataset identitas mahasiswa dan record data yang berasal dari dataset IPK. Dataset mahasiswa terdiri dari 64 atribut yang menjelaskan identitas diri mahasiswa dan informasi tentang keadaan mahasiswa yang bersangkutan saat mendaftarkan diri pada UPNVJ. Atribut-atribut tersebut diantaranya adalah nama, tanggal lahir, alamat, asal sekolah, nama orangtua, pekerjaan orangtua, gelombang daftar, no ujian, dan no registrasi pokok (NRP). Sedangkan dataset IPK hanya terdiri dari 7 atribut, dimana memberikan informasi mengenai prestasi akademik dan beban studi yang sudah diambil mahasiswa yang bersangkutan. Atributatribut tersebut adalah NRP, tahun akademik, semester, sks semester, IP semester, sks kumulatif, dan IP Kumulatif. Keterangan atribut pada dataset mahasiswa dan contoh datanya dapat dilihat pada lampiran yang terdapat dalam tesis ini. Dan untuk keterangan atribut pada dataset IPK dan contoh datanya dapat dilihat pula pada lampiran yang terdapat dalam tesis ini. Seluruh atribut pada kedua dataset di atas selanjutnya akan diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang relevan, tidak missing value, dan tidak redundant, dimana ketiga syarat tersebut merupakan syarat awal yang harus dikerjakan dalam data mining sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap mining data. Dikatakan missing value jika atribut-

33 atribut dalam dataset tidak berisi nilai atau kosong, sementara itu data dikatakan redundant jika dalam satu dataset yang sama terdapat lebih dari satu record yang berisi nilai yang sama. Relevan tidaknya sebuah atribut dapat ditentukan oleh keluaran yang ingin dihasilkan, misalnya untuk mengetahui bahwa seorang mahasiswa tidak aktif, tidak relevan jika indikator yang dilihat adalah agamanya. Contoh dataset dengan atribut yang missing value dapat dilihat pada Tabel 3 di bawah ini. Tabel 3. Contoh instances dengan missing value pada sebagian atributnya NAMA TGLHR ALMHS KDPOS MAYA YULIETNA 7/19/1982 PERUM. I KARAWACI RACHMAD NUR RIFAI 10/23/ MUHAMNAD ICHSAN KURNIA 8/31/1983 JL.MENTENG ATIKAH 4/10/1985 KEL. BAKTI JAYA WAHMI ARDIANSYAH 10/31/ MULTARINI CHANDRA SEVILLA 1/7/1983 GG.ALI ANDONG URUPAN MAGDALENA 1/10/ OVIRINA PUTRI WARDHANI 10/31/1984 BLOK AA XI, RENI JAYA HARDIANTO 1/26/ Pada tabel di atas terlihat bahwa record ke 1, 2, 5, 6, 8 dan 10, beberapa atributnya tidak berisi data atau kosong. Maka keadaan seperti diatas dikatakan bahwa atribut tersebut missing value. Selain atribut yang missing value, disajikan pula contoh dataset dengan data yang redundant seperti pada Tabel 4 di bawah ini. Tabel 4. Contoh redundancy data NAMA TGLHR ALMHS KOTA NMSLA ALMSLA Widya sitha P 11/16/1981 komp. Kehakiman Tangerang SMU 7 Tangerang M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK Andri suhardi 1/18/1982 Jak-Pus SMK Bahariwan 45-3 Jak-Ut Bondan andira 9/15/1981 Cibubur Jak-Tim STM TELKOM Jak-bar M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK Siti komalasari 9/24/1983 Jak-Sel SMU Darul Ma arif Jak-Sel

34 Record 2 dan record 5 pada tabel di atas berisi data yang sama, maka dikatakan record tersebut redundant. Metode Kerangka Pemikiran Sebagai langkah awal maka perlu adanya identifikasi masalah berkenaan dengan masalah yang di bahas. Kemudian dilakukan pengumpulan data berkaitan dengan permasalahan yang akan diteliti dan studi literatur untuk menentukan metode data mining untuk pengolahan data dan penentuan alternatif solusi. Selanjutnya dilakukan pengumpulan data untuk menentukan parameter-parameter yang menyebabkan berkurangnya jumlah mahasiswa FIK-UPNVJ dalam hampir tiap semesternya. Kerangka pemikiran dalam pengembangan model sistem pada penelitian ini dapat digambarkan dalam suatu diagram alir penelitian seperti pada Gambar 5. Mulai Identifikasi Masalah Pengumpulan Data Studi Literatur Data Praproses Feature Selection Dataset C5.0 KNN Selesai Hasil Evaluasi Gambar 5. Kerangka pemikiran penelitian

35 Dengan demikian diharapkan dapat diperoleh gambaran yang lengkap dan menyeluruh tentang tahap-tahap penelitian yang akan dilaksanakan serta keterkaitan antara satu tahap dengan tahap selanjutnya. 1. Identifikasi Masalah Menggali permasalahan yang ditemukan pada obyek yang di teliti guna mencari alternatif solusi yang terkait dengan permasalahan, diantaranya, a. Jumlah mahasiswa tidak aktif yang bertambah. b. Karakteristik mahasiswa tidak aktif yang tidak tersedia. 2. Studi Literatur Kegiatan mempelajari dan memahami fungsi-fungsi data mining, teknik-teknik dan algoritma yang digunakan dalam data mining. Adapun literatur yang digunakan berasal dari buku-buku data mining dan jurnal penelitian bidang data mining untuk teknik klasifikasi dengan algoritma C5.0 dan K-Nearest Neighbor. Penelitian yang dilakukan sebelumnya oleh Moertini, Beikzadeh dan Phon menggunakan C5.0 & KNN menunjukkan bahwa kedua algoritma ini dapat melakukan klasifikasi data di atas 80%. 3. Pengumpulan data Tahap pengumpulan data untuk mendapatkan sejumlah informasi yang dibutuhkan dengan mengambil data akademik mahasiswa pada Sistem Informasi Akademik FIK-UPNVJ. Maka diperolehlah dataset mahasiswa dan dataset IPK untuk digunakan dalam penelitian karena kedua dataset ini sudah mewakili informasi yang dibutuhkan. 4. Data Praproses Adalah tahap seleksi data bertujuan untuk mendapatkan data yang bersih dan siap untuk digunakan dalam penelitian. Tahapan yang dikerjakan adalah dengan melakukan perubahan terhadap beberapa tipe data pada atribut dataset dengan tujuan untuk mempermudah pemahaman terhadap isi record, juga melakukan seleksi dengan memperhatikan konsistensi data, missing value, dan redundant pada data. Beberapa atribut yang bertipe numeric diubah menjadi string, dan atribut Tgllhr yang

36 bertipe data date menjadi numeric. Untuk atribut Tgllhr selanjutnya berubah nama menjadi Usia. Atribut Anakke dan Dari digabung dengan nama Anakke dan tipe data string. Sebanyak 6 atribut terpilih yang berasal dari 64 atribut dataset mahasiswa dan 7 atribut dataset IPK. 5. Feature Selection Adalah tahapan seleksi atribut, dimana atribut-atribut yang diperoleh dari tahap praproses selanjutnya diseleksi lagi menggunakan formula Information Gain yang menghasilkan nilai Gain dari seluruh atribut dalam dataset yang mana formula ini terdapat dalam algoritma C5.0 dengan fungsinya untuk mendapatkan atribut yang berfungsi sebagai root atau akar pada decision tree, node dan leaf. 6. Teknik Data Mining Tahap pengolahan data dengan memfungsikan algoritma dan teknik yang telah ditentukan sebelumnya, yaitu klasifikasi menggunakan algoritma C5.0 dan KNN. Algoritma C5.0 bekerja untuk menghasilkan aturan-aturan klasifikasi dalam bentuk pohon keputusan (decision tree) yang selanjutnya aturan-aturan tersebut akan digunakan pada dataset yang baru. KNN berfungsi sebagai algoritma pembanding yang akan melakukan prediksi klasifikasi data dengan menentukan sejumlah data tetangga yang sudah terklasifikasi. 7. Dataset Tahap seleksi atribut menghasilkan himpunan data akhir yang digunakan untuk tahap klasifikasi data berupa dataset akademik. Dataset akademik adalah data yang sudah tidak lagi mengandung data dengan missing value dan redundant. Dengan menggunakan teknik 3-fold cross validation, data dibagi menjadi dua bagian sebagai data training dan satu bagian sebagai data testing, yang mana training dan testing dilakukan sebanyak 3 kali. 8. Hasil Klasifikasi dengan algoritma C5.0 memberikan hasil berupa aturan-aturan klasifikasi dalam bentuk if-then dan dalam bentuk pohon

37 keputusan (decision tree) serta menunjukkan karakteristik data yang diklasifikasi, sedangkan KNN hanya memberikan hasil berupa jumlah ketepatan dan ketidaktepatan data yang diklasifikasi namun tidak dapat menunjukkan karakterisitk dari data yang di klasifikasi. Sehingga dapat dikatakan bahwa telah diperoleh sebanyak dua model yang berasal dari kedua penerapan algoritma yang dipilih. 9. Evaluasi Analisis terhadap hasil klasifikasi yang diperoleh dengan menggunakan kedua algoritma menunjukkan bahwa rata-rata lama waktu yang dibutuhkan sangat singkat yaitu 0.01 seconds. Dilakukan pula analisis dengan beberapa alat evaluasi yang lain dengan menggunakan tabel confusion matrix, yaitu hasil klasifikasi dengan proporsi positif dan negatif yang diperoleh akan dievaluasi sehingga diperoleh persentase kelas positif dalam lift chart, persentase jumlah proporsi positif dan negatif dalam ROC, dan nilai rata-rata keberhasilan klasifikasi ke dalam kelas yang sesuai dalam overall success rate. Tata Laksana Kegiatan yang dilakukan dalam penelitian ini diantaranya adalah pembentukan model klasifikasi untuk memperoleh aturan-aturan yang dibutuhkan. Proses dimulai dengan pendefinisian masalah serta mempelajari bisnis proses dari sistem yang sedang berjalan. Pada tahap selanjutnya melakukan uji coba terhadap dataset baru yang belum terklasifikasi dengan menggunakan aturan-aturan yang diperoleh dari tahap sebelumnya. Metodologi data mining didasarkan pada tiga tahapan yang dilakukan untuk mendeteksi mahasiswa yang berpotensi untuk tidak aktif pada waktu yang akan datang dengan memperhatikan karakteristik data dalam dataset. Ketiga tahapan tersebut adalah a) seleksi atribut dataset b) menangani data yang tidak konsisten, redundant dan missing value c) rule mining dan klasifikasi.

38 Pada tahap pertama, seleksi atribut dalam dataset untuk mendapatkan atribut dengan record yang relevan terhadap keluaran yang diinginkan. Pada tahap kedua, pemrosesan awal data mahasiswa dilakukan untuk menghapus data atau record yang tidak konsisten, redundant dan missing value dan mengekstrak data yang akan digunakan untuk mengelompokkan mahasiswa ke dalam klas aktif dan tidak aktif. Pada tahap ketiga, algoritme decision tree classifier digunakan untuk menghasilkan aturan-aturan yang berguna untuk mendeteksi mahasiswa yang tidak aktif. Waktu dan Tempat Penelitian Penelitian dilaksanakan mulai bulan Juli 2006 hingga Januari 2007, dan bertempat di Laboratorium Komputer Pascasarjana Ilmu Komputer IPB serta Laboratorium Komputer FIK-UPNVJ.

39 HASIL DAN PEMBAHASAN Praproses Data Tahap pertama yang dilakukan adalah menyeleksi seluruh data pada kedua dataset dengan memperhatikan keberadaan setiap record data pada keduanya. Jika terdapat record tertentu pada salah satu dataset namun record tersebut tidak terdapat pada dataset yang lain, maka record yang dimaksud akan dihapus karena record tersebut dinilai tidak konsisten. Pada Tabel 5 dan Tabel 6 di bawah ini berisi contoh ketidak-konsistenan data pada dataset mahasiswa dan dataset IPK. Tabel 5. Contoh data pada dataset mahasiswa NRP NAMA TGLHR ALMHS1 KOTA NMSLA Ikrar Achmad B 10/28/1981 Komp. Kopassus Depok SMU 105 Jkt Cindy Rahmawati 7/23/1982 Delima I Blok K-3 Depok SMUN Dyah Andri M 1/4/1981 Sukatani Cimanggis Depok SMU Islam PB.Sudirman Siti Maesaroh 10/19/1981 Jakarta SMUN 97 Ciganjur Yanuar Tri P 1/8/1982 Pinang Kp. Baru Jakarta SMU Borobudur Fransiskus Ony F 2/23/1983 Laki Cimanggis Bogor SMUN I Cimanggis Tabel 6. Contoh data pada dataset IPK I_NRP I_THAK I_SMT I_IPS I_JSKSS I_IPK I_JSKSK Record dengan NRP= yang terdapat pada dataset mahasiswa tidak terdapat pada dataset IPK, maka record tersebut dihapus karena dinilai tidak konsisten keberadaan informasinya. Yang dilakukan selanjutnya adalah seleksi terhadap atribut dataset, dimana diketahui sebanyak 64 atribut terdapat pada dataset mahasiswa dan 7 atribut pada dataset IPK. Seleksi ini dilakukan untuk mendapatkan atribut-atribut

40 dengan nilai yang relevan terhadap status keaktifan studi mahasiswa sehingga untuk selanjutnya atribut-atribut yang dinilai berisi nilai yang tidak relevan tidak lagi disertakan dalam dataset. Di bawah ini disajikan contoh instances dengan beberapa atribut pada dataset mahasiswa seperti tampak pada Tabel 7. Tabel 7. Contoh instances dengan beberapa atribut pada dataset mahasiswa NoForm NoUjiGel NoUji NRP Nama PilJur1 PilJur2 TglDft TryOut WIDYA SIST /30/2001 FALSE M.ARYA NUG /3/2001 TRUE ANDRI SUHA /3/2001 FALSE BONDAN AND /4/2001 FALSE SITI KOMAL /5/2001 FALSE ASNIDA RAT /6/2001 TRUE ACHMAD DJO 502 4/10/ EDO TIAS R 511 4/10/ IKA MARYAN 512 4/10/2001 FALSE ANGELA RUS /12/2001 FALSE NoForm, NoUjiGel, NoUji, NRP, Nama adalah atribut-atribut yang tidak digunakan dalam penelitian karena menjadi tidak relevan jika seorang mahasiswa berpotensi tidak aktif pada waktu yang akan datang ditentukan oleh atribut-atribut tersebut. PilJur1, PilJur2, TglDft dan TryOut dapat dipilih sebagai atribut dalam penelitian, namun tidak terdapat keterangan atau penjelasan yang berkaitan dengan atribut-atribut tersebut baik berupa nilai hasil ujian masuk, lama waktu yang disediakan untuk mendaftar pada setiap gelombang daftar, dan lembaga yang melaksanakan tryout serta kapan dilaksanakannya, maka atribut-atribut yang tertera pada tabel di atas tidak dipilih untuk digunakan dalam penelitian. Pada Tabel 8 di bawah ini, disajikan contoh instances dengan atribut pada dataset IPK. Tabel 8. Contoh instances dengan atribut pada dataset IPK I_NRP I_THAK I_SMT I_IPS I_JSKSS I_IPK I_JSKSK

DATA DAN METODE Data

DATA DAN METODE Data DATA DAN METODE Data Sumber data yang digunakan dalam penelitian berasal dari data mahasiswa tahun angkatan 2000 sampai dengan 2005, dan dari tiga program studi yaitu S1- Sistem Informasi, S1-Teknik Informatika,

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN HASIL DAN PEMBAHASAN Praproses Data Tahap pertama yang dilakukan adalah menyeleksi seluruh data pada kedua dataset dengan memperhatikan keberadaan setiap record data pada keduanya. Jika terdapat record

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG Andri 1), Yesi Novaria Kunang 2), Sri Murniati 3) 1,2,3) Jurusan Sistem Informasi Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Penambangan Data (Data Mining) Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree

Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree Scientific Journal of Informatics Vol. 3, No. 1, Mei 2016 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 6 BAB 2 LANDASAN TEORI Pada tinjauan pustaka ini akan dibahas tentang konsep dasar dan teori-teori yang mendukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Basis Data (Database) Database

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU

A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU A ALISIS KARAKTERISTIK MAHASISWA O AKTIF U IVERSITAS TERBUKA DE GA PE DEKATA CLUSTER E SEMBLE DYAH PAMI TA RAHAYU SEKOLAH PASCASARJA A I STITUT PERTA IA BOGOR BOGOR 2009 PER YATAA ME GE AI TESIS DA SUMBER

Lebih terperinci

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO

PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION HERWANTO SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 1 PERNYATAAN MENGENAI

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1 Dasar Penelitian Penelitian ini dilakukan berdasarkan rumusan masalah yang telah dijabarkan pada bab sebelumnya yaitu untuk mengklasifikasikan kelayakan kredit calon debitur

Lebih terperinci

Versi Online tersedia di : JURNAL TECH-E (Online)

Versi Online tersedia di :  JURNAL TECH-E (Online) JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA IMPLEMENTATION OF DATA MINING WITH C4.5 ALGORITHM TO PREDICT STUDENT ACHIEVEMENT Oleh: SITI MUHIMATUL KHOIROH NPM

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES SKRIPSI Diajukan Kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta Sebagai

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA

SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA SOLUSI PREDIKSI MAHASISWA DROP OUT PADA PROGRAM STUDI SISTEM INFORMASI FAKULTAS ILMU KOMPUTER UNIVERSITAS BINA DARMA Ade Putra Fakultas Vokasi, Program Studi Komputerisasi Akuntansi Universitas Bina Darma

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari 2017 50 APLIKASI KLASIFIKASI ALGORITMA C4.5 (STUDI KASUS MASA STUDI MAHASISWA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS MULAWARMAN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Decision Tree Definisi Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Sebelum melakukan penelitian adapun penulis mencari penelitian penelitian yang memungkinkan terkait dengan penelitian antara lain : 1. Analisis Kinerja Data

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout Data mining

BAB 1 PENDAHULUAN 1.1 Latar Belakang Dropout  Data mining BAB 1 PENDAHULUAN Bab ini membahas mengenai latar belakang masalah, identifikasi masalah, ruang lingkup tugas akhir, maksud dan tujuan tugas akhir, metode penelitian tugas akhir, dan sistematika penulisan

Lebih terperinci

PERBANDINGAN DECISION TREE

PERBANDINGAN DECISION TREE 84 2015 Jurnal Krea-TIF Vol: 03 No: 02 PERBANDINGAN DECISION TREE PADA ALGORITMA C 4.5 DAN ID3 DALAM PENGKLASIFIKASIAN INDEKS PRESTASI MAHASISWA (Studi Kasus: Fasilkom Universitas Singaperbangsa Karawang)

Lebih terperinci

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAÏVE BAYES DALAM MEMPREDIKSI PENYAKIT JANTUNG TESIS IVAN JAYA 117038072 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan adalah salah satu aspek terpenting bagi kehidupan manusia, yang dapat mempengaruhi manusia itu sendiri, juga menjadi faktor pendukung dalam setiap sektor

Lebih terperinci

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret

Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret Majalah Ilmiah UPI YPTK, Volume 20, No. 1, Maret 2013 12 PENERAPAN ALGORITMA C 4.5 DALAM MEMPEROLEH DECISION TREE UNTUK MEMPREDIKSI PENENTUAN RESIKO KREDIT PADA BANK BPR BUKITTANDANG MANDIRI PADANG MENGGUNAKAN

Lebih terperinci

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY

IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY IMPLEMENTASI SCALABLE VECTOR GRAPHICS (SVG) TERHADAP APLIKASI e-learning STUDI KASUS UNIVERSITAS TERBUKA (UT) RUSTAM EFFENDY SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 PERNYATAAN MENGENAI

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini membahas tentang landasan teori yang medukung pembahasan yang berhubungan dengan sistem yang akan dibuat. 2.1 Data Mining Data mining adalah kegiatan menemukan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pendahuluan Didalam bab ini menceritakan semua teori-teori yang digunakan didalam proses algoritma decision tree, algoritma Random tree dan Random Florest serta teoriteori dan

Lebih terperinci

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien 1 Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien Ketut Wisnu Antara 1, Gede Thadeo Angga Kusuma 2 Jurusan Pendidikan Teknik Informatika Universitas Pendidikan Ganesha

Lebih terperinci

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

POHON KEPUTUSAN DENGAN ALGORITMA C4.5 POHON KEPUTUSAN DENGAN ALGORITMA C4.5 1. Pengantar Algoritma C4.5 Klasifikasi merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang berharga dari data yang berukuran relatif

Lebih terperinci

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Jurnal Teknik Komputer Unikom Komputika Volume 3, No.2-2014 TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD Selvia Lorena Br Ginting 1), Wendi Zarman

Lebih terperinci

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi IJCCS, Vol.x, No.x, July xxxx, pp. 1~5 ISSN: 1978-1520 39 Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi Irwan

Lebih terperinci

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN: KAJIAN KOMPARASI ALGORITMA C4.5, NAÏVE BAYES DAN NEURAL NETWORK DALAM PEMILIHAN PENERIMA BEASISWA (Studi Kasus pada SMA Muhammadiyah 4 Jakarta ) Ulfa Pauziah Program Studi Teknik Informatika, Universitas

Lebih terperinci

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK

ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK ANALISIS PENERAPAN TEKNIK DATAMINING DALAM PENGIMPLEMENTASIAN DAN PENGEMBANGAN MODEL ACTIVE LEARNING DENGAN METODE KELOMPOK Dody Herdiana, S.T., M. Kom. Dosen PNS DPK pada Program Studi Teknik Informatika

Lebih terperinci

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL)

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (STUDI KASUS : HOCKEY KABUPATEN KENDAL) Budi Utami 1, Yuniarsi Rahayu, 2 1,2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer,

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Udara Udara adalah suatu campuran gas yang terdapat pada lapisan atmosfir yang mengelilingi bumi. Udara juga merupakan atmosfer yang berada di sekeliling bumi yang memiliki fungsi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining

Lebih terperinci

Student Clustering Based on Academic Using K-Means Algoritms

Student Clustering Based on Academic Using K-Means Algoritms Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata marlon.leong@gmail.com

Lebih terperinci

BAB 3 METODE PENELITIAN

BAB 3 METODE PENELITIAN BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi

Lebih terperinci

BAB 1 PENDAHULUAN 1-1

BAB 1 PENDAHULUAN 1-1 BAB 1 PENDAHULUAN Bab ini menguraikan penjelasan umum mengenai tugas akhir yang dikerjakan. Penjelasan tersebut meliputi latar belakang masalah, tujuan tugas akhir, lingkup tugas akhir, metodologi yang

Lebih terperinci

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE Didik Setiyadi, Ali Nurdin DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE 1 DIDIK SETIYADI, 2 ALI NURDIN 1,2 Sekolah Tinggi Manajemen Informatika dan Komputer Eresha Program Studi : Teknik Informatika

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO) IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO) Andika Elok Amalia 1), Muhammad Zidny Naf an 2) 1), 2) Program Studi Informatika ST3 Telkom Jl D.I.

Lebih terperinci

PERANCANGAN PROTOKOL AKTA NOTARIS DIGITAL INAYATULLAH

PERANCANGAN PROTOKOL AKTA NOTARIS DIGITAL INAYATULLAH PERANCANGAN PROTOKOL AKTA NOTARIS DIGITAL INAYATULLAH SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2007 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa Tesis Perancangan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Studi Sebelum menyusun tugas akhir ini dilakukan tinjauan pustaka terlebih dahulu terhadap penelitian-penelitian terkait sebagai bahan referensi. Penelitian tentang

Lebih terperinci

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik Imam Sutoyo AMIK BSI JAKARTA e-mail: imam.ity@bsi.ac.id Abstrak - Klasifikasi peserta didik merupakan kegiatan yang sangat penting

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. BAB 3 ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. A. Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan

Lebih terperinci

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree

Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree Disusun oleh : Budanis Dwi Meilani Achmad dan Fauzi Slamat Jurusan Sistem Informasi Fakultas Teknologi Informasi.

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING

PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING PENGKLASIFIKASIAN MINAT BELAJAR MAHASISWA DENGAN MODEL DATA MINING MENGGUNANAKAN METODE CLUSTERING Marlindawati 1) Andri 2) 1) Manajemen Informatika Universitas Bina Darma Jl. Ahmad Yani No. 3, Palembang

Lebih terperinci

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG

MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG MODEL PERAMALAN HARGA SAHAM DENGAN JARINGAN SYARAF TIRUAN PROPAGASI BALIK TRIANA ENDANG SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini

Lebih terperinci

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE JURNA TEKNIK, (2014) 1-6 1 AIKASI DATA MINING UNTUK MEMREDIKSI ERFORMANSI MAHASISWA DENGAN METODE KASIFIKASI DECISION TREE Irfan Fahmi, Budi Santosa Jurusan Teknik Industri, Fakultas Teknologi Industri,

Lebih terperinci

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel BAB III PEMBAHASAN A. Sumber Data Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel peminjam dengan jaminan sertifikat tanah, tunjuk, dan Buku Pemilik Kendaraan Bermotor (BPKB) serta

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR UNTUK PREDIKSI WAKTU KELULUSAN MAHASISWA Irwan Budiman 1, Dodon Turianto Nugrahadi 2, Radityo Adi Nugroho 3 Universitas Lambung Mangkurat 1,2,3 irwan.budiman@unlam.ac.id

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya pembangunan gedung sekolah maupun perguruan tinggi menjadi tanda berkembangnya pendidikan. Jumlah pendaftar

Lebih terperinci

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Sistem

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU

PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro

Lebih terperinci

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. Abstrak

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. Abstrak JURASIK (Jurn Riset Sistem Informasi & Teknik Informatika) ISSN 2527-5771 PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA Yuni Sara Luvia 1, Dedy Hartama

Lebih terperinci

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5 PENERAPAN DATA MINING UNTUK MENGANALISA JUMLAH PELANGGAN AKTIF DENGAN MENGGUNAKAN ALGORITMA C4.5 Annisak Izzaty Jamhur Universitas Putera Indonesia YPTK Padang e-mail: annisakizzaty@yahoo.com Abstract

Lebih terperinci

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION Hamsir Saleh Hamsir.saleh@gmail.com Fakultas Ilmu Komputer Universitas Ichsan Gorontalo Abstrak Memprediksi kebangkrutan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN Penelitian ini adalah penelitian eksperimen dengan langkah-langkah atau metode penelitian sebagai berikut: 1. Penentuan Masalah Penentuan masalah ini diperoleh dari studi literature

Lebih terperinci

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN

IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN 116 IMPLEMENTASI ALGORITMA C4.5 UNTUK MENENTUKAN PENERIMA BEASISWA DI STT HARAPAN MEDAN Rismayanti 1 1 Dosen Tetap Program Studi Teknik Informatika, Sekolah Tinggi Teknik Harapan Medan Jl. H.M Joni No.70

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI 2.1 Tinjauan Pustaka Penelitian ini menggunakan beberapa sumber pustaka yang berhubungan dengan kasus yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup

Lebih terperinci

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5

DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5 DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION TREE C4.5 DATA MINING UNTUK MENGANALISA PREDIKSI MAHASISWA BERPOTENSI NON-AKTIF MENGGUNAKAN METODE DECISION

Lebih terperinci

PENENTUAN PENERIMAAN SISWA BARU MENGGUNAKAN DECISION TREE

PENENTUAN PENERIMAAN SISWA BARU MENGGUNAKAN DECISION TREE PENENTUAN PENERIMAAN SISWA BARU MENGGUNAKAN DECISION TREE 1 Fitroh Rizky Muwardah, 2 Ricardus Anggi Pramunendar, M.Cs Program Studi Teknik Informatika S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro,

Lebih terperinci

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU

PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU Mardiani Jurusan Sistem Informasi, STMIK MDP Palembang Jln. Rajawali No.14 Palembang 30113 Telp. (0711) 376400, Faks.

Lebih terperinci

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING

MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING MODEL DATA MINING DALAM PENGKLASIFIKASIAN KETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN METODE CLUSTERING Marlindawati1), Andri2) 1), 2) Sistem Informasi UNIVERSITAS BINA DARMA Palembang Jl, Jend. A.Yani

Lebih terperinci

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa dengan Metode NAÏVE BAYES M. Ridwan Effendi Fakultas Komputer Jurusan Sistem Informasi Universitas Mohammad Husni Thamrin Jakarta Email :

Lebih terperinci

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI KUDSIATI

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI KUDSIATI PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI KUDSIATI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Seminar Nasional Aplikasi Teknologi Informasi 2012 (SNATI 2012) ISSN: 1907-5022 Yogyakarta, 15-16 Juni 2012 PENERAPAN KLASIFIKASI DENGAN ALGORITMA CART UNTUK PREDIKSI KULIAH BAGI MAHASISWA BARU Mardiani

Lebih terperinci

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Techno.COM, Vol. 15, No. 3, Agustus 2016: 241-245 PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI Didik Srianto 1, Edy Mulyanto 2 1,2 Teknik Informatika,

Lebih terperinci

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si

Oleh: Astrid Darmawan Pembimbing: Selvia Lorena Br. Ginting, M.T Wendi Zarman, M.Si PEMBUATAN APLIKASI DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD (Studi Kasus Data Akademik Jurusan Teknik Komputer-S1 Universitas Komputer Indonesia)

Lebih terperinci

Kerusakan Barang Jadi

Kerusakan Barang Jadi Penerapan Algoritma C4.5 pada Analisis Kerusakan Barang Jadi (Studi Kasus: PT Kayu Lapis Asli Murni) Ivan Oktana, Seng Hansun Program Studi Teknik Informatika, Universitas Multimedia Nusantara, Tangerang,

Lebih terperinci