BAB II LANDASAN TEORI

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

TINJAUAN PUSTAKA. Definisi Data Mining

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB I PENDAHULUAN Latar Belakang

Gambar 1.1 Proses Text Mining [7]

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II LANDASAN TEORI

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

BAB III METODE PENELITIAN

BAB IV PREPROCESSING DATA MINING

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB II LANDASAN TEORI

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

BAB III METODOLOGI PENELITIAN. Dataset

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

BAB I PENDAHULUAN 1.1 Latar Belakang

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB II TINJAUAN PUSTAKA

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB 3 METODE PENELITIAN

BAB II TINJAUAN PUSTAKA

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

IMPLEMENTASI TEKNIK DATA MINING UNTUK MEMPREDIKSI TINGKAT KELULUSAN MAHASISWA PADA UNIVERSITAS BINA DARMA PALEMBANG

Data Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining

BAB 2 TINJAUAN PUSTAKA

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PROSIDING ISSN:

BAB II LANDASAN TEORI

BAB 3 LANDASAN TEORI

CONTOH KASUS DATA MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

BAB III METODELOGI PENELITIAN

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

BAB II TINJAUAN PUSTAKA

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

BAB 2 TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. pengetahuan di dalam database. Data mining adalah proses yang menggunakan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB 2 LANDASAN TEORI

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

BAB I PENDAHULUAN.

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI DATA NASABAH BANK DALAM PENAWARAN DEPOSITO BERJANGKA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES

BAB 2 LANDASAN TEORI

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

BAB II LANDASAN TEORI

DAFTAR ISI Transformasi data... 47

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III ANALISIS DAN PENYELESAIAN MASALAH

DATA MINING. Pertemuan 2. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB IV GAMBARAN UMUM METODOLOGI DATA MINING

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

Data Mining Outline BAB I Pendahuluan. Proses Data Mining. Recap

Data Mining II Estimasi

BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI. yang akan diteliti. Pemanfaatan algoritma apriori sudah cukup banyak digunakan, antara lain

BAB I PENDAHULUAN I - 1

BAB III METODE PENELITIAN

BAB II LANDASAN TEORI

2. Tahapan Penelitian pemahaman merupakan awal proses penelitian

Penerapan Algoritma C4.5 Untuk Menentukan Kesesuaian Lensa Kontak dengan Mata Pasien

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

BAB III ANALISA DAN PERANCANGAN SISTEM

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB 2 TINJAUAN PUSTAKA

Sekip Utara Yogyakarta * 1 2

KLASIFIKASI BAHAN PUSTAKA BERDASARKAN DEWEY DECIMAL CLASSIFICATION DENGAN MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER

Transkripsi:

BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis[8]. Tujuan utama dari data mining adalah untuk mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data. Mengacu kepada Larose [9] terdapat enam fungsi data mining, yaitu : a) Fungsi deskripsi (description) Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Deskripsi dari pola kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. b) Fungsi estimasi (estimation) Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan baris data (record) lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. c) Fungsi prediksi (prediction) Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi. d) Fungsi klasifikasi (classification) Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. 6

e) Fungsi pengelompokan (clustering) Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas obyek-obyek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan record dalam cluster yang lain. f) Fungsi asosiasi (association) Tugas asosiasi dalam data mining adalah untuk menemukan atribut yang muncul dalam satu waktu. Data Mining sering juga disebut KDD, walaupun beberapa peneliti menganggap bahwa Data Mining adalah salah satu proses dari KDD. Menurut Goldie Gunadi [10], KDD terdiri dari 3 proses utama yaitu : 1. Preprocessing : Preprocessing dilakukan terhadap data sebelum algoritma data mining diaplikasikan. Proses ini meliputi data cleaning, integrasi, seleksi dan transformasi. 2. Data mining : Proses utama dalam KDD adalah proses data mining, dalam proses ini algoritma - algoritma data mining diaplikasikan untuk mendapatkan pengetahuan dari sumber data. 3. Post processing : Hasil yang diperoleh dari proses data mining selanjutnya akan dievaluasi pada post processing. 2.2 Text Mining Text mining merupakan bidang baru yang berkembang untuk mengumpulkan informasi dari Bahasa alami. Text mining ini adalah proses menganalisis text untuk mengekstrak informasi yang digunakan untuk tujuan tertentu[11]. Text mining digunakan untuk mencari pola-pola yang ada di teks dalam bahasa natural yang tidak terstruktur seperti buku, e-mail, artikel, halaman web, dll. Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur [12]. Area penerapan text mining menurut Sitanggang pada tahun2015, yang paling populer adalah[13]: 7

a) Ekstraksi Informasi (Information Extraction): Identifikasi frase kunci dan keterkaitan di dalam teks dengan melihat urutan tertentu melalui pencocokan pola. b) Pelacakan topik (Topic tracking): Penentuan dokumen lain yang menarik seorang pengguna berdasarkan profil dan dokumen yang dilihat pengguna tersebut. c) Perangkuman (summarization): Pembuatan rangkuman dokumen untuk mengefisienkan proses membaca. d) Kategorisasi (Categorization): Penentuan tema utama suatu teks dan pengelompokan teks berdasarkan tema tersebut ke dalam kategori yang telah ditentukan. e) Penggugusan (Clustering): Pengelompokan dokumen serupa tanpa penentuan kategori sebelumnya (berbeda dengan kategorisasi di atas). f) Penautan konsep (Concept Linking): Penautan dokumen terkait dengan identifikasi konsep yang dimiliki bersama sehingga membantu pengguna untuk menemukan informasi yang mungkin tidak akan ditemukan dengan hanya menggunakan metode pencarian tradisional. g) Penjawaban pertanyaan (Question answering): Pemberian jawaban terbaik terhadap suatu pertanyaan dengan pencocokan pola berdasarkan pengetahuan. 2.3 Ekstraksi Informasi Menurut Eikvil, 1999, Ekstraksi Informasi adalah proses yang bertujuan mengubah teks menjadi struktur yang terformat sekaligus mengurangi informasi yang ada pada dokumen menjadi struktur tabular [7].Dengan kata lain, ekstraksi informasi mampu memecah sebuah bongkahan teks yang dapat berupa dokumen, ataupun paragraf, ataupun kalimat tidak terstruktur, menjadi sebuah dokumen, paragraf dan kalimat, atau kata terstruktur yang sudah dirancang sebelumnya. Dalam prosesnya, ekstraksi informasi melakukan pengenalan setiap entitas, di antaranya seperti dalam penelitian ini menggunakan Natural Language Processing (NLP) untuk mengenali setiap entitas yang ada di dalam dokumen. 2.3.1 Perbedaan Ekstraksi Informasi dan Pengambilan Informasi Pengambilan informasi bisa dikatakan sebagai, sebuah proses yang ditujukan untuk mencari informasi spesifik dari dalam dokumen. Pencarian 8

didasarkan pada kata kunci atau query yang sudah diberikan sebelumnya. Dari kata kunci tersebut, akan dicari kecocokan kata kunci dengan dokumen-dokumen yang relevan. Sedangkan pada Ekstraksi Informasi, pencarian dilakukan untuk menemukan fakta-fakta dan informasi terstruktur dari koleksi text yang besar. Pengertian fakta di sini adalah beragam entitas yang diperhitungkan. 2.3.2 Pembentuk Ekstraksi Informasi Dalam Ekstraksi Informasi, terdapat beberapa bagian-bagian pembentuk, yang terdiri dari proses-proses tertentu, yang membuat bagian-bagian tersebut bisa disebut dengan ekstraksi informasi. Bagian-bagian tersebut dalam Ekstraksi Informasi adalah analisis teks dan strukturisasi data. 2.4 Klasifikasi Klasifikasi merupakan proses pembelajaran suatu fungsi tujuan (target) f yang memetakan tiap himpunan atribut x ke satu dari label kelas y yang didefinisikan sebelumnya. Fungsi target tersebut juga model klasifikasi. Input Atribute Set (x) Classification Model Output Class Label (y) Gambar 2. 1. Proses Klasifikasi Gambar 2.1 menjelaskan tentang langkah-langkah teknik klasifikasi dimana dalam proses tersebut terdapat Input(x) yang akan diproses hingga menghasilkan output (y). Teknik klasifikasi (classifier) merupakan suatu pendekatan sistematis untuk membangun model klasifikasi dari suatu himpunan data masukan. Tiap teknik menggunakan suatu algoritma pembelajaran (learning algorithm) untuk mendapatkan suatu model yang paling memenuhi hubungan antara himpunan atribut dan label kelas dalam data masukan. Tujuan dari algoritma pembelajaran adalah untuk membangun model yang secara umum berkemampuan baik, yaitu model yang dapat memprediksi label kelas dari record yang tidak diketahui kelas sebelumnya dengan lebih akurat. 9

Masukan dari model klasifikasi merupakan sekumpulan record (training set). Tiap record meliputi himpunan attributes, yang salah satu atributnya merupakan class. Model untuk atribut kelas merupakan suatu fungsi dari nilai-nilai atribut lainnya. Suatu test-set digunakan untuk menentukan keakuratan model tersebut. Biasanya data-set yang diberikan dibagi menjadi training dan test sets, dimana training set digunakan untuk membangun model dan test-set digunakan untuk memvalidasi [8]. 2.5 Algoritma Algoritma adalah urutan langkah-langkah logis penyelesaian masalah yang disusun secara sistematis dan logis [14]. Dalam Data Mining proses klasifikasi dilakukan dengan menerapkan suatu algoritma pada bongkahan data tertentu yang sesuai dengan algoritma yang digunakan. Ada banyak algoritma serta alat yang dapat digunakan untuk memproses algoritma pada sebuah set data. Suatu algoritma akan memerlukan masukan (input) tertentu untuk memulainya, dan akan menghasilkan keluaran (output) tertentu pada akhirnya. Hal-hal yang perlu diperhatikan dalam algoritma adalah mencari langkah-langkah yang paling sesuai untuk penyelesaian suatu masalah, karena setiap algoritma memiliki karakteristik tertentu yang memiliki kelebihan dan kekurangan[15]. Beberapa Algoritma yang digunakan dalam penelitian ini di antaranya : 2.5.1 Naive Bayes Dalam penyataan Kusrini pada tahun 2009, Bayesian Classification adalah pengklasifikasian statistik yang dapat digunakan untuk memprediski probabilitas keanggotaan suatu class[16]. NBC merupakan salah satu algoritma dalam teknik data mining yang menerapkan teori Bayes dalam klasifikasi. 2.5.2 Random Forest Metode atau algoritma pohon regresi dan pohon klasifikasi saat ini sudah banyak digunakan dalam berbagai penelitian, di antaranya dalam penelitian ini menggunakan Random Forest (RF). Random Forest merupakan turunan dari kelompok algoritma Tree. Metode Random Forest merupakan penerapan dari metode boostrap aggregating (bagging) dan random feature selection. Sehingga, random forest memiliki banyak pohon yang tumbuh sehingga pembentukan hutan (forest) yang nantinya akan dianalisis pada kumpulan pohon tersebut [17]. 10

2.5.3 Sequential Minimal Optimization Sequential Minimal Optimization (SMO) merupakan algoritma penyederhanaan dari Support Vector Machine (SVM). Dengan menggunakan teorema Osuna untuk memastikan konvergensi, SMO memilih mengatasi masalah SVM Standart dengan melakukan optimasi sekecil mungkin pada setiap langkah/ tahap. Pada setiap tahap, SMO memilih dua Lagrange Multipliers untuk melakukan optimalisasi bersama, dan menemukan nilai yang optimal untuk Lagrange Multipliers, dan membuat SVM mempunyai nilai optimal baru [18]. 2.5.4 IBk (k-nearest Neighbor) knn merupakan algoritma klasifikasi yang termasuk dalam Lazy Learner karena algoritma tidak banyak melakukan proses pelatihan selain menyimpan data pelatihan. knn tidak membangun sebuah model klasifikasi melainkan hanya menyimpan data pelatihan yang terlabeli. Kelebihan algoritma knn antara lain Tangguh terhadap training data yang memiliki banyak noise, serta efektif apabila training datanya besar. Dan kekurangan dari algoritma knn antara lain [19] KNN perlu menentukan nilai dari parameter k (jumlah dari tetangga terdekat), training berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan, atribut mana yang harus digunakan untuk mendapatkan hasil terbaik, dan biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training sample. 2.6 Metode Pengujian Pengujian atau pengukuran kinerja klasifikasi digunakan untuk mengetahui kinerja dari sebuah algoritma ketika diaplikasikan ke dalam corpus data yang digunakan. Di mana pada saat pengujian tersebut, maka akan diketahui apakah kinerja algoritma tersebut efektif jika diterapkan pada corpus data tersebut. Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan klasifikasi semua set data dengan benar. Tetapi tidak dapat dipungkiri bahwa kinerja suatu sistem tidak dapat 100% benar. Karena sistem memiliki banyak faktor yang mempengaruhi hasil kinerja sistem, mulai dari jenis corpus yang digunakan, algoritma yang diaplikasikan, hingga metode pengujian yang digunakan, sehingga sebuah sistem klasifikasi juga harus diukur kinerjanya. 11

Saat model dibangun, umumnya semua algoritma klasifikasi berusaha membentuk model yang mempunyai akurasi tinggi dengan laju error rendah. Model dapat memprediksi dengan benar pada semua data yang menjadi data latih, dan pada saat model dihadapkan dengan data uji, maka kinerja model dari sebuah algoritma klasifikasi ditentukan. Eksperimen penelitian biasa menggunakan 10-fold Cross-Validation, dengan hasil evaluasi akan ditampilkan dengan confusion matrix dengan membandingkan nilai yang diprediksi dengan nilai sebenarnya. Confusion matrix memberikan penilaian kinerja klasifikasi berdasarkan objek dengan benar atau salah[20]. Berikut merupakan tabel dari confusion matrix: Tabel 2. 1 Confusion Matrix Keterangan: TP atau True Positive adalah jumlah prediksi yang benar bahwa yang diprediksi nilai positif FP atau False Positive adalah jumlah prediksi yang salah, yang seharusnya nilai negatif diprediksi positif TN atau True Negative adalah jumlah prediksi yang benar bahwa yang diprediksi nilai negatif FN atau False Negative adalah jumlah prediksi yang benar bahwa yang diprediksi nilai negatif Untuk menghitung akurasi digunakan persamaan sebagai berikut : di mana akurasi merupakan proporsi dari jumlah prediksi yang benar dari semua data yang diprediksi. (1) 12