KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari"

Transkripsi

1 KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember 1 rozaq_one@cs.its.ac.id, 2 agus.za@its-sby.edu, 3 diana@its-sby.edu Perkembangan teknologi informasi mempengaruhi ketersediaan penyimpanan dan penyampaian informasi di media online. Banyaknya informasi digital yang tidak terstruktur sebagai salah satu dampak dari perkembangan teknologi informasi yang membutuhkan cara pengorganisasian untuk kemudahan pengolahannya.tugas Akhir ini bertujuan untuk mengelompokkan informasi yang terkandung dalam dokumen bahasa Arab menggunakan metode Naïve Bayes. Metode ini mengkategorikan objek baru berdasarkan pada atribut dan sampel data training. Pada tahap preprocessing setiap kata dalam dokumen dicari bentuk dasarnya dan dilakukan penghapusan daftar kata yang tidak memiliki peran penting dalam membangun sebuah dokumen. Selanjutnya dilakukan klasifikasi dokumen menggunakan metode Naïve Bayes yang memanfaatkan nilai probabilitas semua dokumen dan tiap-tiap kategori. Berdasarkan uji coba yang dilakukan dengan menggunakan 155 dokumen teks bahasa Arab yang diambil dari kitab dalam software Maktabah Syamilah, menunjukkan bahwa metode Naïve Bayes mampu melakukan klasifikasi dokumen teks bahasa Arab dengan nilai lokal optimal F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97%. 1. PENDAHULUAN Berkembangnya teknologi informasi meningkatkan ketersediaan penyampaian dan penyimpanan informasi melalui internet, dimana internet menjadi media publikasi yang sangat populer. Banyaknya informasi digital yang tidak terstruktur sebagai dampak dari perkembangan teknologi informasi yang membutuhkan suatu cara pengorganisasian atau pengelompokan informasi untuk kemudahan pengolahannya 1. Oleh sebab itu kategorisasi teks secara otomatis merupakan salah satu solusi untuk masalah tersebut karena dengan signifikan dapat mereduksi biaya dan waktu kategorisasi manual. Pengklasifikasian dokumen didasarkan atas kesamaan fitur atau kesamaan isi dokumen. Klasifikasi dilakukan dengan cara memasukkan dokumen-dokumen ke dalam beberapa kategori yang sudah ditentukan sebelumnya. Metode klasifikasi seperti ini disebut dengan supervised learning. Secara garis besar metode klasifikasi dibagi menjadi dua, yaitu supervised learning dan unsupervised learning 1. Supervised learning adalah suatu metode pengelompokan dokumen, dimana kelas atau kategori untuk dokumen-dokumen tersebut sudah ditentukan terlebih dahulu; sedangkan unsupervised learning adalah pengelompokan dokumen secara otomatis tanpa terlebih dahulu mendefinisikan kategori atau kelas yang ada. Metode pembelajaran statistik untuk kategorisasi teks seperti ini sudah banyak diimplementasikan seperti Regressions Models, Nearest Neighbor Classifiers, Bayes ef Networks, Decision Trees, Rule Learning Algorithms, Neural Networks, dan Inductive Learning Techniques. Penelitian tentang kategorisasi teks secara otomatis sering dilakukan pada beberapa bahasa diantaranya pada bahasa Inggris, bahasa Cina, dan bahasa Indonesia. Namun dalam kurun waktu dua tahun belakangan ini penelitian tentang teks bahasa Arab yang ter-publish di media online hanya sekitar 260 penelitian, 30 diantaranya adalah penelitian tentang temu kembali informasi dokumen teks berbahasa Arab sedangkan sisanya adalah tentang Arabic text recognition, dll. Bahasa Arab memiliki morfologi yang lebih kaya dan kompleks daripada bahasa Inggris ataupun bahasa Indonesia 2. Dimana dalam teks bahasa Arab dapat dicari bentuk morfologi sebuah kata dari stem atau kata dasarnya. Stemming merupakan suatu proses menemukan kata dasar dari sebuah kata dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran (confixes) pada kata turunan. Hadi Wa el Musa dkk pernah melakukan penelitian tentang kategorisasi dokumen teks berbahasa Arab menggunakan algoritma Naïve Bayes 3. Implementasi metode Naïve Bayes ini dengan perhitungan probabilitas tiap dokumen dalam ketegori, dimana dalam perhitungannya dilakukan pada sistem pembelajaran bagaimana mengklasifikasi dokumen melalui dokumen sampel. Dalam beberapa penelitian yang pernah dilakukan sebelumnya, penggunaan metode Naïve Bayes untuk proses klasifikasi dokumen memiliki beberapa keunggulan dibandingkan dengan penggunaan metode yang lain. Seperti penelitian yang pernah dilakukan oleh Al Hawari S. dkk tentang perbandingan hasil klasifikasi dokumen teks berbahasa arab dengan menggunakan algoritma Naïve bayes dan K-Nearest Neighbor 4 yang menunjukkan bahwa algoritma Naive Bayes menghasilkan nilai evaluasi (precision, recall dan 1

2 F-measure) yang lebih tinggi daripada penggunaan algoritma K-Nearest Neighbor yang berbasis pada koefisien Cosine. Oleh karene itu Tugas Akhir ini dibuat untuk mengatasi masalah pengorganisasian atau klasifikasi informasi menggunakan algoritma Naïve Bayes. Metode Naïve Bayes dipilih karena lebih sederhana, efektif, dan juga dapat diaplikasikan pada jumlah data yang sedikit. 2. KLASIFIKASI DOKUMEN Klasifikasi dokumen adalah suatu proses pengelompokan dokumen sesuai dengan pembahasan di dalamnya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap waktu semakin bertambah. Sebuah dokumen dapat dikelompokan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari suatu dokumen. Dalam text mining, klasifikasi mengacu pada aktifitas menganalisis atau mempelajari himpunan dokumen teks pre-classified untuk memperoleh suatu model atau fungsi yang dapat digunakan untuk mengelompokkan dokumen teks lain yang belum diketahui kelasnya ke dalam satu atau lebih kelas-kelas predefined tersebut 6. Klasifikasi termasuk pembelajaran supervised learning. Jenis lain adalah unsupervised learning atau dikenal sebagai clustering. Pada supervised learning, setiap data training mengandung pasangan data input dan output yang diharapkan, sedangkan pada unsupervised learning belum ditentukan target output yang harus diperoleh. Text document clustering adalah proses clustering dengan spesialisasi pada dokumen berbasis teks. Indexing atau preprocessing juga berlaku dalam text document clustering. Teknik yang paling banyak dipakai adalah dengan merepresentasikan tiap dokumen teks dalam vector space model. Dalam model ini, setiap dokumen D, direpresentasikan sebagai suatu vektor c = {t 1,t 2,...,t n }, dimana t n adalah frekuensi term ke-n pada dokumen bersangkutan Error! Reference source not found.. Terkadang representasi frekuensi ini diganti menjadi format biner atau boolean (0 atau 1) yang menandakan ada-tidaknya term tersebut pada dokumen bersangkutan. Salton menyarankan untuk merepresentasikannya dalam bentuk yang sudah mengalami pembobotan, seperti TF-IDF. Berdasarkan struktur hasil clustering-nya, maka teknik clustering dapat dibedakan menjadi dua tipe yakni Error! Reference source not found. : 1. Hierarchical 2. Non-hierarchical (partitional). Teknik hierarchical menghasilkan urutan partisi yang bersarang (nested) dengan satu cluster utama pada level atas, dan cluster-cluster kecil di bawah. Sebaliknya, teknik nonhierarchical menghasilkan partisi yang tidak bersarang (unnested) dengan membagi dokumen-dokumen dalam beberapa cluster awal yang ditentukan, kemudian mengubah posisi dokumen dalam cluster yang telah ada hingga solusi terakhir dicapai. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu : 1. Fase information retrieval (IR) untuk mendapatkan data numerik dari dokumen teks. Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal dokumen. yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus stopword dan stemming. 2. Fase klasifikasi utama. Data numerik hasil dari proses pada fase pertama di atas akan diproses lagi untuk memutuskan ke kategori mana teks baru (bukan contoh) ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan pada fase ini, di antaranya adalah Naïve Bayesian, Rocchio, Decision Tree, k-nearest Neighbor (k-nn), Neural Network (NN), dan Support Vector Machines (SVM). Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari 6. Manfaat dari klasifikasi dokumen adalah untuk pengorganisasian dokumen. Dengan jumlah dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan dokumen yang dimiliki terorganisir dan telah dikelompokan sesuai kategorinya masing-masing. Contoh aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah spam filtering. Pada aplikasi spam filtering sebuah diklasifikasikan apakah tersebut termasuk spam atau tidak dengan memperhatikan kata-kata yang yang terdapat dalam tersebut. Aplikasi ini telah digunakan oleh banyak provider jasa layanan ALGORITMA NAÏVE BAYES Naïve Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan probabilitas. Metode ini memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes 8, yaitu memprediksi 2

3 probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Atau dalam konsep IR metode seperti ini biasa ditandai dengan adanya satu set data yang dibagi dalam dua kelompok, data training dan data testing. Data testing adalah sekumpulan data yang akan diproses dan dicari kelasnya, sedangkan data training adalah data yang telah dihitung sebelumnya yang kemudian dibandingkan nilainya dengan sejumlah fitur yang ada dalam data testing. Naïve Bayes merupakan turunan dari konsep teorema Bayes, yaitu melakukan klasifikasi dengan menghitung nilai probabilitas kategori dan semua data yang ada. Perhitungan nilai probabilitas tersebut menggunakan persamaan : dimana p(c i ) = f d (c i ), (3.1) D f d (c i ) adalah jumlah dokumen yang dimiliki kategori c i. D adalah jumlah keseluruhan training document. dan dimana p(t j c i ) = f (t j.c i )+1, (2.4) f(c i )+ T f (t j.c i ) adalah nilai kemunculan kata t j pada kategori c i. f(c i ) adalah jumlah seluruh kata pada kategori c i. T adalah jumlah keseluruhan kata/fitur yang digunakan. Dengan dua persamaan di atas didapat nilai probabilitas masing-masing kategori c i dan nilai probabilitas term yang telah diekstrak dari dokumen training d i. Pengekstrakan fitur/term ini dilakukan untuk mempercepat proses perhitungan Naïve bayes itu sendiri. Tahapan ekstraksi fitur/term ini adalah sebagai berikut : 1. Ambil sejulah N kata/term dari semua dokumen training dalam masing-masing kategori c i yang memiliki nilai frekuensi terbesar. 2. Hasil pengambilan term pada proses 1 di atas, di-select distinct untuk mendapatkan term yang berbeda. 3. Mengecek keberadaan term yang dihasilkan dari proses 2 pada dokumen testing. 4. Apabila ada, maka ambil sejumlah N kata/term yang sama, yang memiliki nilai frekuensi terbesar. 5. Apabila tidak ada, maka ambil sejumlah n kata/term yang sama yang memiliki frekuensi tertinggi dan ambil sejumlah N-n kata/term lain yang juga memiliki nilai frekuensi terbesar. Rangkaian tahapan ini dilakukan pada semua dokumen hingga didapat sejumlah N fitur/term dari semua dokumen. Dan nilai frekuensi dari N term inilah yang nanti akan digunakan dalam perhitungan Naïve Bayes untuk menentukan kategori suatu dokumen. 3.1 CONTOH PERHITUNGAN NAÏVE BAYES Dari persamaan 3.1 dan persamaan 3.2 di atas, misalkan dari 9 dokumen bahasa Arab akan didapat model probabilistik dan selanjutnya dicari nilai terbesar dari hasil perkalian masing-masing data probabilistik yang telah diperoleh. Sebelumnya tentu terlebih dahulu semua dokumen training mengalami preprocessing dan ekstraksi fitur, hingga didapat data hasil prepocessing seperti pada Tabel 3.1. Tabel 3.1 Dokumen setelah preprocessing Dokumen D 1 D 2 D 3 D 4 D 5 D 6 Kata/Term Hasil Ekstraksi (Kemunculan) صلي( sholla ) (3), (khomsa) (1) عشر( asyaro ),(2) خمس (sholla) صلي (3), ( asyaro) (1) خرج (khoroja) (2), عشر (khasaba) حسب (2), (nafsa) (1) نظر (nadhoro) (2), نفس (faro a) فرع (2), (showama) (1) نظر (nadhoro) (2), صوم (sholla) صلي (3), (khomsa) صوم (showama),(1) خمس (2) (nadhoro) نظر (3), (khomsa) صوم (showama),(1) خمس (2) D 7 صلي( sholla ) (1), (showama) (2) خمس (khomsa) (2), صوم D 8 D 9? (2), خرج (khoroja) (2), صوم (showama) (1) خمس (khomsa) صلي( sholla ) (1), ( asyaro) (2) خمس (khomsa) (1), عشر Dari data dokumen training setelah tahap preprocessing dan ekstraksi fitur seperti pada Tabel 3.1 di atas. Dengan menggunakan persamaan 3.1 dan persamaan 3.2, didapat sebuah model probabilistik seperti pada Tabel 3.2. Setelah didapat model probabilistik term hasil ekstraksi dari masing-masing kategori, 3

4 Tabel 3.2 Probabilistik term dalam dokumen p(c i ) ¼ ¼ ¼ ¼ صلي نفس صوم 5 / 20 5 / 18 7 / 20 4 / 20 2 / 18 p(w kj c i ) فرع عشر خرج خمس نظر berikutnya dilakukan perhitungan dengan metode Naive Bayes pada dokumen testing dengan mengalikan nilai probabilitas semua kategori dengan probabilitas tiap term yang diambil dari masing-masing dokumen. p( D 9 ) p( D 9 ) p( D 9 ) p( D 9 ) 4 / 20 3 / 20 3 / 20 4 / 18 2 / 20 4 / 20 = p( ) x ( صلي ) p x ( خمس ) p x عشر ) p ) = 1 / 4 x 7 / 20 x 3 / 20 x 4 / 20 = 84 / x 10-5 = p( ) x صلي ) p ) x خمس ) p ) x عشر ) p ) = 1 / 4 x x x = 1 / x 10-5 = p( ) x ( صلي ) p x خمس ) p ) x عشر ) p ) = 1 / 4 x 4 / 20 x 4 / 20 x = 16 / x 10-5 = p( ) x صلي ) p ) x خمس ) p ) x عشر ) p ) = 1 / 4 x 2 / 18 x 4 / 18 x = 8 / x 10-5 Berdasarkan hasil perhitungan Naive Bayes di atas, diketahui bahwa D 9 menghasilkan nilai terbesar pada perhitungan dengan kategori 1, yaitu kategori. Maka dari itu dapat disimpulkan bahwa D 9 masuk ke dalam kategori. Perhitungan seperti ini dilakukan pada semua dokumen testing sehingga semua dokumen terklasifikasi.. 4. METODE KLASIFIKASI Terdapat dua metode umum untuk mengukur tingkat keberhasilan hasil klasifikasi yaitu internal dan external measure Error! Reference source not found.. Internal measure membandingkan cluster-cluster yang dihasilkan tanpa adanya informasi atau knowledge atas kelas-kelas awal sebelumnya. Sedangkan external measure mengevaluasi cluster-cluster yang dihasilkan dengan kelas-kelas yang sudah ditentukan sebelumnya. Pada unsupervised classification, terdapat dua tipe metode evaluasi klasifikasi yang terkenal, yakni F- measure dan entropy. Dalam Tugas Akhir ini, metode evaluasi klasifikasi yang digunakan adalah F-measure dan accuration. Sebagai salah satu metode external measure, metode F-measure menggunakan informasi kelas awal dari data uji yang digunakan dalam klasifikasi. F-measure pada awalnya digunakan pada bidang IR dengan mengkombinasikan konsep recall dan precision Error! Reference source not found.. Jika kita mengasumsikan A sebagai himpunan dokumen yang seharusnya diberikan oleh sistem IR (retrieved document), B adalah himpunan dokumen yang ternyata diberikan sebagai hasil retrieval sistem IR, dan A B adalah himpunan dokumen benar yang diberikan sistem IR, maka nilai recall dan precision sistem IR tersebut dapat dinyatakan sebagai berikut Error! Reference source not found. : Recall = A I B, (4.1) A Precision = A I B. (4.2) B Pada dasarnya, nilai recall dan precision berada pada rentang antara 0 s/d 1. Oleh karena itu, suatu sistem IR yang baik adalah yang dapat memberikan nilai recall dan precision mendekati 1. Akan tetapi, nilai recall dan precision saja dianggap belum cukup mewakili kinerja sistem. Oleh karena itu, dibuat metode evaluasi F-measure yang mengkombinasikan metode evaluasi recall dan precision. Formulasi F-measure dinyatakan seperti rumus berikut : 2 ( β + 1) rp F =, (4.3) 2 r + p dimana β 4

5 r adalah recall, p adalah precission, dan konstanta β yang digunakan biasanya bernilai 1. pada perhitugan evaluasi lain precission, F- measure, dan accuration. Evaluasi menggunakan perhitungan recall dan precission belum cukup untuk menilai kinerja suatu sistem, sehingga diperlukan perhitungan evaluasi F-measure sebagai kombinasi antara perhitungan recall dan precission. Sedangkan perhitungan evaluasi accuration adalah untuk mengetahui keberhasilan proses klasifikasi secara umum. 5. UJI COBA Uji coba pertama dilakukan untuk mengetahui keberhasilan proses klasifikasi dokumen bahasa Arab dengan menggunakan algoritma Naïve Bayes dan untuk mengetahui jumlah pengambilan fitur/ kata yang mampu menghasilkan klasifikasi paling optimal. Keberhasilan proses klasifikasi ini bisa dilihat pada hasil evaluasi dengan perhitungan recall, precission, F-measure dan perhitungan accruration. Error! Reference source not found. merupakan hasil proses klasifikasi 155 dokumen bahasa Arab dengan menggunakan algoritma Naive Bayes. Dari 155 dokumen testing yang dipakai pada aplikasi dalam Tugas Akhir ini, ada sebanyak 56 dokumen yang terklasifikasi salah, artinya tidak sesuai dengan kategori sebelumnya. Dari 155 data uji dokumen testing yang digunakan pada aplikasi dalam Tugas Akhir dengan menggunakan perhitungan evaluasi recall, precission, F-measure, dan accuration akan didapat pada jumlah pengambilan beberapa fitul/kata yang bisa menghasilkan klasifikasi terbaik. Hal ini bisa dilihat dari 4 metode perhitungan evaluasi di atas. Pelaksanaan uji coba ini dilakukan dengan memasukkan jumlah fitur/kata antara 5 s/d 15 fitur. Hal ini dimaksudkan untuk mencari jumlah fitur/kata yang mampu menghasilkan klasifikasi paling optimal. Penilaian ini dilihat berdasarkan perhitungan evaluasi recall, precission, F- measure, dan accuration yang masing-masing menghasilkan nilai tertinggi. Tabel 5.1 adalah hasil perhitungan recall setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. selalu memiliki nilai recall terbesar pada 6 kali percobaan dengan memasukkan jumlah pengambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 9 fitur/kata, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai recall maksimal sebesar 0.9 dan nilai tersebut dimiliki oleh kategori. Evaluasi recall ini dihitung pada semua kategori yang ada dalam aplikasi. Sehingga nilai yang didapat adalah nilai recall pada setiap kategori dengan percobaan pengambilan jumlah fitur/kata yang berbeda. Hal ini juga dilakukan Tabel 5.1 Nilai recall pada klasifikasi dokumen bahasa Arab Tabel 5.2 Nilai precission pada klasifikasi dokumen bahasa Arab Tabel 5.2 adalah hasil perhitungan precission setiap kategori pada aplikasi dengan menggunakan 155 data uji yang ada dalam database. selalu memiliki nilai preccision terbesar pada 6 kali percobaan dengan memasukkan jumlah pengambilan berbeda pada fitur/kata, yaitu pada pengambilan 7 fitur/kata, 11, 12, 13, 14, dan 15 fitur/kata. Hal ini menunjukkan bahwa nilai preccision maksimal sebesar 0.97 dan nilai tersebut dimiliki oleh kategori. Dengan menggunakan jumlah dokumen testing yang sama pada aplikasi, didapat hasil perhitungan F-measure masksimal sebesar Nilai tersebut dimiliki oleh kategori pada pengambilan 9 fitur/kata. Ini menunjukkan bahwa kategori memiliki nilai preccision dan recall yang cukup tinggi, meskipun pada beberapa kali percobaan, 5

6 nilai recall pada kategori lebih kecil daripada nilai recall pada kategori. Tabel 5.3 Nilai F-measure pada klasifikasi dokumen bahasa Arab Tabel 5.4 Nilai accuration pada klasifikasi dokumen bahasa Arab Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasarkan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori pada pengambilan 8 fitur/kata. Hal ini menunjukkan bahwa pada kategori lah proses klasifikasi dokumen menghasilkan output paling optimal. Dari 4 perhitungan evaluasi recall, precission, F- measure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi. Tabel 5.5 Perbandingan nilai recall proses ekstraksi fitur tanpa pencocokkan Uji coba kedua dilakukan untuk mengetahui perbandingan hasil klasifikasi dokumen teks berbahasa Arab dengan implementasi ekstraksi fitur yang berbeda. Pada Tugas Akhir ini ekstraksi fitur yang digunakan adalah dengan mengambil sejumlah fitur/kata yang memiliki frekuensi tertinggi dari semua dokumen training, kemudian mencari/mencocokkan fitur tersebut pada dokumen testing. Apabila didapat, maka fitur tersebut diambil sejumlah pengambilan pada dokumen training. Namun apabila tidak ditemukan, maka dicari fitur lain yang memiliki frekuensi tertinggi dari dokumen testing. Proses esktraksi fitur ini berbeda dengan proses ekstraksi fitur yang diimplementasikan pada penelitian sebelumnya, yang mengambil sejumlah fitur dengan frekuensi tertinggi dari semua dokumen training, kemudian juga mengambil sejumlah fitur dengan frekuensi tertinggi pada dokumen testing tanpa proses pencocokkan terlebih dahulu. Perbandingan kinerja dua proses ekstraksi fitur yang berbeda ini dihitung berdasarkan nilai evaluasi recall, precission, F-measure, dan accuration hasil proses klaisifiasi dokumen bahasa Arab. Dari perhitungan evaluasi tersebut dapat diketahui keberhasilan masing-masing proses ekstraksfi fitur yang ada. Tabel 5.4 adalah hasil perhitungan accuration masing-masing kategori pada aplikasi. Berdasarkan hasil perhitungan tersebut diketahui nilai accuration terbesar dimiliki oleh kategori pada pengambilan 8 fitur/kata. Hal ini menunjukkan bahwa pada kategori lah proses klasifikasi dokumen menghasilkan output paling optimal. 6

7 Dari 4 perhitungan evaluasi recall, precission, F- measure, dan accuration nilai terbesar tidak dimiliki oleh satu kategori, namun nilai tersebut dimiliki oleh beberapa kategori sesuai dengan perhitungannya. Hal ini menunjukkan bahwa variabel yang menentukan keberhasilan suatu klasifiksai bukan hanya jumlah pengambilan fitur saja, namun banyaknya dokumen training pada masing-masing kategori, dan juga ketepatan pengambilan fitur/kata dalam masing-masing dokumen memiliki peran yang tidak kalah penting dalam keberhasilan suatu proses klasifikasi. Tabel 5.55 merupakan nilai perhitungan evaluasi recall dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.4 terlihat nilai recall terbesar mencapai 0.96 dimiliki oleh kategori pada pengambilan 5 fitur/kata. Namun pada percobaan pengambilan fitur dengan jumlah lain, nilai recall pada kategori bernilai nol. Begitu juga pada kategori. Hal ini menunjukkan bahwa pada kategori tersebut, semua dokumen salah masuk kelas. Pada kategori-kategori yang lain, nilai recall yang didapat juga cukup rendah. Nilai ini juga menunjukkan bahwa semua dokumen yang ada pada masing-masing kategori banyak yang salah masuk kelas. Nilai recall terbesar 0.96 pada Tabel 5.5 memang lebih tinggi daripada nilai recall terbesar 0.90 pada Tabel 5.1 yang mengimplementasikan proses ekstraksi fitur dengan melakukan pencocokan kata yang diambil dari dokumen training dan dokumen testing. Namun dari perbandingan nilai recall pada dua tabel ini terlihat pada Tabel 5.1 semua kategori menghasilkan nilai recall lebih dari nol. Artinya tidak ada kategori yang sama sekali salah mengklasifikasi dokumen. Sedangkan pada Tabel 5.5 nilai recall kategori dan kategori bernilai nol pada 10 kali uji coba. Ini menunjukkan bahwa pada percobaan tersebut, kategori dan kategori banyak me-retrieve dokumen yang tidak relevan. Tabel 5.6 adalah nilai perhitungan evaluasi precission dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.6 terlihat nilai precission terbesar mencapai 0.97 dimiliki oleh kategori pada pengambilan 6, 9, 10, 11, 12, 13, dan 14 fitur/kata. Nilai ini sama dengan nilai perhitungan precission yang menggunakan ekstraksi fitur dengan melakukan pencocokan kata yang terdapat pada Tabel 5.2. Dari hasil perhitungan evaluasi recall dan precission belum cukup untuk menilai bahwa aplikasi pada Tugas Akhir ini efektif atau tidak. Sehingga masih harus dilakukan perhitungan evaluasi F-measure yang merupakan kombinasi antara hasil perhitungan recall dan precission pada proses klasifikasi dokumen bahasa Arab. Tabel 5.7 adalah nilai perhitungan evaluasi F- measure dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.7 terlihat nilai F- measure terbesar mencapai 0.82 dimiliki oleh kategori pada pengambilan 11 fitur/kata. Tabel 5.6 Perbandingan nilai precission proses ekstraksi fitur tanpa pencocokkan Nilai ini lebih kecil daripada nilai F-measure terbesar menggunakan ekstraksi fitur dengan melakukan pencocokan seperti pada Tabel 5.3 yang mencapai Pada kategori dan, 10 kali percobaan menghasilkan nilai F-measure nol. Hal ini dikarenakan pada kategori dan memiliki hasil recall yang juga bernilai nol. Sehinggal menyebabkan nilai F-measeure pada kedua kategori tersebut bernilai nol, karena recall menjadi salah satu penyebut dalam rumus perhitungan F-measure. Tabel 5.7 Perbandingan nilai F-measure proses ekstraksi fitur tanpa pencocokkan

8 Tabel 5.8 Perbandingan nilai accuration proses ekstraksi fitur tanpa pencocokkan Perbandingan ini berdasarkan nilai klasifikasi paling optimal pada 2 metode tersebut dengan nilai parameter masing-masing. Klasifikasi menggunakan metode k-nn ini memiliki nilai F-measure terbesar dengan nilai k=11. Sedangkan klasifikasi menggunakan metode Naïve Bayes ini menghasilkan nilai F-measure terbesar dengan jumlah pengambilan 9 fitur/kata, hal ini sesuai dengan hasil ujicoba sebelumnya Tabel 5.9 adalah data perbandingan hasil perhitungan F-measure pada klasifikasi dokumen bahasa Arab dengan menggunakan metode k-nn dan metode Naïve Bayes. Metode Naïve Bayes memiliki hasil F-measure terbesar mencapai 0.88, sedangkan metode k-nn memiliki hasil F-measure terbesar mencapai Dari data pada Tabel terlihat bahwa berdasarkan perbandingan nilai F measure, metode Naïve Bayes menghasilkan nilai Tabel 5.8 adalah nilai perhitungan evaluasi accuration dari proses klasifikasi dokumen bahasa Arab dengan menggunakan ekstraksi fitur tanpa pencocokkan. Pada Tabel 5.8 terlihat nilai accuration tertinggi mencapai 96.13% dimiliki oleh kategori pada pengambilan 6 fitur/kata. Nilai ini lebih kecil daripada nilai accuration tertinggi menggunakan ekstraksi fitur dengan melakukan pencocokan kata seperti terdapat pada Tabel 5.3 yang mencapai 97.42%. Pada Tabel 5.8 terlihat kategori dan memiliki nilai accuration nol. Hal ini menunjukkan bahwa pada kategori tersebut sistem banyak meretrieve dokumen yang tidak relevan. Nilai accuration nol pada dua kategori ini disebabkan karena pada dua kategori tersebut hasil perhitungan recall juga bernilai nol, dimana recall menjadi salah satu faktor penyebut/pembagi dalam perhitungan accuration. Uji coba yang ketiga dilakukan untuk mengetahui perbandingan hasil klasifikasi dokumen bahasa Arab dengan menggunakan 2 metode yang berbeda, yaitu metode k-nn dan metode Naïve Bayes. Perbandingan ini dilakukan dengan hanya melakukan perhitungan hasil F-measure dan accuration. Dari hasil uji coba ini nanti akan diketahui metode mana yang lebih sesuai untuk menangani masalah klasifikasi dokumen, k-nn ataukah Naïve Bayes. Dengan menggunakan data uji yang sama, dilakukan percobaan proses klasifikasi dengan menggunakan metode k-nn dan menggunakan metode Naïve Bayes. Seperti pada proses klasifikasi menggunakan metode Naïve Bayes, pada penggunaan metode k-nn juga terdapat parameter yang bisa ditentukan oleh user untuk bisa menghasilkan klasifikasi paling optimal. Parameter ini berupa nilai k yang akan digunakan untuk menghitung kedekatan antar dokumen pada data uji. 8 lebih besar daripada metode k-nn. Selain perbandingan nilai F-measure, pada uji coba ini juga akan dibandingkan nilai accuration pada proses klasifikasi dokumen bahasa Arab antara 2 metode tersebut. Perbandingan ini tetap menggunakan hasil perhitungan paling optimal pada masing-masing metode. Tabel 5.9 Perbandingan nilai F-measure k-nn dan Naïve Bayes Nilai F-measure k-nn Naive Bayes Tabel 5.10 Perbandingan nilai accuration k-nn dan Naïve Bayes Nilai Accuration k-nn Naive Bayes Berdasarkan perbandingan nilai accuration antara metode k-nn dan metode Naïve Bayes seperti pada Tabel 5.10 terlihat bahwa metode Naïve Bayes memiliki tingkat akurasi mencapai % dengan jumlah pengambilan 8 fitur/kata.

9 Sedangkan metode k-nn memiliki tingkat akurasi mencapai 92.90% pada nilai k=11. Dari hasil perbandingan nilai accuration ini juga terlihat bahwa metode Naïve Bayes memiliki tingkat akurasi yang lebih tinggi daripada metode k-nn. Dari perbandingan dua nilai evaluasi ini, pada implementasi k-nn kategori zakat memiliki nilai F-measure dan accuration nol. Hal ini menunjukkan bahwa semua dokumen pada kategori zakat terklasifikasi salah atau salah masuk kelas. 6. SIMPULAN DAN SARAN Berdasarkan aplikasi yang telah dibuat dan hasil yang didapat dari serangkaian uji coba yang telah dilakukan, maka dapat ditarik beberapa kesimpulan atas Tugas Akhir ini sebagai berikut : 1. Metode Naïve Bayes dapat diaplikasikan pada kategorisasi teks berbahasa Arab dengan nilai F-measure terbaik sebesar 0.88 dengan tingkat akurasi mencapai 97.42% 2. fitur yang diambil untuk hasil klasifikasi yang optimal sebanyak 8 dan 9 fitur/kata 3. Dibandingkan dengan metode HAC dan k-nn, Naïve Bayes memiliki tingkat akurasi yang lebih tinggi dan membutuhkan running time yang lebih sedikit. 5. Chen, Aitou, Gey. Fredric, 2002, Building an Arabic Stemmer for Information Retrieval, University of California at Berkeley 6. Husni, 2006, IR dan Klasifikasi, diktat kuliah, Teknik Informatika Universitas Trunojoyo 7. Umam, Chatibul Kaidah Tata Bahasa Arab. Darul Ulum Press. 8. Basuki, Ahmad Metode Bayes. Kuliah PENS ITS Beberapa saran atas pengerjaan Tugas Akhir ini guna pengembangan lebih lanjut diantaranya : 1. Pengambilan jumlah fitur otomatis untuk menghasilkan nilai evaluasi yang optimal 2. Penggunaan penanda pada kata/isi dokumen yang ditunjuk dan hasil preprocessing-nya, sehingga dengan mudah bisa diketahui hasil preprocessing tiap kata dalam dokumen. 7. DAFTAR PUSTAKA 1. Bakhri Syaiful, Agus Zainal Arifin, Diana Purwitasari Klasifikasi Dokumen Berbahasa Arab Berbasis KNN. ITS Surabaya. 2. Al-Shalabi Riyad, Kanaan Ghassan, H. Gharaibeh, Manaf. Arabic Text Categorization Using k-nn Algorithm. Amman Al-Ahliya University, Jordan 3. Eljinini Mohammad Ali H., Hadi Wa el Musa, Thabtah Fadi, Zamzeer Mannam, Naïve Bayesian Based on Chi Square to Categorize Arabic Data. Communication of the IBIMA Volume 10, 2009 ISSN : Hadi W., Thabtah F., AL Hawari S., Ababneh J. 2008, "Naive Bayesian and K- Nearest Neighbour to Categorize Arabic Text Data", In proceedings of the European Simulation and Modeling Conference, Le Havre, France. 9

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Pengklasifikasian Dokumen Berbahasa Arab Menggunakan K-Nearest Neighbor

Pengklasifikasian Dokumen Berbahasa Arab Menggunakan K-Nearest Neighbor IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN: 1978-1520 Pengklasifikasian Dokumen Berbahasa Arab Menggunakan K-Nearest Neighbor Fahrul Agus 1, Heliza Rahmania Hatta 2, Mahyudin 3 Jl. Barong Tongkok Kampus

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

PENDAHULUAN. I.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang I PENDAHULUAN I.1 Latar Belakang Internet sebagai jaringan komputer skala global telah mendorong pertambahan jumlah informasi digital. Pada sistem yang bersifat terbuka seperti internet, pertambahan informasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Adi Radili 1, Suwanto Sanjaya 2 1,2 Teknik Informatika UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas no. 155 KM. 18

Lebih terperinci

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER Titis Suwartiningsih (11 1065 1116) 1, Bagus Setya Rintyarna,

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB I PENDAHULUAN. Jumlah  spam di dunia semakin meningkat secara eksponensial. BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110 19 Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110 Fitri Handayani dan Feddy Setio Pribadi Jurusan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Salah satu pelayanan dalam dunia perbankan adalah pemberian pinjaman kredit kepada nasabah yang memenuhi syarat perbankan. kredit merupakan sumber utama penghasilan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan adalah salah satu aspek terpenting bagi kehidupan manusia, yang dapat mempengaruhi manusia itu sendiri, juga menjadi faktor pendukung dalam setiap sektor

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Di dalam landasan teori ini, akan dibahas tentang teori teori dan konsep dasar yang mendukung pembahasan dari sistem yang akan dibuat. 2.1 Basis Data (Database) Basis data diperlukan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Musik memiliki peran yang penting bagi kehidupan manusia. Selain sebagai media hiburan, musik juga merupakan media bantu diri untuk menangani perasaan emosi

Lebih terperinci

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy). BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015 1 MODEL DATA MINING N. Tri Suswanto Saptadi CAPAIAN PEMBELAJARAN Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 1 3 Definisi Mining : proses atau usaha untuk mendapatkan sedikit barang

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sistem Rekomendasi 2.1.1 Pengantar Sistem Rekomendasi Proses memberitahukan kepada seseorang atau lebih bahwa sesuatu yang dapat dipercaya, dapat juga merekomendasikan diartikan

Lebih terperinci

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE PADA DATASET Dresses_Attribute_Sales

Lebih terperinci

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3

APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 APLIKASI KLASIFIKASI PEMENUHAN GIZI PADA LANSIA MENGGUNAKAN METODE DECISION TREE ID3 SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom) Pada Program Studi Sistem

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu

Lebih terperinci

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 486-492 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI penelitian. Pada bab ini akan dibahas literatur dan landasan teori yang relevan dengan 2.1 Tinjauan Pustaka Kombinasi metode telah dilakukan oleh beberapa peneliti

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES Selvy Megira 1), Kusrini 2), Emha Taufiq Luthfi 3) 1), 2), 3) Teknik Universitas AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia pada Dokumen Pengaduan Sambat Online menggunakan Metode K-Nearest Neighbors (K-NN) dan Chi- Square

Klasifikasi Teks Bahasa Indonesia pada Dokumen Pengaduan Sambat Online menggunakan Metode K-Nearest Neighbors (K-NN) dan Chi- Square Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 10, Oktober 2017, hlm. 1000-1007 http://j-ptiik.ub.ac.id Klasifikasi Teks Bahasa Indonesia pada Dokumen Pengaduan

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor

Dosen Program Studi Ilmu Komputer Universitas Pakuan Bogor PENGENALAN KADAR TOTAL PADAT TERLARUT PADA BUAH BELIMBING BERDASAR CITRA RED-GREEN-BLUE MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS (PCA) SEBAGAI EKSTRAKSI CIRI DAN KLASIFIKASI K-NEAREST NEIGHBORHOOD (KNN)

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN: KLASIFIKASI TUGAS AKHIR UNTUK MENENTUKAN DOSEN PEMBIMBING MENGGUNAKAN NAÏVE BAYES CLASSIFIER (NBC) Putri Elfa Mas`udia 1 Politeknik Negeri Malang E-mail : putri.elfa@polinema.ac.id Abstrak Pemilihan dosen

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

Neural Networks. Machine Learning

Neural Networks. Machine Learning MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci