METODE CLASS FEATURE CENTROID CLASSIFIER UNTUK MENGKLASIFIKASI DATA TEKS ARAB YANG TIDAK SEIMBANG

Ukuran: px
Mulai penontonan dengan halaman:

Download "METODE CLASS FEATURE CENTROID CLASSIFIER UNTUK MENGKLASIFIKASI DATA TEKS ARAB YANG TIDAK SEIMBANG"

Transkripsi

1 Program Studi MMT-ITS, Surabaya 4 Juli 22 METODE CLASS FEATURE CENTROID CLASSIFIER UNTUK MENGKLASIFIKASI DATA TEKS ARAB YANG TIDAK SEIMBANG Indriati ), Agus Zainal Arifin 2) dan Anny Yuniarti 3) Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Kampus ITS Keputih Sukolilo, Surabaya 6 indriati@mhs.if.its.ac.id, agus.za@its-sby.edu, ayuniarti@gmail.com ABSTRAK Banyaknya informasi digital tidak terstruktur yang salah satunya berbentuk teks Arab membutuhkan klasifikasi teks secara otomatis. Banyak penelitian di bidang klasifikasi teks Arab tersebut menggunakan dataset yang dibuat sendiri sehingga kualitasnya tidak dapat ditentukan dan adanya data yang tidak seimbang. Dalam penelitian ini diusulkan sebuah metode untuk klasifikasi teks menggunakan metode Class Feature Centroid (CFC) dengan menambahkan Imbalanced Factor (IF) pada bobot termnya. Metode ini digunakan untuk data yang tidak seimbang pada kelas biner dengan dokumen berteks Arab. Pada tahap training dokumen-dokumen teks Arab mengalami tahap preprocessing hingga menghasilkan termterm. Term-term tersebut akan diberi bobot dengan metode CFC dengan menambahkan IF sehingga membentuk centroid dari masing-masing kelas. Centroid tersebut akan digunakan pada tahap testing, dokumen dengan similarity terbesar terhadap suatu centroid di suatu kelas akan menjadi anggota kelas tersebut. Pada percobaan menunjukkan hasil klasifikasi terbaik yang dapat dicapai dengan menggunakan metode ini yaitu mempunyai nilai sebesar.97. Hasil percobaan tersebut menunjukkan bahwa metode CFC dengan menambahkan IF dapat mengatasi klasifikasi data teks Arab yang tidak seimbang. Kata kunci: klasifikasi teks, Class Feature Centroid, Imbalanced Factor PENDAHULUAN Peningkatan arus informasi di dunia internet berlangsung sangat cepat. Kecenderungan peningkatan tersebut menyebabkan banyaknya informasi digital yang tidak terstruktur. Salah satu dari informasi digital yang tidak terstruktur tersebut yaitu informasi berbentuk teks Arab yang dapat ditemukan pada berbagai web online berbahasa Arab. Pertumbuhan informasi yang menggunakan teks Arab yang begitu cepat tersebut memotivasi peneliti untuk menemukan beberapa tool yang dapat membantu untuk mengelola informasi tersebut dengan lebih baik, menyaring serta mengklasifikasikan informasi tersebut (Mesleh, 27). Klasifikasi teks adalah suatu proses untuk mengklasifikasikan teks ke salah satu kelas atau kelas yang telah ditentukan sebelumnya berdasarkan kesamaan isinya. Banyak metode yang telah digunakan untuk klasifikasi teks Arab antara lain Support Vector Machine (Mesleh 27), N-Gram Frequency Statistics (Khreisat, 26), Naive bayes, K-nearest-neighbour, Distance based Classifier (Duwairi, 27), menggunakan Maximum Entropy (Halees, 27). Banyak penelitian di bidang klasifikasi teks Arab tersebut menggunakan dataset yang dibuat sendiri dengan mengambil artikel dari koran, majalah, jurnal atau berita online. Dataset teks Arab tersebut biasanya kecil dan dikumpulkan secara manual sehingga tidak dapat ditentukan kualitas dan keseimbangannya (Goweder, 2). Penggunaan dataset teks Arab yang tidak seimbang sebagai data training akan mempengaruhi hasil akhir dari pengklasifikasi teks tersebut dikarenakan jumlah training data pada kelas minoritas sedikit C-7-

2 Program Studi MMT-ITS, Surabaya 4 Juli 22 sehingga sedikit term juga yang dapat mewakili kelas tersebut. Training data menunjukkan distribusi kelas yang tidak seimbang apabila jumlah kelas yang satu berbeda jauh dengan jumlah kelas yang lain (Cabrera, 27). Ketidakseimbangan training data pada klasifikasi teks Arab ini akan terlihat jelas pada kelas biner karena pada kelas biner apabila jumlah training data kelas positif jauh lebih kecil dari jumlah training data kelas negatif maka kelas yang positif menjadi kelas minoritas dan kelas negatif adalah mayoritas (Chen, 2). Training data akan menjadi kelas positif apabila sesuai dengan satu kelas yang jumlah dokumennya kecil sedangkan training data yang jumlah dokumennya banyak akan menjadi kelas negatif. Ada beberapa jenis strategi untuk memecahkan masalah dataset tidak seimbang antara lain re-sampling, cost sensitive learning, menyesuaikan algoritma untuk bias rare class, perbaikan bobot term atau pendekatan fitur seleksi. Strategi perbaikan bobot term selain untuk memecahkan dataset tidak seimbang juga sesuai digunakan untuk kelas biner. Telah dilakukan penelitian perbaikan bobot TFIDF term dengan nama Improved TFIDF (I_TFIDF) (Xu, 2). Pada penelitian ini nilai TFIDF dibagi dengan Imbalanced Factor yaitu nilai yang merefleksikan ketidakseimbangan kemunculan dari term di dua kelas. Hasil pembobotan dengan I_TFIDF ini menghasilkan performa yang lebih baik daripada TFIDF. Pada masalah pengklasifikasian teks Arab, salah satu metode supervised learning yang sering digunakan yaitu klasifikasi berbasis centroid (Broder, 27). Ide dasarnya adalah untuk membangun sebuah vektor prototipe atau centroid pada setiap kelas menggunakan training set dokumen (Tan, 28). Metode tersebut mempunyai kelebihan pada pendeknya waktu training dan testing dikarenakan efisiensi algoritmanya. Tetapi klasifikasi berbasis centroid kinerjanya akan menjadi kurang baik dikarenakan centroid tidak memiliki nilai yang baik. Untuk mengatasi masalah ini, banyak metode menggunakan feedback loop untuk menyesuaikan vektor prototipe centroid secara iteratif. Metode-metode yang digunakan antara lain metode Dragpushing (Tan, 27a), metode Hypothesis Margin (Tan, 27b), metode Weight Adjustment (Shankar, 2) dan metode Class Feature Centroid (CFC) (Guan, 29). Metode CFC mempunyai kelebihan karena metode tersebut menggunakan intra-class dan inter-class distribusi term sehingga meningkatkan bobot term yang sangat diskriminatif selama pelatihan. Setiap term mempunyai bobot sesuai dengan frekuensi dokumennya (informasi intra class) dan faktor diskriminatif kelas yang berbanding terbalik dengan jumlah kelas yang berisi term tersebut (informasi inter class). Keduanya dapat memproses corpus secara efisien dengan waktu yang linear dan secara iteratif terupdate. Tetapi metode CFC mempunyai kelemahan yaitu performanya tidak optimal untuk kelas biner dan data nya tidak seimbang karena agresifitas menghilangkan term yang tidak diskriminatif yaitu term yang muncul dalam kedua kelas dengan tidak menghitung jumlah term yang sebenarnya. Oleh karena itu, dalam penelitian ini diusulkan sebuah metode baru untuk klasifikasi teks dengan CFC dengan menambahkan Imbalanced Factor pada bobot termnya. METODE Metode Class Feature Centroid dengan Imbalance Factor (CFCIF) yaitu metode klasifikasi dokumen dengan menggunakan CFC dan IF untuk menghitung bobot term dari centroid masing-masing kelas. Metode ini membutuhkan dua tahapan proses untuk melakukan klasifikasi dokumen yaitu tahap training dan tahap testing. Tahap training digunakan untuk membentuk centroid dengan pembobotannya menggunakan CFC dan IF. Gambar menggambarkan urutan proses yang dilakukan pada tahap training untuk metode klasifikasi dokumen CFCIF. C-7-2

3 Program Studi MMT-ITS, Surabaya 4 Juli 22 Gambar. Urutan proses pada tahap training metode klasifikasi dokumen CFCIF Sebelum dilakukan tahap preprocessing dan indexing seluruh dokumen training telah tersimpan dalam database dan telah di encode terlebih dahulu menggunakan UTF-8. Proses penyimpanan dokumen training ke dalam database dilakukan dengan melakukan perulangan pembacaan file dokumen teks yang memiliki ekstensi text (.txt) dalam satu folder yang sesuai dengan nama kelasnya. Dokumen-dokumen training tersebut akan di load dari database untuk dilakukan preprocessing dengan menggunakan class ArabicAnalyzer pada library Lucene 3.4. Analyzer ini melakukan proses pemisahan rangkaian kata (tokenization), normalization and filtration dari token, menghilangkan stopword serta mengaplikasikan light stemming. Apabila ada sebuah dokumen teks Arab یقودنا الى سو ال مھم!! :وھذا mengalami proses tokenization untuk memisahkan rangkaian kata dan membuang tanda baca maka akan terbentuk term-term yaitu Setelah itu akan dilakukan proses normalization dan filtration untuk.وھذا یقودنا الى سو ال مھم menghilangkan harokat, tetapi karena dokumen yang digunakan tidak menggunakan harokat maka hasilnya akan sama yaitu وھذا یقودنا الى سو ال مھم. Term-term yang telah terbentuk akan mengalami proses stopword removal yaitu menghilangkan kata-kata yang termasuk stopword sehingga akan menyisakan وھذا یقودنا سو ال مھم karena term الى termasuk dalam daftar stopword. Pada tahap akhir preprocessing term-term yang tersisa akan mengalami proses stemming yaitu proses untuk merubah ke dalam bentuk kata dasar sehingga akan terbentuk.ھذا یقودنا- سؤال- مھم term-term yaitu Hasil dari preprocessing akan menjadi masukan pada proses indexing. Proses indexing juga menggunakan class IndexWriterConfig yang ada pada library Lucene. Setelah itu akan dilakukan pembobotan term dengan membaca index yang telah dibuat dari data training kemudian membuat matriks untuk masing-masing kelas yang dimensinya m x n dimana m adalah adalah jumlah term dan n adalah jumlah dokumen dan isi matriksnya yaitu nilai term frekuensi masing-masing term dalam dokumen. Bobot untuk setiap term tersebut dihitung dengan rumus CFCIF (Class Feature Centroid dengan Imbalance Factor) yaitu wij b DF c j t i j C log CFt i IF, () C-7-3

4 Program Studi MMT-ITS, Surabaya 4 Juli 22 dimana DF ti j adalah frekuensi dokumen term ti di kelas Cj, Cj adalah jumlah dokumen di kelas Cj, C adalah total jumlah kelas dokumen, CF ti adalah jumlah kelas yang mengandung term ti dan b adalah konstanta.if adalah Imbalanced Factor dan adalah koordinator parameter distribusi kelas. Rumus IF adalah sebagai berikut: ( ) =. ( ( ), ( ) ) ( ( ), ( ) ) jika DF(ti)+ dan DF(ti) -. ( ). ( ) jika DF(ti) + =., (2) jika DF(ti) - =. dimana DF(ti) + adalah jumlah dokumen yang didalamnya mengandung term ti di kelas positif/minoritas dan DF(ti) - adalah jumlah dokumen yang didalamnya mengandung term ti di kelas negatif/mayoritas. Lambang adalah koordinator parameter distribusi kelas dan digunakan untuk memberi kekuatan pada bobot term di kelas positif/minoritas.setelah pembobotan term tersebut dilakukan akan terbentuklah centroid untuk masing-masing kelas. Centroid untuk kelas Cj adalah vektor term Centroidj = (wj, w2j,..., w F j), dimana wkj ( k F ) merepresentasikan bobot dari term tk. Proses testing akan dilakukan setelah proses training menghasilkan nilai centroid untuk masing-masing kelas. Gambar 2 menggambarkan urutan proses testing untuk melakukan klasifikasi dokumen. Langkah pertama yaitu membaca dokumen testing satupersatu dari folder testing untuk kemudian dilakukan tahap preprocessing yang sama dengan dokumen training dengan menggunakan ArabicAnalyzer. Setelah itu akan melakukan perhitungan similarity antara dokumen testing dengan centroid masing-masing kelas dengan menggunakan cosine similarity. Apabila setiap dokumen testing telah dihitung similarity nya akan ditampilkan hasil klasifikasi dari dokumen testing berdasarkan similarity terbesar terhadap salah satu centroid. C-7-4

5 Program Studi MMT-ITS, Surabaya 4 Juli 22 Gambar 2. Urutan proses tahap testing metode klasifikasi dokumen CFCIF HASIL DAN PEMBAHASAN Tahap uji coba menggunakan dataset yang terdiri dari 24 dokumen yang terbagi menjadi 8 kelas yaitu kelas arts, culture, economy, international, locals, medical, sport, society. Masing-masing kelas mempunyai 3 dokumen dengan perbandingan data training dan testing yaitu 2:. Uji coba dilakukan dengan mengganti variasi nilai parameter b dan. Selain itu dilakukan perbandingan rasio jumlah dokumen untuk kombinasi 2 kelas untuk mendapatkan nilai yang optimal agar hasil klasifikasi dokumen menjadi baik dengan F Measure yang tinggi b=e-.8 b=e-.3 b=e-.8 b=e Gambar 3. Nilai F-Measure pada klasifikasi kelas biner Medical dan Sport untuk variasi nilai b C-7-5

6 Program Studi MMT-ITS, Surabaya 4 Juli 22 Percobaan merubah nilai parameter b menghasilkan grafik seperti pada Gambar 3 yang menunjukkan bahwa nilai b kurang berpengaruh terhadap nilai hasil klasifikasi dengan menggunakan metode CFCIF. Setelah itu dilakukan percobaan dengan merubah variasi nilai pada kombinasi kelas biner dari 8 kelas mulai dari hingga. Pada Tabel akan terlihat beberapa nilai mayoritas yang dapat digunakan untuk menghasilkan klasifikasi yang mempunyai nilai F Measure tinggi. Tabel. Hasil uji coba dengan mengkombinasi klasifikasi untuk dua kelas pada dataset A B Arts Culture Economy International Locals Medical Society Sport Arts Culture Economy International Locals Medical Society Sport Percobaan dengan merubah variasi ini akan menghasilkan nilai bervariasi antara 2, 3, 4, 5 atau 6 untuk mendapatkan hasil klasifikasi yang baik. Hal ini dikarenakan bedanya kedekatan antara dua kelas yang dibandingkan. Berdasarkan mayoritas yang digunakan dari percobaan, hasil klasifikasi yang baik didapatkan jika menggunakan nilai =3, =4 atau =5. Percobaan selanjutnya yaitu menggunakan rasio jumlah dokumen pada kelas biner dengan menggunakan kombinasi 8 kelas yang ada pada dataset. Rasio jumlah dokumen yang digunakan yaitu :5, : dan : :5 : : :5 : :2 Gambar 4. Nilai kelas Medical dan Art Gambar 5. Nilai kelas Medical dan Culture C-7-6

7 Program Studi MMT-ITS, Surabaya 4 Juli :5 : : :5 : :2 Gambar 6. Nilai kelas Medical dan Economy :5 : :2 Gambar 7. Nilai kelas Medical dan International :5 : :2 Gambar 8. Nilai kelas Medical dan Locals Gambar 9. Nilai kelas Medical dan Sport :5 : :2 Gambar. Nilai kelas Medical dan Society Percobaan dilakukan dengan menggunakan variasi parameter untuk mengklasifikasi 2 kelas biner dengan mengkombinasi 8 kelas pada dataset. Variasi parameter yang digunakan yaitu mulai = sampai dengan =. Hasil dari percobaan tersebut dapat dilihat dari Gambar 4 sampai dengan Gambar. Grafik pada Gambar menunjukkan nilai yang lebih rendah dibandingkan yang lain dikarenakan dokumen-dokumen dalam kelas Medical dan Society mempunyai topik yang hampir sama. KESIMPULAN DAN SARAN Metode CFC ditambahkan Imbalanced Factor dapat digunakan untuk mengklasifikasikan data teks Arab yang tidak seimbang pada kelas biner dengan terbaik yang didapatkan yaitu.97. Penentuan nilai parameter pada metode CFCIF C-7-7

8 Program Studi MMT-ITS, Surabaya 4 Juli 22 bergantung pada kedekatan antara dua kelas yang digunakan untuk membentuk centroid. Sedangkan parameter b pada metode CFCIF tidak begitu berpengaruh terhadap hasil klasifikasi. Metode CFCIF ini dapat digunakan untuk mengklasifikasi dokumen dengan rasio jumlah dokumen :5,: dan :2 Untuk penelitian selanjutnya, dapat menerapkan metode CFCIF dengan dataset yang multilabel karena metode CFCIF ini menghasilkan klasifikasi yang baik apabila kelas yang dibandingkan isi dari dokumennya mempunyai topik yang jauh berbeda. DAFTAR PUSTAKA Azmi A,M, Thanyyan S,A. (22). A text summarizer for Arabic. Elsevier Ltd. Chen C, Shyu ML. (2). Clustering-based Binary-class Classification for Imbalanced Data Sets. IEEE in Information Reuse and Integration (IRI). Duwairi R. (27). Arabic Text Categorization. The International Arab Journal of Information Technology Vol 4 No 2. Goweder A, Roeck A D. (2). Assessment of a Significant Arabic Corpus. Arabic NLP Workshop at ACL/EACL. Guan H., Zhou J.,Guo M. (29). A Class Feature Centroid Classifier for Text Categorization. in 8th International World Wide Web Conference,page 2-2,April 29 Halees A E. (27).Arabic text classification using maximum entropy. The Islamic University Journal (Series of Natural Studies and Engineering)5 () Hayder K. Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi. (25). Arabic Light Stemmer: Anew Enhanced Approach. The Second International Conference on Innovations in Information Technology. Khreisat L. (26). Arabic text classification using N-Gram frequency statistics. A comparative study. in: Proceedings of the international conference on data mining (DMIN), Nevada, USA, pp Mesleh, Abdelwadood Moh d. (27). Support Vector Machines based Arabic Languange Text Classification System:Feature Selection Comparative study. 2 th WSEAS Int Conf. on APPLIED MATHEMATICS,Cairo. Shankar S. dan Karypis G.(2). Weight Adjustment Schemes for a Centroid Based Classifier. Army High Performance Computing Research Center. Tan,S.(27a). Large margin DragPushing Strategy for Centroid Text Categorization. Expert Systems with Applications, 33():25 22, 27. Tan.S.(27b). Using hypothesis margin to boost centroid text classifier. In Proceedings of the 27 ACM Symposium on Applied Computing, pages ,Seoul, Korea, 27. Tan.S (28). An improved centroid classifier for text categorization. Elseiver Ltd Expert Systems with Applications, 35(-2): , 28. C-7-8

9 Program Studi MMT-ITS, Surabaya 4 Juli 22 Xu G, Gao X, Zhang X,Zhao X.(2). Improved TFIDF weighting for imbalanced biomedical text classification. In proceeding Elsevier Ltd. International Conference on Energy and Environmental Science. C-7-9

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³ ¹Teknik Informatika,, Universitas Telkom Abstrak Berkembangnya

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN Catur Supriyanto 1, Affandy 2 1,2 Fakulti Teknologi Maklumat dan Komunikasi, Universiti Teknikal

Lebih terperinci

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy). BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )

DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( ) Sidang Tugas Akhir September 2009 Implementasi Metode Ant Colony Optimization untuk Pemilihan Fitur pada Kategorisasi Dokumen Teks DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

UKDW. Bab 1 PENDAHULUAN

UKDW. Bab 1 PENDAHULUAN Bab 1 PENDAHULUAN 1.1 Latar Belakang Skripsi merupakan tugas akhir mahasiswa S1 yang bersifat mandiri dan wajib untuk mendapatkan gelar sarjana. Seorang mahasiswa yang akan menulis tugas akhir harus mencari

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana

Lebih terperinci

Dr. Taufik Fuadi Abidin, S.Si., M.Tech

Dr. Taufik Fuadi Abidin, S.Si., M.Tech Dr. Taufik Fuadi Abidin, S.Si., M.Tech Ketua Program Studi Informatika FMIPA Universitas Syiah Kuala tfa@informatika.unsyiah.ac.id www.informatika.unsyiah.ac.id/tfa Disampaikan pada Seminar Nasional Teknologi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER Anindya Apriliyanti P. Departemen Statistika FMIPA Universitas Padjadjaran a.apriliyanti.p@gmail.com

Lebih terperinci

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,

Lebih terperinci

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE DRAFT JURNAL ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE SENTIMENT ANALYSIS FOR TWITTER ABOUT ONLINE INDONESIAN TRANSPORTATION WITH

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi

Lebih terperinci

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering Naive Bayes Riri Intan Aprilia 1 Teknik Informatika Fakultas Ilmu Komputer

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY

SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY SEMINAR PROGRES TUGAS AKHIR CF 1380 SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY Penyusun: Rohmawati Fuat 5206 100 014 Pembimbing: Rully Agus Hendrawan, S.Kom, M.Eng LABORATORIUM

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM) Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. 1.1 Latar belakang BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi

Lebih terperinci

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Adi Radili 1, Suwanto Sanjaya 2 1,2 Teknik Informatika UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas no. 155 KM. 18

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan merupakan salah satu aspek penting di dalam kehidupan. Oleh karena itu, pendidikan mendapat perhatian besar dalam kehidupan masyarakat dan negara. Pendidikan

Lebih terperinci

Metode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia

Metode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia JLK Vol. 1, No. 1 Maret 2018 Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia Maryamah #1, Made Agus Putra Subali #2, Lailly S. Qolby #3, Agus Zainal Arifin #4, M. Ali Fauzi

Lebih terperinci

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No., Oktober 28, hlm. 3939-3947 http://j-ptiik.ub.ac.id Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen

Lebih terperinci

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a

Lebih terperinci

ISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan)

ISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan) ISSN 0216-3241 173 SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL Oleh I Ketut Purnamawan Jurusan Manajemen Informatika Fakultas Teknik dan Kejuruan Universitas Pendidikan Ganesha tutpurna@yahoo.com

Lebih terperinci

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk  Spam Filtering Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Proposal Tugas Akhir KBK: Rekayasa Perangkat Lunak dan Data (RPLD) Moh. Mahsus 113060088

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE SENTIMENT ANALYSIS ON THE ENGLISH BOOK REVIEWS USING INFORMATION GAIN AND SUPPORT VECTOR MACHINE

Lebih terperinci

Klasifikasi Tweets Pada Twitter Dengan Menggunakan Metode Fuzzy K- Nearest Neighbour (Fuzzy K-NN) dan Query Expansion Berbasis Apriori

Klasifikasi Tweets Pada Twitter Dengan Menggunakan Metode Fuzzy K- Nearest Neighbour (Fuzzy K-NN) dan Query Expansion Berbasis Apriori Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 5, Mei 2017, hlm. 405-414 http://j-ptiik.ub.ac.id Klasifikasi Tweets Pada Twitter Dengan Menggunakan Metode Fuzzy

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab

Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab M. Ali Fauzi 1, Dr. Agus Zainal Arifin 2, S.Kom, M.Kom, Anny Yuniarti 3, S.Kom, M.Comp.Sc Institut Teknologi Sepuluh

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for

Lebih terperinci

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: Adika

Lebih terperinci