METODE CLASS FEATURE CENTROID CLASSIFIER UNTUK MENGKLASIFIKASI DATA TEKS ARAB YANG TIDAK SEIMBANG
|
|
- Sugiarto Tedja
- 6 tahun lalu
- Tontonan:
Transkripsi
1 Program Studi MMT-ITS, Surabaya 4 Juli 22 METODE CLASS FEATURE CENTROID CLASSIFIER UNTUK MENGKLASIFIKASI DATA TEKS ARAB YANG TIDAK SEIMBANG Indriati ), Agus Zainal Arifin 2) dan Anny Yuniarti 3) Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Kampus ITS Keputih Sukolilo, Surabaya 6 indriati@mhs.if.its.ac.id, agus.za@its-sby.edu, ayuniarti@gmail.com ABSTRAK Banyaknya informasi digital tidak terstruktur yang salah satunya berbentuk teks Arab membutuhkan klasifikasi teks secara otomatis. Banyak penelitian di bidang klasifikasi teks Arab tersebut menggunakan dataset yang dibuat sendiri sehingga kualitasnya tidak dapat ditentukan dan adanya data yang tidak seimbang. Dalam penelitian ini diusulkan sebuah metode untuk klasifikasi teks menggunakan metode Class Feature Centroid (CFC) dengan menambahkan Imbalanced Factor (IF) pada bobot termnya. Metode ini digunakan untuk data yang tidak seimbang pada kelas biner dengan dokumen berteks Arab. Pada tahap training dokumen-dokumen teks Arab mengalami tahap preprocessing hingga menghasilkan termterm. Term-term tersebut akan diberi bobot dengan metode CFC dengan menambahkan IF sehingga membentuk centroid dari masing-masing kelas. Centroid tersebut akan digunakan pada tahap testing, dokumen dengan similarity terbesar terhadap suatu centroid di suatu kelas akan menjadi anggota kelas tersebut. Pada percobaan menunjukkan hasil klasifikasi terbaik yang dapat dicapai dengan menggunakan metode ini yaitu mempunyai nilai sebesar.97. Hasil percobaan tersebut menunjukkan bahwa metode CFC dengan menambahkan IF dapat mengatasi klasifikasi data teks Arab yang tidak seimbang. Kata kunci: klasifikasi teks, Class Feature Centroid, Imbalanced Factor PENDAHULUAN Peningkatan arus informasi di dunia internet berlangsung sangat cepat. Kecenderungan peningkatan tersebut menyebabkan banyaknya informasi digital yang tidak terstruktur. Salah satu dari informasi digital yang tidak terstruktur tersebut yaitu informasi berbentuk teks Arab yang dapat ditemukan pada berbagai web online berbahasa Arab. Pertumbuhan informasi yang menggunakan teks Arab yang begitu cepat tersebut memotivasi peneliti untuk menemukan beberapa tool yang dapat membantu untuk mengelola informasi tersebut dengan lebih baik, menyaring serta mengklasifikasikan informasi tersebut (Mesleh, 27). Klasifikasi teks adalah suatu proses untuk mengklasifikasikan teks ke salah satu kelas atau kelas yang telah ditentukan sebelumnya berdasarkan kesamaan isinya. Banyak metode yang telah digunakan untuk klasifikasi teks Arab antara lain Support Vector Machine (Mesleh 27), N-Gram Frequency Statistics (Khreisat, 26), Naive bayes, K-nearest-neighbour, Distance based Classifier (Duwairi, 27), menggunakan Maximum Entropy (Halees, 27). Banyak penelitian di bidang klasifikasi teks Arab tersebut menggunakan dataset yang dibuat sendiri dengan mengambil artikel dari koran, majalah, jurnal atau berita online. Dataset teks Arab tersebut biasanya kecil dan dikumpulkan secara manual sehingga tidak dapat ditentukan kualitas dan keseimbangannya (Goweder, 2). Penggunaan dataset teks Arab yang tidak seimbang sebagai data training akan mempengaruhi hasil akhir dari pengklasifikasi teks tersebut dikarenakan jumlah training data pada kelas minoritas sedikit C-7-
2 Program Studi MMT-ITS, Surabaya 4 Juli 22 sehingga sedikit term juga yang dapat mewakili kelas tersebut. Training data menunjukkan distribusi kelas yang tidak seimbang apabila jumlah kelas yang satu berbeda jauh dengan jumlah kelas yang lain (Cabrera, 27). Ketidakseimbangan training data pada klasifikasi teks Arab ini akan terlihat jelas pada kelas biner karena pada kelas biner apabila jumlah training data kelas positif jauh lebih kecil dari jumlah training data kelas negatif maka kelas yang positif menjadi kelas minoritas dan kelas negatif adalah mayoritas (Chen, 2). Training data akan menjadi kelas positif apabila sesuai dengan satu kelas yang jumlah dokumennya kecil sedangkan training data yang jumlah dokumennya banyak akan menjadi kelas negatif. Ada beberapa jenis strategi untuk memecahkan masalah dataset tidak seimbang antara lain re-sampling, cost sensitive learning, menyesuaikan algoritma untuk bias rare class, perbaikan bobot term atau pendekatan fitur seleksi. Strategi perbaikan bobot term selain untuk memecahkan dataset tidak seimbang juga sesuai digunakan untuk kelas biner. Telah dilakukan penelitian perbaikan bobot TFIDF term dengan nama Improved TFIDF (I_TFIDF) (Xu, 2). Pada penelitian ini nilai TFIDF dibagi dengan Imbalanced Factor yaitu nilai yang merefleksikan ketidakseimbangan kemunculan dari term di dua kelas. Hasil pembobotan dengan I_TFIDF ini menghasilkan performa yang lebih baik daripada TFIDF. Pada masalah pengklasifikasian teks Arab, salah satu metode supervised learning yang sering digunakan yaitu klasifikasi berbasis centroid (Broder, 27). Ide dasarnya adalah untuk membangun sebuah vektor prototipe atau centroid pada setiap kelas menggunakan training set dokumen (Tan, 28). Metode tersebut mempunyai kelebihan pada pendeknya waktu training dan testing dikarenakan efisiensi algoritmanya. Tetapi klasifikasi berbasis centroid kinerjanya akan menjadi kurang baik dikarenakan centroid tidak memiliki nilai yang baik. Untuk mengatasi masalah ini, banyak metode menggunakan feedback loop untuk menyesuaikan vektor prototipe centroid secara iteratif. Metode-metode yang digunakan antara lain metode Dragpushing (Tan, 27a), metode Hypothesis Margin (Tan, 27b), metode Weight Adjustment (Shankar, 2) dan metode Class Feature Centroid (CFC) (Guan, 29). Metode CFC mempunyai kelebihan karena metode tersebut menggunakan intra-class dan inter-class distribusi term sehingga meningkatkan bobot term yang sangat diskriminatif selama pelatihan. Setiap term mempunyai bobot sesuai dengan frekuensi dokumennya (informasi intra class) dan faktor diskriminatif kelas yang berbanding terbalik dengan jumlah kelas yang berisi term tersebut (informasi inter class). Keduanya dapat memproses corpus secara efisien dengan waktu yang linear dan secara iteratif terupdate. Tetapi metode CFC mempunyai kelemahan yaitu performanya tidak optimal untuk kelas biner dan data nya tidak seimbang karena agresifitas menghilangkan term yang tidak diskriminatif yaitu term yang muncul dalam kedua kelas dengan tidak menghitung jumlah term yang sebenarnya. Oleh karena itu, dalam penelitian ini diusulkan sebuah metode baru untuk klasifikasi teks dengan CFC dengan menambahkan Imbalanced Factor pada bobot termnya. METODE Metode Class Feature Centroid dengan Imbalance Factor (CFCIF) yaitu metode klasifikasi dokumen dengan menggunakan CFC dan IF untuk menghitung bobot term dari centroid masing-masing kelas. Metode ini membutuhkan dua tahapan proses untuk melakukan klasifikasi dokumen yaitu tahap training dan tahap testing. Tahap training digunakan untuk membentuk centroid dengan pembobotannya menggunakan CFC dan IF. Gambar menggambarkan urutan proses yang dilakukan pada tahap training untuk metode klasifikasi dokumen CFCIF. C-7-2
3 Program Studi MMT-ITS, Surabaya 4 Juli 22 Gambar. Urutan proses pada tahap training metode klasifikasi dokumen CFCIF Sebelum dilakukan tahap preprocessing dan indexing seluruh dokumen training telah tersimpan dalam database dan telah di encode terlebih dahulu menggunakan UTF-8. Proses penyimpanan dokumen training ke dalam database dilakukan dengan melakukan perulangan pembacaan file dokumen teks yang memiliki ekstensi text (.txt) dalam satu folder yang sesuai dengan nama kelasnya. Dokumen-dokumen training tersebut akan di load dari database untuk dilakukan preprocessing dengan menggunakan class ArabicAnalyzer pada library Lucene 3.4. Analyzer ini melakukan proses pemisahan rangkaian kata (tokenization), normalization and filtration dari token, menghilangkan stopword serta mengaplikasikan light stemming. Apabila ada sebuah dokumen teks Arab یقودنا الى سو ال مھم!! :وھذا mengalami proses tokenization untuk memisahkan rangkaian kata dan membuang tanda baca maka akan terbentuk term-term yaitu Setelah itu akan dilakukan proses normalization dan filtration untuk.وھذا یقودنا الى سو ال مھم menghilangkan harokat, tetapi karena dokumen yang digunakan tidak menggunakan harokat maka hasilnya akan sama yaitu وھذا یقودنا الى سو ال مھم. Term-term yang telah terbentuk akan mengalami proses stopword removal yaitu menghilangkan kata-kata yang termasuk stopword sehingga akan menyisakan وھذا یقودنا سو ال مھم karena term الى termasuk dalam daftar stopword. Pada tahap akhir preprocessing term-term yang tersisa akan mengalami proses stemming yaitu proses untuk merubah ke dalam bentuk kata dasar sehingga akan terbentuk.ھذا یقودنا- سؤال- مھم term-term yaitu Hasil dari preprocessing akan menjadi masukan pada proses indexing. Proses indexing juga menggunakan class IndexWriterConfig yang ada pada library Lucene. Setelah itu akan dilakukan pembobotan term dengan membaca index yang telah dibuat dari data training kemudian membuat matriks untuk masing-masing kelas yang dimensinya m x n dimana m adalah adalah jumlah term dan n adalah jumlah dokumen dan isi matriksnya yaitu nilai term frekuensi masing-masing term dalam dokumen. Bobot untuk setiap term tersebut dihitung dengan rumus CFCIF (Class Feature Centroid dengan Imbalance Factor) yaitu wij b DF c j t i j C log CFt i IF, () C-7-3
4 Program Studi MMT-ITS, Surabaya 4 Juli 22 dimana DF ti j adalah frekuensi dokumen term ti di kelas Cj, Cj adalah jumlah dokumen di kelas Cj, C adalah total jumlah kelas dokumen, CF ti adalah jumlah kelas yang mengandung term ti dan b adalah konstanta.if adalah Imbalanced Factor dan adalah koordinator parameter distribusi kelas. Rumus IF adalah sebagai berikut: ( ) =. ( ( ), ( ) ) ( ( ), ( ) ) jika DF(ti)+ dan DF(ti) -. ( ). ( ) jika DF(ti) + =., (2) jika DF(ti) - =. dimana DF(ti) + adalah jumlah dokumen yang didalamnya mengandung term ti di kelas positif/minoritas dan DF(ti) - adalah jumlah dokumen yang didalamnya mengandung term ti di kelas negatif/mayoritas. Lambang adalah koordinator parameter distribusi kelas dan digunakan untuk memberi kekuatan pada bobot term di kelas positif/minoritas.setelah pembobotan term tersebut dilakukan akan terbentuklah centroid untuk masing-masing kelas. Centroid untuk kelas Cj adalah vektor term Centroidj = (wj, w2j,..., w F j), dimana wkj ( k F ) merepresentasikan bobot dari term tk. Proses testing akan dilakukan setelah proses training menghasilkan nilai centroid untuk masing-masing kelas. Gambar 2 menggambarkan urutan proses testing untuk melakukan klasifikasi dokumen. Langkah pertama yaitu membaca dokumen testing satupersatu dari folder testing untuk kemudian dilakukan tahap preprocessing yang sama dengan dokumen training dengan menggunakan ArabicAnalyzer. Setelah itu akan melakukan perhitungan similarity antara dokumen testing dengan centroid masing-masing kelas dengan menggunakan cosine similarity. Apabila setiap dokumen testing telah dihitung similarity nya akan ditampilkan hasil klasifikasi dari dokumen testing berdasarkan similarity terbesar terhadap salah satu centroid. C-7-4
5 Program Studi MMT-ITS, Surabaya 4 Juli 22 Gambar 2. Urutan proses tahap testing metode klasifikasi dokumen CFCIF HASIL DAN PEMBAHASAN Tahap uji coba menggunakan dataset yang terdiri dari 24 dokumen yang terbagi menjadi 8 kelas yaitu kelas arts, culture, economy, international, locals, medical, sport, society. Masing-masing kelas mempunyai 3 dokumen dengan perbandingan data training dan testing yaitu 2:. Uji coba dilakukan dengan mengganti variasi nilai parameter b dan. Selain itu dilakukan perbandingan rasio jumlah dokumen untuk kombinasi 2 kelas untuk mendapatkan nilai yang optimal agar hasil klasifikasi dokumen menjadi baik dengan F Measure yang tinggi b=e-.8 b=e-.3 b=e-.8 b=e Gambar 3. Nilai F-Measure pada klasifikasi kelas biner Medical dan Sport untuk variasi nilai b C-7-5
6 Program Studi MMT-ITS, Surabaya 4 Juli 22 Percobaan merubah nilai parameter b menghasilkan grafik seperti pada Gambar 3 yang menunjukkan bahwa nilai b kurang berpengaruh terhadap nilai hasil klasifikasi dengan menggunakan metode CFCIF. Setelah itu dilakukan percobaan dengan merubah variasi nilai pada kombinasi kelas biner dari 8 kelas mulai dari hingga. Pada Tabel akan terlihat beberapa nilai mayoritas yang dapat digunakan untuk menghasilkan klasifikasi yang mempunyai nilai F Measure tinggi. Tabel. Hasil uji coba dengan mengkombinasi klasifikasi untuk dua kelas pada dataset A B Arts Culture Economy International Locals Medical Society Sport Arts Culture Economy International Locals Medical Society Sport Percobaan dengan merubah variasi ini akan menghasilkan nilai bervariasi antara 2, 3, 4, 5 atau 6 untuk mendapatkan hasil klasifikasi yang baik. Hal ini dikarenakan bedanya kedekatan antara dua kelas yang dibandingkan. Berdasarkan mayoritas yang digunakan dari percobaan, hasil klasifikasi yang baik didapatkan jika menggunakan nilai =3, =4 atau =5. Percobaan selanjutnya yaitu menggunakan rasio jumlah dokumen pada kelas biner dengan menggunakan kombinasi 8 kelas yang ada pada dataset. Rasio jumlah dokumen yang digunakan yaitu :5, : dan : :5 : : :5 : :2 Gambar 4. Nilai kelas Medical dan Art Gambar 5. Nilai kelas Medical dan Culture C-7-6
7 Program Studi MMT-ITS, Surabaya 4 Juli :5 : : :5 : :2 Gambar 6. Nilai kelas Medical dan Economy :5 : :2 Gambar 7. Nilai kelas Medical dan International :5 : :2 Gambar 8. Nilai kelas Medical dan Locals Gambar 9. Nilai kelas Medical dan Sport :5 : :2 Gambar. Nilai kelas Medical dan Society Percobaan dilakukan dengan menggunakan variasi parameter untuk mengklasifikasi 2 kelas biner dengan mengkombinasi 8 kelas pada dataset. Variasi parameter yang digunakan yaitu mulai = sampai dengan =. Hasil dari percobaan tersebut dapat dilihat dari Gambar 4 sampai dengan Gambar. Grafik pada Gambar menunjukkan nilai yang lebih rendah dibandingkan yang lain dikarenakan dokumen-dokumen dalam kelas Medical dan Society mempunyai topik yang hampir sama. KESIMPULAN DAN SARAN Metode CFC ditambahkan Imbalanced Factor dapat digunakan untuk mengklasifikasikan data teks Arab yang tidak seimbang pada kelas biner dengan terbaik yang didapatkan yaitu.97. Penentuan nilai parameter pada metode CFCIF C-7-7
8 Program Studi MMT-ITS, Surabaya 4 Juli 22 bergantung pada kedekatan antara dua kelas yang digunakan untuk membentuk centroid. Sedangkan parameter b pada metode CFCIF tidak begitu berpengaruh terhadap hasil klasifikasi. Metode CFCIF ini dapat digunakan untuk mengklasifikasi dokumen dengan rasio jumlah dokumen :5,: dan :2 Untuk penelitian selanjutnya, dapat menerapkan metode CFCIF dengan dataset yang multilabel karena metode CFCIF ini menghasilkan klasifikasi yang baik apabila kelas yang dibandingkan isi dari dokumennya mempunyai topik yang jauh berbeda. DAFTAR PUSTAKA Azmi A,M, Thanyyan S,A. (22). A text summarizer for Arabic. Elsevier Ltd. Chen C, Shyu ML. (2). Clustering-based Binary-class Classification for Imbalanced Data Sets. IEEE in Information Reuse and Integration (IRI). Duwairi R. (27). Arabic Text Categorization. The International Arab Journal of Information Technology Vol 4 No 2. Goweder A, Roeck A D. (2). Assessment of a Significant Arabic Corpus. Arabic NLP Workshop at ACL/EACL. Guan H., Zhou J.,Guo M. (29). A Class Feature Centroid Classifier for Text Categorization. in 8th International World Wide Web Conference,page 2-2,April 29 Halees A E. (27).Arabic text classification using maximum entropy. The Islamic University Journal (Series of Natural Studies and Engineering)5 () Hayder K. Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi. (25). Arabic Light Stemmer: Anew Enhanced Approach. The Second International Conference on Innovations in Information Technology. Khreisat L. (26). Arabic text classification using N-Gram frequency statistics. A comparative study. in: Proceedings of the international conference on data mining (DMIN), Nevada, USA, pp Mesleh, Abdelwadood Moh d. (27). Support Vector Machines based Arabic Languange Text Classification System:Feature Selection Comparative study. 2 th WSEAS Int Conf. on APPLIED MATHEMATICS,Cairo. Shankar S. dan Karypis G.(2). Weight Adjustment Schemes for a Centroid Based Classifier. Army High Performance Computing Research Center. Tan,S.(27a). Large margin DragPushing Strategy for Centroid Text Categorization. Expert Systems with Applications, 33():25 22, 27. Tan.S.(27b). Using hypothesis margin to boost centroid text classifier. In Proceedings of the 27 ACM Symposium on Applied Computing, pages ,Seoul, Korea, 27. Tan.S (28). An improved centroid classifier for text categorization. Elseiver Ltd Expert Systems with Applications, 35(-2): , 28. C-7-8
9 Program Studi MMT-ITS, Surabaya 4 Juli 22 Xu G, Gao X, Zhang X,Zhao X.(2). Improved TFIDF weighting for imbalanced biomedical text classification. In proceeding Elsevier Ltd. International Conference on Energy and Environmental Science. C-7-9
Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciINVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB
INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperinciIMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciUKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
Lebih terperinciIDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul
Lebih terperinciPENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
Lebih terperinciPenghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinci1. Introduction. tertentu memegang peran penting dalam. Abstract
Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinciFEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)
FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³ ¹Teknik Informatika,, Universitas Telkom Abstrak Berkembangnya
Lebih terperinciKATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP
KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI
Lebih terperinciROCCHIO CLASSIFICATION
DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang
Lebih terperinciIMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS
IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut
Lebih terperinciKOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN
KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN Catur Supriyanto 1, Affandy 2 1,2 Fakulti Teknologi Maklumat dan Komunikasi, Universiti Teknikal
Lebih terperinciBAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciDOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara P. ( )
Sidang Tugas Akhir September 2009 Implementasi Metode Ant Colony Optimization untuk Pemilihan Fitur pada Kategorisasi Dokumen Teks DOSEN PEMBIMBING Chastine Fatichah, S.Kom, M.Kom MAHASISWA Yudis Anggara
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinci1 BAB I PENDAHULUAN. 1.1 Latar Belakang
1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciKLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR
KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciUKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision
Lebih terperinciBandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciSTUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciHASIL DAN PEMBAHASAN. Praproses
5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk
Lebih terperinciPerbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia
Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
Lebih terperinciBAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciKLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO
F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan
Lebih terperinciEFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA
EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciUKDW. Bab 1 PENDAHULUAN
Bab 1 PENDAHULUAN 1.1 Latar Belakang Skripsi merupakan tugas akhir mahasiswa S1 yang bersifat mandiri dan wajib untuk mendapatkan gelar sarjana. Seorang mahasiswa yang akan menulis tugas akhir harus mencari
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciBAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan
Lebih terperinciKLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)
Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciIMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET
IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Lebih terperinciKLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER
KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana
Lebih terperinciDr. Taufik Fuadi Abidin, S.Si., M.Tech
Dr. Taufik Fuadi Abidin, S.Si., M.Tech Ketua Program Studi Informatika FMIPA Universitas Syiah Kuala tfa@informatika.unsyiah.ac.id www.informatika.unsyiah.ac.id/tfa Disampaikan pada Seminar Nasional Teknologi
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
Lebih terperinciKLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR
KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika
Lebih terperinciIMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA
ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi
Lebih terperinciSENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER
SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER Anindya Apriliyanti P. Departemen Statistika FMIPA Universitas Padjadjaran a.apriliyanti.p@gmail.com
Lebih terperinciImplementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita
Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,
Lebih terperinciANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE
DRAFT JURNAL ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE SENTIMENT ANALYSIS FOR TWITTER ABOUT ONLINE INDONESIAN TRANSPORTATION WITH
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi
Lebih terperinciSistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes
Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering Naive Bayes Riri Intan Aprilia 1 Teknik Informatika Fakultas Ilmu Komputer
Lebih terperinciBAB 1 PENDAHULUAN 1.1. Latar belakang
BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu
Lebih terperinciBab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciSISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY
SEMINAR PROGRES TUGAS AKHIR CF 1380 SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY Penyusun: Rohmawati Fuat 5206 100 014 Pembimbing: Rully Agus Hendrawan, S.Kom, M.Eng LABORATORIUM
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi
Lebih terperinciUKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
Lebih terperinciPerbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor
Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciMetode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)
Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar belakang
BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi
Lebih terperinciKLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari
KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi
Lebih terperinciMetode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala
Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen
Lebih terperinciPenerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen
Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Adi Radili 1, Suwanto Sanjaya 2 1,2 Teknik Informatika UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas no. 155 KM. 18
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Pendidikan merupakan salah satu aspek penting di dalam kehidupan. Oleh karena itu, pendidikan mendapat perhatian besar dalam kehidupan masyarakat dan negara. Pendidikan
Lebih terperinciMetode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia
JLK Vol. 1, No. 1 Maret 2018 Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia Maryamah #1, Made Agus Putra Subali #2, Lailly S. Qolby #3, Agus Zainal Arifin #4, M. Ali Fauzi
Lebih terperinciImplementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No., Oktober 28, hlm. 3939-3947 http://j-ptiik.ub.ac.id Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen
Lebih terperinciIMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA
IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a
Lebih terperinciISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan)
ISSN 0216-3241 173 SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL Oleh I Ketut Purnamawan Jurusan Manajemen Informatika Fakultas Teknik dan Kejuruan Universitas Pendidikan Ganesha tutpurna@yahoo.com
Lebih terperinciImplementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering
Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Proposal Tugas Akhir KBK: Rekayasa Perangkat Lunak dan Data (RPLD) Moh. Mahsus 113060088
Lebih terperinciAnalisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering
Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,
Lebih terperinciBAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.
BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan
Lebih terperinciANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE
ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE SENTIMENT ANALYSIS ON THE ENGLISH BOOK REVIEWS USING INFORMATION GAIN AND SUPPORT VECTOR MACHINE
Lebih terperinciKlasifikasi Tweets Pada Twitter Dengan Menggunakan Metode Fuzzy K- Nearest Neighbour (Fuzzy K-NN) dan Query Expansion Berbasis Apriori
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 5, Mei 2017, hlm. 405-414 http://j-ptiik.ub.ac.id Klasifikasi Tweets Pada Twitter Dengan Menggunakan Metode Fuzzy
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciTerm Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab
Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab M. Ali Fauzi 1, Dr. Agus Zainal Arifin 2, S.Kom, M.Kom, Anny Yuniarti 3, S.Kom, M.Comp.Sc Institut Teknologi Sepuluh
Lebih terperinciISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for
Lebih terperinciIMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR
IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: Adika
Lebih terperinci