# Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1

Ukuran: px
Mulai penontonan dengan halaman:

Download "# Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1"

Transkripsi

1 OPEN ACCESS ISSN socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept pp doi: /indosc Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks Ario Harry Prayogo #1, Mohamad Syahrul Mubarok #2, Adiwijaya #3 # Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1 arioharry@students.telkomuniversity.ac.id 2 msyahrulmubarok@telkomuniversity.ac.id 3 adiwijaya@telkomuniversity.ac.id Abstract Paraphrase identification is an important process within natural language processing. The idea is to automatically recognize phrases that have different forms but contain same meanings. For example if we input query causing fire hazard, then the computer has to recognize this query that this query has same meaning as the cause of fire hazard. On the other hand, paraphrase is expressing the meaning of statement using different words or forms, especially to achieve greater clarity. In this research we will focus on classifying two Indonesian sentence whether it is a paraphrase to each other or not. There are three step in this research: preprocessing, classifier training, and performance evaluation. Preprocessing consists of tokenization, non-alphanumerical removal, and stemming. After preprocessing we will conduct feature extraction in order to build new features from given dataset. First feature is syntactic which is the result from computation of distance between two sentences using Normalized Levensthein Distance method. The second feature is semantic that is obtained by calculating similarity of pair sentence based on semantic trees using Wu and Palmer method. After feature extraction data will be splitted into two parts, training set and test set. Then we discretize the features by clustering them using K-Means and Bayesian Networks as the classifier. The average F1-Score result of classification using Bayesian Networks is 71.5%. Keywords: Paraphrase Identification, Normalized Levensthein Distance, K-Means, Bayesian Networks Abstrak Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaan bentuk namun arti yang sama. Contohnya kalimat menyebabkan kebakaran hutan, maka komputer harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan penyebab kebakaran hutan. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atau bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada pada klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan. Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasi performansi. Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. Setelah dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada. Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat menggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapat dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Received on August Accepted on Sept 2016

2 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan Bayesian Networks adalah 71.5%. Kata kunci: identifikasi parafrasa, Normalized Levensthein Distance, K-Means, Bayesian Networks N I. INTRODUCTION atural Language Processing (NLP) merupakan sebuah teknik yang berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara otomatis dengan mempelajari model matematis dan komputasi dari berbagai macam aspek bahasa dan pengembangan pada sistem yang luas [1]. NLP membangun output berdasarkan aturan yang ada pada bahasa yang dijadikan objek pemrosesan [1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information retrieval, text summarization, question answering, machine translation. Pada kasus deteksi plagiarisme salah satu proses yang diperlukan adalah proses pengenalan parafrasa. Parafrasa adalah pengungkapan ulang sebuah tuturan pada tingkatan atau ragam Bahasa menjadi bentuk lain tanpa mengganti inti tuturan tersebut; Parafrasa dapat diartikan juga sebagai penjelasan ulang suatu teks dalam struktur yang berbeda, dengan tujuan untuk dapat mengungkapkan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda namun mengandung pesan yang sama. Hal yang membuat proses pengenalan parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis frasa-frasa yang berbeda bentuk namun memiliki makna yang sama. Misalnya pada kalimat penyebab kebakaran hutan, seharusnya komputer akan mengenali bahwa kalimat tersebut serupa dengan kalimat sumber kebakaran hutan. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks, infiks, dan konfiks pada struktur bahasa sehingga sulit untuk menyocokan kata yang berkaitan. Untuk menghadapi permasalah diatas maka dibutuhkan sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah keduanya memiliki arti sama atau tidak. Pendekatan yang dilakukan untuk mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu tokenization, non-alphanumerical removal, dan stemming. Algoritma stemming yang digunakan untuk preprocessing dataset parafrasa bahasa Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi terbaik untuk dataset bahasa Indonesia [3]. Data hasil preprocessing tersebut lalu dilakukan proses feature extraction yang bertujuan untuk membangun fitur-fitur baru dari data set tersebut. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat, perhitungan jarak tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang kedua adalah fitur semantik, fitur ini menghitung kemiripan pasangan kalimat berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur, dataset tersebut terbagi ke dalam dua bagian diantaranya training set dan test set. Setelah data selesai dibagi, maka dilakukan diskritisasi nilai fitur dengan clustering menggunakan metode K-Means. Classifier yang digunakan adalah Bayesian Networks. Bayesian networks merupakan suatu metode pemodelan data berbasis probabilitas yang merepresentasikan suatu himpunan variabel dan conditional dependency-nya melalui suatu Directed Acyclic Graph(DAG) [4] [5]. Ada empat alasan mengapa mengambil bayesian networks sebagai classifier. Pertama bayesian networks dapat menangani dataset yang tidak lengkap. Kedua bayesian networks memungkinkan proses learning mengenai hubungan sebab-akibat. Ketiga bayesian networks sejalan dengan teknik bayesian statistik yang memfasilitasi kombinasi antara data dan domain knowledge. Terakhir adalah bayesian networks menyediakan cara yang efisien untuk menghindari data yang bersifat over fit [6]..

3 Ind. Symposium on Computing Sept II. LITERATURE REVIEW Terdapat beberapa penelitian mengenai identifikasi parafrasa salah satunya adalah PDLK: Plagiarism detection using linguistic knowledge yang dilakukan oleh Asad Abdi, dkk [7]. Penelitian tersebut mengusulkan untuk mengenali pasangan dokumen apakah keduanya memiliki isi yang sama atau tidak. Metode yang dilakukan adalah dengan menggabungkan symantic similarity dengan word order similarity. Tujuannya adalah untuk mendapatkan fitur yang dapat menangani kemiripan dokumen secara semantik dan urutan kata. Untuk batasan nilai yang memisahkan dokumen dengan isi yang sama atau tidak dilakukan observasi threshold dan alfa weighting, dengan nilai alfa weighting yang paling baik adalah 0.8 dan threshold 0.6 yang dapat menghasilkan performansi F1-Measure 73.9%. Pendekatan identifikasi parafrasa yang lain menggunakan terjemahan dari sebuah bahasa dimana sumber Bahasa dipastikan memiliki nilai semantik yang ekuivalen dengan bahasa tujuan [8]. Untuk mengekstrak parafrasa penelitian yang dilakukan Yusuke Shinyama, dkk [9] menggunakan named entity anchors, sedangkan [10] menggunakan metode Multiple Sequence Alignment. III. RESEARCH METHOD Pada penelitian ini data yang digunakan merupakan kumpulan pasangan kalimat/frasa Bahasa Indonesia, data tersebut lalu dibagi menjadi training set dan test set. Gambar 1. Alur Sistem Identifikasi Parafrasa Berdasarkan Gambar 1, alur sistem yang dibangun dapat dijelaskan sebagai berikut, A. Pembangunan Dataset Pada proses ini dilakukan pengumpulan dan penyusunan dataset parafrasa dalam Bahasa Indonesia oleh peneliti sebanyak 1004 data. Dataset ini berisi pasangan kalimat/frasa beserta label yang merepresentasikan apakah pasangan kalimat/frasa tersebut merupakan parafrasa atau bukan. B. Preprocessing Proses ini merupakan tahapan awal persiapan proses klasifikasi. Hal ini dilakukan untuk meningkatkan kualitas data dan meningkatkan performansi dari classifier. Preprocessing terdiri dari tiga tahapan sebagai berikut, 1. Proses Tokenization, yaitu memisahkan kalimat-kalimat menjadi kata-kata. Pemisahan tersebut diperlukan pada saat proses stemming karena proses stemming hanya dapat dilakukan kata per kata. Tujuan pemilihan proses non-alphanumeric removal adalah untuk menghilangkan karakter selain huruf dan angka. 2. Proses Non-alphanumeric removal, yaitu bertujuan untuk menghilangkan informasi yang dianggap tidak perlu. Contohnya pada saat proses ekstraksi fitur semantik, karakter selain huruf dan angka

4 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen tidak akan bisa diproses, maka karakter tersebut perlu dihapus agar dapat dilakukan ekstraksi fitur semantik. 3. Proses Stemming, yaitu untuk mendapatkan akar kata atau menghilangkan imbuhan dari setiap token/kata yang ada. Tujuan mengubah kata ke dalam akar katanya adalah agar menghindari kekeliruan pada saat ekstraksi fitur sintaktik. Contohnya ketika pasangan kalimat memiliki akar kata yang sama dengan makna yang sama, namun memiliki imbuhan yang berbeda, jika tidak dilakukan proses stemming, nilai jarak perbedaan antar kata tidak akan bernilai 0, sedangkan jika kita lakukan stemming dan didapatkan akar kata yang sama maka nilai jarak perbedaan akan bernilai 0. Pada fitur sintaktik ini nilai semakin mendekati 0 menunjukan pasangan kata/kalimat semakin mirip, sedangkan semakin jauh menunjukan pasangan kalimat/kata semakin berbeda. C. Feature Extraction Pada proses ini kita akan mengekstrak fitur dari dataset yang telah dilakukan preprocessing. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat. Perhitungan jarak tersebut menggunakan metode Normalized Levhenstein Distance. Fitur yang kedua adalah fitur semantik. Fitur ini menghitung kemiripan pasngan kalimat berdasarkan pohon semantik. Perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Pemilihan kedua fitur tersebut dijelaskan pada [11] yang menyatakan bahwa pengukuran parafrasa dapat dilakukan melalui pendekatan sintaktik dan semantik. Alasan pemilihan metode Normalized Levhenstein Distance dalam proses ekstraksi fitur sintaktik adalah karakteristik metode ini yang dapat menangani penambahan, pengurangan, dan perubahan karakter pada kalimat. Diharapkan dengan menggunakan metode ini perubahan kalimat secara sintaktik dapat ditangani. Alasan pemilihan metode semantik Wu and Palmer adalah metode ini cukup sederhana dan memiliki performansi tinggi dalam kecepatan kalkulasi [12]. D. Pembagian Dataset Pada tahap ini, peneliti melakukan splitting dataset. Tujuan dari splitting dataset ini adalah untuk mendapatkan training set dan test set. Tentunya dalam menentukan training set dan test set, diperlukan porsi data untuk pembagiannya. Peneliti menggunakan 3 skenario pembagian porsi data. Skenario pertama adalah pembagian data 75% untuk training set dan 25% untuk test set. Skenario kedua adalah pembagian data 50% untuk training set dan 50% untuk test set. Skenario ketiga adalah pembagian data 25% untuk training set dan 75% untuk test set. E. Diskritisasi Pada tahap ini dilakukan diskritisasi terhadap data yang sudah dibagi. Tujuan dari diskritisasi adalah mengubah data hasil feature extraction dari data kontinu ke bentuk diskrit. Diskritisasi dilakukan dengan menggunakan metode K-Means, dimana k merupakan nilai dari jumlah cluster yang akan dibangun. Pada proses ini terdapat 6 skenario nilai k yaitu: k = 2, k = 5, k = 8, k = 11, k = 14 dan k = 17. Diskritisasi dilakukan pada training set sesuai nilai k yang telah ditentukan, kemudian nilai centroid dari k tersebut disimpan sebagai acuan pada diskritisasi test set. F. Pembangunan Classifier Pada tahap ini, model classifier dibangun berdasarkan training set yang telah diproses sampai feature selection. Pada tahap ini, peneliti membangun dua graf DAG Bayesian Networks. Parameter-parameter yang ada di kedua graf ini dihitung nilainya menggunakan cara MAP. G. Classification Semua test set yang telah di-preprocessing kemudian diklasifikasikan menggunakan classifier yang telah dibangun sebelumnya. Graf sebanyak 25 merupakan keseluruhan kemungkinan kombinasi dari node dengan jumlah 3 [13]. Jumlah DAG G(n) adalah super-exponential sesuai nilai n. Persamaan 1 digunakan untuk menghitung kombinasi struktur.

5 Ind. Symposium on Computing Sept n G(n) = ( 1) k+1 ( n k ) 2k(n k) G(n k) (1) k=1 Gambar 7 adalah gambaran 25 graf yang telah dibuat. Gambar 2. Graf Bayesian Networks IV. SYSTEM EVALUATION A. Tujuan Pengujian Adapun tujuan dari pengujian sistem ini adalah: 1. Menganalisis pengaruh persentase training set dan test set terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 2. Menganalisis pengaruh nilai k pada saat proses diskritisasi terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 3. Menganalisis pengaruh graf Bayesian Networks yang digunakan terhadap hasil klasifikasi.

6 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen B. Dataset Data yang digunakan dalam penelitian ini menggunakan data teks berupa pasangan kalimat/frasa yang berasal dari tiga sumber. Sumber pertama adalah kamus Bahasa Indonesia, dari sumber ini peneliti mengambil frasa-frasa sederhana. Sumber kedua adalah media sosial twitter, dari twitter peneliti mengambil kalimatkalimat percakapan sehari-hari, sekaligus sebagai sumber pasangan kalimat yang sepadan. Sumber yang ketiga adalah dari artikel berita online, peneliti mengambil kutipan kalimat pada sebuah artikel dari sebuah website berita dan mencari kutipan kalimat yang sepadan dari artikel yang serupa pada website berita lainnya. Total dataset yang dikumpulkan oleh peneliti adalah 1004 data. Dataset di desain terdiri dari 3 kolom dalam setiap barisnya, kolom pertama berisi kalimat 1, kolom kedua berisi kalimat 2, dan kolom ketiga berisi kelas yang terbagi ke dalam 2 kelas yaitu parafrasa yang direpresentasikan angka 1 dan non parafrasa yang direpresentasikan angka 0. Bentuk dataset tersebut mengikuti dataset parafrasa Bahasa Inggris yang dibangun oleh Microsoft [14]. Distribusi data antar kelas dapat dilihat pada Tabel 6 berikut. TABEL 1 DISTRIBUSI DATASET Kelas Jumlah Data Persentase Parafrasa % Non-parafrasa % Total Dataset % V. RESULT AND DISCUSSION Pengujian sistem klasifikasi ini terdiri dari beberapa bagian, yaitu pengujian pengaruh jumlah training set dan test set terhadap hasil identifikasi parafrasa, pengujian pengaruh nilai k pada saat diskritisasi, dan pengujian pengaruh graf Bayesian Networks. Performansi sistem dihitung dengan menggunakan accuracy, precision, recall, dan F1-measure. Untuk mengambil hasil yang terbaik kita mengacu pada nilai F1-measure. 1. Analisis Pengaruh Jumlah Distribusi Data Pengujian dilakukan dengan menggunakan tiga komposisi training set dan test set yang berbeda. Porsi data yang diobservasi pada penelitian ini adalah sesuai Tabel 7, sesuai Tabel 8 dan sesuai tabel 9. Tujuan dari pengujian ini adalah mengetahui porsi dataset seperti apa yang dapat menghasilkan performa tertinggi. Jumlah porsi dataset perlu di ketahui karena jumlah training set mempengaruhi nilai likelihood pada conditional probability table. Dengan berbedanya nilai likelihood pada conditional probability table tentu otomatis akan mempengaruhi perhitungan pada join probability. Dengan dipengaruhinya join probability maka nilai posterior akan terpengaruh, yang otomatis mempengaruhi hasil klasifikasi. TABEL 2 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data

7 Ind. Symposium on Computing Sept TABEL 3 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data TABEL 4 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data Penentuan komposisi training set dan test set dilakukan secara acak sebanyak 30 kali. Berikut adalah perbandingan nilai performansi sistem maksimal dengan tiga distribusi yang berbeda. Gambar 3. Perbandingan performa rata-rata dari dua persentase dataset Pada Gambar 8 dapat dilihat dari 30 kali proses random splitting dataset bahwa performansi sistem maksimum dan rata-rata dalam melakukan proses klasifikasi paling baik menggunakan distribusi data Hal ini disebabkan oleh perbandingan porsi data yang digunakan untuk membangun classifier lebih banyak. Karena Bayesian Networks merupakan supervised machine learning, maka jumlah data yang di learning sangat berpengaruh terhadap hasil klasifikasi. Semakin besar training set maka pengetahuan mesin terhadap kasus ini akan semakin luas. Berikut pada Tabel 10 adalah detail hasil klasifikasi dari Gambar 8.

8 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 5 HASIL MAKSIMUM DAN RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Evaluation Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Nilai k Saat Diskritisasi Pengujian dilakukan dengan menggunakan enam nilai k yaitu 2, 5, 8, 11, 14, dan 17. Berikut merupakan perbandingan nilai performansi sistem maksimal dan rata-rata dengan dua distribusi yang berbeda. Tujuan dari pengujian ini adalah untuk mengetahui nilai k mana yang terbaik pada saat proses diskritisasi. Nilai k akan mempengaruhi jumlah value/label pada sebuah fitur. Semakin besar nilai k maka jumlah nilai akan semakin banyak maka otomatis akan mempengaruhi nilai likelihood. Dengan demikian performansi classifier akan dipengaruhi oleh nilai k. Gambar 4. Perbandingan Performa Maksimum dan Rata-rata dari Berbagai Nilai k Pada Gambar 9 dapat dilihat dari 6 nilai k yang berbeda yaitu 2, 5, 8, 11, 14 dan 17 bahwa nilai performansi F1-measure dengan rata-rata tertinggi adalah nilai k = 2. Hal tersebut disebabkan semakin banyak nilai k membuat sebuah data yang seharusnya masuk kedalam kelompok centroid tertentu malah tertarik kedalam kelompok centroid lainnya. Hal tersebut meningkatkan potensi kesalahan pengelompokan data, yang mengakibatkan terjadinya kesalahan klasifikasi. Semakin besarnya nilai k maka penentuan sebuah data untuk dimasukan ke centroid tertentu akan semakin detail. Namun dengan semakin detailnya proses diskritisasi tidak menjamin performansi yang lebih baik. Hal tersebut disebabkan oleh semakin banyaknya value sebuah fitur maka akan semakin kompleks perhitungan klasifikasinya. Pada kasus penelitian ini semakin kompleks dapat diartikan oleh semakin banyaknya jumlah kombinasi yang ada pada conditional probability table. Berikut pada Tabel 4-6 adalah detail hasil klasifikasi dari Gambar 9.

9 Ind. Symposium on Computing Sept TABEL 6 HASIL RATA-RATA DARI KLASIFIKASI DENGAN NILAI K YANG BERBEDA Evaluation k = 2 k = 5 k = 8 k = 11 k = 14 k = 17 Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Graf Bayesian Networks Pada tahap ini dilakukan pengujian terhadap 25 graf Bayesian Networks. Tujuan analisis ini adalah untuk mengetahui graf mana yang paling ideal dalam merepresentasikan dataset parafrasa. Sebuah graf dianggap lebih representatif terhadap sebuah kasus dibanding graf lainnya apabila score sebuah graf lebih besar dibandingkan dengan score graft lainnya. Berikut ini perbandingan skor maksimum dan rata-rata dari ketiga graf tersebut.

10 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 7 SCORE MAKSIMUM DAN RATA-RATA GRAF BAYESIAN NETWORKS Maksimum Rata-rata Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph TABEL 8 HASIL RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Avg Avg Avg Avg Accuracy Precision Recall F1 Graph Graph Graph Graph Graph Graph Graph Graph

11 Ind. Symposium on Computing Sept Avg Accuracy Avg Precision Avg Recall Avg F1 Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Berdasarkan Tabel 13, dari 30 kali percobaan yang dilakukan dapat kita lihat bahwa graf dengan score dan performansi rata-rata F1-Measure yang paling baik adalah graf nomor 2, 18, dan 19. Score dari sebuah graf dianggap baik apabila semakin mendekati nilai nol. Graf nomor 2, 18, dan 19 merupakan yang terbaik dimana nilai score BDeu dan nilai performansi merupakan yang tertinggi, hal tersebut mencerminkan bahwa graf 2, 18, dan 19 merupakan graf yang paling representatif terhadap kasus pada penelitian ini. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. VI. CONCLUSION Berdasarkan hasil penelitian yang telah didapatkan, maka kesimpulan yang dapat diambil dari penelitian ini adalah sebagai berikut. a. Metode klasifikasi Bayesian Networks teruji dapat melakukan identifikasi parafrasa Bahasa Indonesia dengan nilai performansi rata-rata akurasi 66.2%, precision 61.8%, recall 84.4%, dan F1-Measure 71.5%. b. Proses pre-processing stemming dan non-alphanumberical removal dapat digunakan dalam proses klasifikasi ini. Hal tersebut dibuktikan bahwa pada proses stemming didapatkan akar kata dan pada hasil proses non-alphanumberical removal tidak ditemukan karakter selain huruf dan angka. c. Proses ekstraksi fitur pasangan kalimat dapat dilakukan setelah melakukan preprocessing. Metode yang dapat digunakan untuk melakukan ekstraksi fitur sintaktik adalah Normalized Levhensthein Distance, sedangkan metode yang digunakan untuk melakukan ekstraksi fitur semantic adalah Wu and Palmer. d. Graf Bayesian Network nomor 2, 18, dan 19 memiliki score graf yang terbaik, sesuai dengan nilai F1- Measure tertinggi. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya

12 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. e. Nilai k terbaik pada saat diskritisasi menggunakan metode k-means adalah 2. Hal tersebut dapat dilihat pada tabel 4-6 yang menjelaskan bahwa performansi rata-rata F1-Measure terbaik adalah k dengan nilai 2. VII. REFERENCES [1] A. Reshamwala, D. Mishra and P. Pawar, "Review On Natural Language Processing," ACST Engineering Science and Technology: An International Journal (ESTIJ), vol. 3, no. 1, [2] KBBI, "KBBI - Parafrasa," [Online]. Available: kbbi.web.id/parafrasa. [3] J. Asian, H. E. Williams and S. Tahaghoghi, "Stemming Indonesian," RMIT University, Melbourne. [4] U. B. Kjaerulff and A. L. Madsen, Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis, New York: Springer, [5] D. Koller and N. Friedman, "Probabilistic Graphical Models: Principles and Techniques," The MIT Press, Cambridge, Massachusetts, [6] Heckerman and David, A Tutorial on Learning With Bayesian Networks, Redmond: Microsoft Corporation, [7] A. Abdi, N. Idris, R. M. Alguliyev and R. M. A., "PDLK: Plagiarism Detection Using Linguistic Knowledge," Expert Systems With Application, pp. 1-11, [8] R. Barzilay and K. McKeown, "Extracting paraphrases from a parallel corpus," Annual Meeting of the Association for Computational Linguistics, pp , [9] Y. Shinyama, S. Sekine, K. Sudo and R. Grishman, "Automatic paraphrase acquisition from news articles," [10] R. Barzilay and L. Lee, "Learning to paraphrase: An unsupervised approach using multiple-sequence alignment," HLT-NAACL, pp , [11] N. P. A. Vo, S. Magnolini and O. Popescu, "Paraphrase Identification and Semantic Similarity in Twitter with Simple Features," Proceedings of Social NLP, pp , [12] M. S. K, Dr.K.C.Shet and D. U. Acharya, "A New Similarity Measure For Taxonomy Based On Edge Counting," nternational Journal of Web & Semantic Technology (IJWesT), vol. 3, no. 4, [13] K. Murphy, "Bayes Net Toolbox for Matlab," [Online]. Available: [Accessed ]. [14] B. Dolan, C. Brockett and C. Quirk, "Microsoft Research Paraphrase Corpus," Microsoft, 2005.

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes

Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 139-148 doi:10.21108/indosc.2016.131 Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BABI PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)

Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA) Tugas Akhir Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA) Oleh: Danang Wahyu Wicaksono (1210100027) Pembimbing: 1. Prof. DR. Mohammad Isa

Lebih terperinci

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas

Lebih terperinci

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL BERBAHASA INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA) Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer

Lebih terperinci

PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP

PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP Humasak Tommy Argo Simanjuntak 1) Manajemen Informatika, Politeknik Informatika Del Jl. Sisingamangaraja, Sitoluama,

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas

Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas Ika Widiastuti #1, Ratih Ayuninghemi #2 # Jurusan Teknologi Informasi, Politeknik Negeri Jember Jl. Mastrip

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

PENGENALAN OBJEK PADA CITRA BERDASARKAN SIMILARITAS KARAKTERISTIK KURVA SEDERHANA

PENGENALAN OBJEK PADA CITRA BERDASARKAN SIMILARITAS KARAKTERISTIK KURVA SEDERHANA PENGENALAN OBJEK PADA CITRA BERDASARKAN SIMILARITAS KARAKTERISTIK KURVA SEDERHANA Dina Indarti Pusat Studi Komputasi Matematika, Universitas Gunadarma Jl. Margonda Raya no. 100, Depok 16424, Jawa Barat

Lebih terperinci

Analisis dan Implementasi Deteksi Citra Spam Menggunakan Gray Level Co-occurences Matrix dan Naive Bayes

Analisis dan Implementasi Deteksi Citra Spam Menggunakan Gray Level Co-occurences Matrix dan Naive Bayes OPEN ACCESS OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc ISSN XXXX-XXXX NO. XX, SEPT 2016 SOCJ.TELKOMUNIVERSITY.AC.ID/INDOSC Ind. Symposium on Computing Sept 2016. pp. 319-334 doi:10.21108/indosc.2016.164

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah

Lebih terperinci

Analisis Sentimen berdasarkan Aspek Pada Review Restoran Menggunakan Bayesian Networks Untuk Dokumen Berbahasa Inggris

Analisis Sentimen berdasarkan Aspek Pada Review Restoran Menggunakan Bayesian Networks Untuk Dokumen Berbahasa Inggris OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 307-318 doi:10.21108/indosc.2016.162 Analisis Sentimen berdasarkan Aspek Pada Review Restoran Menggunakan

Lebih terperinci

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL

PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik

Lebih terperinci

KLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK

KLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK ISSN : 2355-9365 e-proceeding of Engineering : Vol.5, No.1 Maret 2018 Page 1579 KLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK Abstrak Fahmi Salman Nurfikri 1, Mohamad Syahrul

Lebih terperinci

Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan Pengukuran Berbasis Path

Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan Pengukuran Berbasis Path OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 297-306 doi:10.21108/indosc.2016.159 Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi

Lebih terperinci

Truecasing untuk Teks Bahasa Indonesia

Truecasing untuk Teks Bahasa Indonesia Truecasing untuk Teks Bahasa Indonesia Said Al Faraby dan Ade Romadhony Fakultas Informatika Universitas Telkom Indonesia {saidalfaraby,aderomadhony}@telkomuniversity.ac.id Abstrak Penggunaan huruf besar

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari Negara Indonesia. Berdasarkan ketentuan UU Nomor 24 tahun 2009 (Pasal 3) tujuan dari penggunaan Bahasa Indonesia sebagai bahasa

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi informasi yang semakin berkembang dari masa ke masa telah membuktikan akan kebutuhan manusia pada informasi itu sendiri. Berbagai situs, portal berita, website,

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET

IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

PENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP)

PENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP) PENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP) Ratih Nindyasari Fakultas Teknik, Program Studi Teknik Informatika Universitas

Lebih terperinci

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE SENTIMENT ANALYSIS ON THE ENGLISH BOOK REVIEWS USING INFORMATION GAIN AND SUPPORT VECTOR MACHINE

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 262 SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL SIMULATION AND ANALYSIS

Lebih terperinci

EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA

EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK

TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK Nurhalimah Harahap¹, Eddy Muntina Dharma², Andrian Rakhmatsyah³ ¹Teknik Informatika,, Universitas Telkom

Lebih terperinci

ABSTRAK. Kata Kunci : Algoritma Genetika, Pemrosesan Bahasa Alami, Twiter, Tweet, Semantic Relatedness. Universitas Kristen Maranatha

ABSTRAK. Kata Kunci : Algoritma Genetika, Pemrosesan Bahasa Alami, Twiter, Tweet, Semantic Relatedness. Universitas Kristen Maranatha ABSTRAK Dengan munculnya berbagai media sosial, banyak orang yang menuliskan bermacam-macam hal, salah satunya memberikan menuliskan motivasi. Dengan demikian, dibuatlah penelitian untuk membuat sebuah

Lebih terperinci

Perbandingan Algoritma Pendeteksian Spam

Perbandingan Algoritma Pendeteksian Spam Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,

Lebih terperinci

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing

Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing Jurnal Telematika, vol.8 no.1, Institut Teknologi Harapan Bangsa, Bandung, Indonesia Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB Harry Hartanto #1, The Houw Liong

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.

Lebih terperinci

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS

Lebih terperinci

Sistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA)

Sistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA) JURNAL SAINS DAN SENI POMITS Vol. 3, No. 2, (2014) ISSN: 2337-3539 (2301-9271 Print) A-41 Sistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA)

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238 ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238 Penentuan Fitur Supervised Learning dalam Identifikasi Kalimat Sitasi pada Makalah Ilmiah Determining Supervised Learning

Lebih terperinci

PENGENALAN BILANGAN ARAB MENGGUNAKAN TEMPLATE MATCHING

PENGENALAN BILANGAN ARAB MENGGUNAKAN TEMPLATE MATCHING Powered by TCPDF (www.tcpdf.org) PENGENALAN BILANGAN ARAB MENGGUNAKAN TEMPLATE MATCHING Muhammad Hanif Dwiadi¹, Sofia Naning Hertiana², Gelar Budiman³ ¹Teknik Telekomunikasi,, Universitas Telkom Abstrak

Lebih terperinci

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION Yufis Azhar Program Studi Teknik Informatika Fakultas Teknik, Universitas Muhammadiyah Malang Email : yufis.az@gmail.com

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : /PS/MTF

TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : /PS/MTF TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : 135302026/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA UNIVERSITAS ATMA JAYA YOGYAKARTA 2016 UNIVERSITAS

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing

Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Volume 9 Nomor 2, Oktober 2016 Hlm. 91-98 ISSN 0216-9495 (Print) ISSN 2502-5325 (Online) Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Mohammad

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

Pengukuran Happiness Index Masyarakat Kota Bandung pada Media Sosial Twitter Menggunakan Pendekatan Ontologi Top-Down Hierarchy

Pengukuran Happiness Index Masyarakat Kota Bandung pada Media Sosial Twitter Menggunakan Pendekatan Ontologi Top-Down Hierarchy OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 17-22 doi:10.21108/indosc.2016.113 Pengukuran Happiness Index Masyarakat Kota Bandung pada Media

Lebih terperinci

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar Strata Satu Program Studi Informatika

Lebih terperinci

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU 111402008 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram) JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

Implementasi Mutual Information dan Naive Bayes untuk Klasifikasi Data Microarray

Implementasi Mutual Information dan Naive Bayes untuk Klasifikasi Data Microarray ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 3179 Implementasi Mutual Information dan Naive Bayes untuk Klasifikasi Data Microarray Mohamad Syahrul Mubarok 1, Kurnia C Widiastuti

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI

ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari)

Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari) Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari) Amalfi Yusri Darusman Jurusan Teknik Informatika Institut Teknologi Bandung, jalan Ganesha 10 Bandung, email : if17023@students.if.itb.a.c.id

Lebih terperinci