# Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1
|
|
- Inge Sasmita
- 6 tahun lalu
- Tontonan:
Transkripsi
1 OPEN ACCESS ISSN socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept pp doi: /indosc Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks Ario Harry Prayogo #1, Mohamad Syahrul Mubarok #2, Adiwijaya #3 # Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1 arioharry@students.telkomuniversity.ac.id 2 msyahrulmubarok@telkomuniversity.ac.id 3 adiwijaya@telkomuniversity.ac.id Abstract Paraphrase identification is an important process within natural language processing. The idea is to automatically recognize phrases that have different forms but contain same meanings. For example if we input query causing fire hazard, then the computer has to recognize this query that this query has same meaning as the cause of fire hazard. On the other hand, paraphrase is expressing the meaning of statement using different words or forms, especially to achieve greater clarity. In this research we will focus on classifying two Indonesian sentence whether it is a paraphrase to each other or not. There are three step in this research: preprocessing, classifier training, and performance evaluation. Preprocessing consists of tokenization, non-alphanumerical removal, and stemming. After preprocessing we will conduct feature extraction in order to build new features from given dataset. First feature is syntactic which is the result from computation of distance between two sentences using Normalized Levensthein Distance method. The second feature is semantic that is obtained by calculating similarity of pair sentence based on semantic trees using Wu and Palmer method. After feature extraction data will be splitted into two parts, training set and test set. Then we discretize the features by clustering them using K-Means and Bayesian Networks as the classifier. The average F1-Score result of classification using Bayesian Networks is 71.5%. Keywords: Paraphrase Identification, Normalized Levensthein Distance, K-Means, Bayesian Networks Abstrak Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaan bentuk namun arti yang sama. Contohnya kalimat menyebabkan kebakaran hutan, maka komputer harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan penyebab kebakaran hutan. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atau bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada pada klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan. Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasi performansi. Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. Setelah dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada. Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat menggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapat dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Received on August Accepted on Sept 2016
2 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan Bayesian Networks adalah 71.5%. Kata kunci: identifikasi parafrasa, Normalized Levensthein Distance, K-Means, Bayesian Networks N I. INTRODUCTION atural Language Processing (NLP) merupakan sebuah teknik yang berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara otomatis dengan mempelajari model matematis dan komputasi dari berbagai macam aspek bahasa dan pengembangan pada sistem yang luas [1]. NLP membangun output berdasarkan aturan yang ada pada bahasa yang dijadikan objek pemrosesan [1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information retrieval, text summarization, question answering, machine translation. Pada kasus deteksi plagiarisme salah satu proses yang diperlukan adalah proses pengenalan parafrasa. Parafrasa adalah pengungkapan ulang sebuah tuturan pada tingkatan atau ragam Bahasa menjadi bentuk lain tanpa mengganti inti tuturan tersebut; Parafrasa dapat diartikan juga sebagai penjelasan ulang suatu teks dalam struktur yang berbeda, dengan tujuan untuk dapat mengungkapkan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda namun mengandung pesan yang sama. Hal yang membuat proses pengenalan parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis frasa-frasa yang berbeda bentuk namun memiliki makna yang sama. Misalnya pada kalimat penyebab kebakaran hutan, seharusnya komputer akan mengenali bahwa kalimat tersebut serupa dengan kalimat sumber kebakaran hutan. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks, infiks, dan konfiks pada struktur bahasa sehingga sulit untuk menyocokan kata yang berkaitan. Untuk menghadapi permasalah diatas maka dibutuhkan sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah keduanya memiliki arti sama atau tidak. Pendekatan yang dilakukan untuk mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu tokenization, non-alphanumerical removal, dan stemming. Algoritma stemming yang digunakan untuk preprocessing dataset parafrasa bahasa Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi terbaik untuk dataset bahasa Indonesia [3]. Data hasil preprocessing tersebut lalu dilakukan proses feature extraction yang bertujuan untuk membangun fitur-fitur baru dari data set tersebut. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat, perhitungan jarak tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang kedua adalah fitur semantik, fitur ini menghitung kemiripan pasangan kalimat berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur, dataset tersebut terbagi ke dalam dua bagian diantaranya training set dan test set. Setelah data selesai dibagi, maka dilakukan diskritisasi nilai fitur dengan clustering menggunakan metode K-Means. Classifier yang digunakan adalah Bayesian Networks. Bayesian networks merupakan suatu metode pemodelan data berbasis probabilitas yang merepresentasikan suatu himpunan variabel dan conditional dependency-nya melalui suatu Directed Acyclic Graph(DAG) [4] [5]. Ada empat alasan mengapa mengambil bayesian networks sebagai classifier. Pertama bayesian networks dapat menangani dataset yang tidak lengkap. Kedua bayesian networks memungkinkan proses learning mengenai hubungan sebab-akibat. Ketiga bayesian networks sejalan dengan teknik bayesian statistik yang memfasilitasi kombinasi antara data dan domain knowledge. Terakhir adalah bayesian networks menyediakan cara yang efisien untuk menghindari data yang bersifat over fit [6]..
3 Ind. Symposium on Computing Sept II. LITERATURE REVIEW Terdapat beberapa penelitian mengenai identifikasi parafrasa salah satunya adalah PDLK: Plagiarism detection using linguistic knowledge yang dilakukan oleh Asad Abdi, dkk [7]. Penelitian tersebut mengusulkan untuk mengenali pasangan dokumen apakah keduanya memiliki isi yang sama atau tidak. Metode yang dilakukan adalah dengan menggabungkan symantic similarity dengan word order similarity. Tujuannya adalah untuk mendapatkan fitur yang dapat menangani kemiripan dokumen secara semantik dan urutan kata. Untuk batasan nilai yang memisahkan dokumen dengan isi yang sama atau tidak dilakukan observasi threshold dan alfa weighting, dengan nilai alfa weighting yang paling baik adalah 0.8 dan threshold 0.6 yang dapat menghasilkan performansi F1-Measure 73.9%. Pendekatan identifikasi parafrasa yang lain menggunakan terjemahan dari sebuah bahasa dimana sumber Bahasa dipastikan memiliki nilai semantik yang ekuivalen dengan bahasa tujuan [8]. Untuk mengekstrak parafrasa penelitian yang dilakukan Yusuke Shinyama, dkk [9] menggunakan named entity anchors, sedangkan [10] menggunakan metode Multiple Sequence Alignment. III. RESEARCH METHOD Pada penelitian ini data yang digunakan merupakan kumpulan pasangan kalimat/frasa Bahasa Indonesia, data tersebut lalu dibagi menjadi training set dan test set. Gambar 1. Alur Sistem Identifikasi Parafrasa Berdasarkan Gambar 1, alur sistem yang dibangun dapat dijelaskan sebagai berikut, A. Pembangunan Dataset Pada proses ini dilakukan pengumpulan dan penyusunan dataset parafrasa dalam Bahasa Indonesia oleh peneliti sebanyak 1004 data. Dataset ini berisi pasangan kalimat/frasa beserta label yang merepresentasikan apakah pasangan kalimat/frasa tersebut merupakan parafrasa atau bukan. B. Preprocessing Proses ini merupakan tahapan awal persiapan proses klasifikasi. Hal ini dilakukan untuk meningkatkan kualitas data dan meningkatkan performansi dari classifier. Preprocessing terdiri dari tiga tahapan sebagai berikut, 1. Proses Tokenization, yaitu memisahkan kalimat-kalimat menjadi kata-kata. Pemisahan tersebut diperlukan pada saat proses stemming karena proses stemming hanya dapat dilakukan kata per kata. Tujuan pemilihan proses non-alphanumeric removal adalah untuk menghilangkan karakter selain huruf dan angka. 2. Proses Non-alphanumeric removal, yaitu bertujuan untuk menghilangkan informasi yang dianggap tidak perlu. Contohnya pada saat proses ekstraksi fitur semantik, karakter selain huruf dan angka
4 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen tidak akan bisa diproses, maka karakter tersebut perlu dihapus agar dapat dilakukan ekstraksi fitur semantik. 3. Proses Stemming, yaitu untuk mendapatkan akar kata atau menghilangkan imbuhan dari setiap token/kata yang ada. Tujuan mengubah kata ke dalam akar katanya adalah agar menghindari kekeliruan pada saat ekstraksi fitur sintaktik. Contohnya ketika pasangan kalimat memiliki akar kata yang sama dengan makna yang sama, namun memiliki imbuhan yang berbeda, jika tidak dilakukan proses stemming, nilai jarak perbedaan antar kata tidak akan bernilai 0, sedangkan jika kita lakukan stemming dan didapatkan akar kata yang sama maka nilai jarak perbedaan akan bernilai 0. Pada fitur sintaktik ini nilai semakin mendekati 0 menunjukan pasangan kata/kalimat semakin mirip, sedangkan semakin jauh menunjukan pasangan kalimat/kata semakin berbeda. C. Feature Extraction Pada proses ini kita akan mengekstrak fitur dari dataset yang telah dilakukan preprocessing. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat. Perhitungan jarak tersebut menggunakan metode Normalized Levhenstein Distance. Fitur yang kedua adalah fitur semantik. Fitur ini menghitung kemiripan pasngan kalimat berdasarkan pohon semantik. Perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Pemilihan kedua fitur tersebut dijelaskan pada [11] yang menyatakan bahwa pengukuran parafrasa dapat dilakukan melalui pendekatan sintaktik dan semantik. Alasan pemilihan metode Normalized Levhenstein Distance dalam proses ekstraksi fitur sintaktik adalah karakteristik metode ini yang dapat menangani penambahan, pengurangan, dan perubahan karakter pada kalimat. Diharapkan dengan menggunakan metode ini perubahan kalimat secara sintaktik dapat ditangani. Alasan pemilihan metode semantik Wu and Palmer adalah metode ini cukup sederhana dan memiliki performansi tinggi dalam kecepatan kalkulasi [12]. D. Pembagian Dataset Pada tahap ini, peneliti melakukan splitting dataset. Tujuan dari splitting dataset ini adalah untuk mendapatkan training set dan test set. Tentunya dalam menentukan training set dan test set, diperlukan porsi data untuk pembagiannya. Peneliti menggunakan 3 skenario pembagian porsi data. Skenario pertama adalah pembagian data 75% untuk training set dan 25% untuk test set. Skenario kedua adalah pembagian data 50% untuk training set dan 50% untuk test set. Skenario ketiga adalah pembagian data 25% untuk training set dan 75% untuk test set. E. Diskritisasi Pada tahap ini dilakukan diskritisasi terhadap data yang sudah dibagi. Tujuan dari diskritisasi adalah mengubah data hasil feature extraction dari data kontinu ke bentuk diskrit. Diskritisasi dilakukan dengan menggunakan metode K-Means, dimana k merupakan nilai dari jumlah cluster yang akan dibangun. Pada proses ini terdapat 6 skenario nilai k yaitu: k = 2, k = 5, k = 8, k = 11, k = 14 dan k = 17. Diskritisasi dilakukan pada training set sesuai nilai k yang telah ditentukan, kemudian nilai centroid dari k tersebut disimpan sebagai acuan pada diskritisasi test set. F. Pembangunan Classifier Pada tahap ini, model classifier dibangun berdasarkan training set yang telah diproses sampai feature selection. Pada tahap ini, peneliti membangun dua graf DAG Bayesian Networks. Parameter-parameter yang ada di kedua graf ini dihitung nilainya menggunakan cara MAP. G. Classification Semua test set yang telah di-preprocessing kemudian diklasifikasikan menggunakan classifier yang telah dibangun sebelumnya. Graf sebanyak 25 merupakan keseluruhan kemungkinan kombinasi dari node dengan jumlah 3 [13]. Jumlah DAG G(n) adalah super-exponential sesuai nilai n. Persamaan 1 digunakan untuk menghitung kombinasi struktur.
5 Ind. Symposium on Computing Sept n G(n) = ( 1) k+1 ( n k ) 2k(n k) G(n k) (1) k=1 Gambar 7 adalah gambaran 25 graf yang telah dibuat. Gambar 2. Graf Bayesian Networks IV. SYSTEM EVALUATION A. Tujuan Pengujian Adapun tujuan dari pengujian sistem ini adalah: 1. Menganalisis pengaruh persentase training set dan test set terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 2. Menganalisis pengaruh nilai k pada saat proses diskritisasi terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 3. Menganalisis pengaruh graf Bayesian Networks yang digunakan terhadap hasil klasifikasi.
6 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen B. Dataset Data yang digunakan dalam penelitian ini menggunakan data teks berupa pasangan kalimat/frasa yang berasal dari tiga sumber. Sumber pertama adalah kamus Bahasa Indonesia, dari sumber ini peneliti mengambil frasa-frasa sederhana. Sumber kedua adalah media sosial twitter, dari twitter peneliti mengambil kalimatkalimat percakapan sehari-hari, sekaligus sebagai sumber pasangan kalimat yang sepadan. Sumber yang ketiga adalah dari artikel berita online, peneliti mengambil kutipan kalimat pada sebuah artikel dari sebuah website berita dan mencari kutipan kalimat yang sepadan dari artikel yang serupa pada website berita lainnya. Total dataset yang dikumpulkan oleh peneliti adalah 1004 data. Dataset di desain terdiri dari 3 kolom dalam setiap barisnya, kolom pertama berisi kalimat 1, kolom kedua berisi kalimat 2, dan kolom ketiga berisi kelas yang terbagi ke dalam 2 kelas yaitu parafrasa yang direpresentasikan angka 1 dan non parafrasa yang direpresentasikan angka 0. Bentuk dataset tersebut mengikuti dataset parafrasa Bahasa Inggris yang dibangun oleh Microsoft [14]. Distribusi data antar kelas dapat dilihat pada Tabel 6 berikut. TABEL 1 DISTRIBUSI DATASET Kelas Jumlah Data Persentase Parafrasa % Non-parafrasa % Total Dataset % V. RESULT AND DISCUSSION Pengujian sistem klasifikasi ini terdiri dari beberapa bagian, yaitu pengujian pengaruh jumlah training set dan test set terhadap hasil identifikasi parafrasa, pengujian pengaruh nilai k pada saat diskritisasi, dan pengujian pengaruh graf Bayesian Networks. Performansi sistem dihitung dengan menggunakan accuracy, precision, recall, dan F1-measure. Untuk mengambil hasil yang terbaik kita mengacu pada nilai F1-measure. 1. Analisis Pengaruh Jumlah Distribusi Data Pengujian dilakukan dengan menggunakan tiga komposisi training set dan test set yang berbeda. Porsi data yang diobservasi pada penelitian ini adalah sesuai Tabel 7, sesuai Tabel 8 dan sesuai tabel 9. Tujuan dari pengujian ini adalah mengetahui porsi dataset seperti apa yang dapat menghasilkan performa tertinggi. Jumlah porsi dataset perlu di ketahui karena jumlah training set mempengaruhi nilai likelihood pada conditional probability table. Dengan berbedanya nilai likelihood pada conditional probability table tentu otomatis akan mempengaruhi perhitungan pada join probability. Dengan dipengaruhinya join probability maka nilai posterior akan terpengaruh, yang otomatis mempengaruhi hasil klasifikasi. TABEL 2 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data
7 Ind. Symposium on Computing Sept TABEL 3 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data TABEL 4 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data Penentuan komposisi training set dan test set dilakukan secara acak sebanyak 30 kali. Berikut adalah perbandingan nilai performansi sistem maksimal dengan tiga distribusi yang berbeda. Gambar 3. Perbandingan performa rata-rata dari dua persentase dataset Pada Gambar 8 dapat dilihat dari 30 kali proses random splitting dataset bahwa performansi sistem maksimum dan rata-rata dalam melakukan proses klasifikasi paling baik menggunakan distribusi data Hal ini disebabkan oleh perbandingan porsi data yang digunakan untuk membangun classifier lebih banyak. Karena Bayesian Networks merupakan supervised machine learning, maka jumlah data yang di learning sangat berpengaruh terhadap hasil klasifikasi. Semakin besar training set maka pengetahuan mesin terhadap kasus ini akan semakin luas. Berikut pada Tabel 10 adalah detail hasil klasifikasi dari Gambar 8.
8 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 5 HASIL MAKSIMUM DAN RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Evaluation Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Nilai k Saat Diskritisasi Pengujian dilakukan dengan menggunakan enam nilai k yaitu 2, 5, 8, 11, 14, dan 17. Berikut merupakan perbandingan nilai performansi sistem maksimal dan rata-rata dengan dua distribusi yang berbeda. Tujuan dari pengujian ini adalah untuk mengetahui nilai k mana yang terbaik pada saat proses diskritisasi. Nilai k akan mempengaruhi jumlah value/label pada sebuah fitur. Semakin besar nilai k maka jumlah nilai akan semakin banyak maka otomatis akan mempengaruhi nilai likelihood. Dengan demikian performansi classifier akan dipengaruhi oleh nilai k. Gambar 4. Perbandingan Performa Maksimum dan Rata-rata dari Berbagai Nilai k Pada Gambar 9 dapat dilihat dari 6 nilai k yang berbeda yaitu 2, 5, 8, 11, 14 dan 17 bahwa nilai performansi F1-measure dengan rata-rata tertinggi adalah nilai k = 2. Hal tersebut disebabkan semakin banyak nilai k membuat sebuah data yang seharusnya masuk kedalam kelompok centroid tertentu malah tertarik kedalam kelompok centroid lainnya. Hal tersebut meningkatkan potensi kesalahan pengelompokan data, yang mengakibatkan terjadinya kesalahan klasifikasi. Semakin besarnya nilai k maka penentuan sebuah data untuk dimasukan ke centroid tertentu akan semakin detail. Namun dengan semakin detailnya proses diskritisasi tidak menjamin performansi yang lebih baik. Hal tersebut disebabkan oleh semakin banyaknya value sebuah fitur maka akan semakin kompleks perhitungan klasifikasinya. Pada kasus penelitian ini semakin kompleks dapat diartikan oleh semakin banyaknya jumlah kombinasi yang ada pada conditional probability table. Berikut pada Tabel 4-6 adalah detail hasil klasifikasi dari Gambar 9.
9 Ind. Symposium on Computing Sept TABEL 6 HASIL RATA-RATA DARI KLASIFIKASI DENGAN NILAI K YANG BERBEDA Evaluation k = 2 k = 5 k = 8 k = 11 k = 14 k = 17 Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Graf Bayesian Networks Pada tahap ini dilakukan pengujian terhadap 25 graf Bayesian Networks. Tujuan analisis ini adalah untuk mengetahui graf mana yang paling ideal dalam merepresentasikan dataset parafrasa. Sebuah graf dianggap lebih representatif terhadap sebuah kasus dibanding graf lainnya apabila score sebuah graf lebih besar dibandingkan dengan score graft lainnya. Berikut ini perbandingan skor maksimum dan rata-rata dari ketiga graf tersebut.
10 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 7 SCORE MAKSIMUM DAN RATA-RATA GRAF BAYESIAN NETWORKS Maksimum Rata-rata Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph TABEL 8 HASIL RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Avg Avg Avg Avg Accuracy Precision Recall F1 Graph Graph Graph Graph Graph Graph Graph Graph
11 Ind. Symposium on Computing Sept Avg Accuracy Avg Precision Avg Recall Avg F1 Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Berdasarkan Tabel 13, dari 30 kali percobaan yang dilakukan dapat kita lihat bahwa graf dengan score dan performansi rata-rata F1-Measure yang paling baik adalah graf nomor 2, 18, dan 19. Score dari sebuah graf dianggap baik apabila semakin mendekati nilai nol. Graf nomor 2, 18, dan 19 merupakan yang terbaik dimana nilai score BDeu dan nilai performansi merupakan yang tertinggi, hal tersebut mencerminkan bahwa graf 2, 18, dan 19 merupakan graf yang paling representatif terhadap kasus pada penelitian ini. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. VI. CONCLUSION Berdasarkan hasil penelitian yang telah didapatkan, maka kesimpulan yang dapat diambil dari penelitian ini adalah sebagai berikut. a. Metode klasifikasi Bayesian Networks teruji dapat melakukan identifikasi parafrasa Bahasa Indonesia dengan nilai performansi rata-rata akurasi 66.2%, precision 61.8%, recall 84.4%, dan F1-Measure 71.5%. b. Proses pre-processing stemming dan non-alphanumberical removal dapat digunakan dalam proses klasifikasi ini. Hal tersebut dibuktikan bahwa pada proses stemming didapatkan akar kata dan pada hasil proses non-alphanumberical removal tidak ditemukan karakter selain huruf dan angka. c. Proses ekstraksi fitur pasangan kalimat dapat dilakukan setelah melakukan preprocessing. Metode yang dapat digunakan untuk melakukan ekstraksi fitur sintaktik adalah Normalized Levhensthein Distance, sedangkan metode yang digunakan untuk melakukan ekstraksi fitur semantic adalah Wu and Palmer. d. Graf Bayesian Network nomor 2, 18, dan 19 memiliki score graf yang terbaik, sesuai dengan nilai F1- Measure tertinggi. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya
12 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. e. Nilai k terbaik pada saat diskritisasi menggunakan metode k-means adalah 2. Hal tersebut dapat dilihat pada tabel 4-6 yang menjelaskan bahwa performansi rata-rata F1-Measure terbaik adalah k dengan nilai 2. VII. REFERENCES [1] A. Reshamwala, D. Mishra and P. Pawar, "Review On Natural Language Processing," ACST Engineering Science and Technology: An International Journal (ESTIJ), vol. 3, no. 1, [2] KBBI, "KBBI - Parafrasa," [Online]. Available: kbbi.web.id/parafrasa. [3] J. Asian, H. E. Williams and S. Tahaghoghi, "Stemming Indonesian," RMIT University, Melbourne. [4] U. B. Kjaerulff and A. L. Madsen, Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis, New York: Springer, [5] D. Koller and N. Friedman, "Probabilistic Graphical Models: Principles and Techniques," The MIT Press, Cambridge, Massachusetts, [6] Heckerman and David, A Tutorial on Learning With Bayesian Networks, Redmond: Microsoft Corporation, [7] A. Abdi, N. Idris, R. M. Alguliyev and R. M. A., "PDLK: Plagiarism Detection Using Linguistic Knowledge," Expert Systems With Application, pp. 1-11, [8] R. Barzilay and K. McKeown, "Extracting paraphrases from a parallel corpus," Annual Meeting of the Association for Computational Linguistics, pp , [9] Y. Shinyama, S. Sekine, K. Sudo and R. Grishman, "Automatic paraphrase acquisition from news articles," [10] R. Barzilay and L. Lee, "Learning to paraphrase: An unsupervised approach using multiple-sequence alignment," HLT-NAACL, pp , [11] N. P. A. Vo, S. Magnolini and O. Popescu, "Paraphrase Identification and Semantic Similarity in Twitter with Simple Features," Proceedings of Social NLP, pp , [12] M. S. K, Dr.K.C.Shet and D. U. Acharya, "A New Similarity Measure For Taxonomy Based On Edge Counting," nternational Journal of Web & Semantic Technology (IJWesT), vol. 3, no. 4, [13] K. Murphy, "Bayes Net Toolbox for Matlab," [Online]. Available: [Accessed ]. [14] B. Dolan, C. Brockett and C. Quirk, "Microsoft Research Paraphrase Corpus," Microsoft, 2005.
IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul
Lebih terperinciANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM
ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming
Lebih terperinciKlasifikasi Topik pada Lirik Lagu dengan Metode Multinomial Naïve Bayes
OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 139-148 doi:10.21108/indosc.2016.131 Klasifikasi Topik pada Lirik Lagu dengan Metode Multinomial
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperinci1. Introduction. tertentu memegang peran penting dalam. Abstract
Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciBAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai
BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di
Lebih terperinciPERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciBandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBABI PENDAHULUAN. 1.1 Latar Belakang
BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa
Lebih terperinciPemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity
Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciSistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA)
Tugas Akhir Sistem Deteksi Kemiripan antar Dokumen Teks Menggunakan Model Bayesian pada Term Latent Semantic Analysis (LSA) Oleh: Danang Wahyu Wicaksono (1210100027) Pembimbing: 1. Prof. DR. Mohammad Isa
Lebih terperinciPERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA
PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas
Lebih terperinciNurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL BERBAHASA INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA) Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo
Lebih terperinciABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii
ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,
Lebih terperinciISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer
Lebih terperinciPENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP
PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP Humasak Tommy Argo Simanjuntak 1) Manajemen Informatika, Politeknik Informatika Del Jl. Sisingamangaraja, Sitoluama,
Lebih terperinciISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciAnalisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering
Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,
Lebih terperinciStruktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas
Struktur Bayesian Network untuk Penentuan Class Karakteristik Siswa pada Sistem Tutor Cerdas Ika Widiastuti #1, Ratih Ayuninghemi #2 # Jurusan Teknologi Informasi, Politeknik Negeri Jember Jl. Mastrip
Lebih terperinciBAB 1 PENDAHULUAN 1.1. Latar belakang
BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciAPLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL
APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari negara Indonesia. Bahasa Indonesia memiliki sekitar 23 juta penutur asli pada tahun 2010, dan lebih dari 140.000.000 penutur
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciPENGENALAN OBJEK PADA CITRA BERDASARKAN SIMILARITAS KARAKTERISTIK KURVA SEDERHANA
PENGENALAN OBJEK PADA CITRA BERDASARKAN SIMILARITAS KARAKTERISTIK KURVA SEDERHANA Dina Indarti Pusat Studi Komputasi Matematika, Universitas Gunadarma Jl. Margonda Raya no. 100, Depok 16424, Jawa Barat
Lebih terperinciAnalisis dan Implementasi Deteksi Citra Spam Menggunakan Gray Level Co-occurences Matrix dan Naive Bayes
OPEN ACCESS OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc ISSN XXXX-XXXX NO. XX, SEPT 2016 SOCJ.TELKOMUNIVERSITY.AC.ID/INDOSC Ind. Symposium on Computing Sept 2016. pp. 319-334 doi:10.21108/indosc.2016.164
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah
Lebih terperinciAnalisis Sentimen berdasarkan Aspek Pada Review Restoran Menggunakan Bayesian Networks Untuk Dokumen Berbahasa Inggris
OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 307-318 doi:10.21108/indosc.2016.162 Analisis Sentimen berdasarkan Aspek Pada Review Restoran Menggunakan
Lebih terperinciANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION
Lebih terperinciISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas
Lebih terperinciPENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL
Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2013 PENANGANAN OOV ( OUT OF VOCABULARY ) PADA POS TAGGING HIDDEN MARKOV MODEL I Wayan Hendra Maha Putra¹, Imelda Atastina², Alfian Akbar Gozali³ ¹Teknik
Lebih terperinciKLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK
ISSN : 2355-9365 e-proceeding of Engineering : Vol.5, No.1 Maret 2018 Page 1579 KLASIFIKASI TOPIK BERITA MENGGUNAKAN MUTUAL INFORMATION DAN BAYESIAN NETWORK Abstrak Fahmi Salman Nurfikri 1, Mohamad Syahrul
Lebih terperinciAnalisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan Pengukuran Berbasis Path
OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 297-306 doi:10.21108/indosc.2016.159 Analisis dan Implementasi Kesamaan Semantik Antar Kata Menggunakan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi
Lebih terperinciTruecasing untuk Teks Bahasa Indonesia
Truecasing untuk Teks Bahasa Indonesia Said Al Faraby dan Ade Romadhony Fakultas Informatika Universitas Telkom Indonesia {saidalfaraby,aderomadhony}@telkomuniversity.ac.id Abstrak Penggunaan huruf besar
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi dari Negara Indonesia. Berdasarkan ketentuan UU Nomor 24 tahun 2009 (Pasal 3) tujuan dari penggunaan Bahasa Indonesia sebagai bahasa
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi informasi yang semakin berkembang dari masa ke masa telah membuktikan akan kebutuhan manusia pada informasi itu sendiri. Berbagai situs, portal berita, website,
Lebih terperinciPenerapan Algoritma K-Means untuk Clustering
Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah
Lebih terperinciIMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET
IMPLEMENTASI ALGORITMA NAÏVE BAYES CLASSIFIER DALAM KLASIFIKASI USER BERDASARKAN TWEET TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Lebih terperinciPENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP)
PENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP) Ratih Nindyasari Fakultas Teknik, Program Studi Teknik Informatika Universitas
Lebih terperinciANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE
ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE SENTIMENT ANALYSIS ON THE ENGLISH BOOK REVIEWS USING INFORMATION GAIN AND SUPPORT VECTOR MACHINE
Lebih terperinci@UKDW BAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu
Lebih terperinciPENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK
J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami
Lebih terperinciUKDW BAB 1 PENDAHULUAN Latar Belakang
BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan
Lebih terperinciSIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.1 April 2015 Page 262 SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL SIMULATION AND ANALYSIS
Lebih terperinciEKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA
EKSTRAKSI OPINION HOLDER MENGGUNAKAN METODE MAXIMUM ENTROPY PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciPENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS
PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciPeringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan
Lebih terperinciJurnal Politeknik Caltex Riau
1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani
Lebih terperinciTRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK
TRANSLASI KALIMAT BAHASA INGGRIS KE BAHASA INDONESIA MENGGUNAKAN METODE AUGMENTED TRANSITION NETWORK Nurhalimah Harahap¹, Eddy Muntina Dharma², Andrian Rakhmatsyah³ ¹Teknik Informatika,, Universitas Telkom
Lebih terperinciABSTRAK. Kata Kunci : Algoritma Genetika, Pemrosesan Bahasa Alami, Twiter, Tweet, Semantic Relatedness. Universitas Kristen Maranatha
ABSTRAK Dengan munculnya berbagai media sosial, banyak orang yang menuliskan bermacam-macam hal, salah satunya memberikan menuliskan motivasi. Dengan demikian, dibuatlah penelitian untuk membuat sebuah
Lebih terperinciPerbandingan Algoritma Pendeteksian Spam
Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,
Lebih terperinciSistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB dengan Metode Natural Language Processing
Jurnal Telematika, vol.8 no.1, Institut Teknologi Harapan Bangsa, Bandung, Indonesia Sistem Wawancara Virtual untuk Penerimaan Mahasiswa Jurusan Teknik Informatika di ITHB Harry Hartanto #1, The Houw Liong
Lebih terperinciGambar 1.1 Proses Text Mining [7]
1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
Lebih terperinciPerbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor
Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.
Lebih terperinciIMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR
IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS
Lebih terperinciSistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA)
JURNAL SAINS DAN SENI POMITS Vol. 3, No. 2, (2014) ISSN: 2337-3539 (2301-9271 Print) A-41 Sistem Deteksi Kemiripan Antar Dokumen Teks Menggunakan Model Bayesian Pada Term Latent Semantic Analysis (LSA)
Lebih terperinciISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238 Penentuan Fitur Supervised Learning dalam Identifikasi Kalimat Sitasi pada Makalah Ilmiah Determining Supervised Learning
Lebih terperinciPENGENALAN BILANGAN ARAB MENGGUNAKAN TEMPLATE MATCHING
Powered by TCPDF (www.tcpdf.org) PENGENALAN BILANGAN ARAB MENGGUNAKAN TEMPLATE MATCHING Muhammad Hanif Dwiadi¹, Sofia Naning Hertiana², Gelar Budiman³ ¹Teknik Telekomunikasi,, Universitas Telkom Abstrak
Lebih terperinciKLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION
KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION Yufis Azhar Program Studi Teknik Informatika Fakultas Teknik, Universitas Muhammadiyah Malang Email : yufis.az@gmail.com
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciTESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : /PS/MTF
TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS) HARLIANDI No. Mhs : 135302026/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA UNIVERSITAS ATMA JAYA YOGYAKARTA 2016 UNIVERSITAS
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciParsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing
Volume 9 Nomor 2, Oktober 2016 Hlm. 91-98 ISSN 0216-9495 (Print) ISSN 2502-5325 (Online) Parsing dan Konversi Kalimat Tanya Konfirmatif Menjadi Query Sparql Menggunakan Pendekatan Top-Down Parsing Mohammad
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciHASIL DAN PEMBAHASAN. Praproses
5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk
Lebih terperinciBAB IV PREPROCESSING DATA MINING
BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciPENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER
PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan
Lebih terperinciPengukuran Happiness Index Masyarakat Kota Bandung pada Media Sosial Twitter Menggunakan Pendekatan Ontologi Top-Down Hierarchy
OPEN ACCESS ISSN 2460-3295 socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept 2016. pp. 17-22 doi:10.21108/indosc.2016.113 Pengukuran Happiness Index Masyarakat Kota Bandung pada Media
Lebih terperinciDETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar Strata Satu Program Studi Informatika
Lebih terperinciSISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU
SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU 111402008 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS
Lebih terperinciPembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)
JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use
Lebih terperinciBAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat
BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui
Lebih terperinciImplementasi Mutual Information dan Naive Bayes untuk Klasifikasi Data Microarray
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 3179 Implementasi Mutual Information dan Naive Bayes untuk Klasifikasi Data Microarray Mohamad Syahrul Mubarok 1, Kurnia C Widiastuti
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Lebih terperinciANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI
ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A
Lebih terperinciABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha
ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan
Lebih terperinciImplementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari)
Implementasi Teori Graf Dalam Masalah Fingerprint Recognition (Pengenalan Sidik Jari) Amalfi Yusri Darusman Jurusan Teknik Informatika Institut Teknologi Bandung, jalan Ganesha 10 Bandung, email : if17023@students.if.itb.a.c.id
Lebih terperinci