# Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1

Transkripsi

1 OPEN ACCESS ISSN socj.telkomuniversity.ac.id/indosc Ind. Symposium on Computing Sept pp doi: /indosc Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks Ario Harry Prayogo #1, Mohamad Syahrul Mubarok #2, Adiwijaya #3 # Fakultas Informatika, Universitas Telkom Jl. Telekomunikasi no. 1 Ters. Buah Batu Badung Indonesia 1 arioharry@students.telkomuniversity.ac.id 2 msyahrulmubarok@telkomuniversity.ac.id 3 adiwijaya@telkomuniversity.ac.id Abstract Paraphrase identification is an important process within natural language processing. The idea is to automatically recognize phrases that have different forms but contain same meanings. For example if we input query causing fire hazard, then the computer has to recognize this query that this query has same meaning as the cause of fire hazard. On the other hand, paraphrase is expressing the meaning of statement using different words or forms, especially to achieve greater clarity. In this research we will focus on classifying two Indonesian sentence whether it is a paraphrase to each other or not. There are three step in this research: preprocessing, classifier training, and performance evaluation. Preprocessing consists of tokenization, non-alphanumerical removal, and stemming. After preprocessing we will conduct feature extraction in order to build new features from given dataset. First feature is syntactic which is the result from computation of distance between two sentences using Normalized Levensthein Distance method. The second feature is semantic that is obtained by calculating similarity of pair sentence based on semantic trees using Wu and Palmer method. After feature extraction data will be splitted into two parts, training set and test set. Then we discretize the features by clustering them using K-Means and Bayesian Networks as the classifier. The average F1-Score result of classification using Bayesian Networks is 71.5%. Keywords: Paraphrase Identification, Normalized Levensthein Distance, K-Means, Bayesian Networks Abstrak Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaan bentuk namun arti yang sama. Contohnya kalimat menyebabkan kebakaran hutan, maka komputer harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan penyebab kebakaran hutan. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atau bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada pada klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan. Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasi performansi. Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. Setelah dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada. Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat menggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapat dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Received on August Accepted on Sept 2016

2 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan Bayesian Networks adalah 71.5%. Kata kunci: identifikasi parafrasa, Normalized Levensthein Distance, K-Means, Bayesian Networks N I. INTRODUCTION atural Language Processing (NLP) merupakan sebuah teknik yang berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara otomatis dengan mempelajari model matematis dan komputasi dari berbagai macam aspek bahasa dan pengembangan pada sistem yang luas [1]. NLP membangun output berdasarkan aturan yang ada pada bahasa yang dijadikan objek pemrosesan [1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information retrieval, text summarization, question answering, machine translation. Pada kasus deteksi plagiarisme salah satu proses yang diperlukan adalah proses pengenalan parafrasa. Parafrasa adalah pengungkapan ulang sebuah tuturan pada tingkatan atau ragam Bahasa menjadi bentuk lain tanpa mengganti inti tuturan tersebut; Parafrasa dapat diartikan juga sebagai penjelasan ulang suatu teks dalam struktur yang berbeda, dengan tujuan untuk dapat mengungkapkan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda namun mengandung pesan yang sama. Hal yang membuat proses pengenalan parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis frasa-frasa yang berbeda bentuk namun memiliki makna yang sama. Misalnya pada kalimat penyebab kebakaran hutan, seharusnya komputer akan mengenali bahwa kalimat tersebut serupa dengan kalimat sumber kebakaran hutan. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks, infiks, dan konfiks pada struktur bahasa sehingga sulit untuk menyocokan kata yang berkaitan. Untuk menghadapi permasalah diatas maka dibutuhkan sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah keduanya memiliki arti sama atau tidak. Pendekatan yang dilakukan untuk mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu tokenization, non-alphanumerical removal, dan stemming. Algoritma stemming yang digunakan untuk preprocessing dataset parafrasa bahasa Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi terbaik untuk dataset bahasa Indonesia [3]. Data hasil preprocessing tersebut lalu dilakukan proses feature extraction yang bertujuan untuk membangun fitur-fitur baru dari data set tersebut. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat, perhitungan jarak tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang kedua adalah fitur semantik, fitur ini menghitung kemiripan pasangan kalimat berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur, dataset tersebut terbagi ke dalam dua bagian diantaranya training set dan test set. Setelah data selesai dibagi, maka dilakukan diskritisasi nilai fitur dengan clustering menggunakan metode K-Means. Classifier yang digunakan adalah Bayesian Networks. Bayesian networks merupakan suatu metode pemodelan data berbasis probabilitas yang merepresentasikan suatu himpunan variabel dan conditional dependency-nya melalui suatu Directed Acyclic Graph(DAG) [4] [5]. Ada empat alasan mengapa mengambil bayesian networks sebagai classifier. Pertama bayesian networks dapat menangani dataset yang tidak lengkap. Kedua bayesian networks memungkinkan proses learning mengenai hubungan sebab-akibat. Ketiga bayesian networks sejalan dengan teknik bayesian statistik yang memfasilitasi kombinasi antara data dan domain knowledge. Terakhir adalah bayesian networks menyediakan cara yang efisien untuk menghindari data yang bersifat over fit [6]..

3 Ind. Symposium on Computing Sept II. LITERATURE REVIEW Terdapat beberapa penelitian mengenai identifikasi parafrasa salah satunya adalah PDLK: Plagiarism detection using linguistic knowledge yang dilakukan oleh Asad Abdi, dkk [7]. Penelitian tersebut mengusulkan untuk mengenali pasangan dokumen apakah keduanya memiliki isi yang sama atau tidak. Metode yang dilakukan adalah dengan menggabungkan symantic similarity dengan word order similarity. Tujuannya adalah untuk mendapatkan fitur yang dapat menangani kemiripan dokumen secara semantik dan urutan kata. Untuk batasan nilai yang memisahkan dokumen dengan isi yang sama atau tidak dilakukan observasi threshold dan alfa weighting, dengan nilai alfa weighting yang paling baik adalah 0.8 dan threshold 0.6 yang dapat menghasilkan performansi F1-Measure 73.9%. Pendekatan identifikasi parafrasa yang lain menggunakan terjemahan dari sebuah bahasa dimana sumber Bahasa dipastikan memiliki nilai semantik yang ekuivalen dengan bahasa tujuan [8]. Untuk mengekstrak parafrasa penelitian yang dilakukan Yusuke Shinyama, dkk [9] menggunakan named entity anchors, sedangkan [10] menggunakan metode Multiple Sequence Alignment. III. RESEARCH METHOD Pada penelitian ini data yang digunakan merupakan kumpulan pasangan kalimat/frasa Bahasa Indonesia, data tersebut lalu dibagi menjadi training set dan test set. Gambar 1. Alur Sistem Identifikasi Parafrasa Berdasarkan Gambar 1, alur sistem yang dibangun dapat dijelaskan sebagai berikut, A. Pembangunan Dataset Pada proses ini dilakukan pengumpulan dan penyusunan dataset parafrasa dalam Bahasa Indonesia oleh peneliti sebanyak 1004 data. Dataset ini berisi pasangan kalimat/frasa beserta label yang merepresentasikan apakah pasangan kalimat/frasa tersebut merupakan parafrasa atau bukan. B. Preprocessing Proses ini merupakan tahapan awal persiapan proses klasifikasi. Hal ini dilakukan untuk meningkatkan kualitas data dan meningkatkan performansi dari classifier. Preprocessing terdiri dari tiga tahapan sebagai berikut, 1. Proses Tokenization, yaitu memisahkan kalimat-kalimat menjadi kata-kata. Pemisahan tersebut diperlukan pada saat proses stemming karena proses stemming hanya dapat dilakukan kata per kata. Tujuan pemilihan proses non-alphanumeric removal adalah untuk menghilangkan karakter selain huruf dan angka. 2. Proses Non-alphanumeric removal, yaitu bertujuan untuk menghilangkan informasi yang dianggap tidak perlu. Contohnya pada saat proses ekstraksi fitur semantik, karakter selain huruf dan angka

4 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen tidak akan bisa diproses, maka karakter tersebut perlu dihapus agar dapat dilakukan ekstraksi fitur semantik. 3. Proses Stemming, yaitu untuk mendapatkan akar kata atau menghilangkan imbuhan dari setiap token/kata yang ada. Tujuan mengubah kata ke dalam akar katanya adalah agar menghindari kekeliruan pada saat ekstraksi fitur sintaktik. Contohnya ketika pasangan kalimat memiliki akar kata yang sama dengan makna yang sama, namun memiliki imbuhan yang berbeda, jika tidak dilakukan proses stemming, nilai jarak perbedaan antar kata tidak akan bernilai 0, sedangkan jika kita lakukan stemming dan didapatkan akar kata yang sama maka nilai jarak perbedaan akan bernilai 0. Pada fitur sintaktik ini nilai semakin mendekati 0 menunjukan pasangan kata/kalimat semakin mirip, sedangkan semakin jauh menunjukan pasangan kalimat/kata semakin berbeda. C. Feature Extraction Pada proses ini kita akan mengekstrak fitur dari dataset yang telah dilakukan preprocessing. Fitur yang pertama adalah fitur sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat. Perhitungan jarak tersebut menggunakan metode Normalized Levhenstein Distance. Fitur yang kedua adalah fitur semantik. Fitur ini menghitung kemiripan pasngan kalimat berdasarkan pohon semantik. Perhitungan jarak semantik dilakukan dengan menggunakan metode Wu and Palmer. Pemilihan kedua fitur tersebut dijelaskan pada [11] yang menyatakan bahwa pengukuran parafrasa dapat dilakukan melalui pendekatan sintaktik dan semantik. Alasan pemilihan metode Normalized Levhenstein Distance dalam proses ekstraksi fitur sintaktik adalah karakteristik metode ini yang dapat menangani penambahan, pengurangan, dan perubahan karakter pada kalimat. Diharapkan dengan menggunakan metode ini perubahan kalimat secara sintaktik dapat ditangani. Alasan pemilihan metode semantik Wu and Palmer adalah metode ini cukup sederhana dan memiliki performansi tinggi dalam kecepatan kalkulasi [12]. D. Pembagian Dataset Pada tahap ini, peneliti melakukan splitting dataset. Tujuan dari splitting dataset ini adalah untuk mendapatkan training set dan test set. Tentunya dalam menentukan training set dan test set, diperlukan porsi data untuk pembagiannya. Peneliti menggunakan 3 skenario pembagian porsi data. Skenario pertama adalah pembagian data 75% untuk training set dan 25% untuk test set. Skenario kedua adalah pembagian data 50% untuk training set dan 50% untuk test set. Skenario ketiga adalah pembagian data 25% untuk training set dan 75% untuk test set. E. Diskritisasi Pada tahap ini dilakukan diskritisasi terhadap data yang sudah dibagi. Tujuan dari diskritisasi adalah mengubah data hasil feature extraction dari data kontinu ke bentuk diskrit. Diskritisasi dilakukan dengan menggunakan metode K-Means, dimana k merupakan nilai dari jumlah cluster yang akan dibangun. Pada proses ini terdapat 6 skenario nilai k yaitu: k = 2, k = 5, k = 8, k = 11, k = 14 dan k = 17. Diskritisasi dilakukan pada training set sesuai nilai k yang telah ditentukan, kemudian nilai centroid dari k tersebut disimpan sebagai acuan pada diskritisasi test set. F. Pembangunan Classifier Pada tahap ini, model classifier dibangun berdasarkan training set yang telah diproses sampai feature selection. Pada tahap ini, peneliti membangun dua graf DAG Bayesian Networks. Parameter-parameter yang ada di kedua graf ini dihitung nilainya menggunakan cara MAP. G. Classification Semua test set yang telah di-preprocessing kemudian diklasifikasikan menggunakan classifier yang telah dibangun sebelumnya. Graf sebanyak 25 merupakan keseluruhan kemungkinan kombinasi dari node dengan jumlah 3 [13]. Jumlah DAG G(n) adalah super-exponential sesuai nilai n. Persamaan 1 digunakan untuk menghitung kombinasi struktur.

5 Ind. Symposium on Computing Sept n G(n) = ( 1) k+1 ( n k ) 2k(n k) G(n k) (1) k=1 Gambar 7 adalah gambaran 25 graf yang telah dibuat. Gambar 2. Graf Bayesian Networks IV. SYSTEM EVALUATION A. Tujuan Pengujian Adapun tujuan dari pengujian sistem ini adalah: 1. Menganalisis pengaruh persentase training set dan test set terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 2. Menganalisis pengaruh nilai k pada saat proses diskritisasi terhadap hasil identifikasi parafrasa dengan Bayesian Networks Classifier. 3. Menganalisis pengaruh graf Bayesian Networks yang digunakan terhadap hasil klasifikasi.

6 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen B. Dataset Data yang digunakan dalam penelitian ini menggunakan data teks berupa pasangan kalimat/frasa yang berasal dari tiga sumber. Sumber pertama adalah kamus Bahasa Indonesia, dari sumber ini peneliti mengambil frasa-frasa sederhana. Sumber kedua adalah media sosial twitter, dari twitter peneliti mengambil kalimatkalimat percakapan sehari-hari, sekaligus sebagai sumber pasangan kalimat yang sepadan. Sumber yang ketiga adalah dari artikel berita online, peneliti mengambil kutipan kalimat pada sebuah artikel dari sebuah website berita dan mencari kutipan kalimat yang sepadan dari artikel yang serupa pada website berita lainnya. Total dataset yang dikumpulkan oleh peneliti adalah 1004 data. Dataset di desain terdiri dari 3 kolom dalam setiap barisnya, kolom pertama berisi kalimat 1, kolom kedua berisi kalimat 2, dan kolom ketiga berisi kelas yang terbagi ke dalam 2 kelas yaitu parafrasa yang direpresentasikan angka 1 dan non parafrasa yang direpresentasikan angka 0. Bentuk dataset tersebut mengikuti dataset parafrasa Bahasa Inggris yang dibangun oleh Microsoft [14]. Distribusi data antar kelas dapat dilihat pada Tabel 6 berikut. TABEL 1 DISTRIBUSI DATASET Kelas Jumlah Data Persentase Parafrasa % Non-parafrasa % Total Dataset % V. RESULT AND DISCUSSION Pengujian sistem klasifikasi ini terdiri dari beberapa bagian, yaitu pengujian pengaruh jumlah training set dan test set terhadap hasil identifikasi parafrasa, pengujian pengaruh nilai k pada saat diskritisasi, dan pengujian pengaruh graf Bayesian Networks. Performansi sistem dihitung dengan menggunakan accuracy, precision, recall, dan F1-measure. Untuk mengambil hasil yang terbaik kita mengacu pada nilai F1-measure. 1. Analisis Pengaruh Jumlah Distribusi Data Pengujian dilakukan dengan menggunakan tiga komposisi training set dan test set yang berbeda. Porsi data yang diobservasi pada penelitian ini adalah sesuai Tabel 7, sesuai Tabel 8 dan sesuai tabel 9. Tujuan dari pengujian ini adalah mengetahui porsi dataset seperti apa yang dapat menghasilkan performa tertinggi. Jumlah porsi dataset perlu di ketahui karena jumlah training set mempengaruhi nilai likelihood pada conditional probability table. Dengan berbedanya nilai likelihood pada conditional probability table tentu otomatis akan mempengaruhi perhitungan pada join probability. Dengan dipengaruhinya join probability maka nilai posterior akan terpengaruh, yang otomatis mempengaruhi hasil klasifikasi. TABEL 2 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data

7 Ind. Symposium on Computing Sept TABEL 3 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data TABEL 4 JUMLAH DISTRIBUSI DATA Kelas Jumlah Training Jumlah Test Set Set Paraphrase Non-paraphrase Total Data Penentuan komposisi training set dan test set dilakukan secara acak sebanyak 30 kali. Berikut adalah perbandingan nilai performansi sistem maksimal dengan tiga distribusi yang berbeda. Gambar 3. Perbandingan performa rata-rata dari dua persentase dataset Pada Gambar 8 dapat dilihat dari 30 kali proses random splitting dataset bahwa performansi sistem maksimum dan rata-rata dalam melakukan proses klasifikasi paling baik menggunakan distribusi data Hal ini disebabkan oleh perbandingan porsi data yang digunakan untuk membangun classifier lebih banyak. Karena Bayesian Networks merupakan supervised machine learning, maka jumlah data yang di learning sangat berpengaruh terhadap hasil klasifikasi. Semakin besar training set maka pengetahuan mesin terhadap kasus ini akan semakin luas. Berikut pada Tabel 10 adalah detail hasil klasifikasi dari Gambar 8.

8 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 5 HASIL MAKSIMUM DAN RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Evaluation Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Nilai k Saat Diskritisasi Pengujian dilakukan dengan menggunakan enam nilai k yaitu 2, 5, 8, 11, 14, dan 17. Berikut merupakan perbandingan nilai performansi sistem maksimal dan rata-rata dengan dua distribusi yang berbeda. Tujuan dari pengujian ini adalah untuk mengetahui nilai k mana yang terbaik pada saat proses diskritisasi. Nilai k akan mempengaruhi jumlah value/label pada sebuah fitur. Semakin besar nilai k maka jumlah nilai akan semakin banyak maka otomatis akan mempengaruhi nilai likelihood. Dengan demikian performansi classifier akan dipengaruhi oleh nilai k. Gambar 4. Perbandingan Performa Maksimum dan Rata-rata dari Berbagai Nilai k Pada Gambar 9 dapat dilihat dari 6 nilai k yang berbeda yaitu 2, 5, 8, 11, 14 dan 17 bahwa nilai performansi F1-measure dengan rata-rata tertinggi adalah nilai k = 2. Hal tersebut disebabkan semakin banyak nilai k membuat sebuah data yang seharusnya masuk kedalam kelompok centroid tertentu malah tertarik kedalam kelompok centroid lainnya. Hal tersebut meningkatkan potensi kesalahan pengelompokan data, yang mengakibatkan terjadinya kesalahan klasifikasi. Semakin besarnya nilai k maka penentuan sebuah data untuk dimasukan ke centroid tertentu akan semakin detail. Namun dengan semakin detailnya proses diskritisasi tidak menjamin performansi yang lebih baik. Hal tersebut disebabkan oleh semakin banyaknya value sebuah fitur maka akan semakin kompleks perhitungan klasifikasinya. Pada kasus penelitian ini semakin kompleks dapat diartikan oleh semakin banyaknya jumlah kombinasi yang ada pada conditional probability table. Berikut pada Tabel 4-6 adalah detail hasil klasifikasi dari Gambar 9.

9 Ind. Symposium on Computing Sept TABEL 6 HASIL RATA-RATA DARI KLASIFIKASI DENGAN NILAI K YANG BERBEDA Evaluation k = 2 k = 5 k = 8 k = 11 k = 14 k = 17 Avg Accuracy Avg Precision Avg Recall Avg F Analisis Pengaruh Graf Bayesian Networks Pada tahap ini dilakukan pengujian terhadap 25 graf Bayesian Networks. Tujuan analisis ini adalah untuk mengetahui graf mana yang paling ideal dalam merepresentasikan dataset parafrasa. Sebuah graf dianggap lebih representatif terhadap sebuah kasus dibanding graf lainnya apabila score sebuah graf lebih besar dibandingkan dengan score graft lainnya. Berikut ini perbandingan skor maksimum dan rata-rata dari ketiga graf tersebut.

10 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen TABEL 7 SCORE MAKSIMUM DAN RATA-RATA GRAF BAYESIAN NETWORKS Maksimum Rata-rata Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph TABEL 8 HASIL RATA-RATA DARI KLASIFIKASI DENGAN DISTRIBUSI DATA BERBEDA Avg Avg Avg Avg Accuracy Precision Recall F1 Graph Graph Graph Graph Graph Graph Graph Graph

11 Ind. Symposium on Computing Sept Avg Accuracy Avg Precision Avg Recall Avg F1 Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Graph Berdasarkan Tabel 13, dari 30 kali percobaan yang dilakukan dapat kita lihat bahwa graf dengan score dan performansi rata-rata F1-Measure yang paling baik adalah graf nomor 2, 18, dan 19. Score dari sebuah graf dianggap baik apabila semakin mendekati nilai nol. Graf nomor 2, 18, dan 19 merupakan yang terbaik dimana nilai score BDeu dan nilai performansi merupakan yang tertinggi, hal tersebut mencerminkan bahwa graf 2, 18, dan 19 merupakan graf yang paling representatif terhadap kasus pada penelitian ini. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. VI. CONCLUSION Berdasarkan hasil penelitian yang telah didapatkan, maka kesimpulan yang dapat diambil dari penelitian ini adalah sebagai berikut. a. Metode klasifikasi Bayesian Networks teruji dapat melakukan identifikasi parafrasa Bahasa Indonesia dengan nilai performansi rata-rata akurasi 66.2%, precision 61.8%, recall 84.4%, dan F1-Measure 71.5%. b. Proses pre-processing stemming dan non-alphanumberical removal dapat digunakan dalam proses klasifikasi ini. Hal tersebut dibuktikan bahwa pada proses stemming didapatkan akar kata dan pada hasil proses non-alphanumberical removal tidak ditemukan karakter selain huruf dan angka. c. Proses ekstraksi fitur pasangan kalimat dapat dilakukan setelah melakukan preprocessing. Metode yang dapat digunakan untuk melakukan ekstraksi fitur sintaktik adalah Normalized Levhensthein Distance, sedangkan metode yang digunakan untuk melakukan ekstraksi fitur semantic adalah Wu and Palmer. d. Graf Bayesian Network nomor 2, 18, dan 19 memiliki score graf yang terbaik, sesuai dengan nilai F1- Measure tertinggi. Dari hasil tersebut dapat kita lihat bahwa pola yang dihasilkan adalah apabila adanya

12 Ario Harry Prayogo et.al. Identifikasi Parafrasa pada Dokumen hubungan antara node kelas dan node semantic apapun arahnya dan jumlah edgenya adalah 2 memiliki kecenderungan menghasilkan performansi rata-rata F1-Measure yang tinggi. e. Nilai k terbaik pada saat diskritisasi menggunakan metode k-means adalah 2. Hal tersebut dapat dilihat pada tabel 4-6 yang menjelaskan bahwa performansi rata-rata F1-Measure terbaik adalah k dengan nilai 2. VII. REFERENCES [1] A. Reshamwala, D. Mishra and P. Pawar, "Review On Natural Language Processing," ACST Engineering Science and Technology: An International Journal (ESTIJ), vol. 3, no. 1, [2] KBBI, "KBBI - Parafrasa," [Online]. Available: kbbi.web.id/parafrasa. [3] J. Asian, H. E. Williams and S. Tahaghoghi, "Stemming Indonesian," RMIT University, Melbourne. [4] U. B. Kjaerulff and A. L. Madsen, Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis, New York: Springer, [5] D. Koller and N. Friedman, "Probabilistic Graphical Models: Principles and Techniques," The MIT Press, Cambridge, Massachusetts, [6] Heckerman and David, A Tutorial on Learning With Bayesian Networks, Redmond: Microsoft Corporation, [7] A. Abdi, N. Idris, R. M. Alguliyev and R. M. A., "PDLK: Plagiarism Detection Using Linguistic Knowledge," Expert Systems With Application, pp. 1-11, [8] R. Barzilay and K. McKeown, "Extracting paraphrases from a parallel corpus," Annual Meeting of the Association for Computational Linguistics, pp , [9] Y. Shinyama, S. Sekine, K. Sudo and R. Grishman, "Automatic paraphrase acquisition from news articles," [10] R. Barzilay and L. Lee, "Learning to paraphrase: An unsupervised approach using multiple-sequence alignment," HLT-NAACL, pp , [11] N. P. A. Vo, S. Magnolini and O. Popescu, "Paraphrase Identification and Semantic Similarity in Twitter with Simple Features," Proceedings of Social NLP, pp , [12] M. S. K, Dr.K.C.Shet and D. U. Acharya, "A New Similarity Measure For Taxonomy Based On Edge Counting," nternational Journal of Web & Semantic Technology (IJWesT), vol. 3, no. 4, [13] K. Murphy, "Bayes Net Toolbox for Matlab," [Online]. Available: [Accessed ]. [14] B. Dolan, C. Brockett and C. Quirk, "Microsoft Research Paraphrase Corpus," Microsoft, 2005.