BAB 2. TINJAUAN PUSTAKA

dokumen-dokumen yang mirip
EFEKTIVITAS ALGORITMA SIMILARITAS SEMANTIK BERBASIS JEJARING KATA UNTUK MENGUKUR KEMIRIPAN KALIMAT BAHASA INDONESIA

khazanah Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia informatika

PENGEMBANGAN SISTEM PENILAIAN OTOMATIS TERHADAP JAWABAN SOAL PENDEK DAN TERBUKA DALAM EVALUASI BELAJAR ONLINE BERBAHASA INDONESIA.

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

1.5 Metode Penelitian

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN I-1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB 1 PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN. Kata-kata Bahasa Indonesia kaya akan imbuhan. Kurang lebih ada sekitar

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

UKDW. Bab 1 PENDAHULUAN

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

BAB I PENDAHULUAN I - 1

BAB III METODE PENELITIAN. Alat yang digunakan dalam penelitian ini adalah seperangkat komputer

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

BAB 1 PENDAHULUAN. Universitas Indonesia. Perbandingan metode..., Heninggar Septiantri, FASILKOM UI, 2009

BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

Efek Penggunaan Keterkaitan Kata pada Algoritma Similaritas Semantik Terhadap Kinerja Proses Klasifikasi Teks dengan K-Nearest Neighbour

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN. linguistik (Austin & Sallabank, 2011). Melalui bahasa, seseorang dapat. dimaksudkan oleh penyampai pesan kepada orang tersebut.

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

ABSTRAKSI METODOLOGI PENELITIAN SAFITRI JUANITA

Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith-Waterman

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

Daftar Isi. Klasifikasi dan Klastering Penjurusan Siswa SMA Negeri 3 Boyolali

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Text Pre-Processing. M. Ali Fauzi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB 3 ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Hadirnya teknologi informasi berdampak pada banyak sektor, termasuk

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB I PENDAHULUAN 1.1. Latar Belakang

SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY

BAB I PENDAHULUAN 1.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

Perbandingan Penggunaan Algoritma Cosinus dan Wu Palmer untuk Mencari Kemiripan Kata dalam Plagiarism Checker

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB I PENDAHULUAN! 1.1 Latar Belakang

TEKNIK PENULISAN KARYA ILMIAH

BAB I PENDAHULUAN. 1.1 Latar Belakang. Mikroblog adalah salah satu bentuk blog yang memungkinkan

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB II TINJAUAN PUSTAKA. seolah-olah karya orang lain tersebut adalah karya kita dan mengakui hasil

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

APLIKASI WORDNET INDONESIA BERDASARKAN KAMUS THESAURUS BAHASA INDONESIA MENGGUNAKAN ALGORITMA RULE BASED TEXT PARSING

1. Pendahuluan 2. Kajian Pustaka

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

APLIKASI WEB PENGUJIAN KESERUPAAN XML DENGAN METODA EDIT DISTANCE

BAB I PENDAHULUAN. Perkembangan teknologi komputer yang semakin canggih, membuat para ahli

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

BAB 3 LANDASAN TEORI

Bab 1 Pendahuluan. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

PENGUKURAN SIMILARITAS STRUKTURAL PADA MODEL PROSES BISNIS (STUDI KASUS: ORDER TO CASH DAN PROCURE TO PAY DALAM SISTEM ERP)

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

Transkripsi:

BAB 2. TINJAUAN PUSTAKA 2.1. Penelitian yang Mendahului Penulis mencermati berbagai penelitian terkait dengan analisis similaritas, seperti diurai pada beberapa paragraf berikut. Bao, et al. (2007) membandingkan berbagai algoritma analisis similaritas. Dalam penelitian tersebut, dicermati sistem Ferret yang menggunakan similaritas leksikal (kata per kata), kemudian dicermati pula metode yang menggunakan similaritas semantik (berdasarkan makna kata dalam kalimat). Teks yang diteliti berasal dari kalimat-kalimat bahasa Inggris yang terdapat dalam majalah Financial Times. Hasil penelitian tersebut menunjukkan bahwa similaritas semantik menggunakan sinonim lebih penting dibanding frase atau deretan kata ketika mencari teks yang mirip. Frase kata benda memberi kontribusi penting dalam identifikasi similaritas teks, namun kontribusinya tidak lebih besar dibanding sinonim. Winarsono, et al. (2009) meneliti penerapan metode syntactic-semantic similarity (SynSemSim) untuk mencermati kemiripan kalimat singkat. Metode tersebut mencermati struktur kalimat (sintaksis) dan makna kata dalam kalimat (semantik). Para peneliti ini menyimpulkan bahwa metode SynSemSim dapat dengan baik digunakan pada struktur kalimat yang mirip, namun kurang baik digunakan pada struktur kalimat majemuk atau kalimat yang mengandung banyak stop word (kata tambahan seperti it is, yet ). Sayangnya, para peneliti dari Indonesia ini menggunakan WordNet, yaitu jejaring kata bahasa Inggris, dalam penelitiannya sehingga belum dapat digunakan pada kalimat berbahasa Indonesia. Sun, et al. (2010) melakukan pengamatan terkait similaritas teks pada kumpulan artikel biomedis. Para peneliti memeriksa lebih dari 70 ribu dokumen. Tiap dokumen dicermati kemudian dibuat himpunan data untuk full text, subjudul, dan paragraf. Tiap himpunan diperiksa dan dihitung similaritasnya. Para peneliti ini mendapat kesimpulan bahwa similaritas abstrak yang tinggi mencerminkan similaritas full text yang tinggi. Similaritas abstrak dan similaritas full text mempunyai korelasi moderat. Di antara subbab dalam sebuah tulisan, subbab Metode Penelitian mempunyai tingkat pengulangan yang paling tinggi. Namun, dalam pemeriksaan manual terhadap artikel dan duplikatnya, 3

subbab Hasil Penelitian merupakan bagian yang sering berulang. Pengulangan subbab Pendahuluan dan Metodologi lebih sering dilakukan oleh penulis yang sama. Tingkat similaritas lebih tinggi didapat pada perbandingan antara dua paper yang di-review, dan similaritas jauh lebih rendah terdapat pada perbandingan antara satu paper yang di-review dan paper yang tidak di-review. Para peneliti ini menyimpulkan bahwa penentuan similaritas abstrak cukup efektif untuk mencari duplikasi sitasi, sedangkan analisis full text diperlukan untuk menemukan semua kemungkinan duplikasi sitasi. Boyack, et al. (2011) meneliti penerapan algoritma similaritas pada proses pengelompokan dokumen. Sembilan metode diteliti untuk melihat keakuratannya dalam mengelompokkan dua juta artikel biomedis. Pengelompokan artikel bermanfaat antara lain untuk manajemen koleksi, mempermudah penelusuran berkas, dan menganalisis data. Para peneliti ini mencermati artikel pada MEDLINE yang di-submit pada kurun 2004 2008. Boyack dkk. menggunakan metode statistik dan algoritma semantik dalam penelitiannya. Contoh metode yang digunakan adalah frekuensi kemunculan kata (statistik) dan LSA (latent semantic analysis). Sumber data yang digunakan adalah katagori subjek, kata-kata pada judul, dan abstrak. Disimpulkan bahwa metode related article yang ada pada PubMed menghasilkan pengelompokan (kluster) yang paling terkonsentrasi di antara kesembilan metode yang diamati. Thamrin dan Wantoro (2012) meneliti penerapan jarak Levenshtein sebagai landasan dalam menilai kemiripan jawaban siswa dengan kunci jawaban. Tingkat kemiripan dihitung berbanding terbalik (resiprokal) terhadap jarak Levenshtein. Tingkat kemiripan hasil perhitungan kemudian dibandingkan dengan cara guru sekolah dasar dan menengah menilai jawaban siswa. Kedua peneliti memodifikasi perangkat lunak Moodle dan membuat tipe soal baru. Dengan tipe soal baru tersebut, jawaban soal pendek dapat diberi skor secara fleksibel secara otomatis oleh komputer. Terdapat kesamaan dalam pola pemberian skor oleh guru maupun oleh komputer. Namun, kecenderungan penilaian oleh guru dan komputer akan mempunyai perbedaan signifikan jika jawaban yang diberikan siswa membentuk kata yang dikenal dalam kamus. Kedua peneliti menyarankan penggunaan algoritma similaritas semantik untuk meningkatkan akurasi penentuan skor secara otomatis. 4

2.2. Peta Jalan Penelitian Gambar 1 pada halaman 7 memperlihatkan peta jalan penelitian yang menggambarkan penelitian terdahulu yang telah dilakukan baik oleh pengusul maupun oleh peneliti lain. Penelitian terdahulu dapat dikategorikan dalam empat objek penelitian, yaitu: 1. Pengembangan algoritma umum, 2. Pengembangan algoritma untuk penerapan spesifik, 3. Kajian penerapan algoritma, dan 4. Kajian penerapan pada bahasa Indonesia. Pengembangan algoritma umum dilakukan dalam berbagai bentuk. Cai dkk. (2004) dan Islam & Inkpen (2008) meneliti algoritma similaritas berdasarkan data dalam korpus. Sedangkan Dao (2002) dan Liu & Liang (2013) mencermati algoritma berbasis jejaring kata. Serrano dkk. (2009) membuat model teks sedangkan Sandhya dkk. (2011) meneliti tentang algoritma stemming untuk mendapatkan makna kata secara lebih akurat. Selain itu, Islam dkk. (2012) mengembangkan metode N-Gram termasuk yang berasal dari mesin pencari Google. Berbagai penelitian telah dilakukan untuk mengembangkan algoritma untuk penerapan spesifik. Pengembangan metode untuk mengukur kemiripan kalimat pendek dilakukan oleh Metzler dkk. (2007), O'shea dkk. (2008) dan Mihalcea dkk. (2006). Pengembangan metode untuk mengukur kemiripan kode program komputer dilakukan oleh Noh dkk. (2006). Kemiripan kalimat ringkasan diteliti oleh Sun dkk. (2010) dan Castillo & Cardenas (2010). Sedangkan upaya menemukan sinonim secara otomatis diteliti oleh Mendes dkk. (2012). Kajian penerapan algoritma untuk kebutuhan nyata dilakukan oleh banyak orang. Malcolm & Lane (2008) dan Malakasiotis (2009) mencoba mengerapkan algoritma similaritas untuk mendeteksi plagiasi. Wenqian dkk. (2009) mencoba membuat mesin peringkas otomatis. Islam & Inkpen (2009) meneliti lebih lanjut mesin pengkoreksi otomatis sedangkan Mohler & Mihalcea (2009) mencoba menerapkan algoritma 5

similaritas untuk memberi skor otomatis pada sistem evaluasi belajar. Boyack dkk. (2011) telah pula berupaya menerapkan pada proses pengelompokan dokumen atau artikel. Kebanyakan penelitian dilakukan terhadap dokumen dan teks berbahasa Inggris. Kajian penerapan algoritma similaritas pada bahasa Indonesia belum banyak dilakukan. Talla (2003) dan Adriani dkk. (2007) telah berupaya mengembangkan algoritma stemming untuk memisahkan kata dasar dari imbuhannya. Sementara itu, Hamzah dkk. (2008), Asy'arie & Pribadi (2009) dan Hamzah (2009) telah berupaya menerapkan algoritma untuk pengelompokan dokumen berbahasa Indonesia. Penerapan untuk deteksi plagiasi telah pula dicoba oleh Hamzah (2011). Belum lama ini, Thamrin & Wantoro (2012) berupaya menerapkan pada proses skoring otomatis. Ketiadaan jejaring kata menjadi salah satu kendala dalam upaya menerapkan pengukuran similaritas untuk mengukur kemiripan teks bahasa Indonesia. Oleh karena itu dalam penelitian ini akan diupayakan konstruksi jejaring kata sekaligus dilakukan pengujian Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat Bahasa Indonesia. 6

Gambar 1. Peta jalan penelitian yang mengawali penelitian yang sedang diusulkan 7