EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017
EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017
i PERSETUJUAN Judul : EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK Kategori : SKRIPSI Nama : RANTI RAMADHIANA Nomor Induk Mahasiswa : 121402056 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Romi Fadillah Rahmat, B.Comp.Sc., M.Sc Dani Gunawan, ST., M.T NIP. 19860303 201012 1 004 NIP. 19820915 201212 1 002 Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua, Romi Fadillah Rahmat, B.Comp.Sc., M.Sc NIP. 19860303 201012 1 004
ii PERNYATAAN EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya. Medan, 28 Juli 2017 Ranti Ramadhiana 121402056
iii UCAPAN TERIMA KASIH Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis ingin menyampaikan ucapan terima kasih sedalam-dalamnya dan penghargaan kepada : 1. Kedua orang tua penulis, Ayahanda Zakaria Ilyas(Alm) dan Ibunda Fetrimayanti yang telah membesarkan penulis dengan sabar dan penuh kasih sayang serta memberikan doa dan dukungan moril maupun materiil serta memberikan motivasi terbesar kepada penulis sehingga penulis dapat memberikan yang terbaik untuk menyelesaikan skripsi ini. Serta kepada seluruh anggota keluarga penulis yang selalu memberikan semangat kepada penulis. 2. Bapak Dani Gunawan, ST., M.T selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc.,M.Sc selaku pembimbing kedua yang telah meluangkan waktu dan pikiran beliau untuk membimbing penulis dalam menyelesaikan penelitian dan skripsi ini. Tanpa motivasi dan arahan yang diberikan dari kedua pembimbing, tentu penulis tidak akan dapat menyelesaikan skripsi ini dengan baik. 3. Ibu Sarah Purnamawati, ST., MSc sebagai dosen pembanding pertama dan Bapak Ainul Hizriadi, S.Kom, M.Sc sebagai dosen pembanding kedua yang telah memberikan masukan dan kritik yang membangun dan bermanfaat dalam penulisan skripsi ini. 4. Semua dosen serta pegawai dilingkungan Fakultas Ilmu Komputer dan Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan. 5. Sahabat penulis khususnya Eriza Mediana, Nurul Khadijah, Putri Nursafitri, Annisa Faradina, Endang Windarsih, Nurrahmadayeni, Rona Idona Vynaima S, Siti Fatimah, Siti Hazizah Hrp, Nurchalissa Saragih yang telah memberikan dukungan dan memberikan nasehat kepada penulis. 6. Teman-teman dan sahabat seperjuangan mahasiswa Teknologi Informasi USU yang telah memberikan dukungan dan bantuan selama masa perkuliahan yang namanya tidak dapat penulis sebutkan satu persatu. 7. Teman-teman Paguyuban Karya Salemba Empat.
iv Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian serta dukungan dan motivasinya kepada penulis dalam menyelesaikan skripsi ini. Medan, 28 Juli 2017 Penulis
v ABSTRAK Tahapan ekstraksi kata kunci merupakan salah satu tahapan penting dari beberapa aplikasi text mining. Untuk mendapatkan kata kunci yang tepat secara lebih otomatis, berbagai metode ekstraksi kata kuncipun terus dikembangkan dan diuji. Pada artikel ilmiah, ekstraksi kata kunci dibutuhkan untuk memberikan alternatif kata kunci secara lebih sistematis kepada penulis jurnal. Penentuan kata kunci secara manual pada artikel ilmiah tidaklah efektif terutama jika artikel ilmiah yang akan dianalisis kata kuncinya tersebut jumlahnya sangat banyak. Pada penelitian ini ekstraksi kata kunci dikembangkan menggunakan metode textrank untuk mengekstraksi dokumen teks bahasa Indonesia dengan memodifikasi tahapan preprocessing pembentukan kandidat kata kunci dari algoritma textrank tersebut menggunakan aturan multiword expression candidate. Tahapan keseluruhan metode yang digunakan pada penelitian ini yaitu preprocessing(text cleaning,tokenizing,case folding,stopword removal, POS tagging, candidates multiword extraction), ekstraksi kata kunci dan tahapan terakhir yaitu postprocessing untuk pemfilteran kata kunci yang terlalu umum. Hasil akhir dari penelitian ini menunjukkan bahwasanya textrank dengan multiword expression candidate memiliki waktu ekstraksi yang lebih cepat dan persentase akurasi recall yang sedikit lebih tinggi dibandingkan algoritma textrank biasa pada top-15 kata kunci. Kata kunci : Ekstraksi kata kunci, Textrank, Preprocessing, Multiword Expression Candidate
vi AUTOMATIC KEYWORDS EXTRACTION FROM INDONESIAN TEXT DOCUMENT USING TEXTRANK METHOD ABSTRACT Keywords extraction is one of the most important stage in some of text mining applications. To acquire the right keywords more automatically, various methods of keywords extraction continues to be developed and examined. In most scientific articles, keywords extraction is needed to offer alternatives keywords systematically to journal authors. Most of the cases, keywords of scientific articles are offered manually and this is not really effective, especially when many scientific articles contains keywords to be extracted. In this research, keywords extraction is developed by using textrank method to extract Indonesian text document by modifying the preprocessing stage of candidate keywords selection in textrank algorithm using multiword expression candidate rule. The overall stages used in this research are preprocessing (text cleaning, tokenizing, case folding, stopword removal, POS tagging, multiword candidates extraction), keyword extraction and the last stage is post-processing for filter keywords that have common words. The result of this research showed that textrank with multiword expression candidate has a faster extraction time and a slightly higher recall accuracy compared to common textrank algorithm in the top-15 keywords. Keyword: Keywords extraction, Textrank, Preprocessing, multiword expression candidat.
vii DAFTAR ISI PERSETUJUAN PERNYATAAN UCAPAN TERIMA KASIH ABSTRAK ABSTRACT DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR Hal. i ii iii v vi vii ix x BAB 1 PENDAHULUAN 1.1 Latar Belakang 1 1.2 Rumusan Masalah 3 1.3 Batasan Masalah 3 1.4 Tujuan Penelitian 4 1.5 Manfaat Penelitian 4 1.6 Metodologi Penelitian 4 1.7 Sistematika Penulisan 5 BAB 2 LANDASAN TEORI 2.1 Ekstraksi Kata Kunci 7 2.2 Part of Speech Tagging 8 2.3 Multiword Expression 10 2.4 Algoritma Textrank 11 2.5 Penelitian Terdahulu 13 BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Data 18 3.2 Analisis Sistem 18
viii 3.2.1 Input 20 3.2.2 Preprocessing 20 3.2.3 Keyword Extraction 26 3.2.4 Post-Processing 30 3.3 Perancangan Sistem 31 3.3.1 Diagram Aktifitas untuk Ekstraksi Kata Kunci 31 3.3.2 Perancangan Antarmuka Sistem 32 BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM 4.1 Implementasi Sistem 35 4.1.1 Spesifikasi Hardware dan Software yang digunakan 35 4.1.2 Implementasi Perancangan Antarmuka 35 4.2 Pengujian Sistem 38 BAB 5 KESIMPULAN DAN SARAN 5.1 Kesimpulan 46 5.2 Saran 46 DAFTAR PUSTAKA 48
ix DAFTAR TABEL Hal. Tabel 2.1 Label Kata untuk Bahasa Indonesia 9 Tabel 2.2 Penelitian Terdahulu 15 Tabel 3.1 Tahapan Tokenizing 22 Tabel 3.2 Tahapan Case Folding 23 Tabel 3.3 Tahapan Filtering 23 Tabel 3.4 Daftar Stopword 24 Tabel 3.5 Daftar Kandidat Kata dan Multiword 26 Tabel 3.6 Contoh Hasil dari Perhitungan Textrank dengan Multiword Expression Candidate 28 Tabel 3.7 Stop-phrase 30 Tabel 3.8 Contoh Hasil Pengurutan Kata Kunci berdasarkan Skor Bobot Kata 31 Tabel 4.1 Data Uji Sistem 38 Tabel 4.2 Hasil Akurasi Ekstraksi Kata Kunci 39 Tabel 4.3 Hasil Akurasi Kata Kunci perkategori Bidang Keilmuan 44
x DAFTAR GAMBAR Hal. Gambar 2.1 Flowchart Metode Multiword Expression Candidates 11 Gambar 3.1 Arsitektur Umum 19 Gambar 3.2 Contoh Input Teks Berbahasa Indonesia 20 Gambar 3.3 Text Cleaning 22 Gambar 3.4 Tahapan POS Tagging 24 Gambar 3.5 Hasil Proses Multiword Expression Candidate 25 Gambar 3.6 Bagan Contoh Relasi antar Node pada Graf 27 Gambar 3.7 Diagram Aktifitas Ekstraksi Kata Kunci 32 Gambar 3.8 Rancangan Tampilan Halaman Awal 33 Gambar 3.9 Rancangan Tampilan Halaman Utama 33 Gambar 4.1 Tampilan Halaman Awal 36 Gambar 4.2 Tampilan Halaman Utama 36 Gambar 4.3 Tampilan Halaman Utama setelah Dilakukan Proses Ekstraksi 37 Gambar 4.4 Hasil Akhir Kata Kunci pada Tampilan Halaman Utama 37