BAB 1 PENDAHULUAN. Universitas Sumatera Utara

1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan bagi setiap pembaca artikel untuk dapat secara cepat mengetahui inti dari artikel tersebut. Ekstraksi kata kunci adalah sebuah tahapan untuk dapat mengindentifikasi berbagai kumpulan teks pada suatu dokumen dan menemukan kata kunci yang tepat sesuai dengan topik pembahasan dari dokumen yang diolah. Saat ini dengan adanya perkembangan teknologi yang semakin pesat menyebabkan beragam informasi tersebar dengan cepat melalui internet sehingga sulit untuk mengakses informasi yang ada secara menyeluruh. Dengan adanya kata kunci (keyword) maka kita dapat menemukan informasi yang kita butuhkan dari miliaran informasi yang ada secara lebih cepat (Li, et al.2014). Ekstraksi kata kunci (keyword) merupakan tahapan penting dari aplikasi text mining. Biasanya diimplementasikan pada berbagai aplikasi text mining seperti peringkasan teks otomatis, pengindeksan otomatis, klasifikasi dan pengkategorian teks, klasterisasi dokumen, deteksi topik dan pelacakan, visualisasi informasi dan lain sebagainya (Zhang, 2008).Pada berbagai artikel ilmiah, kata kunci biasanya diletakkan setelah abstrak. Umumnya setiap penulis jurnal diharuskan menentukan kata kunci untuk jurnalnya tersebut. Saat ini dalam menentukan kata kunci untuk artikel ilmiah masih dilakukan secara manual sehingga tidak efektif dan membutuhkan banyak waktu untuk para analis informasi ataupun mahasiswa dalam menemukan kata kunci yang tepat terutama jika menentukan kata kunci untuk banyak artikel ilmiah. Tidak semua penulis mampu membuat kata kunci untuk artikel yang dibuatnya dan tidak semua kata kunci dapat dengan benar mewakili isi teks karena subjektifitas manusia (Bohne & Borghoff, 2013 ; Fudholi, 2014).

2 Untuk memudahkan proses ekstraksi kata kunci, banyak penelitian yang telah dikembangkan dengan memanfaatkan berbagai metode sehingga memperoleh hasil yang akurat. Pada penelitian Anggraeni(2012) menggunakan metode Corephrase untuk ekstraksi frase kunci dari sekelompok dokumen berbahasa Indonesia. Penelitian selanjutnya dilakukan oleh Bhaskar et al.(2012) menggunakan pendekatan supervised seperti Conditional Random Fields (CRF) untuk ekstraksi kata kunci dari dokumen jurnal berbahasa Inggris. Penelitian oleh Ali et al.(2014) menggabungkan metode pembelajaran mesin (machine learning) seperti linear logistic regression, linear discriminant analysis dan support vector machines serta metode statistikal hybrid untuk ekstraksi frase kunci dokumen berbahasa Arab. Penelitian lainnya oleh Figueroa et al.(2014) menggunakan metode HybridRank yaitu metode gabungan TextRank dan KEA untuk mengolah abstrak jurnal berbahasa Inggris. Li et al.(2014) mencoba meningkatkan algoritma textrank menggunakan domain pengetahuan yang diambil dari pengetahuan terhadap kata kunci yang sudah dikenali dilihat dari panjang kata kunci,komponen kata kunci, ataupun frekuensi kemunculan katanya. Dimana pada tahapan penentuan kandidat kata kuncinya menggunakan metode DF-AV. Sedangkan penelitian Farizi(2015) membuat sistem rekomendasi tag pada berita online berbahasa Indonesia menggunakan metode TF- IDF dan Collaborative Tagging. Penelitian Paymard (2015) menggunakan metode neural network untuk menyelesaikan ekstraksi kata kunci dari dokumen berbahasa Persia dan pada penelitian Horita et al.(2016) melakukan ekstraksi kata kunci untuk proses wikifikasi dimana yang menjadi data sumbernya yaitu artikel di dalam web wikipedia untuk dokumen berbahasa asia seperti bahasa Jepang dengan menggunakan metode Top Consecutive Nouns Cohesion (TCNC) dan Dice Coefficient atau Kephraseness. Pada penelitian ini penulis mencoba menerapkan algoritma TextRank untuk mendapatkan kata kunci dari dokumen berbahasa Indonesia. Metode ini menggunakan pemodelan graf yang tidak membutuhkan data latih dalam pemrosesannya sehingga bisa lebih cepat. Akurasi algoritma TextRank pada beberapa penelitian sebelumnya juga cukup akurat dalam mengekstraksi kata kunci untuk artikel berita bahasa Cina dan abstrak jurnal berbahasa Inggris. Metode textrank ini juga tidak bergantung pada bahasa tertentu sehingga penulis mencoba membuktikannya dengan menerapkan algoritma tersebut untuk diimplementasikan pada teks berbahasa Indonesia. Pada

3 penelitian ini, penulis juga menerapkan modifikasi tahapan preprocessing dan postprocessing dalam menunjang kinerja dari algoritma textrank untuk ekstraksi kata kunci teks berbahasa Indonesia. Pada tahapan preprocessing, penulis menerapkan aturan multiword expression candidate dalam penentuan kandidat kata untuk diolah oleh algoritma textrank Berdasarkan latar belakang diatas, maka penulis mengajukan penelitian dengan judul EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK. Hasil dari penelitian ini diharapkan mampu menemukan seberapa efektif kata kunci yang dihasilkan dan direkomendasikan ke pengguna sistem dengan menggunakan algoritma textrank terutama untuk kata kunci dari teks berbahasa Indonesia. 1.2. Rumusan Masalah Ekstraksi kata kunci merupakan tahapan penting dari beberapa aplikasi text mining seperti peringkasan teks, clustering, indexing otomatis dan lain sebagainya. Dalam pengaplikasiannya terutama dalam mengolah teks bahasa Indonesia, hasil dari ekstraksi kata kunci cenderung berupa kata kunci satu kata, padahal kata kunci yang berupa frase ataupun multiword lebih informatif dan lebih spesifik menggambarkan topik suatu artikel. Penentuan kata kunci secara manual terutama untuk artikel ilmiah tentu saja akan menghabiskan banyak waktu dan tidak efektif terutama jika dokumen yang diolah jumlahnya banyak. Oleh karena itu, dibutuhkan suatu pendekatan yang dapat mengekstraksi kata kunci satu kata ataupun multiword secara lebih otomatis dari dokumen teks berbahasa Indonesia. 1.3. Batasan Masalah Dokumen yang digunakan sebagai data uji adalah dokumen artikel ilmiah berbahasa Indonesia. Data yang diambil sebagai data uji adalah dokumen ataupun artikel ilmiah terutama yang memiliki kata kunci yang telah ditentukan manual oleh penulisnya sebagai evaluasi sistem. Jumlah maksimum kata kunci yang dihasilkan adalah 15 kata kunci per artikel. Menangani kata kunci satu kata ataupun dalam bentuk multi-kata/frase. Jenis format file dokumen artikel ilmiah yang diolah yaitu.pdf

4 Ekstraksi dilakukan secara offline. 1.4. Tujuan Penelitian Penelitian ini bertujuan untuk mengimplementasikan ekstraksi kata kunci satu kata ataupun multiword untuk dokumen teks berbahasa Indonesia menggunakan metode TextRank dan menganalisis pengaruh modifikasi tahapan preprocessing dari metode TextRank terhadap kinerja ekstraksi kata kunci teks berbahasa Indonesia. 1.5. Manfaat Penelitian Memberikan rekomendasi kata kunci yang berbentuk satu kata ataupun beberapa kata secara cepat. Mengetahui seberapa akurat ekstraksi kata kunci dari dokumen berbahasa Indonesia yang mengimplementasikan algoritma TextRank. Memudahkan pengguna seperti mahasiswa ataupun analis informasi dalam menemukan alternatif pilihan kata kunci untuk artikel ilmiahnya secara lebih otomatis dan cepat. Penelitian dapat dimanfaatkan untuk pengembangan penelitian lebih lanjut seperti penelitian tentang peringkasan teks, pengklasifikasian teks, klasterisasi dokumen dan lain sebagainya yang menggunakan tahapan ekstraksi kata kunci. 1.6. Metodologi Penelitian Terdapat beberapa metode penelitian yang digunakan yaitu: 1. Studi Literatur Pada tahapan ini penulis mengumpulkan berbagai referensi dari buku, internet, jurnal ataupun paper terdahulu serta mempelajari teori yang berkaitan dengan permasalahan ekstraksi kata kunci pada penelitian ini. 2. Analisis dan Pengumpulan Data Pada tahapan ini dilakukan analisis terhadap permasalahan yang penulis ambil seperti menganalisis kinerja ekstraksi kata kunci dari berbagai metode pada penelitian terdahulu dan menganalisis kemungkinan kata kunci yang sering muncul pada berbagai artikel ilmiah serta mengumpulkan berbagai data lainnya

5 yang berkaitan dengan ekstraksi kata kunci dan informasi berkaitan dengan metode TextRank yang digunakan. 3. Perancangan Sistem Pada tahapan ini dilakukan proses perancangan arsitektur, pengumpulan data serta perancangan antarmuka sistem. 4. Implementasi Sistem Tahapan selanjutnya yaitu melakukan perancangan terhadap sistem dengan mengimplementasikannya menggunakan bahasa pemograman Java(Eclipse). 5. Pengujian Sistem Pada tahapan ini dilakukan proses pengujian sistem dengan melihat kesamaan dari kata kunci yang dihasilkan sistem dengan kata kunci yang dibuat manual oleh penulisnya dan melihat seberapa akurat metode TextRank dan modifikasinya dalam mengekstraksi kata kunci dari dokumen teks berbahasa Indonesia. 6. Dokumentasi dan Penyusunan Laporan Pada tahapan akhir ini dilakukan tahapan pendokumentasian dan penyusunan laporan hasil penelitian yang telah dibuat. 1.7. Sistematika Penulisan Sistematika penulisan pada skripsi ini dibagi menjadi beberapa bagian seperti berikut: BAB 1. PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat, metodologi penelitian serta sistematika penulisan. BAB 2. LANDASAN TEORI Pada bab ini berisi berbagai landasan teori yang digunakan untuk memahami permasalahan yang ada pada penelitian ini. Dimana teori-teori tersebut seperti teori umum tentang ekstraksi kata kunci, POS tagging, multiword expression, dan teori dasar dari algoritma textrank.

6 BAB 3. ANALISIS DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai analisis permasalahan penelitian dan penjelasan tentang rancangan struktur program dan antarmuka dari aplikasi ekstraksi kata kunci yang dibuat. BAB 4. IMPLEMENTASI DAN PENGUJIAN SISTEM Bab ini berisi penjelasan pengimplementasian sistem seperti gambaran antarmuka aplikasi yang dibuat dan pengujian aplikasi apakah berhasil dijalankan dengan baik serta menemukan error yang muncul didalam sistem yang dibuat. Pada bab ini juga membahas hasil pengujian berupa persentase akurasi keberhasilan sistem. BAB 5. KESIMPULAN DAN SARAN Pada bab ini akan dijabarkan beberapa kesimpulan dari perancangan sistem dan saran untuk pengembangan penelitian lebih lanjut.