BAB 1 PENDAHULUAN. Universitas Sumatera Utara

dokumen-dokumen yang mirip
BAB 2 LANDASAN TEORI

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

1BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

1. PENDAHULUAN 1.1 Latar belakang Masalah

SKRIPSI RANTI RAMADHIANA

BAB 1 PENDAHULUAN Latar Belakang

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. hadir dalam berbagai bentuk, seperti dokumen web, portal berita online, surat

1.5 Metode Penelitian

BAB I PENDAHULUAN. terjadi kesalahan dalam proses tersebut, karena tidak didasari oleh suatu acuan tertulis

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN 1.1. Latar belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang !! "(!

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB 1 PENDAHULUAN. Sudah tidak diragukan lagi bahwa penerapan teknologi komputer dan teknologi informasi

BAB 1 PENDAHULUAN 1.1 Latar Belakang Sekarang pada kenyataannya, banyak sekali sebuah data yang berukuran besar tidak akurat, tidak komplit dan tidak

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

1.2. Latar Belakang Masalah

Bab III METODOLOGI PENELITIAN. Pada penelitian ini menggunakan ala penelitian berupa perangkat keras

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. Universitas Indonesia

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN. ke karakteristik tertentu pada manusia yang unik dan berbeda satu sama lain.

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. Dengan menggunakan kecerdasan buatan maka tidaklah mustahil akan ada mesin yang benar-benar mampu berpikir layaknya manusia.

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi Komputer

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. perkembangan User Generate Content (UGC) menjadi salah satu faktor

BAB I PENDAHULUAN. Manggis (Garcinia mangostana L.) merupakan tanaman yang tumbuh di

PENDAHULUAN. I.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

1.1. Latar Belakang Masalah

BAB I PENDAHULUAN. Pengenalan pola merupakan permasalahan kecerdasan buatan yang secara

BAB III METODE PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

Transkripsi:

1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan bagi setiap pembaca artikel untuk dapat secara cepat mengetahui inti dari artikel tersebut. Ekstraksi kata kunci adalah sebuah tahapan untuk dapat mengindentifikasi berbagai kumpulan teks pada suatu dokumen dan menemukan kata kunci yang tepat sesuai dengan topik pembahasan dari dokumen yang diolah. Saat ini dengan adanya perkembangan teknologi yang semakin pesat menyebabkan beragam informasi tersebar dengan cepat melalui internet sehingga sulit untuk mengakses informasi yang ada secara menyeluruh. Dengan adanya kata kunci (keyword) maka kita dapat menemukan informasi yang kita butuhkan dari miliaran informasi yang ada secara lebih cepat (Li, et al.2014). Ekstraksi kata kunci (keyword) merupakan tahapan penting dari aplikasi text mining. Biasanya diimplementasikan pada berbagai aplikasi text mining seperti peringkasan teks otomatis, pengindeksan otomatis, klasifikasi dan pengkategorian teks, klasterisasi dokumen, deteksi topik dan pelacakan, visualisasi informasi dan lain sebagainya (Zhang, 2008).Pada berbagai artikel ilmiah, kata kunci biasanya diletakkan setelah abstrak. Umumnya setiap penulis jurnal diharuskan menentukan kata kunci untuk jurnalnya tersebut. Saat ini dalam menentukan kata kunci untuk artikel ilmiah masih dilakukan secara manual sehingga tidak efektif dan membutuhkan banyak waktu untuk para analis informasi ataupun mahasiswa dalam menemukan kata kunci yang tepat terutama jika menentukan kata kunci untuk banyak artikel ilmiah. Tidak semua penulis mampu membuat kata kunci untuk artikel yang dibuatnya dan tidak semua kata kunci dapat dengan benar mewakili isi teks karena subjektifitas manusia (Bohne & Borghoff, 2013 ; Fudholi, 2014).

2 Untuk memudahkan proses ekstraksi kata kunci, banyak penelitian yang telah dikembangkan dengan memanfaatkan berbagai metode sehingga memperoleh hasil yang akurat. Pada penelitian Anggraeni(2012) menggunakan metode Corephrase untuk ekstraksi frase kunci dari sekelompok dokumen berbahasa Indonesia. Penelitian selanjutnya dilakukan oleh Bhaskar et al.(2012) menggunakan pendekatan supervised seperti Conditional Random Fields (CRF) untuk ekstraksi kata kunci dari dokumen jurnal berbahasa Inggris. Penelitian oleh Ali et al.(2014) menggabungkan metode pembelajaran mesin (machine learning) seperti linear logistic regression, linear discriminant analysis dan support vector machines serta metode statistikal hybrid untuk ekstraksi frase kunci dokumen berbahasa Arab. Penelitian lainnya oleh Figueroa et al.(2014) menggunakan metode HybridRank yaitu metode gabungan TextRank dan KEA untuk mengolah abstrak jurnal berbahasa Inggris. Li et al.(2014) mencoba meningkatkan algoritma textrank menggunakan domain pengetahuan yang diambil dari pengetahuan terhadap kata kunci yang sudah dikenali dilihat dari panjang kata kunci,komponen kata kunci, ataupun frekuensi kemunculan katanya. Dimana pada tahapan penentuan kandidat kata kuncinya menggunakan metode DF-AV. Sedangkan penelitian Farizi(2015) membuat sistem rekomendasi tag pada berita online berbahasa Indonesia menggunakan metode TF- IDF dan Collaborative Tagging. Penelitian Paymard (2015) menggunakan metode neural network untuk menyelesaikan ekstraksi kata kunci dari dokumen berbahasa Persia dan pada penelitian Horita et al.(2016) melakukan ekstraksi kata kunci untuk proses wikifikasi dimana yang menjadi data sumbernya yaitu artikel di dalam web wikipedia untuk dokumen berbahasa asia seperti bahasa Jepang dengan menggunakan metode Top Consecutive Nouns Cohesion (TCNC) dan Dice Coefficient atau Kephraseness. Pada penelitian ini penulis mencoba menerapkan algoritma TextRank untuk mendapatkan kata kunci dari dokumen berbahasa Indonesia. Metode ini menggunakan pemodelan graf yang tidak membutuhkan data latih dalam pemrosesannya sehingga bisa lebih cepat. Akurasi algoritma TextRank pada beberapa penelitian sebelumnya juga cukup akurat dalam mengekstraksi kata kunci untuk artikel berita bahasa Cina dan abstrak jurnal berbahasa Inggris. Metode textrank ini juga tidak bergantung pada bahasa tertentu sehingga penulis mencoba membuktikannya dengan menerapkan algoritma tersebut untuk diimplementasikan pada teks berbahasa Indonesia. Pada

3 penelitian ini, penulis juga menerapkan modifikasi tahapan preprocessing dan postprocessing dalam menunjang kinerja dari algoritma textrank untuk ekstraksi kata kunci teks berbahasa Indonesia. Pada tahapan preprocessing, penulis menerapkan aturan multiword expression candidate dalam penentuan kandidat kata untuk diolah oleh algoritma textrank Berdasarkan latar belakang diatas, maka penulis mengajukan penelitian dengan judul EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK. Hasil dari penelitian ini diharapkan mampu menemukan seberapa efektif kata kunci yang dihasilkan dan direkomendasikan ke pengguna sistem dengan menggunakan algoritma textrank terutama untuk kata kunci dari teks berbahasa Indonesia. 1.2. Rumusan Masalah Ekstraksi kata kunci merupakan tahapan penting dari beberapa aplikasi text mining seperti peringkasan teks, clustering, indexing otomatis dan lain sebagainya. Dalam pengaplikasiannya terutama dalam mengolah teks bahasa Indonesia, hasil dari ekstraksi kata kunci cenderung berupa kata kunci satu kata, padahal kata kunci yang berupa frase ataupun multiword lebih informatif dan lebih spesifik menggambarkan topik suatu artikel. Penentuan kata kunci secara manual terutama untuk artikel ilmiah tentu saja akan menghabiskan banyak waktu dan tidak efektif terutama jika dokumen yang diolah jumlahnya banyak. Oleh karena itu, dibutuhkan suatu pendekatan yang dapat mengekstraksi kata kunci satu kata ataupun multiword secara lebih otomatis dari dokumen teks berbahasa Indonesia. 1.3. Batasan Masalah Dokumen yang digunakan sebagai data uji adalah dokumen artikel ilmiah berbahasa Indonesia. Data yang diambil sebagai data uji adalah dokumen ataupun artikel ilmiah terutama yang memiliki kata kunci yang telah ditentukan manual oleh penulisnya sebagai evaluasi sistem. Jumlah maksimum kata kunci yang dihasilkan adalah 15 kata kunci per artikel. Menangani kata kunci satu kata ataupun dalam bentuk multi-kata/frase. Jenis format file dokumen artikel ilmiah yang diolah yaitu.pdf

4 Ekstraksi dilakukan secara offline. 1.4. Tujuan Penelitian Penelitian ini bertujuan untuk mengimplementasikan ekstraksi kata kunci satu kata ataupun multiword untuk dokumen teks berbahasa Indonesia menggunakan metode TextRank dan menganalisis pengaruh modifikasi tahapan preprocessing dari metode TextRank terhadap kinerja ekstraksi kata kunci teks berbahasa Indonesia. 1.5. Manfaat Penelitian Memberikan rekomendasi kata kunci yang berbentuk satu kata ataupun beberapa kata secara cepat. Mengetahui seberapa akurat ekstraksi kata kunci dari dokumen berbahasa Indonesia yang mengimplementasikan algoritma TextRank. Memudahkan pengguna seperti mahasiswa ataupun analis informasi dalam menemukan alternatif pilihan kata kunci untuk artikel ilmiahnya secara lebih otomatis dan cepat. Penelitian dapat dimanfaatkan untuk pengembangan penelitian lebih lanjut seperti penelitian tentang peringkasan teks, pengklasifikasian teks, klasterisasi dokumen dan lain sebagainya yang menggunakan tahapan ekstraksi kata kunci. 1.6. Metodologi Penelitian Terdapat beberapa metode penelitian yang digunakan yaitu: 1. Studi Literatur Pada tahapan ini penulis mengumpulkan berbagai referensi dari buku, internet, jurnal ataupun paper terdahulu serta mempelajari teori yang berkaitan dengan permasalahan ekstraksi kata kunci pada penelitian ini. 2. Analisis dan Pengumpulan Data Pada tahapan ini dilakukan analisis terhadap permasalahan yang penulis ambil seperti menganalisis kinerja ekstraksi kata kunci dari berbagai metode pada penelitian terdahulu dan menganalisis kemungkinan kata kunci yang sering muncul pada berbagai artikel ilmiah serta mengumpulkan berbagai data lainnya

5 yang berkaitan dengan ekstraksi kata kunci dan informasi berkaitan dengan metode TextRank yang digunakan. 3. Perancangan Sistem Pada tahapan ini dilakukan proses perancangan arsitektur, pengumpulan data serta perancangan antarmuka sistem. 4. Implementasi Sistem Tahapan selanjutnya yaitu melakukan perancangan terhadap sistem dengan mengimplementasikannya menggunakan bahasa pemograman Java(Eclipse). 5. Pengujian Sistem Pada tahapan ini dilakukan proses pengujian sistem dengan melihat kesamaan dari kata kunci yang dihasilkan sistem dengan kata kunci yang dibuat manual oleh penulisnya dan melihat seberapa akurat metode TextRank dan modifikasinya dalam mengekstraksi kata kunci dari dokumen teks berbahasa Indonesia. 6. Dokumentasi dan Penyusunan Laporan Pada tahapan akhir ini dilakukan tahapan pendokumentasian dan penyusunan laporan hasil penelitian yang telah dibuat. 1.7. Sistematika Penulisan Sistematika penulisan pada skripsi ini dibagi menjadi beberapa bagian seperti berikut: BAB 1. PENDAHULUAN Pada bab ini akan dibahas mengenai latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat, metodologi penelitian serta sistematika penulisan. BAB 2. LANDASAN TEORI Pada bab ini berisi berbagai landasan teori yang digunakan untuk memahami permasalahan yang ada pada penelitian ini. Dimana teori-teori tersebut seperti teori umum tentang ekstraksi kata kunci, POS tagging, multiword expression, dan teori dasar dari algoritma textrank.

6 BAB 3. ANALISIS DAN PERANCANGAN SISTEM Pada bab ini akan dibahas mengenai analisis permasalahan penelitian dan penjelasan tentang rancangan struktur program dan antarmuka dari aplikasi ekstraksi kata kunci yang dibuat. BAB 4. IMPLEMENTASI DAN PENGUJIAN SISTEM Bab ini berisi penjelasan pengimplementasian sistem seperti gambaran antarmuka aplikasi yang dibuat dan pengujian aplikasi apakah berhasil dijalankan dengan baik serta menemukan error yang muncul didalam sistem yang dibuat. Pada bab ini juga membahas hasil pengujian berupa persentase akurasi keberhasilan sistem. BAB 5. KESIMPULAN DAN SARAN Pada bab ini akan dijabarkan beberapa kesimpulan dari perancangan sistem dan saran untuk pengembangan penelitian lebih lanjut.