BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen yang spesifik. Akan tetapi, kemampuan manusia untuk membaca informasi tersebut dan memahami isinya tidak bertambah cepat dari sebelumnya. Oleh karena itu, dibutuhkan suatu mekanisme untuk menjadikan informasi tersebut ke dalam format yang terstruktur, sebagai contohnya adalah ke dalam basis data relasional. Ekstraksi informasi (Information Extraction atau IE) merupakan teknologi yang berkaitan dengan cara menjadikan dokumen teks tidak terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Secara garis besar, proses ekstraksi informasi terdiri dari dua tahap, yaitu mengidentifikasi informasi yang relevan di dalam sebuah dokumen teks, kemudian menyimpannya ke dalam bentuk terstruktur untuk digunakan kemudian. Riset dan pengembangan dari IE sebagian besar termotivasi karena adanya Message Understanding Conferences (MUC) dan Automatic Content Extraction (ACE). Proses ekstraksi informasi dapat dilakukan dengan cara mendefinisikan aturan-aturan ekstraksi secara manual untuk mengekstrak informasi yang diinginkan dari sebuah dokumen teks. Akan tetapi, untuk dapat membangun sebuah sistem berbasis aturan yang baik, aturan yang didefinisikan harus lengkap, sehingga membutuhkan effort dan waktu yang sangat besar. Selain itu, aturan biasanya terbatas pada domain tertentu, sehingga jika hendak diaplikasikan pada domain yang baru, proses pendefinisian aturan harus dilakukan kembali. I-1

I-2 Oleh karena itu, diajukan penerapan teknik pembelajaran mesin untuk mengotomatisasi proses pembuatan aturan-aturan ekstraksi. Tantangannya adalah menciptakan model ekstraksi informasi yang dapat diaplikasikan untuk berbagai domain secara fleksibel. Terdapat dua pendekatan di dalam menerapkan teknik pembelajaran mesin untuk proses ekstraksi informasi, yaitu pembelajaran aturan dan statistik. Pada pendekatan pembelajaran aturan, sistem mempelajari aturan-aturan yang dapat digunakan untuk mengekstrak informasi dari suatu dokumen teks, berdasarkan contoh-contoh data pelatihan. Sedangkan pendekatan statistik secara umum mengurangi persoalan ekstraksi informasi menjadi persoalan prediksi, dengan membangun model representasi formal secara matematis [SIE05a], seperti HMM [FRE99], Maximum Entropy [CHI02], SVM [FIN06, ISO02, LI05a, MAY03], dan Perceptron [CAR03]. Dengan menggunakan pendekatan ini, data pelatihan digunakan secara efisien untuk mempelajari prediksi yang benar, sehingga dapat menghasilkan model ekstraksi. Yang akan dibahas secara lebih lanjut pada tugas akhir ini adalah proses ekstraksi informasi dengan pendekatan statistik. Adapun metode yang digunakan untuk memodelkan persoalan ekstraksi informasi adalah metode klasifikasi token. Secara umum, yang dilakukan adalah membagi teks menjadi token-token, kemudian dengan menggunakan classifier yang terlatih setiap token ditentukan apakah merupakan bagian dari pengisi slot (slot filler) untuk template atau tidak. Misalnya, menentukan apakah suatu token yang berada di dalam suatu dokumen teks mengenai iklan lowongan pekerjaan, merupakan bagian dari nama perusahaan yang menawarkan pekerjaan. Metode ini dipilih karena berdasarkan hasil eksperimen yang dilakukan pada [SIE05a], sistem ekstraksi informasi yang menggunakan metode ini, yaitu ELIE L2 [FIN06] dan TIE [SIE05b], memiliki tingkat akurasi yang lebih tinggi jika dibandingkan dengan sistem lainnya. Teknik pembelajaran mesin yang digunakan untuk mengklasifikasikan token-token di dalam dokumen teks adalah teknik Support Vector Machine (SVM). SVM telah

I-3 mencapai performansi state-of-the-art untuk berbagai persoalan klasifikasi, termasuk untuk persoalan named entity recognition [LI05a]. Sistem ekstraksi informasi yang dijadikan sebagai pedoman penerapan Support Vector Machine untuk ekstraksi informasi di dalam tugas akhir ini adalah sistem ekstraksi informasi yang dikembangkan oleh Yaoyong Li dkk., yaitu GATE-SVM [LI05a]. Pada [LI05a], dataset yang digunakan adalah dataset standar yang digunakan untuk mengevaluasi sebuah sistem ekstraksi informasi, yaitu Job Postings Corpus, yang berisi 300 pesan newsgroup mengenai lowongan pekerjaan di Austin, Texas. Bahasa yang digunakan di dalam dataset tersebut adalah Bahasa Inggris. Di dalam tugas akhir ini, sistem ekstraksi informasi yang diadaptasi dari [LI05a] akan diujicobakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. Dataset dikumpulkan dari halaman-halaman web yang mengandung iklan lowongan pekerjaan. 1.2 Rumusan Masalah Dalam tugas akhir ini akan dilakukan penerapan Support Vector Machine (SVM) untuk proses ekstraksi informasi dari dokumen teks, dengan domain lowongan pekerjaan. Hal ini dilakukan untuk mengetahui: 1. Bagaimana memodelkan proses ekstraksi informasi sebagai persoalan klasifikasi token dan strategi-strategi yang dapat digunakan. 2. Bagaimana penerapan SVM untuk proses ekstraksi informasi dari dokumen teks, berdasarkan contoh sistem ekstraksi informasi yang sudah ada. 3. Bagaimana performansi penggunaan SVM untuk ekstraksi informasi, jika digunakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. 4. Parameter pembelajaran SVM terbaik yang dapat digunakan untuk ekstraksi informasi pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. 5. Bagaimana performansi algoritma klasifikasi SVM untuk ekstraksi informasi, jika dibandingkan dengan algoritma klasifikasi lain.

I-4 1.3 Tujuan Tujuan utama dari tugas akhir ini adalah melakukan studi dan implementasi ekstraksi informasi dari dokumen teks dengan menerapkan teknik Support Vector Machine (SVM). Tujuan tersebut dapat dijabarkan sebagai berikut: 1. Memahami bagaimana memodelkan proses ekstraksi informasi sebagai persoalan klasifikasi token dan strategi-strategi yang dapat digunakan. 2. Memahami teknik pembelajaran SVM. 3. Memahami bagaimana cara menerapkan SVM untuk proses ekstraksi informasi dari dokumen teks dengan metode klasifikasi token, berdasarkan contoh sistem ekstraksi informasi yang sudah ada. 4. Menganalisis performansi penggunaan SVM untuk ekstraksi informasi jika digunakan pada dataset berbahasa campuran. 5. Mengetahui parameter pembelajaran terbaik yang dapat digunakan untuk ekstraksi informasi pada dataset berbahasa campuran. 6. Menganalisis performansi algoritma SVM untuk ekstraksi informasi jika dibandingkan dengan algoritma klasifikasi lain. 1.4 Batasan Masalah Batasan masalah yang akan digunakan dalam pelaksanaan tugas akhir ini adalah: 1. Dokumen teks yang digunakan sebagai dataset adalah berupa dokumen teks dengan domain lowongan pekerjaan, dan sudah memiliki struktur target atau template yang terdefinisi. 2. Parameter pembelajaran yang diuji adalah teknik implementasi multi class SVM (one-against-all dan one-against-one), dan nilai parameter uneven margin. 3. Algoritma klasifikasi lain yang akan dibandingkan dengan algoritma SVM adalah Naïve Bayes dan KNN. 1.5 Metodologi Berikut ini adalah tahapan-tahapan yang akan dilalui selama pelaksanaan tugas akhir. 1. Eksplorasi awal, melakukan eksplorasi mengenai proses ekstraksi informasi dari dokumen teks dan teknik-teknik pembelajaran mesin yang dapat digunakan untuk proses ekstraksi informasi tersebut.

I-5 2. Studi literatur, mempelajari literatur-literatur baik berupa buku (textbook), jurnal dan artikel ilmiah, maupun dokumen web untuk memahami SVM dan penerapannya untuk proses ekstraksi informasi dari dokumen teks. 3. Analisis penyelesaian masalah, menganalisis penerapan SVM untuk ekstraksi informasi dari dokumen teks. 4. Pengumpulan dataset berbahasa campuran, mengumpulkan dataset lowongan pekerjaan berbahasa campuran, baik untuk data pelatihan maupun untuk data tes. 5. Perancangan perangkat bantu eksperimen, membuat desain perangkat lunak yang dapat mengimplementasikan hasil analisis penyelesaian masalah dan mempermudah tahapan eksperimen. 6. Implementasi perangkat lunak bantu untuk eksperimen, dilakukan berdasarkan hasil perancangan perangkat bantu eksperimen. 7. Eksperimen, menggunakan dataset yang diperoleh. 8. Analisis hasil eksperimen dan penarikan kesimpulan, berdasarkan hasil eksperimen yang diperoleh. 1.6 Sistematika Pembahasan Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut: 1. Bab I Pendahuluan, berisi penjelasan mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, serta sistematika pembahasan yang digunakan untuk menyusun laporan tugas akhir. 2. Bab II Studi Literatur, berisi hasil eksplorasi dan studi literatur mengenai ekstraksi informasi, Support Vector Machine (SVM), dan penerapan SVM di dalam ekstraksi informasi, yang menjadi landasan teori untuk digunakan di dalam analisis, perancangan, dan implementasi tugas akhir. 3. Bab III Ekstraksi Informasi Menggunakan Support Vector Machine, berisi penjelasan mengenai penerapan Suport Vector Machine untuk ekstraksi informasi, beserta metode dan teknik yang digunakan. 4. Bab IV Eksperimen, berisi tujuan eksperimen, pelaksanaan, dan analisis hasilnya. 5. Bab V Penutup, berisi kesimpulan dan saran yang didapatkan selama pelaksanaan tugas akhir.