BAB I PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. perkembangan User Generate Content (UGC) menjadi salah satu faktor

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. menghasilkan beberapa karya yang mempermudah urusan manusia. Dan salah

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB II LANDASAN TEORI

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB 1 PENDAHULUAN. Universitas Indonesia

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

PENDAHULUAN. I.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

PENENTUAN JENIS FRAKTUR BATANG (DIAFISIS) PADA TULANG PIPA BERBASIS PENGOLAHAN CITRA DIGITAL DAN SUPPORT VECTOR MACHINE

BAB 1 PENDAHULUAN. 1 Universitas Kristen Maranatha

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB 1 PENDAHULUAN Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB III METODOLOGI PENELITIAN

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

1. Pendahuluan 1.1 Latar Belakang

BAB I PENDAHULUAN. Pesatnya pertumbuhan internet saat ini berdampak pada melimpahnya

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. terjadi kesalahan dalam proses tersebut, karena tidak didasari oleh suatu acuan tertulis

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

Terkait dengan klasifikasi trafik jaringan komputer, beberapa penelitian telah dilakukan dengan fokus pada penerapan data mining. Penelitian tentang

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. dalam bidang Teknologi Informasi sangat pesat. Hampir seluruh bidang-bidang dalam

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang !! "(!

1 BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB 1 PENDAHULUAN. dengan proses pengolahan citra digital (digital image processing), dimana data berupa

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

1.5 Metode Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. Bab I Pendahuluan

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen yang spesifik. Akan tetapi, kemampuan manusia untuk membaca informasi tersebut dan memahami isinya tidak bertambah cepat dari sebelumnya. Oleh karena itu, dibutuhkan suatu mekanisme untuk menjadikan informasi tersebut ke dalam format yang terstruktur, sebagai contohnya adalah ke dalam basis data relasional. Ekstraksi informasi (Information Extraction atau IE) merupakan teknologi yang berkaitan dengan cara menjadikan dokumen teks tidak terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Secara garis besar, proses ekstraksi informasi terdiri dari dua tahap, yaitu mengidentifikasi informasi yang relevan di dalam sebuah dokumen teks, kemudian menyimpannya ke dalam bentuk terstruktur untuk digunakan kemudian. Riset dan pengembangan dari IE sebagian besar termotivasi karena adanya Message Understanding Conferences (MUC) dan Automatic Content Extraction (ACE). Proses ekstraksi informasi dapat dilakukan dengan cara mendefinisikan aturan-aturan ekstraksi secara manual untuk mengekstrak informasi yang diinginkan dari sebuah dokumen teks. Akan tetapi, untuk dapat membangun sebuah sistem berbasis aturan yang baik, aturan yang didefinisikan harus lengkap, sehingga membutuhkan effort dan waktu yang sangat besar. Selain itu, aturan biasanya terbatas pada domain tertentu, sehingga jika hendak diaplikasikan pada domain yang baru, proses pendefinisian aturan harus dilakukan kembali. I-1

I-2 Oleh karena itu, diajukan penerapan teknik pembelajaran mesin untuk mengotomatisasi proses pembuatan aturan-aturan ekstraksi. Tantangannya adalah menciptakan model ekstraksi informasi yang dapat diaplikasikan untuk berbagai domain secara fleksibel. Terdapat dua pendekatan di dalam menerapkan teknik pembelajaran mesin untuk proses ekstraksi informasi, yaitu pembelajaran aturan dan statistik. Pada pendekatan pembelajaran aturan, sistem mempelajari aturan-aturan yang dapat digunakan untuk mengekstrak informasi dari suatu dokumen teks, berdasarkan contoh-contoh data pelatihan. Sedangkan pendekatan statistik secara umum mengurangi persoalan ekstraksi informasi menjadi persoalan prediksi, dengan membangun model representasi formal secara matematis [SIE05a], seperti HMM [FRE99], Maximum Entropy [CHI02], SVM [FIN06, ISO02, LI05a, MAY03], dan Perceptron [CAR03]. Dengan menggunakan pendekatan ini, data pelatihan digunakan secara efisien untuk mempelajari prediksi yang benar, sehingga dapat menghasilkan model ekstraksi. Yang akan dibahas secara lebih lanjut pada tugas akhir ini adalah proses ekstraksi informasi dengan pendekatan statistik. Adapun metode yang digunakan untuk memodelkan persoalan ekstraksi informasi adalah metode klasifikasi token. Secara umum, yang dilakukan adalah membagi teks menjadi token-token, kemudian dengan menggunakan classifier yang terlatih setiap token ditentukan apakah merupakan bagian dari pengisi slot (slot filler) untuk template atau tidak. Misalnya, menentukan apakah suatu token yang berada di dalam suatu dokumen teks mengenai iklan lowongan pekerjaan, merupakan bagian dari nama perusahaan yang menawarkan pekerjaan. Metode ini dipilih karena berdasarkan hasil eksperimen yang dilakukan pada [SIE05a], sistem ekstraksi informasi yang menggunakan metode ini, yaitu ELIE L2 [FIN06] dan TIE [SIE05b], memiliki tingkat akurasi yang lebih tinggi jika dibandingkan dengan sistem lainnya. Teknik pembelajaran mesin yang digunakan untuk mengklasifikasikan token-token di dalam dokumen teks adalah teknik Support Vector Machine (SVM). SVM telah

I-3 mencapai performansi state-of-the-art untuk berbagai persoalan klasifikasi, termasuk untuk persoalan named entity recognition [LI05a]. Sistem ekstraksi informasi yang dijadikan sebagai pedoman penerapan Support Vector Machine untuk ekstraksi informasi di dalam tugas akhir ini adalah sistem ekstraksi informasi yang dikembangkan oleh Yaoyong Li dkk., yaitu GATE-SVM [LI05a]. Pada [LI05a], dataset yang digunakan adalah dataset standar yang digunakan untuk mengevaluasi sebuah sistem ekstraksi informasi, yaitu Job Postings Corpus, yang berisi 300 pesan newsgroup mengenai lowongan pekerjaan di Austin, Texas. Bahasa yang digunakan di dalam dataset tersebut adalah Bahasa Inggris. Di dalam tugas akhir ini, sistem ekstraksi informasi yang diadaptasi dari [LI05a] akan diujicobakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. Dataset dikumpulkan dari halaman-halaman web yang mengandung iklan lowongan pekerjaan. 1.2 Rumusan Masalah Dalam tugas akhir ini akan dilakukan penerapan Support Vector Machine (SVM) untuk proses ekstraksi informasi dari dokumen teks, dengan domain lowongan pekerjaan. Hal ini dilakukan untuk mengetahui: 1. Bagaimana memodelkan proses ekstraksi informasi sebagai persoalan klasifikasi token dan strategi-strategi yang dapat digunakan. 2. Bagaimana penerapan SVM untuk proses ekstraksi informasi dari dokumen teks, berdasarkan contoh sistem ekstraksi informasi yang sudah ada. 3. Bagaimana performansi penggunaan SVM untuk ekstraksi informasi, jika digunakan pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. 4. Parameter pembelajaran SVM terbaik yang dapat digunakan untuk ekstraksi informasi pada dataset berbahasa campuran, yaitu Bahasa Inggris dan Bahasa Indonesia. 5. Bagaimana performansi algoritma klasifikasi SVM untuk ekstraksi informasi, jika dibandingkan dengan algoritma klasifikasi lain.

I-4 1.3 Tujuan Tujuan utama dari tugas akhir ini adalah melakukan studi dan implementasi ekstraksi informasi dari dokumen teks dengan menerapkan teknik Support Vector Machine (SVM). Tujuan tersebut dapat dijabarkan sebagai berikut: 1. Memahami bagaimana memodelkan proses ekstraksi informasi sebagai persoalan klasifikasi token dan strategi-strategi yang dapat digunakan. 2. Memahami teknik pembelajaran SVM. 3. Memahami bagaimana cara menerapkan SVM untuk proses ekstraksi informasi dari dokumen teks dengan metode klasifikasi token, berdasarkan contoh sistem ekstraksi informasi yang sudah ada. 4. Menganalisis performansi penggunaan SVM untuk ekstraksi informasi jika digunakan pada dataset berbahasa campuran. 5. Mengetahui parameter pembelajaran terbaik yang dapat digunakan untuk ekstraksi informasi pada dataset berbahasa campuran. 6. Menganalisis performansi algoritma SVM untuk ekstraksi informasi jika dibandingkan dengan algoritma klasifikasi lain. 1.4 Batasan Masalah Batasan masalah yang akan digunakan dalam pelaksanaan tugas akhir ini adalah: 1. Dokumen teks yang digunakan sebagai dataset adalah berupa dokumen teks dengan domain lowongan pekerjaan, dan sudah memiliki struktur target atau template yang terdefinisi. 2. Parameter pembelajaran yang diuji adalah teknik implementasi multi class SVM (one-against-all dan one-against-one), dan nilai parameter uneven margin. 3. Algoritma klasifikasi lain yang akan dibandingkan dengan algoritma SVM adalah Naïve Bayes dan KNN. 1.5 Metodologi Berikut ini adalah tahapan-tahapan yang akan dilalui selama pelaksanaan tugas akhir. 1. Eksplorasi awal, melakukan eksplorasi mengenai proses ekstraksi informasi dari dokumen teks dan teknik-teknik pembelajaran mesin yang dapat digunakan untuk proses ekstraksi informasi tersebut.

I-5 2. Studi literatur, mempelajari literatur-literatur baik berupa buku (textbook), jurnal dan artikel ilmiah, maupun dokumen web untuk memahami SVM dan penerapannya untuk proses ekstraksi informasi dari dokumen teks. 3. Analisis penyelesaian masalah, menganalisis penerapan SVM untuk ekstraksi informasi dari dokumen teks. 4. Pengumpulan dataset berbahasa campuran, mengumpulkan dataset lowongan pekerjaan berbahasa campuran, baik untuk data pelatihan maupun untuk data tes. 5. Perancangan perangkat bantu eksperimen, membuat desain perangkat lunak yang dapat mengimplementasikan hasil analisis penyelesaian masalah dan mempermudah tahapan eksperimen. 6. Implementasi perangkat lunak bantu untuk eksperimen, dilakukan berdasarkan hasil perancangan perangkat bantu eksperimen. 7. Eksperimen, menggunakan dataset yang diperoleh. 8. Analisis hasil eksperimen dan penarikan kesimpulan, berdasarkan hasil eksperimen yang diperoleh. 1.6 Sistematika Pembahasan Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut: 1. Bab I Pendahuluan, berisi penjelasan mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, serta sistematika pembahasan yang digunakan untuk menyusun laporan tugas akhir. 2. Bab II Studi Literatur, berisi hasil eksplorasi dan studi literatur mengenai ekstraksi informasi, Support Vector Machine (SVM), dan penerapan SVM di dalam ekstraksi informasi, yang menjadi landasan teori untuk digunakan di dalam analisis, perancangan, dan implementasi tugas akhir. 3. Bab III Ekstraksi Informasi Menggunakan Support Vector Machine, berisi penjelasan mengenai penerapan Suport Vector Machine untuk ekstraksi informasi, beserta metode dan teknik yang digunakan. 4. Bab IV Eksperimen, berisi tujuan eksperimen, pelaksanaan, dan analisis hasilnya. 5. Bab V Penutup, berisi kesimpulan dan saran yang didapatkan selama pelaksanaan tugas akhir.