1BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

1.5 Metode Penelitian

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN. berkaitan dengan pemprosesan sinyal suara. Berbeda dengan speech recognition

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB 3 LANDASAN TEORI

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN. Pengenalan pola merupakan permasalahan kecerdasan buatan yang secara

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 TINJAUAN PUSTAKA

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Menurut Peraturan Menteri Pendidikan dan Kebudayaan (Permendikbud) Nomor 103

DAFTAR ISI. DAFTAR ISI... vii. DAFTAR GAMBAR... x. DAFTAR TABEL... xii I. PENDAHULUAN Latar Belakang Rumusan Masalah...

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

ANALISIS KLASTERING LIRIK LAGU INDONESIA

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Ilmu yang mempelajari tentang cara-cara pengamanan data dikenal dengan

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

BAB 1 PENDAHULUAN. kehandalannya. Komputer terus dikembangkan. Komputer dituntut memiliki kecepatan

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB I PENDAHULUAN. Dengan menggunakan kecerdasan buatan maka tidaklah mustahil akan ada mesin yang benar-benar mampu berpikir layaknya manusia.

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III METODELOGI PENELITIAN

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB IV ANALISA DAN PERANCANGAN

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Pendahuluan

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB III PERANCANGAN. Tabel 3.1 Detil Tabel mpage

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 1 PENDAHULUAN UKDW

BAB II LANDASAN TEORI

PROGRAM BANTU PEMILIHAN LAGU PUJIAN BERDASARKAN TEMA KEBAKTIAN DENGAN MENGGUNAKAN METODE COSINUS SIMILARITY Studi Kasus: GKI Ngupasan

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

JULIO ADISANTOSO - ILKOM IPB 1

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III ANALISA DAN PERANCANGAN

BAB 1 PENDAHULUAN UKDW

Transkripsi:

1BAB I PENDAHULUAN 1.1 Latar Belakang Dengan banyaknya informasi tertulis atau teks sekarang ini, manusia diharapkan bisa mendapat informasi yang banyak dalam waktu singkat (Bohne dan Borghoff, 2013). Cara manusia mendapatkan informasi dari teks adalah dengan membaca dan memahami isi teks itu namun proses itu tidak mudah dan bersifat lambat. Agar pembaca teks mendapatkan makna lebih cepat maka beberapa penulis memberikan kata kunci, yakni kumpulan kata yang dapat mewakili isi teks. Bohne dan Borghoff (2013) juga berpendapat bahwa tidak semua penulis bisa memberikan kata kunci pada hasil karyanya dan tidak semua kata kunci benar-benar mewakili isi teks karena subyektifitas manusia. Pembaca juga bisa memberikan kata kunci pada suatu teks, namun diharuskan terlebih dahulu membaca dan memahami isi teks. Untuk itu ekstraksi kata kunci akan dilakukan dengan komputer agar proses yang terjadi cepat dan hasilnya obyektif. Sistem ekstraksi kata kunci oleh komputer ini termasuk dalam cabang ekstraksi informasi karena hanya mengambil sebagian kecil informasi sesuai yang dibutuhkan (Gaizauskas dan Wilks, 1998). Informasi yang diambil dalam ekstraksi kata kunci adalah jika sebuah kata itu sering muncul pada teks maka kata itu berpengaruh di teks itu (Qin, 2012). Perhitungan keseringan muncul itu bisa disebut juga dengan frekuensi. Dalam ekstraksi kata kunci Term Frequency Inverse Document Frequency (TF-IDF) adalah metode perhitungan bobot menggunakan frekuensi untuk sebuah term yang paling sering digunakan (Lee dan Kim, 2008). Walau sudah diperhitungkan dengan frekuensi terkadang pembobotan masih dirasa kurang maka dilakukan juga pembobotan berdasar lokasi dari term itu (Qin, 2012). Pertimbangan lokasi adalah dengan memberikan bobot yang berbeda jika term berada di lokasi yang berbeda seperti apabila term berada di 1

2 awal atau akhir teks akan lebih berbobot daripada yang berada di tengah teks (Zhang dkk, 2009). Sebuah metode bernama n-gram adalah metode yang bekerja dengan memecah n potongan karakter kedalam suatu barisan (Cavnar dan Trenkle, 1994). Metode ini juga dapat membuat potongan kata yang terdiri dari beberapa kata yang tidak terbatas hanya dua atau tiga kata saja namun bisa sampai n kata dimana n >= 1 (Serban dkk, 2013). Apabila sebuah sistem ekstraksi kata kunci menggunakan metode n-gram sebagai perluasan kata maka kata kunci yang didapat bisa memiliki kata lebih dari dua. Dari keseluruhan kata kunci, biasanya kata kunci yang memilki 2 kata ada 44% sedangkan 3 kata dan 4 kata hanya sedikit (Liu dkk, 2008). Maka dari itu sistem ekstraksi kata kunci menggunakan perluasan n-gram ini maka akan meningkatkan kinerja dari sistem. Kebanyakan dari sistem ekstraksi kata kunci menggunakan kumpulan teks atau text corpus dalam melakukan pembobotan seperti pada metode TF-IDF harus ada teks lain guna memperhitungkan nilai IDF. Apabila sistem ekstraksi seperti itu maka akan muncul kembali sifat lambat dalam penentuan kata kunci dimana data harus terkumpul terlebih dahulu. Kelemahan text corpus adalah apabila domain dari text corpus itu berbeda maka akan memiliki karakteristik yang berbeda (Liu dan Li, 2009). Karakteristik dari sebuah teks cukup penting untuk melakukan ekstraksi kata kunci apalagi pada metode yang menggunakan jaringan syaraf tiruan (Azcarraga dkk, 2012). Namun ketika sebuah metode ingin digunakan secara luas maka metode itu harus bisa mempelajari karakteristik secara umum, namun itu akan mahal (Qin, 2012). Walaupun untuk mengenali karakteristik secara umum sulit dilakukan namun bisa dipermudah dengan cara memperluas domain. Domain yang diperluas ini adalah dengan membatasi hanya pada bahasa tertentu dimana karakteristik yang perlu dikenali adalah karakteristik bahasa. Untuk menghilangkan kebutuhan text corpus maka karakteristik bahasa sudah cukup untuk diimplementasikan dalam metode ini. Ketika kebutuhan text corpus itu hilang maka hanya dengan teks tunggal atau dokumen tunggal metode ini

3 sudah berjalan dan akan menghasilkan ekstraksi kata kunci yang lebih cepat (Qin, 2012). Dokumen tunggal juga mewakili kebutuhan kesederhanaan metode pada penelitian ini dimana data yang digunakan dibuat minimal dan lokal. 1.2 Rumusan Masalah Dengan melihat latar belakang maka penelitian ini akan mengarah untuk mendapatkan kata kunci sebagai arti dari dokumen. Sehingga untuk mencapai kebutuhan itu dirumuskan beberapa rumusan masalah yaitu : 1. Bagaimana mengembangkan metode n-gram sebagai perluasan sehingga dapat mengekstrak kata kunci yang memiliki 2 kata atau lebih dari satu dokumen? 2. Bagaimana kinerja ekstraksi kata kunci berdasar frekuensi dan lokasi setelah diperluas dengan n-gram? 1.3 Batasan Masalah Masalah dalam penelitian ini akan dibatasi oleh beberapa hal, yaitu : 1. Teks/dokumen berbahasa Inggris 2. Proses ekstraksi menggunakan badan teks 3. Karakter pada teks yang digunakan adalah ASCII 1.4 Tujuan Penelitian ini memiliki beberapa tujuan yaitu : 1. Mengaplikasikan metode n-gram sebagai perluasan ke dalam sistem ekstraksi kata kunci dengan perhitungan frekuensi dan lokasi sehingga dapat mengekstrak kata kunci yang memiliki 2 kata atau lebih dari satu dokumen. 2. Mengetahui peningkatan kinerja ekstraksi kata kunci berdasar frekuensi dan lokasi dengan perluasan n-gram.

4 1.5 Manfaat Setelah penelitian ini mendapatkan hasil, diharapkan hasil itu dapat memberikan manfaat sebagai berikut : 1. Sebagai dasar pengembangan sistem ekstraksi kata kunci. 2. Sebagai pembanding nilai akurasi dengan menggunakan perluasan n- gram pada dokumen tunggal. 3. Sebagai pembanding metode frekuensi dan lokasi dengan metode lain. 1.6 Metodologi Penelitian Dalam melakukan penelitian diperlukan beberapa langkah agar mencapai hasil seperti harapan yaitu sebagai berikut : 1. Studi Literatur Pada tahap ini dipelajari metode dan algoritma yang berkaitan dengan penelitian ini, meliputi frekuensi, lokasi dan n-gram. Sumber yang digunakan sebagai studi literatur diambil dari jurnal, prosiding, dan buku. 2. Perancangan Struktur Pada tahap ini dilakukan perancangan sistem dengan metode yang telah dipelajari dalam bentuk diagram dan narasi. Perancangan yang telah terbentuk digunakan sebagai dasar implementasi sistem. 3. Implementasi Sistem Pada tahap ini dilakukan implementasi dari rancangan yang sudah dibentuk kedalam algoritma dan bahasa pemrograman. Implementasi meliputi pembuatan sistem dan antar muka pengguna. 4. Pengujian Sistem Pada tahap ini dilakukan pengujian dari sistem yang telah dibuat dengan membandingkan kata kunci hasil pengujian sistem dengan kata kunci bawaan dokumen. Setelah mengulang pembandingan kata kunci dengan beberapa data tes maka hasil perbandingan kata kunci dihitung untuk mendapatkan akurasi dari sistem.

5 5. Penulisan Laporan Pada tahap ini dilakukan penulisan laporan dari pengujian yang telah dilakukan, meliputi penyusunan laporan, analisis hasil dan pengambilan kesimpulan.