BAB I. Pendahuluan. 1. Latar Belakang Masalah

dokumen-dokumen yang mirip
BAB I PENDAHULUAN Latar Belakang

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW

BAB V EKSPERIMEN TEXT CLASSIFICATION

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1. Pendahuluan. 1.1 Latar belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB 1 PENDAHULUAN 1.1. Latar belakang

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 3 LANDASAN TEORI

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB III METODOLOGI PENELITIAN

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN 1.1. Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Online News Classification Using Multinomial Naive Bayes

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN I-1

BAB III ANALISIS DAN PERANCANGAN

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB III METODOLOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB 1 PENDAHULUAN Latar Belakang

KLASIFIKASI SUPERVISED LEARNING PADA TEKS BAHASA BALI DENGAN METODE INFORMATION GAIN DAN NAIVE BAYES CLASSIFIER

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 3 LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB I PENDAHULUAN. 1.1 Latar belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

PENDAHULUAN. Latar belakang

Seleksi Fitur Pada Dokumen Abstrak Teks Bahasa Indonesia Menggunakan Metode Information Gain

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II LANDASAN TEORI

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB IV HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Transkripsi:

BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini menyebabkan informasi menjadi semakin banyak dan beragam. Informasi dapat berupa dokumen, berita, surat, cerita, laporan penelitian, data keuangan, dan lain-lain. Tidak dapat dipungkiri lagi informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini. Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar.maka perlu adanya suatu proses pengolahan dokumen-dokumen yang berisi informasi.proses mencari dan mendapatkan informasi merupakan hal yang berkaitan erat dengan dunia informasi. Ketepatan hasil pencarian dan waktu pencarian menjadi beberapa faktor yang diperhatikan. Dokumen berbasis teks menjadi salah satu bentuk penyimpanan informasi. Biasanya pencarian dilakukan pada koleksi dokumen yang menjadi objek pencarian. Pencarian secara manual dapat dilakukan dengan membaca setiap dokumen pada koleksi dokumen untuk mendapatkan dokumen yang tepat dan sesuai kebutuhan. Namun dari hasil temuan kembali dokumen, pengguna tidak dapat melihat peran dari query dalam proses pencarian dokumen tersebut, urutan dokumen yang di-retrieve dinilai tidak informatif berdasarkan tingkat kesesuaiannya dengan query. Oleh karena itu dibutuhkan kategorisasi teks. Salah satu cara untuk mengatasi masalah ini adalah mengkategorisasikan teks sesuai dengan topik/kategori dokumen tersebut. Dalam kategorisasi teks, ada beberapa fase yang harus dilalui yaitu document indexing yang terdiri dari fase term selection dan term weighting, dan classifier learning. Dalam Skripsi ini yang menjadi focus dalam penelitian 1

adalah fase term weighting. Dalam beberapa penelitian, term weighting memiliki peranan penting dalam kesuksesan kategorisasi teks. Pernyataan tersebut dibuktikan dengan penelitian yang dilakukan Gerrard Salton dan Christopher Buckley [2] menyatakan bahwa term weighting memegang peranan penting dalam kategorisasi teks, selanjutnya penelitian yang dilakukan Christopher Buckley [3] menyatakan bahwa metode pembobotan yang lebih baik memiliki peranan lebih penting dibandingkan proses penyeleksian fitur dan akan lebih baik jika keduanya dijalankan secara hand-in-hand agar bisa lebih efektif. Salah satu metode pembobotan yang dikenal adalah TF-IDF dimana dalam metode ini setiap term/kata dalam sebuah dokumen dihitung frekuensinya dalam sebuah dokumen (term frequency) yang kemudian hasilnya dikombinasikan dengan frekuensi kemunculan term pada suatu kumpulan dokumen (inverse document frequency). Term yang sering muncul pada dokumen tapi jarang muncul pada kumpulan dokumen memberikan nilai bobot yang tinggi. TF-IDF akan meningkat dengan jumlah kemunculan term pada sebuah dokumen dan berkurang dengan jumlah term yang muncul pada kumpulan dokumen. Namun mengingat text categorization bersifat terawasi dimana menggunakan dataset yang dibagi menjadi dataset training dan dataset testing, maka diperlukan suatu metode yang memenuhi syarat diatas. Dalam konteks standar Information Retrieval, asumsi IDF cukup beralasan karena dapat menginterpretasikan term dengan baik karena term yang sering muncul dalam banyak dokumen adalah diskriminator yang tidak baik. Tapi ketika data training untuk query tersedia, cara yang lebih baik harus digunakan yang dapat membedakan term yang terdistribusi ke dalam kumpulan data training baik kategori positif maupun negative. Data training tidak tersedia dalam query di konsep standar IR, namun lebih sering tersedia untuk kategori dalam konteks TC, dimana gagasan relevansi dengan query digantikan dengan keanggotaan dalam kategori [4]. Maka dari itu digunakanlah Category-based Function yang ada pada Term Evalution Function seperti MaxStr sebagai pengganti fungsi IDF pada TF-IDF. Metode ini disebut ConfWeight Term Weighting. Penelitian dilakukan dengan menerapkan metode Supervised Term Weighting dan TF- IDF pada dataset Reuters dengan 10 kategori. Skema yang digunakan adalah TF-IDF dan ConfWeight. Setelah itu dilakukan klasifikasi dokumen dengan menggunakan metode Support Vector Machine (SVM) pada tools Weka. Analisis difokuskan pada pengaruh TF- IDF, TF-Chisquare, TF-IG, dan TF-GR terhadap performansi klasifier berdasarkan nilai precision, recall, dan f-measure. 2

2. Perumusan Masalah Dari latar belakang diatas maka masalah-masalah yang dihadapi, yaitu : 1. Bagaimana menerapkan term weighting dengan metode A Weighting Methods based on Confidence (ConfWeight) dalam pembobotan teks untuk mengkategorisasikan teks berdasarkan terms yang ada ke dalam sistem yang telah diintegrasikan dengan tools Weka untuk diklasifikasi. 2. Bagaimana menganalisis performansi dari penerapan term weighting dengan metode A Weighting Methods based on Confidence. Performansi diukur berdasarkan Precision, Recall, dan F-Measure, dengan data yang sudah dilakukan tahap preprocessing. Dalam menganalisis performansi akan digunakan teknik term weighting TFIDF sebagai pembanding. 3. Batasan Masalah 1. Data yang digunakan adalah dataset Reuteters-21578 dengan 10 kategori 2. Stopwords yang ada telah dihilangkan berdasarkan daftar stopwords yang terdiri dari 571 kata yang tertera pada http://search.cpan.org/~kwilliams/reuters-21578/. 3. Tanda baca telah dihapus, semua huruf telah dikonversi menjadi huruf kecil, dan angka yang telah dihapus. 4. Proses stemming dilakukan menggunakan algoritma Porter Stemming [10]. 5. Metode klasifikasi yang digunakan adalah dengan menggunakan SVM yang diadopsi dari tools Weka 6. Parameter ukur yang digunakan adalah recall, precision, dan f-measure untuk menghitung performansi metode yang digunakan 4. Tujuan 1. Mengimplementasi metode ConfWeight Term Weighting dengan Term Evaluation Functions untuk mengkategorisasikan teks berdasarkan terms yang ada pada dataset kemudian diklasifikasi dengan SVM yang diadopsi dari tools Weka. 2. Menguji dan menganalisa performansi metode ConfWeight Term Weighting baik dengan local policy maupun global policy dari hasil ujicoba dengan parameter 3

evaluasi precision, recall, dan f-measure dengan metode pembanding TF-IDF dengan threshold local policy maupun global policy. 5. Metodologi Penyelesaian Masalah a) Studi Literatur Langkah ini bertujuan untuk memahami dasar teori mengenai indexing, Term Wieghting dan metode ConfWeight serta hal lain yang mendukung penyelesaian tugas akhir ini. Sumber dasar teori dapat berupa buku, paper, maupun halaman web. b) Pengumpulan dan Pemahaman Data Mencari dan mengumpulkan data yang berasal dari dataset reuters-21578. c) Analisis Kebutuhan dan Perancangan perangkat lunak Melakukan analisis kebutuhan perangkat lunak yang akan dibangun, agar didapatkan gambaran umum seperti apa perangkat lunak yang ingin dibangun, kemudian merancang perangkat lunak yang sesuai untuk memenuhi kebutuhan. Rancangan perangkat lunak dapat menjadi panduan saat implementasi perangkat lunak. Gambar 1.1 gambaran sistem 4

1. Proses input dokumen tekstual. 2. Melakukan preprocessing (tokenization, stopwords removal, stemming). 3. Proses input dataset ke dalam database. Proses tokenization. Proses tokenization merupakan proses pengubahan setiap huruf menjadi bentuk lowercase, dan penghilangan tanda baca yang terdiri dari:.,,,!, :, ;,?, &, (, ), [,],{,},_,-,%,$,@,<,>,#, *,,,, /. Tujuan dari proses ini adalah untuk mempermudah dalam proses indexing yang lain. Proses stopword removal. Proses stopword removal adalah proses penghilangan stopword pada dokumen. Stopword merupakan kata yang tergolong sebagai kata umum dan sering muncul. Proses stemming. Proses stemming merupakan proses pengubahan setiap kata ke dalam bentuk kata dasar. Proses stemming dilakukan menggunakan algoritma Porter. Sebagai contoh kata writing, wrote, dan writed diubah menjadi kata write. 4. Melakukan Term Weighting dengan meode ConfWeight dan TF-IDF. 5. Melakukan feature selection denagn mendapatkan nilai MaxStr dan dirangking dengan Information Gain (IG) dan threshold yang telah ditentukan 6. Klasifikasi dengan machine learning SVM, Machine learning Dengan menggunakan SVM yang diadopsi dari tools Weka 7. Proses penghitungan Precission, Recall, F-Measure. d) Implementasi Menganalisis segala kebutuhan sistem dalam proses pembuatan sistem serta melakukan implementasi sistem sesuai kebutuhan dan perancangan yang telah dilakukan. e) Pengujian dan Analisis hasil Implementasi Pengujian system berdasarkan dataset yang telah dipilih dan metode pembobotan term yang telah didefinisikan sebelumnya. 5

f) Pembuatan Laporan Tugas Akhir Pada tahap akhir, akan dilakukan pembuatan dokumentasi yang berupa laporan Skripsi. 6