BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

dokumen-dokumen yang mirip
BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB 1 PENDAHULUAN UKDW

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN UKDW

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN I.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

@UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Gambar 1.1 Tahapan Penelitian

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

BAB 2 TINJAUAN PUSTAKA

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB 1 PENDAHULUAN. Perkembangan pengetahuan dibidang kecerdasan buatan sedemikian

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN UKDW

1. Pendahuluan. 1.1 Latar belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW. Bab 1 PENDAHULUAN

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

1.2. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

BAB I PENDAHULUAN Latar Belakang Masalah

BAB 3 LANDASAN TEORI

1.5 Metode Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang Masalah

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

1.1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

DAFTAR ISI. SKRIPSI... ii

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

1. Pendahuluan 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV IMPLEMENTASI DAN PENGUJIAN

Transkripsi:

1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung menyimpan informasi secara digital, karena lebih mudah dalam penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga mendukung penyimpanan informasi secara digital, baik untuk keperluan pribadi, perkantoran, atau bahkan pemerintahan. Selain itu, informasi sudah menjadi suatu komoditas yang dapat diperjualbelikan. Orang sampai kadang rela membayar banyak, baik dengan waktu maupun uang demi mendapatkan informasi yang mereka butuhkan, supaya mereka mendapatkannya dengan cepat. Tidak hanya kecepatan mendapatkan informasi, keakuratan dari informasi juga menjadi harapan semua orang. Dengan banyaknya dokumen berformat teks seperti jurnal, buku, dan berita yang sudah tersimpan secara digital, muncul permasalahan dimana informasi yang tadinya tersedia dengan baik menjadi kabur/hilang karena terlalu banyak dokumen/berkas yang tersimpan dalam media penyimpanan digital. Imbasnya, proses mencari informasi tertentu yang dibutuhkan dari berkas-berkas tersebut menjadi makin sulit dan lama. Masalah lain akan terjadi ketika setiap dokumen tersebut ingin dikategorikan ke dalam kelas-kelas tertentu, karena harus dilihat, dibaca, dan dipahami isi tiap

2 dokumen dalam korpus. Setelah selesai membaca seluruh isi korpus, barulah bisa ditentukan kelas-kelas bagi dokumen dan membagi dokumen dalam kelas tersebut. Sebuah kajian ilmu yang bernama Information Retrieval (IR) memunculkan beberapa metodologi yang memudahkan pencarian informasi dari sejumlah besar dokumen digital, salah satunya adalah dengan proses clustering/classification, yaitu pengelompokan data/berkas berbasis teks berdasarkan kemiripannya. Beberapa metode clustering telah dikembangkan untuk mengelompokkan data terstruktur sejenis relational database seperti k-means, decision tree, Naïve Bayes, dan sebagainya. Salah satu metode clustering, k-means, terkenal simpel dan cepat dalam perhitungannya (Arthur, 2006), serta menjadi dasar pengembangan metode clustering yang lain (Kanungo, 2002; Bhatia, 2004; Pham, 2004, Mahdavi, 2008; Tarpey 2007). Metode k-means yang dipadukan dengan pembobotan TF-IDF menjadi solusi untuk pengelompokan data tak terstruktur seperti dokumen teks secara otomatis. Karena TF-IDF sendiri juga merupakan metode yang populer dan memiliki hasil perhitungan yang cukup akurat (Ramos, 2010). Penelitian ini bermaksud menggabungkan dan mengevaluasi kinerja perpaduan metode k-means dan TF-IDF dalam proses clustering dokumen teks ke dalam suatu aplikasi clustering dokumen teks digital. Aplikasi ini diharapkan mampu melakukan klasifikasi secara otomatis bagi dokumen-dokumen dalam korpus.

3 B. Perumusan Masalah Beberapa permasalahan yang dibahas dalam penelitian yang diajukan ini adalah: 1. Bagaimana implementasi proses pengelompokan (clustering) dokumen berformat teks yang dilakukan oleh metode k-means yang dipadukan dengan pembobotan TF-IDF. 2. Bagaimana aplikasi mampu mengelompokkan dokumen berita dengan akurat berdasarkan kemiripan antar dokumen. 3. Penentuan nilai threshold yang paling cocok untuk aplikasi clustering dokumen teks dengan metode k-means. 4. Evaluasi akurasi dari metode k-means clustering menggunakan parameter precision dan recall. C. Batasan Masalah Beberapa batasan masalah yang ditetapkan dalam penelitian ini adalah: 1. Dokumen teks uji dalam penelitian ini terbatas hanya berekstensi.txt (plain text) 2. Proses indexing dokumen tidak melalui proses stemming dan normalisasi karena diharapkan aplikasi yang dibangun memiliki precision lebih tinggi. 3. Proses penghilangan stopword akan dilakukan untuk mengurangi kata-kata yang tidak mempengaruhi isi dokumen.

4 D. Keaslian Penelitian Setelah dilakukan beberapa pengamatan terhadap beberapa buku, artikel, dan jurnal ilmiah yang sudah ada sebelumnya, belum ditemukan adanya penelitian yang secara khusus membahas tentang pengintegrasian pembobotan TF-IDF pada metode clustering k-means pada aplikasi clustering dokumen teks. E. Manfaat yang Diharapkan Adapun manfaat-manfaat yang diharapkan dari penelitian yang dilakukan ini adalah: 1. Membuktikan bahwa metode k-means yang dipadukan dengan pembobotan TF-IDF dapat digunakan untuk clustering pada dokumen tak terstruktur seperti dokumen teks. 2. Memberikan nilai threshold yang baik untuk penggunaan metode k-means dengan pembobotan TF-IDF. 3. Memberikan informasi mengenai akurasi penggunaan metode k-means dengan pembobotan TF-IDF untuk clustering dokumen teks. F. Tujuan Penelitian Penelitian dalam tesis ini bertujuan untuk: 1. Menguji keakuratan metode k-means clustering dengan pembobotan TF- IDF dalam clustering dokumen teks.

5 2. Mengembangkan perangkat lunak pengelompokan dokumen teks untuk membantu penemuan kembali informasi yang hilang karena data yang terlalu banyak. 3. Mengidentifikasi nilai threshold yang optimal untuk diterapkan dalam implementasi metode k-means clustering dengan pembobotan TF-IDF. G. Sistematika Penulisan Penulisan bagian utama tesis ini dibagi menjadi lima bagian, yaitu pendahuluan, tinjauan pustaka, metodologi penelitian, hasil penelitian dan pembahasan, kesimpulan dan saran. 1. Pendahuluan Bagian ini memuat latar belakang, perumusan masalah, batasan masalah, keaslian penelitian, manfaat yang diharapkan, tujuan penelitian, dan sistematika penelitian. 2. Tinjauan Pustaka Berisi mengenai tinjauan pustaka, yakni hasil-hasil penelitian terdahulu, landasan teori tentang k-means clustering dan pembobotan TF-IDF, serta hipotesis mengenai penelitian yang dilakukan. 3. Metodologi Penelitian Dalam metodologi penelitian terdapat uraian terinci tentang: bahan atau materi penelitian, alat, langkah-langkah penelitian yang dilakukan, analisis, perancangan perangkat lunak, implementasinya, dan pengujian perangkat lunak tersebut.

6 4. Hasil Penelitian dan Pembahasan Bagian ini memuat hasil penelitian dan pembahasan terpadu. Pembahasan berisi mengenai analisis yang dilakukan terhadap hasil yang diperoleh, ditinjau secara utuh, baik secara kualitatif, kuantitatif, maupun normatif. 5. Kesimpulan dan Saran Bagian ini berisi kesimpulan yang merupakan pernyataan singkat dari hasil penelitian dan pembahasan, serta pembuktian kebenaran hipotesis. Selain itu, dituliskan saran yang ditujukan pada peneliti dalam bidang sejenis, yang ingin melanjutkan atau mengembangkan penelitian yang sudah diselesaikan.