BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I - 1

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Pengantar Pendahuluan 1.2 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

UKDW. Bab 1 PENDAHULUAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

UKDW BAB I PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Pendahuluan. 1.2 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN UKDW

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Bab 1 PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN Pengantar

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

PENDAHULUAN BAB I. 1.1 Latar Belakang Masalah

MILIK UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB I PENDAHULUAN. globalisasi pada saat sekarang ini, penggunaan komputer yang baik juga berperan. penting pada siklus penyusunan laporan akuntansi.

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1. Latar belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang Masalah

Bab 1 Pendahuluan 1.1 Pengantar

1.2. Latar Belakang Masalah

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN. sebuah kreasi baru, yang memiliki makna baru. dilakukan dengan mudah, yaitu dengan memilih objek (sasaran) pada sumber

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB IV PREPROCESSING DATA MINING

BAB 1 PENDAHULUAN Pengantar

UKDW BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. efektivitas dan efisiensi kerja tercapai. STIKOM Surabaya merupakan salah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Perumusan Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Dengan kemajuan teknologi sangat modern sekarang ini yang semakin

BAB 1 PENDAHULUAN. Gambar 1-1 Proses.

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN. dan tepat sehingga dapat memberikan keputusan bagi dirinya dan orang lain.

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. karena komputer dengan sebuah sistem yang canggih dapat bekerja secara

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. Sekolah Tinggi Manajemen Informatika dan Teknik Komputer Surabaya

BAB I PENDAHULUAN. untuk berbuat lebih banyak dalam teknologi dan membuka diri terhadap

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB 1 akurat, efisiensi waktu dan sumber daya. Teknologi.Net merupakan teknologi dari perusahaan Microsoft yang berupa

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. Di tengah-tengah pesatnya kemajuan teknologi, semakin banyak orang yang

PENDAHULUAN BAB Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

MILIK UKDW BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. dikurangi penyusutan dan beban-beban dari tahun buku yang bersangkutan. Maka

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. kepada pihak lainnya dengan mendapatkan keuntungan dari pihak tersebut.

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN. semakin bertambah ketatnya persaingan dalam bidang perdagangan. Setiap usaha

BAB I PENDAHULUAN. mengelola data, menyiapkan data, melakukan perhitungan perhitungan dan

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. Seiring dengan perkembangan zaman, organisasi besar maupun kecil telah

Transkripsi:

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media teks ke dalam bentuk elektronik tersebut akan mengalami perkembangan yang sangat besar pada masa yang mendatang. Salah satu upaya yang penting untuk dilakukan adalah dengan cara melakukan penggolongan terhadap dokumen-dokumen yang berada di dalam suatu corpus (kumpulan dokumen), ke dalam suatu set berdasarkan kategori-kategori yang sesuai dengan isi dari dokumen-dokumen yang berada di dalam corpus. Proses penggolongan dokumen yang berasal dari suatu corpus ke dalam kategori-kategori yang telah ditentukan tersebut disebut juga dengan proses dokumen klasifikasi. Tujuan dari pengelompokkan dokumen adalah untuk mempermudah pencarian informasi sesuai dengan kategori yang dimiliki oleh setiap dokumen. Proses pengklasifikasian dokumen sulit dilakukan jika menggunakan query biasa, karena dengan menggunakan query yang kurang spesifik dapat mengakibatkan membanjirnya beberapa dokumen yang tidak relevan. Feature selection adalah suatu bentuk upaya peningkatan algoritma pembelajaran yang digunakan untuk menggolongkan dokumen ke dalam kategorikategori tertentu dengan cara menemukan suatu bentuk pola yang relevan (minimal satu buah pola). Tujuan dari dilakukannya proses feature selection di dalam proses dokumen kelasifikasi adalah untuk meningkatkan skalabilitas, efisiensi dan akurasi. Feature adalah seluruh kata yang muncul dalam training set. Set ini biasanya sangat besar yaitu satu dimensi untuk setiap kata unik. Hal inilah yang membuat klasifikasi dokumen menjadi susah, karena dimensi yang dimiliki oleh feature space sangat besar. Penyeleksian seluruh kata yang muncul di dalam training set dapat dilakukan dengan cara mereduksi dimensi pada feature space 1

dengan jalan memilih kata-kata yang paling informative bagi dokumen yang akan diklasifikasikan. Informasi yang berkualitas merupakan salah satu ciri dari bentuk penurunan berdasarkan pola dan kecenderungan tertentu yang dapat diperoleh melalui statistical pattern learning. Menghadapi permasalahan demikian, maka dibutuhkan suatu metode yang efisien untuk melakukan proses feature selection. Metode feature selection yang digunakan pada penelitian ini adalah IG (Informaton Gain) dan CHI (Chi-Square). Sedangkan metode klasifikasi dokumen yang digunakan adalah metode Naive Bayes (NBC) yang memang telah sering digunakan untuk memecahkan permasalahan yang berhubungan dengan proses klasifikasi. 1.2 Rumusan Masalah Permasalahan yang menjadi titik berat di dalam melakukan penelitian ini adalah : Bagaimana sistem dapat membandingkan metode Information Gain dan Chi Squared untuk feature selection pada proses klasifikasi dokumen teks Bahasa Indonesia. 1.3 Batasan Masalah Permasalahan yang akan dibahas di dalam penulisan tugas akhir ini dibatasi sebagai berikut : 1. Dokumen yang digunakan sebagai inputan adalah dokumen berbahasa Indonesia dengan ekstensi *.txt dan bersifat plain text 2. Proses Stemming dan stopword hanya berlaku pada kata-kata ber- Bahasa Indoensia saja. 3. Proses Stemming hanya dilakukan pada proses prefiks dan sufiks 4. Parameter yang digunakan untuk melakukan perbandingan hanya menggunakan parameter precision. 5. Metode yang digunakan di dalam melakukan perbandingan proses feature selection adalah metode IG dan metode CHI 2

6. Metode yang digunakan di dalam proses dokumen klasifikasi adalah metode Naive Bayes 7. Dokumen yang digunakan diambil dari www.bolanews.com, www.kompas.com, www.detik.com dan bahan yang digunakan untuk penelitian hanya digolongkan ke dalam tiga kategori, yaitu olahraga, ekonomi dan komputer. Dengan adanya hal ini, maka akan dimungkinkan munculnya outlier (dokumen yang tidak masuk ke dalam kategori manapun) 1.4 Tujuan Penelitian Tujuan dari penulisan Tugas Akhir ini adalah : 1. Sebagai salah satu syarat untuk mendapat gelar S-1 di Fakultas Teknik Informatika Universitas Kristen Duta Wacana. 2. Penelitian ini bertujuan untuk mengetahui nilai perbandingan antara metode IG dan CHI pada tahap feature selection di dalam proses dokumen klasifikasi. Sehingga dari hasil penelitian ini, pada nantinya akan menghasilkan tingkat keakuratan antara dua metode yang dibandingkan dan dapat digunakan sebagai wacana dan bahan pertimbangan bagi siapa saja yang akan melakukan proses dokumen klasifikasi 1.5 Metode / Pendekatan Metode penelitian yang digunakan penulis di dalam melakukan penelitian ini adalah sebagai berikut : a. Studi Pustaka Dengan cara mempelajari buku-buku literatur yang berkaitan dengan penelitian dengan tujuan mendapatkan sumber pemahaman dan membantu mengatasi permasalahan-permasalah yang muncul ketika penulis melakukan penelitian. 3

b. Pengumpulan data lewat internet Data yang dikumpulkan berupa artikel, jurnal ilmiahh dan data-data lainnya yang mendukung penelitian penulis dengan tujuan mencari dan memperbaharui ilmu-ilmu yang berkaitan dengan penelitaian yang dilakukan oleh penulis. c. Perancangan Penulis merancang suatu sistem yang digunakan sebagai program bantu di dalam melakukan penelitin. Sistem tersebut dibuat dengan menggunakan Microsoft Visual Studio.Net Express Edition dan Microsoft Sql Server 2005. Proses stemming yang dilakukan menggunakan algoritma Poter. Metode yang digunakan di dalam proses feature selection adalah metode IG dan CHI. Metode untuk proses dokumen klasifikasi adalah metode Naive Bayes. Untuk menguji tingkat keakuratan, maka digunakan perhitungan presisi dan perhitungan pemanggilan ulang. 1.6 Sistematika Penulisan Laporan penelitian ini akan terbagi dalam lima bab dengan sistematika penulisan sebagai berikut : Bab 1 : Pendahuluan yang berisi Latar Belakang Masalah, Perumusan Masalah, Batasan masalah, Tujuan Penelitian, Metode/Pendekatan, Sistematika Penulisan. Bab 2 : Landasan Teori yang berisi teori-teori yang mendasari penelitian. Bab 3 : Perancangan Sistem yang berisi tahap perancangan lengkap dari program yang akan dibuat. Bab 4 : Implementasi dan Analisis Sistem yang akan menjelaskan informasi tentang implementasi sistem dari perancangan sistem yang telah dibuat pada bab 3, meliputi cara kerja program, input dan output, realisasi sistem, kelebihan dan kekurangannya. 4

Bab 5 : Kesimpulan dan Saran berisikan kesimpulan akhir dan saran-saran untuk pengembangan sistem 5