BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu agar bisa memanfaatkan informasi yang sekilas tidak bermakna menjadi suatu hal yang sangat bermakna untuk masa yang akan datang. Menurut Ikonomakis, Kotsiantis, dan Tampakas (2005) salah satu solusi yang ditawarkan dalam menghadapi permasalahan tersebut adalah dengan melakukan proses automasi klasifikasi teks. Automasi klasifikasi teks sangat dibutuhkan pada era digital yang sangat pesat saat ini dikarenakan setiap hari kehidupan manusia akan selalu berhadapan dengan jumlah varian dokumen teks dan perlu adanya upaya untuk mengatasi informasi dalam jumlah yang besar dan yang seringkali bersifat tidak terstruktur. Proses automasi klasifikasi teks memegang peran yang begitu penting dalam melakukan organisasi suatu dokumen teks, penentuan ciri dan karakteristik dari suatu dokumen dan berbagai implementasi Machine Learning yang lain seperti Question Answering maupun Information Retrieval atau sistem temu kembali informasi. Menentukan sebuah karakteristik atau informasi yang tersembunyi di dalam sebuah dataset yang begitu besar sangat perlu dilakukan, menurut Sukma, Santoso, Ramadhan, Wiraswari dan Sari (2014) sebuah dokumen yang tidak terstruktur memiliki banyak arti, makna serta tujuan yang berbeda - beda oleh karena itu perlu adanya suatu metode khusus yang dapat memberikan informasi penting yang terkandung dari suatu dokumen teks. Dalam perkembangan implementasi sebuah automasi klasifikasi teks terdapat beberapa contoh algoritma yang digunakan seperti Naive Bayes, Support Vector Machine ataupun Decision Tree, dan dalam hal ini juga terdapat beberapa representasi feature leksikal yang berpengaruh dalam proses automasi klasifikasi teks untuk menentukan berbagai informasi dan karakteristik dari suatu dokumen teks seperti N-Gram, Traditional Bag of Word Model, dan juga konsep Bag of Concept 1
2 yang merupakan pengembangan dari konsep Bag of Word dan berbagai representasi feature yang lain. Beberapa penelitian atau riset telah dilakukan oleh beberapa orang terhadap uji akurasi yang didapatkan melalui perbandingan representasi feature leksikal yang berbeda - beda, berikut hasil pengujian yang dilakukan oleh Rahmoun dan Elberrichi (2007) yang melakukan uji perbandingan terhadap representasi feature N-gram, Bag of Word dan Bag of Stem Word dari 2 korpus data yang berbeda yaitu Reuters dan 20Newsgroup : Tabel 1.1 Perbandingan Hasil N-Gram, BoW dan BoSW ( Rahmoun dan Elberrichi, 2007 ) 5-Grams Word Stem Word Reuters News Reuters News Reuters News K = 100 0.704 0.677 0.637 0.643 0.640 0.651 K = 200 0.702 0.699 0.646 0.659 0.642 0.670 K = 300 0.707 0.707 0.649 0.665 0.655 0.677 K = 400 0.704 0.714 0.646 0.666 0.656 0.681 K = 500 0.703 0.716 0.643 0.666 0.657 0.682 K = 600 0.702 0.717 0.643 0.667 0.658 0.683 K = 700 0.701 0.717 0.646 0.667 0.659 0.683 K = 800 0.701 0.717 0.646 0.667 0.660 0.683 Berdasarkan tabel 1.1 dapat dilihat bahwa dalam kasus kategorisasi sebuah teks dengan menggunakan 3 representasi feature leksikal yang berbeda menghasilkan kesimpulan bahwa peran dari quint grams sangat penting dan memberikan nilai yang cukup tinggi dan dalam hal uji variasi jumlah data yang diberikan korpus data yang satu dengan yang lain memberikan hasil yang akurasi yang bertolak belakang di satu korpus data memberikan peningkatan akurasi sementara yang lain tidak menunjukkan peningkatan akurasi.
3 Metode representasi feature yang akan digunakan adalah N-Grams, Bag of Word yang mengambil beberapa kata kunci yang terkandung dari masing - masing kategori dalam Opini.id, serta Bag Of Concept yang merupakan pengembangan dari konsep Bag of Word untuk mengurangi tingkat komputasi dalam membentuk representasi feature (Garcia, Rodriguez, dan Rifon, 2015). 1.2. Rumusan masalah Berdasarkan beberapa hal yang telah dijelaskan pada latar belakang terdapat beberapa rumusan masalah sebagai berikut : 1. Bagaimana performa hasil akurasi yang diberikan dari hasil ujicoba representasi feature leksikal pada proses kategorisasi sebuah pertanyaan yang tidak terstruktur dari website Opini.id? 2. Apakah kategorisasi pertanyaan User dari website Opini.id memberikan dampak yang maksimal terhadap kinerja dan pengembangan produk tersebut? 3. Berapakah hasil perbandingan akurasi yang diberikan jika menerapkan beberapa kombinasi pada representasi feature yang digunakan dalam proses kategorisasi pertanyaan? 1.3. Ruang lingkup Berikut ruang lingkup secara detail dari skripsi ini : 1. Pengambilan data untuk dijadikan sebuah training data berasal dari data internal perusahaan yaitu pertanyaan yang berasal dari website Opini.id yang sudah memiliki kategori. 2. Pengembangan aplikasi kategorisasi pertanyaan hanya berlaku pada jenis pertanyaan berupa teks. 3. Implementasi aplikasi kategorisasi teks menggunakan Spring Framework, bahasa pemrograman Java dan dependency WEKA API. 4. Penggunaan database kata dasar bahasa Indonesia berasal dari forum dan media tertulis internet. 5. Fitur kategorisasi pertanyaan diperuntukkan untuk membantu kinerja divisi Content Hunter dalam melakukan automasi kategori pertanyaan User.
4 1.4. Tujuan dan manfaat Tujuan dari skripsi ini adalah sebagai berikut : a) Membangun sebuah fitur automasi kategorisasi pertanyaan yang tidak memiliki kategori yang terdapat di dalam website Opini.id. b) Melakukan penerapan konsep representasi feature leksikal seperti Bag Of Concept, Bag Of Word dan N-Gram pada fitur automasi kategorisasi pertanyaan. Manfaat dari penulisan skripsi ini adalah sebagai berikut : a) Memberikan kemudahan bagi anggota divisi Content Hunter PT. Global Visi Media dalam melakukan kategorisasi dari pertanyaan yang tidak memiliki kategori sebelumnya. b) Penulisan ini menjadi bahan yang penting untuk pengembangan fitur serta aplikasi lain yang berkaitan dengan Machine Learning untuk menciptakan berbagai hal baru yang dapat diimplementasikan 1.5. Metode penelitian 1.5.1. Metode pengumpulan data dan analisis 1.5.1.1. Studi literatur Melakukan pengumpulan berbagai informasi yang mendukung melalui beberapa kajian ilmiah atau paper serta buku yang berkaitan dengan alur proses algoritma serta implementasi tool yang akan dipakai. 1.5.1.2. Riset aplikasi sejenis Melakukan pembelajaran terhadap beberapa aplikasi yang telah diimplementasi oleh peneliti lain untuk memperoleh informasi yang dapat dilakukan proses perbandingan atau menjadi bahan utama dalam pembuatan aplikasi.
5 1.5.1.3. Wawancara narasumber Melakukan penggalian informasi kepada narasumber dalam hal ini pihak perusahaan untuk mengumpulkan beberapa kebutuhan dalam proses pembuatan fitur automasi kategorisasi pertanyaan. 1.5.1.4. Implementasi database Melakukan penarikan data pada database perusahaan guna dijadikan sebagai bahan train data dalam proses pembuatan fitur kategorisasi pertanyaan 1.5.2. Metode perancangan Berikut alur secara garis besar yang akan digunakan dalam pembuatan fitur automasi kategorisasi pertanyaan : a) Stemming Melakukan penghilangan imbuhan pada setiap kata yang akan dijadikan train data maupun test data. b) Stopword Removal Melakukan penghilangan kata - kata yang termasuk sebagai kata hubung atau kata interjeksi. c) Feature Extraction Proses ini digunakan untuk mendapatkan informasi serta karakteristik yang dimiliki pada suatu data untuk dijadikan bahan dalam pembentukan model data. d) Build Model Data Pembentukan model data yang digunakan sebagai dasar perbandingan saat diujicobakan dengan data yang baru untuk diberikan sebuah kategori pada data tersebut. e) Create Test Data Pengelompokkan data baru yang tidak memiliki kategori sebelumnya karena dalam menjalankan fitur automasi kategori perlu untuk
6 mengumpulkan data baru dalam jumlah tertentu hal ini sesuai dengan kebutuhan perusahaan. f) Create Classified Data Melakukan proses klasifikasi data menggunakan tool WEKA yang telah dilakukan implementasi pada kerangka kerja Spring. 1.6. Sistematika penulisan Penulisan skripsi ini telah dibagi menjadi beberapa bagian dengan sistematika penulisan sebagai berikut : Bab 1 Pendahuluan Bab satu (1) menjelaskan latar belakang permasalahan, rumusan masalah, ruang lingkup, tujuan dan manfaat, metode penelitian yang digunakan serta sistematika penulisan yang menjadi suatu gambaran secara keseluruhan penulisan. Bab 2 Tinjauan Pustaka Bab dua (2) menjelaskan berbagai uraian teori yang berkaitan dalam pembuatan aplikasi yang dijadikan sebagai dasar untuk memberikan solusi atas permasalahan dan juga terkait dalam hal cara mengumpulkan data dan juga melakukan berbagai implementasi dalam hal representasi data. Bab 3 Deskripsi Umum Bab tiga (3) menguraikan tentang latar belakang perusahaan, identifikasi permasalahan atau kebutuhan dari perusahaan, solusi yang ditawarkan oleh penulis, ruang lingkup aplikasi yang akan dibuat oleh penulis, kemudian menjelaskan peran atau bagian dalam perusahaan tempat dimana penulis melakukan kegiatan Internship Bab 4 Hasil dan Pembahasan Bab empat (4) menjelaskan tentang hasil ujicoba perbandingan dalam hal representasi feature yang digunakan dan perbandingan classifier yang digunakan,
spesifikasi dari aplikasi yang telah dibuat, alur proses secara keseluruhan mulai dari pengambilan data hingga melakukan proses data. 7 Bab 5 Simpulan dan Saran Bab lima (5) akan memberikan penjelasan mengenai kesimpulan dari hasil perbandingan yang telah dilakukan, alur proses dari fitur automasi kategorisasi dan adanya saran - saran yang diusulkan untuk pengembangan fitur yang lebih lanjut agar memperoleh hasil yang lebih baik dibanding sebelumnya.
8