BAB 1 PENDAHULUAN 1.1. Latar belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN UKDW

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB 1 PENDAHULUAN 1.1 LATAR BELAKANG

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. secara manual dari suatu kumpulan data. Defenisi lain data mining adalah sebagai

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

BAB I PENDAHULUAN.

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. masalah kecerdasan, desain, pemilihan, implementasi, dan monitoring (Tripathi,

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. terjadi kesalahan dalam proses tersebut, karena tidak didasari oleh suatu acuan tertulis

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. dari pemikiran-pemikiran manusia yang semakin maju, hal tersebut dapat. mendukung bagi pengembangan penyebaran informasi.

BAB 1 PENDAHULUAN 1-1

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB I PENDAHULUAN 1.1 Latar Belakang

1. Pendahuluan. 1.1 Latar belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. tersebut dibuktikan dengan semakin canggihnya perangkat keras seperti prosesor,

BAB I PENDAHULUAN. konsumen. Inovatif dalam arti harus menjual produk-produk yang sesuai

BAB I PENDAHULUAN 1.1. Latar Belakang

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

Perbandingan Algoritma Pendeteksian Spam

PENDAHULUAN. I.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Hal ini dibuktikan dengan adanya fakta yang diungkap oleh World Health

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Bab I Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN. sistem peredaran darah orang lain. Sebelum ditransfusikan, periksa kembali sifat

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2010/2011

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

1. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN. Desain penelitian adalah tahapan atau gambaran yang akan dilakukan

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PENDAHULUAN 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

UKDW. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Perkembangan teknologi informasi dapat dimanfaatkan untuk meningkatkan kinerja dan

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Perkembangan teknologi komputer dan internet semakin maju

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Dunia internet kian pesat berkembang saat ini. Aliran informasi pun semakin

Transkripsi:

BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan adanya perkembangan dan pertumbuhan yang secara cepat dalam hal informasi elektronik sangat diperlukan suatu proses untuk menyelesaikan suatu permasalahan itu agar bisa memanfaatkan informasi yang sekilas tidak bermakna menjadi suatu hal yang sangat bermakna untuk masa yang akan datang. Menurut Ikonomakis, Kotsiantis, dan Tampakas (2005) salah satu solusi yang ditawarkan dalam menghadapi permasalahan tersebut adalah dengan melakukan proses automasi klasifikasi teks. Automasi klasifikasi teks sangat dibutuhkan pada era digital yang sangat pesat saat ini dikarenakan setiap hari kehidupan manusia akan selalu berhadapan dengan jumlah varian dokumen teks dan perlu adanya upaya untuk mengatasi informasi dalam jumlah yang besar dan yang seringkali bersifat tidak terstruktur. Proses automasi klasifikasi teks memegang peran yang begitu penting dalam melakukan organisasi suatu dokumen teks, penentuan ciri dan karakteristik dari suatu dokumen dan berbagai implementasi Machine Learning yang lain seperti Question Answering maupun Information Retrieval atau sistem temu kembali informasi. Menentukan sebuah karakteristik atau informasi yang tersembunyi di dalam sebuah dataset yang begitu besar sangat perlu dilakukan, menurut Sukma, Santoso, Ramadhan, Wiraswari dan Sari (2014) sebuah dokumen yang tidak terstruktur memiliki banyak arti, makna serta tujuan yang berbeda - beda oleh karena itu perlu adanya suatu metode khusus yang dapat memberikan informasi penting yang terkandung dari suatu dokumen teks. Dalam perkembangan implementasi sebuah automasi klasifikasi teks terdapat beberapa contoh algoritma yang digunakan seperti Naive Bayes, Support Vector Machine ataupun Decision Tree, dan dalam hal ini juga terdapat beberapa representasi feature leksikal yang berpengaruh dalam proses automasi klasifikasi teks untuk menentukan berbagai informasi dan karakteristik dari suatu dokumen teks seperti N-Gram, Traditional Bag of Word Model, dan juga konsep Bag of Concept 1

2 yang merupakan pengembangan dari konsep Bag of Word dan berbagai representasi feature yang lain. Beberapa penelitian atau riset telah dilakukan oleh beberapa orang terhadap uji akurasi yang didapatkan melalui perbandingan representasi feature leksikal yang berbeda - beda, berikut hasil pengujian yang dilakukan oleh Rahmoun dan Elberrichi (2007) yang melakukan uji perbandingan terhadap representasi feature N-gram, Bag of Word dan Bag of Stem Word dari 2 korpus data yang berbeda yaitu Reuters dan 20Newsgroup : Tabel 1.1 Perbandingan Hasil N-Gram, BoW dan BoSW ( Rahmoun dan Elberrichi, 2007 ) 5-Grams Word Stem Word Reuters News Reuters News Reuters News K = 100 0.704 0.677 0.637 0.643 0.640 0.651 K = 200 0.702 0.699 0.646 0.659 0.642 0.670 K = 300 0.707 0.707 0.649 0.665 0.655 0.677 K = 400 0.704 0.714 0.646 0.666 0.656 0.681 K = 500 0.703 0.716 0.643 0.666 0.657 0.682 K = 600 0.702 0.717 0.643 0.667 0.658 0.683 K = 700 0.701 0.717 0.646 0.667 0.659 0.683 K = 800 0.701 0.717 0.646 0.667 0.660 0.683 Berdasarkan tabel 1.1 dapat dilihat bahwa dalam kasus kategorisasi sebuah teks dengan menggunakan 3 representasi feature leksikal yang berbeda menghasilkan kesimpulan bahwa peran dari quint grams sangat penting dan memberikan nilai yang cukup tinggi dan dalam hal uji variasi jumlah data yang diberikan korpus data yang satu dengan yang lain memberikan hasil yang akurasi yang bertolak belakang di satu korpus data memberikan peningkatan akurasi sementara yang lain tidak menunjukkan peningkatan akurasi.

3 Metode representasi feature yang akan digunakan adalah N-Grams, Bag of Word yang mengambil beberapa kata kunci yang terkandung dari masing - masing kategori dalam Opini.id, serta Bag Of Concept yang merupakan pengembangan dari konsep Bag of Word untuk mengurangi tingkat komputasi dalam membentuk representasi feature (Garcia, Rodriguez, dan Rifon, 2015). 1.2. Rumusan masalah Berdasarkan beberapa hal yang telah dijelaskan pada latar belakang terdapat beberapa rumusan masalah sebagai berikut : 1. Bagaimana performa hasil akurasi yang diberikan dari hasil ujicoba representasi feature leksikal pada proses kategorisasi sebuah pertanyaan yang tidak terstruktur dari website Opini.id? 2. Apakah kategorisasi pertanyaan User dari website Opini.id memberikan dampak yang maksimal terhadap kinerja dan pengembangan produk tersebut? 3. Berapakah hasil perbandingan akurasi yang diberikan jika menerapkan beberapa kombinasi pada representasi feature yang digunakan dalam proses kategorisasi pertanyaan? 1.3. Ruang lingkup Berikut ruang lingkup secara detail dari skripsi ini : 1. Pengambilan data untuk dijadikan sebuah training data berasal dari data internal perusahaan yaitu pertanyaan yang berasal dari website Opini.id yang sudah memiliki kategori. 2. Pengembangan aplikasi kategorisasi pertanyaan hanya berlaku pada jenis pertanyaan berupa teks. 3. Implementasi aplikasi kategorisasi teks menggunakan Spring Framework, bahasa pemrograman Java dan dependency WEKA API. 4. Penggunaan database kata dasar bahasa Indonesia berasal dari forum dan media tertulis internet. 5. Fitur kategorisasi pertanyaan diperuntukkan untuk membantu kinerja divisi Content Hunter dalam melakukan automasi kategori pertanyaan User.

4 1.4. Tujuan dan manfaat Tujuan dari skripsi ini adalah sebagai berikut : a) Membangun sebuah fitur automasi kategorisasi pertanyaan yang tidak memiliki kategori yang terdapat di dalam website Opini.id. b) Melakukan penerapan konsep representasi feature leksikal seperti Bag Of Concept, Bag Of Word dan N-Gram pada fitur automasi kategorisasi pertanyaan. Manfaat dari penulisan skripsi ini adalah sebagai berikut : a) Memberikan kemudahan bagi anggota divisi Content Hunter PT. Global Visi Media dalam melakukan kategorisasi dari pertanyaan yang tidak memiliki kategori sebelumnya. b) Penulisan ini menjadi bahan yang penting untuk pengembangan fitur serta aplikasi lain yang berkaitan dengan Machine Learning untuk menciptakan berbagai hal baru yang dapat diimplementasikan 1.5. Metode penelitian 1.5.1. Metode pengumpulan data dan analisis 1.5.1.1. Studi literatur Melakukan pengumpulan berbagai informasi yang mendukung melalui beberapa kajian ilmiah atau paper serta buku yang berkaitan dengan alur proses algoritma serta implementasi tool yang akan dipakai. 1.5.1.2. Riset aplikasi sejenis Melakukan pembelajaran terhadap beberapa aplikasi yang telah diimplementasi oleh peneliti lain untuk memperoleh informasi yang dapat dilakukan proses perbandingan atau menjadi bahan utama dalam pembuatan aplikasi.

5 1.5.1.3. Wawancara narasumber Melakukan penggalian informasi kepada narasumber dalam hal ini pihak perusahaan untuk mengumpulkan beberapa kebutuhan dalam proses pembuatan fitur automasi kategorisasi pertanyaan. 1.5.1.4. Implementasi database Melakukan penarikan data pada database perusahaan guna dijadikan sebagai bahan train data dalam proses pembuatan fitur kategorisasi pertanyaan 1.5.2. Metode perancangan Berikut alur secara garis besar yang akan digunakan dalam pembuatan fitur automasi kategorisasi pertanyaan : a) Stemming Melakukan penghilangan imbuhan pada setiap kata yang akan dijadikan train data maupun test data. b) Stopword Removal Melakukan penghilangan kata - kata yang termasuk sebagai kata hubung atau kata interjeksi. c) Feature Extraction Proses ini digunakan untuk mendapatkan informasi serta karakteristik yang dimiliki pada suatu data untuk dijadikan bahan dalam pembentukan model data. d) Build Model Data Pembentukan model data yang digunakan sebagai dasar perbandingan saat diujicobakan dengan data yang baru untuk diberikan sebuah kategori pada data tersebut. e) Create Test Data Pengelompokkan data baru yang tidak memiliki kategori sebelumnya karena dalam menjalankan fitur automasi kategori perlu untuk

6 mengumpulkan data baru dalam jumlah tertentu hal ini sesuai dengan kebutuhan perusahaan. f) Create Classified Data Melakukan proses klasifikasi data menggunakan tool WEKA yang telah dilakukan implementasi pada kerangka kerja Spring. 1.6. Sistematika penulisan Penulisan skripsi ini telah dibagi menjadi beberapa bagian dengan sistematika penulisan sebagai berikut : Bab 1 Pendahuluan Bab satu (1) menjelaskan latar belakang permasalahan, rumusan masalah, ruang lingkup, tujuan dan manfaat, metode penelitian yang digunakan serta sistematika penulisan yang menjadi suatu gambaran secara keseluruhan penulisan. Bab 2 Tinjauan Pustaka Bab dua (2) menjelaskan berbagai uraian teori yang berkaitan dalam pembuatan aplikasi yang dijadikan sebagai dasar untuk memberikan solusi atas permasalahan dan juga terkait dalam hal cara mengumpulkan data dan juga melakukan berbagai implementasi dalam hal representasi data. Bab 3 Deskripsi Umum Bab tiga (3) menguraikan tentang latar belakang perusahaan, identifikasi permasalahan atau kebutuhan dari perusahaan, solusi yang ditawarkan oleh penulis, ruang lingkup aplikasi yang akan dibuat oleh penulis, kemudian menjelaskan peran atau bagian dalam perusahaan tempat dimana penulis melakukan kegiatan Internship Bab 4 Hasil dan Pembahasan Bab empat (4) menjelaskan tentang hasil ujicoba perbandingan dalam hal representasi feature yang digunakan dan perbandingan classifier yang digunakan,

spesifikasi dari aplikasi yang telah dibuat, alur proses secara keseluruhan mulai dari pengambilan data hingga melakukan proses data. 7 Bab 5 Simpulan dan Saran Bab lima (5) akan memberikan penjelasan mengenai kesimpulan dari hasil perbandingan yang telah dilakukan, alur proses dari fitur automasi kategorisasi dan adanya saran - saran yang diusulkan untuk pengembangan fitur yang lebih lanjut agar memperoleh hasil yang lebih baik dibanding sebelumnya.

8