BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB VI KESIMPULAN DAN SARAN. vektor dengan jumlah tertentu yang telah ditentukan dan berisi nilai dari SMS

BAB I PENDAHULUAN Latar Belakang

BAB III METODE PENELITIAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI PADA TEXT MINING

PENDAHULUAN. 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB IV PREPROCESSING DATA MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

PENDAHULUAN. 1.1 Latar Belakang

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

Bab I Pendahuluan. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 1 PENDAHULUAN Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Klasifikasi Teks Pesan Spam Menggunakan Algoritma Naïve Bayes

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

Perbandingan Algoritma Pendeteksian Spam

BAB III METODELOGI PENELITIAN

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB II TINJAUAN PUSTAKA

ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID SOFTWARE APPLICATION

1. BAB I PENDAHULUAN 1.1. Latar Belakang ,

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

PENDAHULUAN. Latar belakang

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

BAB 1 PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB I. PENDAHULUAN. mendorong banyak informasi yang tersedia dalam bentuk digital. Informasi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Bandung, Indonesia Bandung, Indonesia

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang

1. BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

Transkripsi:

BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu diperlukan klasifikasi yang tepat dan pengalian pengetahuan dari sumber sumber ini dapat dijadikan sebagai bahan penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah mempelajari teknik klasifikasi untuk teks menggunakan menggunakan machine learning (Ikonomakis, 2005). Klasifikasi teks bisa diterapkan di berbagai bidang seperti deteksi bahasa dari suatu teks, pengarsipan dokumen, klasifikasi halaman web dan pembelajaran otomatis (Bijalwan, Kumar, Kumari and Pascual, 2014). Karena panjang pesan dari pesan teks kecil maka kata kunci yang dapat digunakan untuk melakukan klasifikasi juga menjadi lebih kecil daripada email selain karena pesan teks juga tidak memiliki header serta penuh dengan singkatan dan bahasa yang tidak formal mengakibatkan turunnya performa dari algoritma untuk melakukan spam filtering pada pesan teks (Shirani-mehr, 2012). Karena sifat dari SMS yang hanya berjumlah 160 karakter, maka diperlukan suatu metode untuk meningkatkan akurasi dari klasifikasi teks. Peneliti berhasil menggunakan metode decision tree untuk meningkatkan akurasi dalam melakukan klasifikasi teks, tetapi terdapat masalah lain seperti melakukan pergantian semua kata kata pendek yang mungkin untuk kata yang diberikan secara dinamis oleh kata aslinya adalah suatu isu yang harus dibahas (Padhiyar, 2013).

10 Penelitian untuk meningkatkan akurasi dari metode TF-IDF dalam melakukan klasifikasi teks juga telah dilakukan dengan menggunakan feature word. Walaupun telah memberikan hasil, tetapi permasalahan yang lain adalah menentukan nilai kepercayaan yang tepat untuk corpus yang berbeda (Zhang, Gong and Wang, 2005). Pada penelitian yang lain membahas tentang adanya faktor selain term frequency, seperti untuk bobot istilah lokal yang diukur dalam satu dokumen seperti TF, ditemukan bahwa istilah dengan frekuensi yang lebih tinggi dan dekat dengan distribusi hipo-dispersi harus diberikan bobot yang lebih tinggi dari satu dengan frekuensi yang lebih rendah dan mendekati dengan distribusi intensif. Di sisi lain, untuk weight term global yang dihargai di seluruh koleksi dokumen seperti Inverse Document Frequency (IDF) atau frekuensi dokumen terbalik, itu juga menemukan bahwa, dalam koleksi tersebut, istilah dengan frekuensi yang lebih tinggi dan distribusi dengan jenis hipo-dispersi biasanya berisi sedikit informasi. Karena TF - IDF hanya memerlukan frekuensi term ke dalam pertimbangan, maka TF-IDF juga memiliki kelemahan sebagai berikut. Pertama, algoritma TF menghitung term weight hanya berdasarkan pada frekuensi mereka. Artinya, weight istilah positif berkorelasi dengan frekuensi mereka. Sebenarnya, istilah dengan tinggi frekuensi hanya intensif didistribusikan di bagian dokumen. Hal tersebut cenderung untuk mewakili isi dari bagian bukan seluruh dokumen. Namun, algoritma TF akan menetapkan term weight yang lebih tinggi untuk hal

11 tersebut dan itu tidak cukup jika hanya mempertimbangkan frekuensi term ketika menghitung term weight. Kedua, makna intuitif algoritma IDF adalah bahwa hal yang jarang terjadi selama koleksi dokumen adalah berharga. Pentingnya setiap istilah diasumsikan berbanding terbalik dengan jumlah dokumen yang memiliki istilah itu muncul. Namun istilah yang terjadi secara luas dalam koleksi dokumen tetapi intensif muncul dalam beberapa dokumen lebih mungkin merupakan topik kategori dokumen dan signifikan untuk klasifikasi teks. Namun, skenario seperti ini benar-benar diabaikan oleh IDF. Algoritma IDF akan menetapkan term weight rendah untuk hal tersebut. Itu tidak cukup untuk hanya mempertimbangkan frekuensi term ketika mengukur term weight. Ketiga, istilah kosong dan hal fungsi, termasuk penghubung, preposisi, beberapa keterangan, istilah tambahan, partikel modal, biasanya ada dengan frekuensi tinggi. Hal ini menyebabkan tugas berat yang tidak akurat untuk hal tersebut. Meskipun istilah berhenti tabel selalu digunakan, masalah ini tidak bisa sepenuhnya diselesaikan (Xia and Chai, 2011). Dalam klasifikasi himpunan dataset dibagi menjadi pelatihan dan uji dataset. Dataset training digunakan dalam membangun model klasifikasi, sedangkan record data uji digunakan dalam memvalidasi model. Model ini kemudian digunakan untuk mengklasifikasikan dan memprediksi dataset baru yang berbeda dari kedua pelatihan dan dataset uji. Algoritma pembelajaran terawasi ( seperti klasifikasi ) lebih disukai untuk algoritma pembelajaran tidak terawasi ( seperti pengelompokan ) karena pengetahuan awal tentang label kelas pada dataset

12 membuat pilihan fitur / atribut mudah dan ini menyebabkan baiknya akurasi prediksi / klasifikasi (Padhiyar, 2013). Klasifikasi teks mengunakan machine learning LVQ telah digunakan untuk melakukan klasifikasi teks berbahasa Arab Ada langkah-langkah yang berbeda yang digunakan untuk mengukur keberhasilan klasifikasi yaitu akurasi, presisi, ingat, F - ukuran dan waktu. Parameter lima algoritma LVQ ini telah dipilih secara empiris dengan sedikit peningkatan dan penurunan nilai mereka dan analisis output (Azara, Mohammed, Fatayer, Tamer, El-Halees, 2012). Tantangan dari klasifikasi untuk teks pendek seperti SMS adalah kurangnya jumlah data yang akhirnya menjadi tantangan tersendiri dalam algoritma pembelajaran dalam praktek nyata. Dalam rangka untuk mendapatkan kinerja yang lebih baik daripada classifier individu dapat melakukan, classifier ensemble pembelajaran berbasis membuat keputusan akhir dengan menggabungkan multihasil dari beberapa pengklasifikasi individu (Liu and Wang, 2010). Jumlah teks feature yang terlalu banyak tidak hanya akan mengakibatkan lamanya proses komputasi tetapi juga menurunkan akurasi dari klasifikasi. Konsekuensi yang di hadapi membuat pemilihan feature menjadi penting untuk mempercepat proses komputasi dan meningkatkan akurasi, profil dari fitur yang dipilih dengan metode seleksi fitur adalah salah satu indikator yang baik untuk efektivitas metode tersebut. Jika fitur khas ditugaskan skor tinggi dengan metode seleksi fitur, akurasi klasifikasi diperoleh fitur tersebut kemungkinan besar akan lebih tinggi. Sebaliknya, jika fitur yang tidak relevan ditugaskan skor tinggi dengan metode seleksi fitur, akurasi yang diperoleh fitur tersebut akan

13 terdegradasi. (Uysal and Gunal, 2012). Teks SMS memerlukan perlakuan yang berbeda untuk perwakilan feature yang diambil, tipe feature yang ada dan bahkan pengklasifikasi yang berbeda terhadap pesan email yang lebih panjang untuk mendapatkan performa yang baik. Di anjurkan untuk mengkonfigurasi terlebih dahulu mesin pembelajaran yang akan digunakan sesuai dengan aspek yang ada (Healy, Delany and Zamolotskikh, 2005). Filter otomatis untuk SMS spam merupakan tantangan yang masih dihadapi hingga sekarang. Ada 3 masalah utama yang menghalangi perkembangan algoritma yang dapat digunakan pada bidang ini yang pertama adalah kurangnya jumlah dataset yang dapat digunakan, jumlah feature yang sangat kecil yang dapat diambil, dan teks yang berisi singkatan ataupun idiom (Almeida, Hidalgo and Yamakami, 2011). Kategorisasi teks Kroasia menggunakan Kata Non - Standar ( NSW ) sebagai fitur. Hasil penelitian menunjukkan bahwa bentuk kata non - standar dapat digunakan sebagai fitur untuk representasi teks dalam kategorisasi teks. Terkait dengan taksonomi NSW adalah bentuk yang sesuai latar belakang pengetahuan atas dasar NSW dapat secara otomatis diambil dari teks. Telah terbukti bahwa NSW membawa informasi yang cukup tentang sifat teks, yang cocok untuk klasifikasi lebih lanjut. Dengan pendekatan ini mungkin untuk secara signifikan mengurangi dimensi dari fitur vektor ( space ) dan pada saat yang sama mencapai hasil kategorisasi teks yang baik. Menggunakan fitur NSW, vektor fitur telah beberapa kali lebih kecil dimensi daripada dimensi yang asli dan cara ini mengurangi masalah data yang jarang (Beliga and Martinčić-Ipšić, 2014).

14 Sejumlah besar studi klasifikasi teks memanfaatkan Bag of Words (BoW) model yang mewakili dokumen teks di mana urutan yang tepat dari kata-kata, atau istilah, dalam dokumen diabaikan tetapi jumlah kejadian jangka dianggap. Setiap istilah yang berbeda dalam koleksi dokumen akibatnya merupakan fitur individu. Syarat ditugaskan bobot tertentu yang mewakili kepentingan mereka dalam sebuah dokumen yang diberikan. Hasil dari penelitian dan eksperimen yang telah dilakukan adalah kombinasi dari Bag of Words (BoW) dan struktur feature sering kali lebih baik daripada hanya menggunakan BoW saja dalam melakukan klasifikasi teks singkat seperti SMS (Uysal, Gunal, Ergin and Gunal, 2012)..