FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

Transkripsi

1 FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³ ¹Teknik Informatika,, Universitas Telkom Abstrak Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu kategorisasi terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasifikasi. Akan tetapi, masalah utama yang terjadi pada kategorisasi artikel ini adalah tingginya dimensi dari data yang dapat mengganggu kategorisasinya itu sendiri. Oleh karena itu, harus dilakukan pemilihan terhadap beberapa atribut yang dapat berpengaruh besar terhadap hasil kategorisasi, yaitu Feature Selection. Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan efektivitas dari classifier. Beberapa mekanisme feature selection telah dikembangkan dalam pengklasifikasian teks, seperti mutual information dan chi-square yang telah dianggap sebagai mekanisme yang efektif. Pada Tugas Akhir ini, akan dibahas sebuah metode lain yang dikenal dengan nama within class popularity yang digunakan untuk pengklasifikasian teks. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang berasal dari web dan menggunakan beberapa classifier, seperti: Naïve Bayes, dan k-nearest Neighbor (knn). Selain itu, dilakukan pula analisis perbandingan terhadap metode within class popularity dengan mutual information dan chi-square dengan menggunakan classifier dan berdasarkan hasil analisis diketahui bahwa within class popularity memliki kinerja yang lebih baik dibanding mutual information dan chi-square. Kata Kunci : within class popularity, feature selection, klasifikasi teks, classifier Abstract With the development of technology, large numbers of information like news articles are available on the internet. Hence text categorization is needed by applying classification as one of data mining task. However, the major problem of text categorization is the high dimensionality of data. Therefore, we need to select some representative attributes to improve performance of text categorization. One of technique to do this is feature selection. Feature selection can reduce the high dimensionality, so, the effectiveness of classifier improves. A number of Feature selection mechanisms have been explored in text classification, among which mutual information, information gain, and chi-square are considered most effective. In this final assessment, will be discussed the other methods known by the name of Within Class Popularity that is used for text classification. The dataset used is Indonesian language news articles from the web and using multiple classifiers, such as Naive Bayes, and k-nearest Neighbor (knn). In addition, also conducted a comparative analysis of within class popularity methods with mutual information and chi-square by using the classifiers and based on the analysis results is known that within class popularity have better performance than the mutual information and chi-square. Keywords : Text classification, within class popularity, Feature selection, classifier

2 BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Teknologi web yang berkembang sangat pesat berakibat pada populasi informasi yang semakin besar. Seiring berkembangnya jumlah informasi baik informasi secara lisan maupun yang berbentuk tulisan kadangkala menjadi permasalahan saat seseorang hanya ingin mendapatkan atau mencari sebuah informasi tertentu. Permasalah tersebut sangat sering ditemukan jika sebuah web tidak melakukan pengelompokkan atau pengklasifikasian berdasarkan kata kunci mengenai informasi yang ada. Klasifikasi adalah pengelompokan suatu data ke dalam kelas-kelas yang telah didefinisikan sebelumnya di dalam sebuah sistem. Klasifikasi sering digunakan untuk memudahkan pemakainya dalam mengelompokkan sesuatu dengan tujuan dapat mencari data tersebut di kemudian hari tanpa harus membuang waktu dan energi yang banyak. Klasifikasi dapat diterapkan di semua bidang kehidupan termasuk dalam teks. Akan tetapi, pengklasifikasi teks biasanya memiliki kesulitan yang sangat tinggi dari sudut pandang dimensi ruang fitur dan munculnya data noise yang membuat kinerja tinggi dari suatu algoritma. Untuk alasan itulah, penggunaan Feature selection sangat dibutuhkan sebagai metode yang digunakan untuk pemilihan atribut yang berpengaruh dalam pengklasifikasian teks. Feature selection didefinisikan oleh banyak penulis dengan melihat dari berbagai sudut. Sebuah prosedur standar yang dapat digunakan untuk mengurangi dimensi ruang fitur. Berbagai metode Feature selection, seperti: Information Gain, Term Frequency, Mutual information, Chi-Square Statics, dan Gini index (Yang and Pedersen, 1997; Shankar and Karypis, 2000). Mutual information tidak cocok digunakan untuk term dengan nilai peluang bersyarat yang sama namun memiliki perbedaan jumlah frekuensi. Sementara Chi-Square tidak dapat diandalkan untuk term-term yang memiliki frekuensi rendah. Selain 5 metode Feature selection di atas, ada pula mekanisme Feature selection yang disebut Within Class Popularity (WCP). WCP merupakan sebuah metode yang membahas dua isu penting dari Feature selection untuk klasifikasi teks, yaitu tidak meratanya distribusi dari probabilitas kelas sebelumnya dan kebaikan global dari sebuah fitur. Berdasarkan pemaparan di atas, Tugas Akhir ini meneliti dan menganalisa suatu mekanisme Feature selection yang disebut Within Class Popularity (WCP) dalam mengklasifikasikan teks berbahasa Indonesia. Kinerja dari Within Class popularity (WCP) ini kemudian dibandingkan dengan kinerja metode yang paling umum digunakan dalam pengklasifikasian teks yaitu: Mutual Information (MI), dan Chi-Square (CHI). 1

3 1.2 Perumusan Masalah Penelitian pada tugas akhir ini merupakan implementasi mekanisme Within Class Popularity, Mutual Information, dan Chi-Square dalam pengklasifikasian teks. Namun, Tugas Akhir ini lebih fokus tentang bagaimana penggunaan dan perbandingan Within Class Popularity (WCP) dengan menggunakan beberapa text classifier yang digunakan dalam pengklasifikasian teks. Adapun batasan masalah yang digunakan dalam Tugas Akhir ini adalah : a. Hanya mengklasifikasikan dokumen teks pada satu kelas (single label). b. Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang didapatkan dari website okezone, kompas, dan detik serta bersifat offline dan disimpan dalam file berekstensi.txt. c. Proses pemilihan feature hanya dilakukan dengan cara scoring. d. Feature hanya berupa kata dan bukan frase. 1.3 Tujuan a. Menganalisa mekanisme Feature selection yang disebut Within Class Popularity (WCP) dalam pengklasifikasian teks. b. Menganalisis perbandingan kinerja dari WCP dengan Mutual Information, dan Chi-Square. c. Menganalisis perbandingan Within Class Popularity (WCP) dengan menggunakan beberapa text classifier. 1.4 Metodologi Penelitian a. Studi literatur Mencari referensi yang berkaitan dengan text classification dan Feature selection. b. Pengumpulan data Mengumpulkan data collection yang berasal dari website okezone, kompas, dan detik dan nantinya digunakan dalam latihan dan pengujian dari metode yang digunakan. c. Analisis dan perancangan sistem Melakukan analisis dan juga rencana sistem yang akan dibangun, mulai dari requirement, arsitektur, fungsionalitas, antarmuka sistem dan juga bahasa pemrograman yang akan digunakan. d. Implementasi dan pembangunan sistem Implementasi dan pembangunan sistem diterapkan sesuai dengan analisis dan juga perancangan sistem sebelumnya. Pembangunan sistem memperhatikan segala requirement, aturan serta pola dalam perancangan yang telah dilakukan sebelumnya. e. Pengujian dan analisis Pengujian dapat dilakukan jika keseluruhan sistem telah selesai dibangun. f. Pengambilan kesimpulan dan pembuatan laporan. 2

4 BAB V PENUTUP 4.1 Kesimpulan Dari hasil analisis dan pengujian pada bab sebelumnya dalam tugas akhir ini, maka didapatkan kesimpulan : 1. Within Class Popularity dapat dipertimbangkan sebagai salah satu metode feature selection yang efektif untuk dataset berita yang berasal dari website okezone, kompas, dan detik dengan classifier Naïve Bayes dan knn. Hal ini terbukti dari hasil pengujian feature selection dengan Within Class Popularity dapat menghasilkan nilai f-measure dan akurasi yang lebih besar daripada hasil klasifikasi data testing dengan menggunakan CHI dan Mutual Information. 2. Pemilihan feature pada within class popularity, mutual information, dan chisquare bergantung pada frekuensi kemunculan feature dalam kategori dan jumlah kategori dimana feature tersebut muncul serta pemilihan feature ini berpengaruh terhadap model klasifikasi yang dihasilkan. 3. WCP memiliki nilai Recall, Precision, dan F-Measure yang selalu lebih tinggi dibanding MI dan CHI saat berada di kategori Internasional baik dengan menggunakan classifier Naïve Bayes ataupun knn. 4. WCP memiliki akurasi yang sudah tinggi walaupun dengan kondisi pemilihan feature 10% dan terus bergerak naik sampai pada pemilihan feature 100% dengan akurasi 98% untuk classifier Naïve Bayes dan 97% untuk classifier knn. 4.2 Saran 1. Within Class Popularity dapat digunakan untuk mengklasifikasikan dokumen selain Bahasa Indonesia dan mengganti daftar kata stopword sesuai dengan bahasa yang digunakan dalam dokumen. 2. Menggunakan tahapan stemming dalam preprocessing dalam pengklasifikasian teks. 3. Menggunakan classifier lain untuk metode within class popularity dalam mengklasifikasikan teks, seperti: Seed Based dan Support Vector Machine (SVM). 34

5 DAFTAR PUSTAKA [1] Adiwijaya, Igg Text mining dan Knowledge Discovery. Komunitas Data mining Indonesia & Soft-computing Indonesia. [2] Huan, Liu, and Yu, Lei Toward Integrating Feature Selection Algorithms for Classification and Clustering. Dept. of Computer Science and Engineering, Arizona State University, Tempe, USA. [3] Lewis, D. D Representation and learning in information retrieval. Ph.D. Dissertation, Amherst, MA, USA. [4] Shang, Wenqian, et.al A Novel Feature Selection Algorithm for Text Categorization. In Expert System Application, New York, USA. [5] Singh, Sanasam Ranbir, et.al Feature Selection for Text Categorization Based on Gini Coefficient of Inequality. In Proceedings of the Fourth Workshop on Feature Selection in Data Mining. Hyderabad, India. [6] Tan, Pang-ning, et.al Introduction to Data mining. Pearson education, Inc. [7] Tien Dung Do, Hui, Fong Associative Feature Selection for Text mining. Nanyang Technological University. [8] Wiener, E, et.al A neural network approach to topic spotting. In Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR 98). [9] Written, Ian H, and Eibe Frank Data Mining: Practical Machine Learning Tools and Techniques second edition. San Francisco: Morgan Kaufmann Publisher. [10] Yang, Yiming, and Jan O. Pederson A Comparative Study on Feature selection in Text Categorization. In Proceeding of the 14 th International Conference on Machine Learning, , Nashville, USA. [11] Yu, Lei and Liu, Huan Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution. In Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003), Washington DC,USA. 35