KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA

Transkripsi

1 KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA Aini Rachmania Kusumaagama Fuddoly Agus Zainal Arifin Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya, 60111, Indonesia Abstrak Berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Tugas Akhir ini memperkenalkan metode klasifikasi kategori, identifikasi topik dan ekstraksi kata kunci dokumen berita berbahasa Indonesia. Dalam tugas akhir ini digunakan perhitungan Likelihood untuk mengklasifikasikan kategori dan Cosine Similarity untuk mengidentifikasikan topik dokumen. Diharapkan metode ini dapat mengatasi permasalahan klasifikasi dokumen berita dan memudahkan pengguna menemukan berita yang sesuai dengan kebutuhannya. Uji coba dilakukan pada dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda beda. Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. Selain itu, hasil uji coba juga menunjukkan nilai rata rata akurasi yang cukup tinggi yaitu 9,84% Kata Kunci : klasifikasi kategori, identifikasi topik, likelihood, cosine similarity 1. Pendahuluan Sejak tahun 1990-an, internet menjadi media vital penyebaran berita kepada khayalak ramai [1]. Pada dasarnya, berita yang disebarkan melalui internet merupakan artikel berita tekstual yang dikemas dengan bahasa tulis yang lugas dan informatif. Selain itu, berita mempunyai perbedaan yang begitu mendasar dengan koleksi dokumen dokumen lainnya, yaitu pada model aliran informasi. Aliran informasi sebuah berita merupakan sebuah stream yang dinamis dan terus diperbarui. Dokumen berita baru terus menerus datang, sehingga koleksi data selalu bertambah dan menjadi sebuah kumpulan data dengan jumlah yang sangat besar [2]. Dengan variasi data yang sangat besar, permasalahan mulai muncul ketika pembaca ingin meramba berita berita yang berbeda namun mempunyai tema yang sama. Maka untuk memudahkan navigasi, berita berita tersebut harus dipecah menjadi topik dan kategori yang berbeda beda. Pada laman internet misalnya, biasanya dipisah menjadi halaman olahraga, bisnis, dan teknologi sendiri. Semakin besar arus dokumen berita yang masuk, makan semakin luas pula range topik dan kategori berita yang ada, misalnya: kategori Olahraga dibagi menjadi beberapa topik yang lebih spesifik seperti balap motor atau sepak bola. Kemudian dalam topik yang spesifik tersebut terdapat beberapa kategori merupakan one-to-many yang berarti sebuah topik dapat berada pada banyak kategori, misalnya sebuah topik mengenai teknologi hybrid dapat saja berada pada kategori Teknologi, Sains dan Ilmu Pengetahuan atau Lingkungan. Permasalahan lain yang muncul adalah saat berita menjadi suatu raw material yang krusial bagi profesi tertentu seperti presenter ataupun pembawa acara, terutama acara yang membutuhkan pengetahuan umum yang luas mengenai berita yang sedang hangat terjadi. Seperti yang telah dijelaskan sebelumnya, berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka untuk melakukan klasifikasi topik dan kategori dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Oleh karena itu, penulis mengusulkan sebuah aplikasi yang dapat menunjang penglasifikasian berita sesuai topik dan kategoriny dan menampilkan snippet dari setiap berita tersebut. Aplikasi ini mempunyai fungsi utama menglasifikasikan berita berita online yang ada menjadi hirarki dengan topik dan kategori yang lebih spesifik. Dengan begitu, diharapkan pemahaman pembaca mengenai sebuah kejadian 1

2 yang terliput dalam banyak berita akan menjadi lebih mudah. 2. Text Processing 2.1 Representasi Dokumen Teks Untuk mengimplementasikan metode-metode klasifikasi dokumen teks, diperlukan suatu transformasi yang dapat mengubah teks-teks digital menjadi suatu model yang lebih efisien dan dapat dimengerti sehingga proses analisa dapat dilakukan [1]. Vector space model adalah salah satu pendekatan yang paling banyak digunakan dalam merepresentasikan dokumen teks. Dalam model ini, setiap dokumen dj ditransformasikan menjadi suatu vektor [4]: d j = (w 1j, w 2j,..., w ij ), (1) dimana w ij adalah bobot term ke-i pada dokumen j bersangkutan. Bobot setiap term dapat direpresentasikan secara binari (true atau false), frekuensi, atau dengan frekuensi dan frekuensi inversdokumennya (TF-IDF). Metode TF-IDF klasik telah menunjukkan performa yang lebih baik jika dibandingkan dengan metode binari dan frekuensi [6], yang dinyatakan sebagai berikut:. N log 2 w ij = tfij, (2) dfi dimana w ij adalah bobot term i pada dokumen j, tf ij adalah frekuensi term i pada dokumen j, N adalah jumlah dokumen yang diproses dan df j adalah jumlah dokumen yang memiliki term i di dalamnya. 2.2 Klasifikasi Langkah pertama sebelum melakukan klasifikasi kategori adalah penentuan kategori primitif. primitif merupakan kategori yang telah ditentukan sebelumnya. Dalam penulisan Tugas Akhir ini, kategori yang digunakan merupakan hasil pengamatan terhadap kategori kategori yang terdapat pada situs berita seperti dan Dalam hal ini, terdapat sembilan kategori yang digunakan, yaitu: Nasional, Regional, Internasional, Metropolitan, Bisnis dan Ekonomi, Olahraga, Sains dan Teknologi, Edukasi dan Pariwisata. Klasifikasi kategori dibagi menjadi dua proses besar: proses training dan proses klasifikasi. Pada proses training, model kategori untuk setiap kategori dibangun. Model ini berisi nama kategori, jumlah dokumen dan daftar keywords (kata kunci). Untuk melatih sebuah classifier untuk kategori, diperlukan sekumpulan dokumen training. Dari setiap dokumen tersebut, kata kunci diekstraksi menggunakan teknik pembobotan TF-IDF seperti yang telah dijelaskan sebelumnya. Setiap dokumen training diekstraksi termsnya dan diboboti, kemudian terms tersebut ditetapkan sebagai kata kunci kata kunci untuk setiap kategori dan disimpan beserta jumlah dokumen training tempat kata kunci tersebut muncul. Gambar 2.1 menjelaskan alur kerja proses training. Berbeda dengan algoritma training pada umumnya, proses training hanya berfungsi untuk mengambil kata kunci, tanpa mengambil parameter parameter tertentu. Pseudocode algoritma training dijelaskan selanjutnya. Dokumen Training Untuk Setiap Dokumen D Ekstraksi Kata Kunci Perbarui total dokumen Perbarui jumlah frekuensi kata kunci Gambar 2.4 Proses Training Proses berikutnya adalah klasifikasi, yaitu penetapan kategori untuk dokumen uji yang diujikan pada aplikasi. Oroses klasifikasi meliputi empat tahap besar: 1. Ekstraksi kata kunci dokumen uji 2. Perhitungan likelihood. Perhitungan rata rata dan standard deviasi 4. Seleksi kategori Ekstraksi kata kunci untuk dokumen uji menggunakan algoritma yang sama dengan dokumen training. Perhitungan likelihood untuk sebuah kategori dijelaskan pada rumus 2.1. Dalam persamaan tersebut, cj adalah kategori, A adalah artikel dokumen uji, dan P(k i c j ) dihitung menggunakan In- Document dan perhitungan jumlah total dokumen. Likelihood (c j A={k 1, k 2,, k n})= - P(k i c j) log (P(k i c j)) 2.1 Setelah seluruh likelihood untuk semua kategori telah dihitung, nilai ambang batas bisa didapatkan. Nilai ambang (threshold), seperti yang ditunjukkan pada rumus 2.2, berguna untuk menentukan apakah sebuah kategori bisa ditetapkan untuk artikel uji atau tidak. Nilai ini didapatkan dari standar deviasi dan rata rata. L adalah jumlah banyaknya likelihood, sementara l i adalah likelihood untuk kategori ke i. Asumsinya adalah kategori kategori yang tepat akan memiliki nilai yang besarnya jauh berbeda dibandingkan kategori kategori lainnya. Secara n i=1 2

3 formal, klasifikasi kategori dijelaskan pada Gambar 2.2. Threshold= L 1 li + (li- L 2 li 1 ) L L L 2.2 Gambar 2.2 Klasifikasi 2. Identifikasi Topik Algoritma identifikasi topik tidak memerlukan corpus training khusus untuk melatih aplikasi terlebih dahulu. Topik baru muncul setiap hari, oleh karena itu, diperlukan sebuah algoritma yang dapat mengetahui apakah topik baru harus ditentukan untuk artikel tersebut. Algoritma identifikasi topik dibagi menjadi dua proses besar, yaitu klasifikasi dan dynamic thresholding. Konsep dasar identifikasi topik dijelaskan pada Gambar 2. Algoritma ini menghitung similarity antara kata kunci topik yang sebelumnya telah diketahui dengan kata kunci artikel uji. Setelah itu, nilai yang memiliki similarity paling tinggi ditetapkan untuk artikel sebagai conditionally assigned topic. Sebagaimana yang telah dijelaskan mengenai vector-space model, kata kunci dokumen dan topik juga direpresentasikan dalam bentuk vektor. Nilai isi vektor merupakan skor kata kunci. Untuk membandingkan antara vektor kata kunci dengan vektor topik, keduanya ditransformasikan ke dalam vector-space yang sama. Bila sebuah kata kunci terdapat dalam vektor artikel saja, maka vektor topik juga ditambahkan tempat untuk kata kunci tersebut namun dengan nilai kata kunci 0, karena kata kunci tersebut tidak ditemukan di dalam topik. Begitu juga sebaliknya apabila kata kunci ditemukan hanya pada vektor topik, maka disediakan tempat untuk kata kunci pada vektor artikel dengan nilai sebesar 0. Contoh transformasi vektor dapat dilihat pada Gambar 2.4 Topi k Arti kel. Kurs 5 Valu ta 2 Gambar 2. Identifikasi Topik Doll ar 10 Kurs Saha m Doll ar 7 Ku rs 5 Ku rs Doll ar 10 Doll ar 7 Saha m Saha m 0 Valu ta 0 Valu ta 2 Gambar 2.4 Transformasi Vektor Setelah kedua vektor dinormalisasi, maka CosSim untuk keduanya dihitung menggunakan rumus 2.2. Pada rumus tersebut, t i adalah vektor topik ke i, dan A adalah artikel uji A. t i dan A beruturut turut merupakan panjang vektor topik ke i dan panjang vektor Artikel A. CosSim tertinggi dipilih sebagai conditionally assigned topic, atau topik awal yang ditentukan. Topik ini nantinya akan diuji kembali menggunakan nilai ambang batas dinamis (dynamic thresholding). CosSim ( t i, A)= t i A t i A 2.2 Dengan perkembangan berita yang ada di dunia, tidaklah mungkin topik topik yang sebelumnya pernah muncul dapat mencakup seluruh topik yang diprediksi akan muncul di masa depan. Oleh karena itu, algoritma identifikasi topik juga harus dapat mendeteksi, apakah topik awal yang ditentukan sudah merupakan topik yang tepat atau topik baru harus diberikan. Hal ini dapat dilakukan dengan perhitungan nilai ambang yang dinamis. Nilai ambang atau threshold akan membandingkan antara nilai topik awal yang ditentukan dengan nilai topik baru yang mungkin terbentuk NewTSim menggunakan rumus 2.

4 (0.05 x tc ) x Mean(A)- StdDev.(A) x Mean(tc) NewTSim(tc, A) = A x Mean(A) 2 x ( tc x Mean(tc) 2 ) 2. NewTSim menghitung topik baru secara hipotetis. Pada rumus t c merupakan topik awal yang telah ditentukan, yaitu hasil perhitungan CosSim terbesar, Mean(A) merupakan rata rata vektor dokumen A, StdDev.(A) adalah standar deviasi vektor dokumen A, dan Mean(t c ) adalah rata rata topik awal yang telah ditentukan. A adalah panjang vektor dokumen A, dan t c adalah panjang vektor topik. Bila nilai NewTSim telah ditemukan, maka langkah berikutnya adalah menggunakan nilai tersebut sebagai salah satu komponen dalam dynamic thresholding untuk dibandingkan dengan nilai topik awal yang telah ditentukan. Terdapat dua nilai ambang batas yang harus dipenuhi agar sebuah topik awal dapat ditetapkan untuk artikel. Nilai ambang pertama dijelaskan pada persamaan 2.4a dan nilai ambang kedua dijelaskan pada persamaan ke 2.4b. CosSim(t c,a) > 0.1 CosSim(t c,a) > NewTSim(t c,a) 2.4a NumTopics > 10 CosSim(tc,A) > (2 StdDev(AllTopicSims) + Mean(AllTopicSims)) 2.4b CosSim(t c,a) adalah hasil perhitungan Cosine Similarity terbesar yang didapatkan melalui rumus 2.7 dan selanjutnya dianggap sebagai topik awal yang ditentukan, sementara NumTopics merupakan jumlah keseluruhan topik yang telah diketahui sebelumnya, StdDev(AllTopicSims) dan Mean(AllTopicSims) adalah berturut turut standard deviasi dan rata rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training.. Metode Evaluasi Hasil Klasifikasi Pelaksanaan evaluasi uji coba menggunakan rumus precision, recall, F-Measure dan Accuration dengan pendekatan dokumen yang diretrieve dan relevan seperti pada Tabel.. Tabel tersebut menunjukkan beberapa item yang diperlukan untk mengukur performa classifier. Item - item tersebut akan digunakan untuk menghitung Precision, Recall, F-Measure dan Accuration dengan rumus sebagai berikut: 4. Uji Coba Precision (P) = TP / (TP + FP) Recall (R) = TP / (TP + FN) F-Measure (F) = 2 * P * R / (P + R) Accuration (A) = (TP + TN) / (TP + FP + FN + TN) Tabel. Retrieve dan Relevant Relevant Not Relevant Retrieved TP FP Not Retrieved FN TN Data yang digunakan untuk menguji aplikasi ini terbagi sesuai dengan skenario dan tujuan uji coba. Karakteristik dan jumlah data dijelaskan sebagai berikut: Data uji coba untuk skenario I dan II Karakteristik : Data berupa corpus berita online berbahasa Indonesia yang didapatkan dari Berita diunduh berdasar kategori yang telah ditetapkan. primitif dalam uji coba berguna untuk mengevaluasi hasil klasifikasi. Jumlah : Antara sebuah kategori dengan kategori lainnya memiliki jumlah dokumen uji yang berbeda. Spesifikasi jumlah dokumen untuk setiap kategori dapat dilihat pada Tabel 4.1 Selain data yang digunakan untuk uji coba aplikasi, terdapat data yang digunakan sebagai data pelatihan aplikasi. Data tersebut disebut data training dan memiliki karakter yang sama dengan data uji, hanya saja dalam pembuatan corpus, data tersebut telah dilabeli kategori sesuai dengan kategori yang diberikan oleh situs berita tersebut. Rincian mengenai data training dapat dilihat pada Tabel

5 Tabel 4.1 Dokumen Testing Jumlah Dokumen Nasional 10 Regional 11 Internasional 11 Metropolitan 10 Bisnis dan Ekonomi 11 Olahraga 11 Sains dan Teknologi 11 Edukasi 10 Pariwisata 10 Total 95 Tabel 4.2 Dokumen Training Jumlah Dokumen Nasional 105 Regional 106 Internasional 104 Metropolitan 106 Bisnis dan Ekonomi 101 Olahraga 110 Sains dan Teknologi 90 Edukasi 109 Pariwisata 101 Total 92 Dari hasil uji coba, didapatkan hasil rata rata nilai akurasi masing masing 91,2%, 92,22%, 92,9% dan 9,82% untuk 5, 10, 15 dan 20 pengambilan kata kunci. Dari hasil percobaan tersebut dibuktikan bahwa jumlah kata kunci yang sebaiknya diekstraksi untuk mendapatkan akurasi optimal adalah 20. Tabel 4. Hasil Uji Coba Offline Accurat ion Accurat ion Accurat ion Accurat ion Bisnis & Ekonomi 92,59% 9,1% 95,8% 96,15% Edukasi 94,12% 9,1% 94,62% 96,15% Internasi onal 92,19% 94,66% 9,85% 94,62% Metropol itan 88,89% 89,1% 90,00% 90,91% Nasional 98,52% 98,47% 98,46% 99,24% Olahraga 98,52% 98,52% Pariwisat a Regional Sains & Teknolo gi Rata - rata 100,00 % 100,00 % 84,44% 99,29% 86,6% 88,89% 77,78 % 82,58% 80,77% 80,77% 94,81% 80,92% 96,92% 97,69% 91,2% 92,22% 92,9% 9,82% Bisnis & Ekonomi Uji coba berikutnya adalah uji coba klasifikasi kategori yang dijalankan menggunakan data yang langsung diunduh online. Corpus langsung dibentuk menggunakan parser dan hasilnya diklasifikasikan seperti yang telah dijelaskandan Mean(AllTopicSims) adalah berturut turut standard deviasi dan rata rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Hasil perhitungan akurasi skenario ini dapat dilihat pada Tabel 4.4. Masing masing nilai yang didapatkan untuk setiap klasifikasi adalah 92,6%, 92,61%, 9,5% dan 9,84%. Tabel 4.4 Hasil Uji Coba Online Accuratio n Accuration Accuration Accuration 100,00% 98,58% 99,29% 100,00% Edukasi 9,66% 94,% 95,77% 96,48% Internasional 92,25% 92,96% 92,20% 94,% Metropolitan 90,85% 91,49% 92,20% 92,91% Nasional 96,45% 96,4% 98,46% 97,87% Olahraga 98,52% 98,58% 100,00% 100,00% Pariwisata 84,51% 8,80% 86,6% 85,00% Regional 81,69% 81,56% 81,56% 81,56% Sains & Teknologi 95,77% 95,74% 94,% 96,4% Rata - rata 92,6% 92,61% 9,5% 9,84% 4.1 Uji Identifikasi Topik dan Parser Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training. Hasil uji coba identifikasi topik yang dilakukan pada kondisi offline ditunjukkan pada gambar

6 A K U R A S I NILAI THRESHOLD Gambar 4.1 Akurasi Identifikasi Topik Offline Hasil pengujian pada skenario II yang dilakukan pada kondisi offline menunjukkan menghasilkan performa optimal adalah 0.. Hal ini ditunjukkan oleh rata rata akurasi pada Gambar 4.1 yang menunjukkan bahwa aplikasi mampu meraih nilai akurasi sebesar 95.26%, sedangkan pada nilai threshold 0.1, 0.2, dan 0.4 nilai yang diraih adalah 9.76%, 94.1%, dan 94.78%. Hasil pengujian tersebut menunjukkan sedikit perbedaan dengan hasil uji coba yang dilakukan pada kondisi online yang ditunjukkan pada Gambar 4.2. Gambar 4.2 menunjukkan bahwa nilai threshold yang mampu menghasilkan performa optimal adalah 0.4. Secara keseluruhan, nilai akurasi hasil percobaan pada skenario online memang lebih kecil. A K U R A S I Akurasi Identifikasi Topik 95.50% 95.00% 94.50% 94.00% 9.50% 9.00% Akurasi Identifikasi Topik 96.00% 94.00% 92.00% 90.00% 88.00% 86.00% NILAI THRESHOLD Gambar 4.2 Akurasi Identifikasi Topik Online Nilai threshold 0.1 menghasilkan akurasi sebesar 90.2%, nilai 0.2 menghasilkan akurasi sebesar 91,27% dan nilai 0. menghasilkan akurasi sebesar 95.22%. Pengujian tambahan berikutnya adalah web parser untuk mengetahui hasil pengunduhan berita yang diunduh langsung dari situs berita online dan hanya dapat digunakan pada situs tersebut karena perbedaan struktur halaman web yang terdapat pada situs tersebut. Hasil uji coba menunjukkan bahwa parser telah dapat menghapus tag tag HTML pada halaman unduhan, namun terdapat beberapa kesalahan yang terjadi saat proses pembuatan corpus. Kesalahan kesalahan tersebut dijelaskan pada Tabel 4.5. Tabel 4.5 Klasifikasi Kesalahan Grabber dan Parser Tipe Contoh Kasus Kesalahan Kesalahan Seharusnya > > Pembacaan karakter " HTML 2.0 ldquo; Dokumen tidak terunduh sempurna Dokumen hanya terunduh hingga pertengahan berita 5. Evaluasi Hasil Uji Coba Dokumen terunduh secara lengkap hingga akhir berita Dari uji coba yang telah dilakukan terhadap data uji, terlihat bahwa classifier mampu mengklasifikasikan dokumen berita berbahasa Indonesia dengan kategori dan topik yang beragam denagn nilai akurasi sebesar 9,82% untuk klasifikasi offline dan 9,84% untuk klasifikasi online. Hasil optimal tersebut dapat diperoleh apabila jumlah kata kunci yang diekstraksi adalah 20. Hasil uji coba pada skenario pertama baik offline maupun online juga menunjukkan bahwa akurasi hasil berbanding lurus dengan jumlah kata kunci. Semakin banyak kata kunci yang diekstraksi, maka semakin tinggi nilai akurasinya. Hal ini disebabkan karena semakin banyak kata kunci yang diambil, semakin besar kemungkinan kata tersebut juga muncul dalam kata kunci dokumen. Pada skenario I, terlihat bahwa kategori tertentu dapat mencapai tingkat akurasi hingga 100%. Tingkat akurasi yang tinggi tersebut dikarenakan kategori tersebut memilki kata kunci kata kunci yang spesifik, sehingga kata kunci tersebut hanya muncul pada kategori tersebut. Hal ini pula yang menyebabkan beberapa kategori memiliki nilai akurasi yang terus menerus rendah untuk beberapa kategori lainnya, seperti Internasional. Internasional seringkali tertukar dengan kategori Pariwisata karena kata kunci yang terdapat pada kategori Internasional sebagian besar hanya berhubungan dengan tempat yang terdapat di luar negeri, tanpa adanya tema tertentu. Itulah yang menyebabkan kategori ini seringkali tertukar dengan kategori Pariwisata. Pengujian skenario I di lakukan pada dua kondisi, yaitu online dan offline. Hasil uji coba tidak menunjukkan beda yang signifikan, kecuali kemampuan klasifikasi yang lebih baik pada kondisi online. Ini dibuktikan dengan hasil yang menunjukkan bahwa pada kondisi online, pengujian dengan 5 kata kunci saja telah dapat menghasilkan nilai yang lebih tinggi 6

7 dibandingkan kondisi offline untuk kata kunci 5. Selain itu, nilai akurasi yang dapat dicapai pun lebih tinggi. Pada dasarnya, tidak terdapat perbedaan dalam implementasi kedua kondisi, sehingga hal yang memungkinkan terjadinya perbedaan tersebut adalah koneksi internet dan penggunaan memori. Pada kondisi online, tidak diperlukan lagi proses training data. Dokumen yang masuk langsung diklasifikasi, sehingga menghemat penggunaan memori program dan mengakibatkan peningkatan performa. Kesalahan dalam proses grabber dan parser yang berhubungan dengan pembacaan karakter sebenarnya berhubungan erat dengan versi bahasa HTML yang digunakan. Versi HTML terbaru yang dapat dibaca oleh Java adalah versi 2.0, sementara HTML yang telah umum digunakan pada situs situs adalah HTML versi 4.0. Setelah dilakukan beberapa kali pengujian pada kondisi online, ternyata dapat dibuktikan bahwa kesalahan kesalahan yang terjadi pada grabber dan parser tidak membawa dampak perubahan nilai akurasi yang signifikan. Pengujian pada skenario II membantu menentukan parameter thersholding yang baik. Parameter thersholding yang dianggap baik oleh [2] adalah 0,1. Namun setelah dilakukan percobaan pada kondisi offline, ditemukan bahwa parameter tersebut tidak dapat membawa hasil identifikasi topik yang baik. Hal ini dikarenakan nilai CosSim untuk Conditionally Assigned Topic tinggi dan rata rata berada di atas nilai 0,2, sehingga dengan nilai parameter 0,1 seluruh topik (bahkan yang tidak relevan) dianggap relevan oleh aplikasi.dari hasil percobaan didapatkan bahwa parameter optimal untuk thresholding adalah 0, dengan tingkat akurasi sebesar 95,26%. Nilai tersebut dapat menghasilkan topik yang optimal karena topik yang benar selalu memiliki nilai CosSim yang pada umumnya berada di atas nilai 0,. Sehingga apabila parameter di-set 0,4 nilai tersebut terlalu tinggi hingga topik yang benar akhirnya dianggap salah, dan bila diset 0,2 nilai tersebut terlalu rendah sehingga banyak topik yang sebenarnya tidak relevan dianggap benar oleh aplikasi. Pengujian pada skenario II de ngan kondisi online menunjukkan hasil yang berbeda. Nilai threshold pada identifikasi topik secara online harus diset lebih strict, yaitu pada 0.4. Nilai ini pun masih menghasilkan nilai akurasi yang lebih rendah dibandingkan hasil percobaan pada skenario II offline karena perhitungan nilai CosSim pada kondisi online memang terlihat mampu menghasilkan nilai nilai yang lebih tinggi. 6. Kesimpulan dan Saran 6.1 Kesimpulan 1. Algoritma yang diusulkan oleh [2] terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia 2. Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci. Parameter optimal dalam klasifikasi dan identfikasi adalh 20 untuk kata kunci, dan 0, untuk threshold 4. Nilai akurasi yang dapat dicapai algoritma klasifikasi kategori adalah 9,84% dan 97,26% untuk identifikasi topik 6.2 Saran 1. Perlunya eksperimen lebih jauh untuk menemukan jumlah kata kunci yang tepat untuk menghasilkan performa yang lebih baik 2. Pemilihan kategori yang dianggap sebagai ground truth sebaiknya lebih spesifik, sehingga berbeda antara satu sama lain. Misalnya antara kategori internasional dengan pariwisata, dokumen yang berada pada kedua kategori seringkali sama memiliki kata kunci yang berhubungan dengan tempat, sehingga mengurangi performa klasifikasi. Perlunya riset untuk mempercepat running time yang diperlukan untuk identifikasi topik, karena butuh running time cukup lama apabila topik dokumen training banyak. 7. Daftar Pustaka [1] Arifin, A. Z., Roby Darwanto, Dini Adni Navastara, Henning Titi Ciptaningtyas Klasifikasi Online Dokumen Berita Dengan Menggunakan Algoritma Suffix Tree Clustering. Seminar Sistem Informasi Indonesia (SESINDO2008). ITS, Surabaya 17 Desember. [2] Bracewell D., Jiajun Yan, Fuji Ren dan Shingo Kuroiwa Category Classification and Topic Discovery of Japanese and English News Articles. Electronic Notes in Theoretical Computer Science 225 (2009) [] Mahendra, I Putu Adhi Kerta Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. The 5th International Conference on Information & Communication Technology and Systems ISSN [4] DR. E. Garcia, The Classic Vector Space Model, <URL: [5] Yates, Ricardo B. dan Bertiher R. Neto. Modern Information Retrieval. 7

8 [6] Husni. IR dan Klasifikasi. Diktat kuliah, Universitas Trunojoyo. [7] Skiba, Michael Jan Text Preprocessing in Programmable Logic. Canada: University of Waterloo. [8] Salton G., Automatic Text Processing. Cornell University. [9] Salton G. dan C. Buckley Term- Weighting Approaches in Automatic Text Retrieval. Department of Computer Science, Cornell University. [10] Li, Y. H. Dan A. K. Jain Classification of Text Documents. The Computer Journal, Vol. 41, No. 8. [11] J.E.N.I. Pengenalan Bahasa JAVA. Diktat kuliah, IPB 8