Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering

dokumen-dokumen yang mirip
KLASIFIKASI ONLINE DOKUMEN BERITA DENGAN MENGGUNAKAN ALGORITMA SUFFIX TREE CLUSTERING

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita

BAB II TINJAUAN PUSTAKA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

SISTEM TEMU KEMBALI INFORMASI

ROCCHIO CLASSIFICATION

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

EMBANGKITAN ATURAN KLIFIKASI MENGGUNAKAN ALGORITMA MOBILE BLOG UNTUK CITIZEN JOURNALISM DENGAN PENGKATEGORIAN BERITA MENGGUNAKAN METODE INNER PRODUCT

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I PENDAHULUAN 1.1. Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB 3 LANDASAN TEORI

PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

Klastering Dokumen Berita dari Web menggunakan Algoritma Single Pass Clustering

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB II LANDASAN TEORI

ALGORITMA SINGLE PASS CLUSTERING UNTUK KLASTERING HALAMAN WEB

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

BAB 1 PENDAHULUAN UKDW

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Jurnal String Vol.1 No.2 Tahun 2016 ISSN :

BAB I PENDAHULUAN 1.1 Latar Belakang

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB III METODOLOGI PENELITIAN

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

IMPLEMENTASI METODE K-NEAREST NEIGHBOUR DENGAN PEMBOBOTAN TF.IDF.ICF UNTUK KATEGORISASI IDE KREATIF PADA PERUSAHAAN

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

BAB II LANDASAN TEORI

Software Aplikasi Pengolah Kata (Word Processor) Dengan Fasilitas Pemeriksa Ejaan Dan Thesaurus Berbahasa Indonesia

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

BAB V EKSPERIMEN TEXT CLASSIFICATION

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB 1 PENDAHULUAN 1.1 LATAR BELAKANG PENELITIAN

BAB 2 TINJAUAN PUSTAKA

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB 1 PENDAHULUAN Latar Belakang

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB I PENDAHULUAN. 1.1 Latar Belakang

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN Pengantar

Gambar 1.1 Proses Text Mining [7]

KLASTERING DOKUMEN MENGGUNAKAN HIERARCHICAL AGGLOMERATIVE CLUSTERING

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB II TINJAUAN PUSTAKA

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Penerapan Algoritma K-Means untuk Clustering

Klasifikasi Emosi Untuk Teks Bahasa Indonesia Menggunakan Metode Naive Bayes

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

ABSTRAK. Kata kunci : Pemerolehan Informasi, TF-IDF, Inverted Index, document to document

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

Perancangan dan Pembuatan Perangkat Lunak Pengelompokan secara Otomatis Memakai Klasifikasi Single Pass Clustering Berbasis Kerangka Kerja Play!

PENCARIAN JUDUL TA MENGGUNAKAN TEXT MINING DAN METODE SUFFIX TREE

Transkripsi:

Abstrak Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering Agus Zainal Arifin dan Ari Novan Setiono Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya Kampus ITS, Jl. Raya ITS, Sukolilo-Surabaya 60 Tel. +62 3 593924, Fax + 62 3 5939363 Email : agusza@its-sby.edu Pengelompokan dokumen berita dibutuhkan untuk mempermudah pencarian informasi mengenai suatu event (kejadian) tertentu. Pencarian berita-berita lain yang berkaitan dengan kejadian tersebut tentu sulit dilakukan, bila hanya mengandalkan query biasa. Sebab pemilihan query yang kurang spesifik akan berakibat membanjirnya dokumen-dokumen yang tidak relevan. Penelitian ini berusaha untuk mengklasifikasi dokumen dengan menggunakan algoritma single pass clustering. Klasifikasi ini ditekankan untuk dokumen berita berbahasa Indonesia, sebab dewasa ini, kebutuhan konsumen di tanah air terhadap informasi semakin meningkat. Adapun keterkaitan antar berita ini dapat diukur berdasarkan kemiripan antar dokumen (similarity). Algoritma ini diuji coba dengan menggunakan sampel berita dari media massa berbasis web. Hasil uji coba menunjukkan bahwa algoritma ini dapat diaplikasikan untuk pengelompokan beritaberita berbahasa Indonesia. Pemilihan nilai threshold yang tepat akan meningkatkan kualitas information retrieval (temu kembali informasi) pada dokumen. Kualitas ini tercermin dari tingkat recall 79 % dan precision 88 %. Kata Kunci : Information Retrieval, Stemming, Single Pass Clustering, Cosine Similarity, event classification I. Pendahuluan Dengan semakin berkembangnya Teknologi Informasi yang dibutuhkan oleh pengguna mengakibatkan munculnya suatu cabang ilmu baru dalam Teknologi Informasi yaitu Pencarian Informasi (Information Retrieval ). Pencarian Informasi berbasis query (Query based retrieval) yang digunakan secara tradisional sangat berguna untuk pencarian terarah tetapi tidak begitu efisien untuk generic query []. Query based Retrieval berguna ketika kita mengetahui benar kejadian asli atau fakta yang dicari. Cara ini tidak begitu efisien ketika kita membutuhkan informasi yang spesifik/khusus dalam kategori yang besar. Cara ini tidak begitu efisien untuk mendapatkan berita yang relevan dalam penelusuran suatu kejadian. Dengan menggunakan cara ini biasanya hanya dapat diketahui berita-berita tertentu saja, sedangkan berita-berita lama yang berkaitan dengan berita tersebut sulit untuk ditelusuri. Yang diperlukan dalam suatu Sistem yang cerdas (Intelligent System) adalah secara otomatis sistem ini dapat : - mendeteksi kejadian penting dari sekian banyak berita-berita baru - Memasukkan berita-berita kejadian baru pada kelompok berita yang sudah ada. - Membuat kelompok berita baru apabila suatu berita tidak memenuhi kelompok berita yang sudah ada - Menampilkan kejadian yang diperlukan oleh user dalam bentuk berita-berita terkait yang ada hubungannya dengan keinginan user []. Inilah yang menjadi tujuan utama dari penelitian yang Topic Detection and Tracking (TDT). Topik (Topic) disini adalah perubahan kejadian secara dinamis. Dalam metode ini kita menggunakan beberapa cara untuk pencarian informasi (Information Retrieval) dan teknik machine learning untuk keefektifan pendeteksian dan klasifikasi(detection) [3] Pendeteksian berita dalam Topic Detection and Tracking (TDT) merupakan suatu cara untuk mendapatkan suatu solusi dalam pencarian informasi (Information Retrieval). Dari permasalahan yang mungkin muncul inilah maka dikembangkan suatu metode untuk menangani masalah-masalah di atas, dalam hal ini contoh kasus yang diangkat adalah pendeteksian dan pengelompokan suatu kejadian yang merupakan bagian dari Event Detecting dalam TDT. Pada dasarnya TDT dapat dibagi menjadi 2 tahap :

. Penyiapan Dokumen Pada tahap ini akan dilakukan manipulasi teks pada dokumen yang selanjutnya tiap dokumen akan direpresentasikan dalam bobot terentu 2. Klasifikasi dokumen Untuk klasifikasi dokumen diperlukan nilai batas (Treshold value).untuk mendapatkan nilai batas (Treshold value) diperlukan suatu data training (restrospective document). Permasalahan yang timbul dari klasifikasi dokumen berita adalah :. Perlunya algoritma klasifikasi dokumen 2. Penentuan tingkat kemiripan (similarity) antar dokumen berdasarkan komposisi term 3. Pemilihan term dari kata-kata dalam Bahasa Indonesia yang relevan sebagai pembeda 4. Belum tersedianya kamus kata dasar dalam bahasa Indonesia sebagai acuan penentuan term. II. Metodologi. Pengumpulan data sampel Dokumen yang digunakan sebagai sampel adalah berita-berita yang diambil dari Surat Kabar Online Suara Pembaharuan Tanggal Agustus 200 sampai dengan tanggal 3 Agustus 200.Jumlah sampel adalah 86 dokumen berita yang diklasifikasikan secara manual menjadi 23 event. Klasifikasi manual ini nantinya digunakan untuk mengevaluasi tingkat keberhasilan klasifikasi. 2. Ekstraksi dokumen Proses ekstraksi ini bertujuan untuk menghasilkan term-term yang akan digunakan sebagai prototype bagi setiap dokumen. Tiap term tersebut dicari bentuk kata dasar-nya berdasarkan kamus kata dasar Bahasa Indonesia. Hal ini untuk menghindari tersimpannya kata-kata yang memiliki kata dasar yang sama namun berimbuhan berbeda. Disamping itu dilakukan penyaringan (filtering) terhadap kata-kata yang tidak layak untuk dijadikan sebagai pembeda. Kelompok kata ini biasanya disebut sebagai stoplist. Oleh karena belum tersedia maka penelitian ini juga berusaha mencari stoplist tersebut secara manual. 3. Penghitungan Bobot TF-IDF Pada tahap ini, tiap dokumen diwujudkan sebagai sebuah vector dengan elemen sebanyak term yang berhasil dikenali dari tahap ekstrasi dokumen di atas. Vektor tersebut beranggotakan bobot dari tiap term yang dihitung berdasarkan metode TF-IDF. Metode TF-IDF ini merupakan metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency (tf), dan inverse document frequency (idf) [][9]. Adapun rumusnya adalah : w(t,d) = tf(t,d)*log 2 (N/n t ) Simbol w(t,d) adalah bobot dari term t dalam dokumen d sedangkan tf(t,d) adalah frekuensi term dalam dokumen(tf) dimana N merupakan ukuran data training yang digunakan untuk penghitungan IDF. Adapun n t adalah jumlah dari dokumen yang ditraining yang mengandung nilai t. Fungsi metode ini adalah untuk mencari representasi nilai dari tiap-tiap dokumen dari suatu kumpulan data training (training set). Dari sini akan dibentuk suatu vektor antara dokumen dengan kata (documents with terms) yang kemudian untuk kesamaan antar dokumen dengan cluster akan ditentukan oleh sebuah prototype vektor yang disebut juga dengan cluster centroid []. 4. Penghitungan tingkat kemiripan Perbandingan kemiripan (similarity) yang digunakan disini adalah standard cosine similarity [5] [6] dengan rumus : S Di D = L ( weight k = ik weight ) jk L 2 L 2 weight k = ik weight k= jk j S DiDj : Similarity Dokumen ke I dan ke j 5. Klasifikasi Similarity yang telah dihasilkan selanjutnya dievaluasi untuk menentukan pasangan-pasangan dokumen yang dinyatakan mirip berdasarkan nilai treshold tertentu. Pengklasifikasian dokumen berita dengan menggunakan Algoritma Single Pass Clustering. 6. Evaluasi klasifikasi Evaluasi ini dilakukan untuk mengetahui kinerja algoritma klasifikasi pada tahap uji coba. Pengukuran ini didasarkan pada dua parameter, yakni recall dan precision. III. Stemming Bahasa Indonesia Algoritma ini didahului dengan pembacaan tiap kata dari file sampel. Sehingga input dari algoritma ini adalah sebuah kata yang kemudian dilakukan :. Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 Awalan (prefiks) dan 3 Akhiran (sufiks).

Sehingga bentuknya menjadi : Prefiks + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks Seandainya kata tersebut tidak memiliki imbuhan sebanyak imbuhan di atas, maka imbuhan yang kosong diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. 2. Pemotongan dilakukan secara berurutan sebagai berikut : AW : AW AK : AK KD : KD a. AW I, hasilnya disimpan pada p b. AW II, hasilnya disimpan pada p2 c. AK I, hasilnya disimpan pada s d. AK II, hasilnya disimpan pada s2 e. AK III, hasilnya disimpan pada s3 Pada setiap tahap pemotongan di atas diikuti dengan pemeriksaan di kamus apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Kalau pemeriksaan ini berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan lainnya Contoh pemenggalan kata mempermainkannya Langkah : Tidak : lakukan pemotongan AW I Kata = permainkannya Langkah 2 : Tidak : lakukan pemotongan AW II Kata = mainkannya Langkah 3 : Tidak : lakukan pemotongan AK I Kata = mainkan Langkah 4 : Tidak : lakukan pemotongan AK II Kata = main Langkah 5 : Tidak : lakukan pemotongan AK III. Dalam hal ini AK III tidak ada, sehingga kata tidak diubah. Kata = main Langkah 6 Tidak : "Kata tidak ditemukan" 3. Namun jika sampai pada pemotongan AK III, belum juga ditemukan di kamus, maka dilakukan proses kombinasi. KD yang dihasilkan dikombinasikan dengan imbuhan-imbuhannya dalam 2 konfigurasi berikut : a. KD b. KD + AK III c. KD + AK III + AK II d. KD + AK III + AK II + AK I e. AW I + AW II + KD f. AW I + AW II + KD + AK III g. AW I + AW II + KD + AK III + AK II h. AW I + AW II + KD + AK III + AKII + AKI i. AW II + KD j. AW II + KD + AK III k. AW II + KD + AK III + AK II l. AW II + KD + AK III + AK II + AK I Sebenarnya kombinasi a, b, c, d, h, dan l sudah diperiksa pada tahap sebelumnya, karena kombinasi ini adalah hasil pemotongan bertahap tersebut. Dengan demikian, kombinasi yang masih perlu dilakukan tinggal 6 yakni pada kombinasi-kombinasi yang belum dilakukan (e, f, g, i, j, dan k). Tentunya bila hasil pemeriksaan suatu kombinasi adalah ada, maka pemeriksaan pada kombinasi lainnya sudah tidak diperlukan lagi. Pemeriksaan 2 kombinasi ini diperlukan, karena adanya fenomena overstemming pada algoritma pemotongan imbuhan. Kelemahan ini berakibat pada pemotongan bagian kata yang sebenarnya adalah milik Kata dasar itu sendiri yang kebetulan mirip dengan salah satu jenis imbuhan yang ada. Dengan 2 kombinasi itu, pemotongan yang sudah terlanjur tersebut dapat dikembalikan sesuai posisinya. IV. Algoritma Single Pass Clustering Algoritma Single Pass Clustering [5] dapat dilakukan dengan langkah-langkah sebagai berikut :. Masukkan (dokumen pertama) D representasi (Cluster pertama) C 2. Untuk (dokumen ke-i) Di hitung kesamaan (similarity) dengan setiap wakil dari masing-masing cluster. 3. Jika (Maximum Similarity) S max lebih besar dari batas nilai (threshold value) S T, tambahkan tambahkan item kepada cluster yang bersesuaian dan hitung kembali representasi cluster, sebaliknya gunakan Di untuk inisialisasi cluster baru. 4. Jika masih ada sebuah item Di yang belum dikelompokkan, kembali ke langkah ke-2

Algoritma ini digunakan untuk restrospective data detection maupun on-line detection V. Uji Coba Untuk mengevaluasi secara manual kesamaan diantara dokumen dalam cluster-cluster yang telah dikelompokkan digunakan standar sebagaimana Tabel 2. Tabel tersebut berisi berbagai kemungkinan hasil klasifikasi pada tiap event (Per Event contengency table ) []. Tabel 2. kategori hasil klasifikasi In Event Not In event In cluster a b Not In Cluster c d Tabel 2 menunjukkan bahwa hasil klasifikasi adakalanya memang termasuk event (a) yang dimaksud dan adakalanya tidak (b). Sedangkan dokumen yang tidak termasuk dalam hasil klasifikasi suatu event, adakalanya memang bukan anggota event itu (d) dan adakalanya ternyata seharusnya menjadi anggota event tersebut (c). Dalam hal ini, kempat parameter di atas digunakan untuk menghitung 2 parameter evaluasi, yakni :. Recall, yakni tingkat keberhasilan mengenali suatu event dari seluruh event yang seharusnya dikenali. Rumusnya adalah r = a/(a+c) untuk a+c > 0. Selain itu tidak didefinisikan 2. Precision, yakni tingkat ketepatan hasil klasifikasi terhadap suatu event.artinya, dari seluruh dokumen hasil klasifikasi, berapa persenkah yang dinyatakan benar. Rumusnya adalah p = a/(a+b) jika a+b > 0. Selain itu tidak didefinisikan Dari hasil evaluasi yang dilakukan terhadap data training yang diambil dari suara pembaruan online mulai tanggal Agustus 200 sampai dengan 3 Agustus 200 dengan perincian sebagai berikut : - Diambil 86 Dokumen sebagai Restrospective/training set yang dikalsifikasikan kedalam 23 event - Setelah melalui proses stemming maka dapat dilakukan penghitungan frekuensi kata dalam dokumen dengan menggunakan kamus sejumlah 29.349 kata dasar bahasa Indonesia - Dari matrik yang dibentuk dihasilkan sebanyak 3.000 record untuk kaitan dokumen dengan kata tf(t,d) dengan frekuensi di atas 0 Didapatkan hasil nilai Recall dan Precision sebagaimana Tabel. Tabel. Hasil uji coba Percobaan Ke- Treshold Recall Precision 0 0.03488372 0.03488372 2 0.005 0.30232558 0.30232558 3 0.0 0.69767449 0.69767449 4 0.05 0.727272727 0.727272727 5 0.02 0.75583953 0.75583953 6 0.025 0.74486047 0.74486047 7 0.03 0.68604652 0.68604652 8 0.035 0.67448605 0.67448605 9 0.04 0.52325584 0.52325584 0 0.045 0.488372093 0.488372093 0.05 0.406976744 0.406976744 2 0.055 0.38372093 0.38372093 3 0.06 0.372093023 0.372093023 4 0.065 0.3604656 0.3604656 5 0.07 0.3604656 0.3604656 6 0.075 0.337209302 0.337209302 7 0.08 0.3095238 0.3095238 8 0.085 0.290697674 0.290697674 9 0.09 0.279069767 0.279069767 20 0.095 0.279069767 0.279069767 2 0. 0.2674486 0.2674486 Distribusi nilai kedua parameter dapat digambarkan dengan grafik sbgn gb Nilai Recall/Precision 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 3 5 7 9 3 5 7 9 2 Percobaan Ke-n Gambar Grafik Recall dan Precision untuk Algoritma Single Pass dg Microaverage Treshold Recall Presisi Dari sini terlihat bahwa nilai Treshold untuk hasil terbaik didapatkan pada angka 0.02. treshold ini didapatkan dari percobaan yang dilakukan secara linear terhadap 2 treshold yang berbeda. Percobaan dilakukan mulai dari nilai treshold = 0 sampai dengan mendapatkan jumlah cluster = jumlah dokumen atau nilai treshold di atas keseluruhan similarity maksimal Sedangkan untuk jumlah cluster yang dihasilkan dari 2 percobaan dapat dilihat dalam Tabel 2 sebagai berikut :

Percobaan Ke- Treshold Jumlah Cluster 0 2 0.005 4 3 0.0 9 4 0.05 25 5 0.02 34 6 0.025 40 7 0.03 44 8 0.035 50 9 0.04 56 0 0.045 62 0.05 70 2 0.055 73 3 0.06 77 4 0.065 78 5 0.07 78 6 0.075 80 7 0.08 83 8 0.085 84 9 0.09 85 20 0.095 85 2 0. 86 Distribusi jumlah cluster yang dihasilkan bisa digambarkan dengan gb 2 : 2 20 9 Pada treshold 0 ini akan menghasilkan cluster. Percobaan akan diakhiri apabila menghasilkan jumlah cluster = jumlah dokumen - Pada percobaan yang dilakukan nilai Recall dan Precision tertinggi dihasilkan pada treshold 0.02 dengan nilai recall 0.75583953 dan menghasilkan 34 cluster. - Dari percobaan ini akan dilakukan lagi dengan menggunakan treshold antara terdekat antara 0.05 dengan 0.02 yaitu 0.075 dan menghasilkan nilai recallprecision 0.790698(79 %) dan jumlah cluster 29 dan juga dengan menggunakan treshold 0.0225 menghasilkan recallprecision 0.74486(74 %). Dengan memakai treshold 0.075 didapatkan recall rata-rata 0.764372 dan precision rata-rata 0.877536 - Dengan demikian Algoritma Single Pass Clustering cukup handal untuk digunakan untuk klasifikasi VI. Kesimpulan dan Saran. Kesimpulan Percobaan Ke- 8 7 6 5 4 3 2 0 9 8 7 6 5 4 3 2 0 5 0 0 0 Jum lah Cluster Gambar 2 Jumlah Cluster - Stemming Bahasa Indonesia yang digunakan efketif untuk memilih prototype kata dasar yang digunakan sebagai pembeda antar dokumen - Pembobotan TF IDF dan Cosine Similarity digunakan untukmenunjukkan kemiripan antar dokumen - Berita yang mempunyai event yang sama cenderung untuk mengelompok menjadi cluster. - Nilai treshold(nilai batas) yang paling bagus digunakan adalah 0.075 dengan nilai recall-precision 79 % dan nilai recall rata-rata 76 % dan precision rata-rata 87 % - Single Pass clustering cukup handal digunakan sebagai algoritma untuk klasifikasi event 2. Saran Dari sini dapat disimpulkan bahwa hasil percobaan terbaik adalah dengan menggunakan treshold 0.02 walaupun dengan jumlah cluster yang terbentuk lebih banyak namun nilai Recall dan Precision-nya sangat tinggi VI. Pembahasan - Pada percobaan dengan menggunakan Algoritma Single Pass Clustering ini percobaan dimulai dengan treshold 0. - Perlu adanya riset lebih mendalam untuk membedakan AK an dan kan dalam stemming bahasa Indonesia - Perlu pembandingan dengan algoritma lain untuk mencapai hasil yang lebih optimal - Untuk term yang bernilai 0 dalam setiap dokumen tidak perlu dilibatkan dalam perhitungan karena hanya akan menambah waktu perhitungan

- Pembuatan stoplist bisa dilakukan secara otomatis (increment) dengan menggunakan algoritma IDF VII. DAFTAR PUSTAKA Yiming Yang,Jaime G.Carbonell, Rulf D. Brown, Thomas Pierce, Brian T. Achibald, Xin Liu. Learning Approaches for Detecting and Tracking News Events. IEEE Intelligent Systems,Language Techlonolies Institute, Carbegie Mellon University, 999 2 Ron Papka. On-Line New Event Detection, Culstering, and Tracking.Ph. D dissertation on University of Massachusetts, 999 3 J. Allan et al, Topic Detection and Tracking Pilot Study : Final Report. Proc. DARPA Broadcast News Transcription & Understanding Workshop, Morgan Kaufman, San Francisco, 998, pp94-28 4 Ricardo Baeza-Yates, Berthier Ribeiro- Neto, Modern Information Retrieval ACM Press, New York, Addison Wasley Longman Limited, 999 5 William B.Frakes, Richardo Baeza- Yates, Information Retrieval Data Structures And Algorithm, Prentice- Hall International Edition, 992 6 Anil K. Jain, Richard C. Dubes, Algorithms for Clustering Data, Prentice-Hall Advances Reference Series, 988 7 Pakana, Fitrio Perancangan Dan Pembuatan Aplikasi Pencarian Dokumen Berbasis Web Dengan Penerapan Metode Suffix Tree Clustering Pada Result Set, Tugas Akhir, Teknik Informatika, Institut Teknologi Sepuluh Nopember Surabaya, 200 8 Weiss, Mark Allen, Data Structures & Problem Solving Using Java, Florida International University, Addison Wesley, 999 9 Salton, G.. Automatic text processing. Chapter 9, 989