Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia

dokumen-dokumen yang mirip
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB I PENDAHULUAN Latar Belakang

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

PENERAPAN METODE KLASTERING DENGAN ALGORITMA K-MEANS UNTUK PREDIKSI KELULUSAN MAHASISWA PADA PROGRAM STUDI TEKNIK INFORMATIKA STRATA SATU

BAB III METODOLOGI PENELITIAN

BAB IV IMPLEMENTASI DAN PENGUJIAN

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

IMPLEMENTASI K-MEANS KLUSTERING UNTUK REKOMENDASI TEMA TUGAS AKHIR PADA STMIK ASIA MALANG. Lia Farokhah 1), Rendy Aditya 2)

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI LOGIKA FUZZY DALAM RECRUITMENT ASISTEN LABORATORIUM MENGGUNAKAN METODE C-MEANS (STUDI KASUS: TEKNIK INFORMATIKA UNIVERSITAS TANJUNGPURA)

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jurnal Politeknik Caltex Riau

ANALISIS KLASTERING LIRIK LAGU INDONESIA

Penerapan Algoritma K-Means untuk Clustering

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

BAB III METODOLOGI PENELITIAN

PENGELOMPOKAN DAN ANALISIS PELANGGAN DENGAN MENGGUNAKAN FUZZY C-MEANS CLUSTERING

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB 3 LANDASAN TEORI

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar belakang

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

BAB 3 LANDASAN TEORI

KLASTERISASI KOMPETENSI GURU MENGGUNAKAN HASIL PENILAIAN PORTOFOLIO SERTIFIKASI GURU DENGAN METODE DATA MINING

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB III PEMBAHASAN. untuk menampilkan ringkasan dari teks yang dimasukkan pengguna. Ringkasan

BAB III METODOLOGI PENELITIAN

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

Perbandingan Metode Single Linkage dan Fuzzy C Means Untuk Pengelompokkan Trafik Internet

PERBANDINGAN KINERJA METODE WARD DAN K-MEANS DALAM MENENTUKAN CLUSTER DATA MAHASISWA PEMOHON BEASISWA (STUDI KASUS : STMIK PRINGSEWU)

BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER

Student Clustering Based on Academic Using K-Means Algoritms

BAB III METODOLOGI PENELITIAN

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II LANDASAN TEORI

UKDW BAB I PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

ANALISIS KELOMPOK DENGAN ALGORITMA FUZZY C-MEANS DAN GUSTAFSON KESSEL CLUSTERING PADA INDEKS LQ45

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

Kata Kunci: AHP, Algoritma, ANP, Profile Matching, Perbandingan, Rekrutmen. Universitas Kristen Maranatha

BAB I PENDAHULUAN 1.1 Latar Belakang

PERANCANGAN SISTEM PENENTUAN KECAKAPAN MENULIS BAHASA INGGRIS SISWA SMP MENGGUNAKAN ALGORITMA K-MODES CLUSTERING (STUDI KASUS : SMPN 6 DENPASAR)

BAB I PENDAHULUAN 1.1. Latar Belakang

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

BAB I PENDAHULUAN 1.1 Latar Belakang

Text Pre-Processing. M. Ali Fauzi

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

ABSTRAK. Kata Kunci: analisis sentimen, pre-processing, mutual information, dan Naïve Bayes. UNIVERSITAS KRISTEN MARANATHA

ANALISIS SENTIMEN TERHADAP OPINI PUBLIK MELALUI JEJARING SOSIAL TWITTER MENGGUNAKAN METODE NAIVE BAYES Alfarizy M. G. ( )

PENERAPAN METODE ANT COLONY OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK KLASTERISASI DATA HALAMAN JUDUL

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

PROGRAM BANTU UNTUK PERENCANAAN PENGAMBILAN MATAKULIAH

ANALISIS CLUSTER PADA DOKUMEN TEKS

KOMPRESI DAN DEKOMPRESI DATA TEKSTUAL MENGGUNAKAN ALGORITMA DYNAMIC MARKOV

BAB 1 PENDAHULUAN UKDW

SISTEM PENGOALAHAN DATA MINING INDUSTRI SEPATU MENGGUNAKAN METODE K-MEANS CLUSTERING DI JAWA TENGAH

PENGELOMPOKAN PROGRAM PNPM MANDIRI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN METODE K-NEAREST NEIGHBOR TUGAS AKHIR

BAB 1 PENDAHULUAN 1.1 Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 2011/2012

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

IMPLEMENTASI ALGORITMA K-MEANS UNTUK KLASTERISASI MAHASISWA BERDASARKAN PREDIKSI WAKTU KELULUSAN SKRIPSI

1.5 Metode Penelitian

BAB I PENDAHULUAN. 1.1 Latar Belakang

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

K-Means Analysis Klasterisasi Kasus HIV/AIDS di Indonesia

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

PENERAPAN METODE CLUSTERING K-MEANS PADA HASIL PROSES DATA MINING TRANSAKSI PENJUALAN PRODUK

3.1 Desain Penelitian

MOBILE APPLICATION DEVELOPMENT FOR E- COMMERCE VENDPAD USING IONIC FRAMEWORK

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

Implementasi Algoritma K-Means Dalam Keputusan Pemberian Beasiswa (Studi Kasus SMA Santo Bernadus Pekalongan) Artikel Ilmiah

STUDI PERBANDINGAN FASILITAS DAN KINERJA SEARCH ENGINES DALAM PENCARIAN DOKUMEN BERBASIS WEB HERY WIDHIARTO

ABSTRAK. Kata Kunci: Aplikasi, web, permainan tradisional, Indonesia, JAVA, Play framework. Universitas Kristen Maranatha

CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS

ANALISIS CLUSTER PADA DOKUMEN TEKS

Rancang Bangun Aplikasi Text Mining dalam Mengelompokkan Judul Penelitian Dosen Menggunakan Metode Shared Nearest Neighbor dan Euclidean Similarity

SKRIPSI KLASIFIKASI CALON PEGAWAI DENGAN MENGGUNAKAN METODE K-MEANS CLASSIFICATION OF PROSPECTIVE EMPLOYEES BY USING THE K-MEANS METHOD

PENGGABUNGAN DUA CITRA DENGAN METODE COMPRESSIVE SENSING MENGGUNAKAN MATLAB

Pengolahan Data. Algoritma C4.5 Menghitung entropi : Data Training (75%) = 220 data Data Testing (25%) = 73 data

SKRIPSI RANTI RAMADHIANA

ISSN : e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182

PRESENTASI TUGAS AKHIR KI091391

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB I PENDAHULUAN. informasi yang berbeda-beda. Berita yang dipublikasi di internet dari hari ke hari

Transkripsi:

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Praditya Kurniawan 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 STMIK AMIKOM Yogyakarta e-mail: * 1 pradityakurniawan@gmail.com, 2 ema.u@amikom.ac.id, 3 andi@amikom.ac.id Abstrak Pengklasteran merupakan salah satu teknik untuk melakukan analisis data pada data mining. Beberapa metode pengklasteran diantaranya adalah k-means dan single linkage. Setiap metode mempunyai karakteristik tersendiri dalam mengklasterkan data. Komparasi setiap metode dilakukan untuk melihat kemampuan setiap metode dalam mengklasterkan data. Penilaian yang dilakukan dalam komparasi ini menggunakan metode Silhouette Coefficient dan Purity. Selain itu pengujian setiap metode akan dilakukan dengan dua jenis data yang diambil dari sumber yang berbeda. Dari pengujian yang dilakukan terhadap kedua metode, pada beberapa pengujian single link mempunyai hasil kualitas yang lebih baik daripada k-means. Hasil dari penelitian ini dapat dijadikan acuan untuk menentukan algoritma pengklasteran dalam data teks berbahasa Indonesia dan dapat dikembangkan lebih lanjut lagi dalam penerapan kasus sehari hari. Kata kunci Klaster, K-Means,, Bahasa Indonesia, Visualisasi Abstract Clustering is a technique to perform data analysis on data mining. Several clustering methods include k-means and single linkage. Each method has its own characteristics in mengklasterkan data. Comparison of each method was conducted to see the ability of each method in mengklasterkan data. Assessment is carried out in this comparative method Silhouette Coefficient and Purity. Besides testing each method will be conducted with two types of data taken from different sources. From the tests performed on the second method, in some testing single linkage has a better quality results than k-means. The results of this study can be used as a reference for determining the clustering algorithms in the Indonesian language text data and can be developed further in the case of daily application. Keywords Clustering, K-means,, Indonesian Language, Visualization K 1. PENDAHULUAN lastering merupakan salah satu teknik dalam analisis data pada data mining. Teknik pengklasteran merupakan teknik pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek didalam satu kelompok mempunyai banyak kesamaan dan memiliki banyak perbedaan dengan objek kelompok lain[1]. Penelitian yang dilakukan Randy Handoyo[2] tentang pengklasteran menggunakan dokumen berbahasa Indonesia menghasilkan single linkage mempunyai nilai yang lebih baik. Dalam penelitian yang telah dilakukan dapat dikembangkan dengan jenis data yang berbeda. Heru Susanto[3] juga pernah melakukan pengklasteran dan analisis sentimen data dengan data twitter. Data twitter merupakan data teks yang mempunyai batas kata dan jumlahnya yang terus bertambah sehingga menarik untuk diteliti.

Berdasarkan penelitian yang dilakukan oleh Suwanto[4], penelitian bertema tentang pengklasteran data di Indonesia masih sedikit sehingga mempunyai peluang banyak untuk dilakukan penelitian. 2. METODE PENELITIAN Pada bagian ini akan diuraikan langkah langkah yang dilakukan untuk melakukan penelitian. Secara umum langkah langkah penelitian dapat dilihat pada Gambar 22. Gambar 22 Gambaran Alur Penelitian Secara Umum 2.1 Pengumpulan Data Data yang akan digunakan dalam penelitian diambil dari beberapa sumber. Data pertama yang diambil adalah data teks berita. Sumber data teks berita dari berita online antaranews dengan memanfaatkan rss feed yang sudah disediakan tanpa menggunakan kategori tertentu (umum). Data kedua diambil dari twitter dengan memanfaatkan API yang sudah disediakan. Data twitter yang diambil hanya dari akun twitter milik @kompascom, @tempoco, dan @antaranews tanpa menggunakan filter tertentu. 2.2 Text Processing Data yang sudah dikumpulkan harus melalui proses pembersihan teks. Fungsi dari text processing adalah menghilangkan kata yang tidak bermakna. Tahapan tahapan untuk melakukan pembersihan teks sebagai berikut. 1. Cleaning dan Case Folding Cleaning merupakan proses penghapusan karakter angka, maupun tanda baca. Sedangkan case folding merubah semua karakter menjadi huruf kecil. 2. Tokenization Tokenization merupakan tahapan untuk memecah kalimat menjadi per kata. 3. Stopword Removal Stop word removal merupakan tahapan untuk menghapus kata yang tidak memiliki makna/ tidak berpengaruh. 4. Pembobotan Untuk dapat mengklasterkan data teks, data teks tersebut harus diberi bobot sehingga dapat dilakukan perhitungan. Pembobotan yang digunakan adalah TF- IDF. 2.3 Text Clustering

Silhouette Coefficient Pengklasteran teks menggunakan bahasa pemrograman PHP. Metode yang digunakan untuk mengklasterkan teks adalah k-means dan single linkage. 2.4 Evaluasi Metode evaluasi yang digunakan dalam penelitian ini adalah silhouette coefficient dan purity. Perhitungan silhouette coefficient dapat dilihat pada persamaan (1) Sedangkan perhitungan menggunakan purity dapat dilihat pada persamaan (2). Purity (Ω, C) = 1 n max j (ω k C j ) k (2) 2.5 Visualisasi Visualisasi digunakan untuk menampilkan hasil pengklasteran yang sudah dilakukan. Pada visualisasi ini menampilkan jumlah kata terbanyak pada setiap klaster yang dibentuk. Visualisasi menggunakan HTML dan javascript. (1) 3. HASIL DAN PEMBAHASAN 3.1 Pengujian Dengan Menggunakan Data Teks Berita Setelah dilakukan pengklasteran data terhadap data twitter dan berita dilakukan evaluasi menggunakan silhouette coefficient dan purity. Hasil pengujian silhouette coefficient menggunakan 5 data berita antaranews dapat dilihat pada Gambar 23. 5 5.5 982 7 47 745 848 651 926 792 49 624 33 126 5 6 7 8 9 1 Jumlah Klaster K-Mean Gambar 23 Grafik Nilai SC pada Data Berita Antaranews Dari hasil evaluasi menggunakan shilouette coefficient pengklasteran menggunakan metode single linkage lebih baik daripada k-means. Hal ini dapat dilihat pada pembentukan setiap klaster nilai sc (shilouette coefficient) dari single linkage lebih tinggi dari k-means. Walaupun secara keseluruhan klaster terbentuk belum cukup kuat (sc < 1). Nilai terbaik sc pada

Silhouette Coefficient Purity metode k-means terjadi saat pembentukan 1 klaster dengan nilai sc,1926. Sedangkan nilai terbaik metode single linkage terjadi saat pembentukan 7 klaster dengan nilai sc,27. Sedangkan hasil evaluasi menggunakan purity pada 5 data berita antaranews dapat dilihat pada Gambar 24.7.6.5.4.3.64.48.5.42.42.42.52.4.42.34.4.44 5 6 7 8 9 1 K-Means Gambar 24 Grafik Nilai Purity Pada Data Teks Berita Dari hasil evaluasi menggunakan purity nilai purity single linkage dominan lebih tinggi daripada k-means. Namun pada pembentukan 6 klaster nilai purity k-means menyamai single linkage, bahkan pada pembentukan 9 klaster nilai purity k-means lebih tinggi dari single linkage. Hal ini dapat mengindikasikan jika k-means ada kemungkinan membentuk klaster yang lebih baik. 3.2 Pengujian Dengan Menggunakan Data Twitter Hasil evaluasi silhouette coefficient pada pembentukan klaster dengan 5 data twitter dapat dilihat pada Gambar 25 5 5.5 982 7 47 848 745 651 926 792 126 33 624 49 K-Mean 5 6 7 8 9 1 Jumlah Klaster Gambar 25 Grafik Nilai SC Pada Data Twitter Dari evaluasi menggunakan silhouette coefficient pada penggunaan data twitter nilai sc Single linkage lebih tinggi daripada k-means. Nilai sc tertinggi untuk metode k-means adalah

,1926 pada saat pembentukan 1 klaster. Sedangkan nilai sc tertinggi untuk single linkage adalah,27 saat pembentukan 7 klaster. Hasil evaluasi menggunakan purity pada penggunaan 5 data twitter dapat dilihat pada Gambar 26..4.35.3 5 5.5 8 2.32 2 8 Gambar 26 Grafik Nilai Purity Pada Data Twitter 4.32 6.34 5 6 7 8 9 1 8 K-Means Dari hasil evaluasi purity k-means mempunyai nilai purity yang lebih tinggi dibanding dengan single linkage. Nilai purity tertinggi pada metode k-means adalah,32 saat pementukan 7 klaster dan nilai terendah saat membentuk 5 klaster dengan nilai,2. Sedangkan nilai tertinggi untuk metode single linkage adalah,28 saat pembentukan 1 klaster dan nilai terendah saat pembentukan 5 klaster dengan nilai,18. 3.3 Visualisasi Data Visualisasi data menggunakan HTML dengan Javascript sehingga dapat diakses menggunakan browser. Contoh visualisasi dengan menggunakan metode k-means dapat dilihat pada Gambar 27. Gambar 27 Contoh hasil Visualisasi Dengan Metode K-Means 4. KESIMPULAN Dari penelitian yang telah dilakukan dapat diambil kesimpulan sebagai berikut.

1. Pada penggunaan data teks berita antaranews single linkage menghasilkan nilai SC dan purity yang lebih tinggi daripada k-means. Nilai SC tertinggi metode single linkage saat dilakukan pembentukan 7 klaster dengan nilai,27. Sedangkan nilai tertinggi metode k-means saat dilakukan pembentukan 1 klaster dengan nilai,192. Nilai purity tertinggi metode k-means saat membentuk 9 klaster dengan nilai,64. Sedangkan nilai tertinggi pada metode single linkage saat membentuk 1 kklaster dengan nilai,52. 2. Pada penggunaan data twitter metode k-means mempunyai indikasi dapat menghasilkan nilai SC dan Purity yang lebih tinggi daripada single linkage. Hal ini dapat dikarenakan penentuan titik centroid awal pada data mendekati data yang dominan. 5. SARAN Berdasarkan penelitian yang telah dilakukan maka dalam upaya pengembangan dapat dikemukakan beberapa saran berikut: 1. Hasil dari pengklasteran dipengaruhi oleh hasil text processing yang dilakukan. Pemilihan metode dan library yang digunakan saat melakukan text processing akan mempengaruhi hasil pengklasteran yang dilakukan. 2. Penelitian ini menggunakan bahasa pemrograman PHP yang dapat digunakan pada hampir semua platform sehingga dapat dikembangkan lebih baik lagi dalam hal antarmuka. UCAPAN TERIMA KASIH Penulis mengucapkan terimakasih kepada STMIK Amikom Yogyakarta dan STMIK Dipanegara Makasar yang telah memberikan kesempatan mempublikasikan tulisan ini. DAFTAR PUSTAKA [1] Han, Jiawei & Kamber, Micheline., 26, Data Mining: Concepts and Techniques, Second Edition, Morgan Kaufman Publishers, San Francisco [2] Handoyo, Rendy dkk., 214. Perbandingan Metode Clustering Menggunakan Metode Single Linkage dan K-Means Pada Pengelompokan Dokumen, Jurnal Teknik ITS [3] Susanto, Heru, dkk., 214, Visualisasi Data Teks Twitter Berbasis Bahasa Indonesia Menggunakan Teknik Pengklasteran, ITS Paper 214 [4] Raharjo, Suwanto & Winarko, Edi., 214. Klasterisasi, Klasifikasi, dan Peringkasan Teks Berbahasa Indonesia, Prosiding Seminar Ilmiah Nasional Komputer dan Sistem Intelijen