BAB 3 LANDASAN TEORI

dokumen-dokumen yang mirip
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

SISTEM TEMU KEMBALI INFORMASI

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB I PENDAHULUAN I-1

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II LANDASAN TEORI

ROCCHIO CLASSIFICATION

BAB II TINJAUAN PUSTAKA

PENDAHULUAN. 1.1 Latar Belakang

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

RETRIEVAL STRATEGIES. Tujuan 4/9/13. Budi Susanto

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB I PENDAHULUAN Latar Belakang

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB II TINJAUAN PUSTAKA

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

2BAB 2 LANDASAN TEORI

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB III METODOLOGI PENELITIAN

BAB 2 TINJAUAN PUSTAKA

ANALISIS KLASTERING LIRIK LAGU INDONESIA

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

Update Summarization Untuk Kumpulan Dokumen Berbahasa Indonesia

BAB 1 PENDAHULUAN UKDW

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

BAB IV PREPROCESSING DATA MINING

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

BAB I PENDAHULUAN Latar Belakang

BAB 3 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Pengujian Kerelevanan Sistem Temu Kembali Informasi

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

V HASIL DAN PEMBAHASAN

PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB III METODOLOGI PENELITIAN

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Penerapan Algoritma K-Means untuk Clustering

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL PADA BERITA KRIMINAL BERBAHASA INDONESIA MENGGUNAKAN METODE MAXIMAL MARGINAL RELEVANCE (MMR) TUGAS AKHIR

Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB III METODOLOGI PENELITIAN

Transkripsi:

BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan teks bahasa alamiah. Text mining adalah proses penggalian, valid, dan dapat ditindaklanjuti pengetahuan yang tersebar di seluruh dokumen dan memanfaatkan pengetahuan ini untuk lebih mengorganisir informasi untuk referensi di masa mendatang. Penambangan berasal dari penggalian barang berharga dari biji dari batuan yang tidak bernilai, ini merupakan emas yang tersembunyi di pegunungan data text. Text mining, biasa dikenal dengan Text Data Mining(TDM), adalah penemuan oleh komputer era baru, informasi yang sebelumnya tidak diketahui, secara otomatis dengan mengekstrasi informasi dari sumber daya yang datanya tidak terstruktur (Ojo & Adeyemo, 2013). 11

Gambar 3.1 Text Mining Process (Sumber: www.decideo.fribruley) Gambar 3.1 merupakan gambaran umum proses dari text mining. Secara garis besar text mining dimulai dari text preprocessing yaitu melakukan analisis text, setelah itu features generation adalah mengumpulkan kata-kata yang sudah dibersihkan saat text preprocessing. Setelah itu ada feature selection yaitu melakukan penghitungan sesuai yang dibutuhkan, setelah itu dilakukan text/data mining yang disini melakukan clustering, dan yang terakhir menganalisa hasil. 3.2 Automatic Text Summarization Automatic Text Summarization dapat dikatakan sebagai pemecahan untuk merubah 1 atau lebih dokumen ke versi yang lebih sederhana tetapi tetap menjaga content yang ada di dalamya. Metode ini dibagi menjadi dua bagian utama yaitu ekstrasi dan abstraksi. Ringkasan dengan metode ekstrasi 12

terdiri dari kumpulan kalimat yang diambil dari dokumen-dokumen dengan menggunakan statistical atau heuristic berdasar dari informasi yang paling sering muncul. Ringkasan abstraktif mengandung analisis semantic untuk menginterpretasi sumber informasi dan menemukan konsep yang baru untuk mengubah teks yang akan menjadi ringkasan (Motta & Tourigny, 2011). 3.3 K-Means K-means merupakan salah satu algoritma klaster yang paling terkenal dan sering digunakan untuk menyelesaikan permasalahan clustering yaitu dengan mengelompokan sejumalah k cluster (dimana jumlah k telah di definisikan sebelumnya). Langkah-langkah algoritma K-Means adalah sebagai berikut: 1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk. 2. Bangkitkan k centroid (titik pusat klaster) awal secara random. 3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek yaitu Euclidean Distance dan kesamaan Cosine. 4. Kelompokan setiap data berdasarkan jarak terdekat antara data dengan centroidnya. 5. Tentukan posisi centroid baru (k C) dengan cara menghitung nilai ratarata dari data-data yang ada pada centroid yang sama. (1) 13

Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam cluster 6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama (Luthfiarta, et al., 2014). (2) Ambang batas cosine similarity adalah 0.7 didapat dari penelitian pergerakan data dalam jumlah besar, apabila di atas 0.7 keterkaitan dokumen menurun drastis (Jatowt, et al., 2013). 3.4 Metode Maximum Marginal Relevance (MMR) Maximum Marginal Relevance (MMR) merupakan salah satu metode peringkasan dokumen yang menggunakan teknik ekstraksi. Metode ini mengkombinasikan cosine similarity antara kalimat dengan query(queryrelevance)dan kalimat dengan kalimat lain yang telah terpilih sebagai ringkasan dengan tujuan memaksimalkan kesamaan kalimat dengan query dan meminimalkan redundansi kalimat atau dengan kata lain meminimalkan adanya kalimat yang mempunyai kesamaan makna pada hasil ringkasan. 14

Gambar 3.2 Skema Peringkasan Gambar 3.2 merupakan gambar urutan peringkasan dengan menggunakan MMR. 1. Text preprocessing Text preprocessing merupakan tahapan awal yang dilakukan sebelum input dokumen menjadi kelompok-kelompok kalimat. Dalam text preprocessing juga terdapat tahap-tahap tertentu: a. Tokenization/Segmentation Tahap ini merupakan tahapan pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh: 15

2. TF-IDF Text input: Riyo bernyanyi riang. Melalui tokenization: Riyo Bernyanyi riang b. Stopword Removal Stopword removal merupakan metode untuk menghilangkan kata-kata yang tidak relevan dalam dokumen. Misal kata: dari, ke, merupakan. c. Stemming Stemming dilakukan untuk mencari akar dari suatu kata. Dalam pembangunan aplikasi ini digunakan algoritma Porter untuk melakukan stemming. >tulis. Contoh:belajar->ajar,menulis- Salah satu tahapan MMR adalah dengan menggunakan metode TFIDF. TF untuk perhitungan frekuensi suatu kata dalam dokumen, sedangkan IDF merupakan nilai dari masing-masing kata. a. Kalimat-kalimat yang ada dalam dokumen kemudian dipecah menjadi kata-kata. Hitung nilai TF dari kata tersebut menggunakan rumus TF dengan f(t,d) merupakan frekuensi sebuah kata (t) muncul dalam dokumen d, sedangkan t, d merupakan total keseluruhan kata dalam dokumen d. TF = f (t,d) t,d (3) b. Kata-kata yang sudah dihitung nilai TF nya maka dicari nilai IDF dari masing-masing 16

kata. D merupakan jumlah dokumen, sedangkan DF merupakan jumlah dokumen dimana f muncul dalam dokumen D. IDF = log D DF (4) c. Masing-masing kata dihitung menggunakan rumus berikut. Untuk dilihat seberapa sering kata tersebut muncul dalam suatu dokumen. TF IDF (t) = TF (t) IDF (t) (5) 3. Cosine Similarity Cosine similarity adalah ukuran kesamaan yang lebih umum digunakan dalam information retrieval dan merupakan ukuran sudut antara vektor dokumen (titik (ax,bx)) dan (titik (ay,by)) (Imbar, et al., 2014). (6) 4. Rumus Maximum Marginal Relevance Maximum Marginal Relevance (MMR) adalah salah satu dari sekian metode ekstraksi teks yang dapat diterapkan untuk meringkas dokumen tunggal maupun multidokumen dengan cara melakukan rangking ulang dan membandingkan similarity antar dokumen. Jika kesamaan (similarity) antara satu kalimat dengan kalimat yang lain tinggi, maka kemungkinan terjadi redundansi. Rumus untuk menghitung nilai MMR yang dapat mengurangi redundansi adalah : MMR(S i ) = λ. Sim1 (Si, Q) (1 λ). max Sim2(Si, Sj) (7) 17

Keterangan : λ = parameter bobot untuk mengatur tingkat relevansi Si = vektor bobot kata yang menjadi kandidat Sj = vektor bobot kata selain yang menjadi kadidat Q = vektor bobot kata dari query user (judul berita) Sim1 = nilai similarity antara query dengan tiap kalimat Sim2 = nilai similarity antara kalimat (Yulita, 2015) 18