BAB III METODOLOGI PENELITIAN

dokumen-dokumen yang mirip
BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

WEB MINING UNTUK PENCARIAN DOKUMEN BAHASA INGGRIS MENGGUNAKAN HILL CLIMBING AUTOMATIC CLUSTER

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

1.5 Metode Penelitian

BAB 1 PENDAHULUAN UKDW

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Text Pre-Processing. M. Ali Fauzi

BAB II TINJAUAN PUSTAKA

BAB IV ANALISA DAN PERANCANGAN

BAB 3 LANDASAN TEORI

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

BAB I PENDAHULUAN Latar Belakang

BAB IV PREPROCESSING DATA MINING

BAB III ANALISIS DAN PERANCANGAN

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB II LANDASAN TEORI

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB III METODOLOGI PENELITIAN

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

ANALISIS KLASTERING LIRIK LAGU INDONESIA

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

RANCANG BANGUN PENCARIAN TUGAS AKHIR DENGAN METODE HILL CLIMBING AUTOMATIC CLUSTER TUGAS AKHIR

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB III ANALISA DAN PERANCANGAN SISTEM

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Gambar 1.1 Proses Text Mining [7]

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

commit to user BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN UKDW

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

IMPLEMENTASI GABUNGAN METODE HIERARCHY DAN ALGORITMA K-MEANS DALAM CLUSTER DOKUMEN BERITA TUGAS AKHIR

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

BAB III METODOLOGI PENELITIAN

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB 3 ANALISIS DAN PERANCANGAN

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

Transkripsi:

BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart 3.1: Mulai Pengumpulan data: 1. Studi Pustaka 2. Observasi Analisa Sistem: Text Mining 1 Text Processing 2 Text Transformation 3 Atribut Selection 4 Pattern Discovery a) Clustering dengan CLHM b) Automatic Clusteing dengan Hill Climbing Contex Diagram, Data Flow Diagram Perancangan 1. Perancangan Database 2. perancangan Antar Muka (Interface) Implementasi Pengujian 1.pengujian validasi sistem 2. Pengujian Akurasi Kesimpulan dan Saran 3 Selesai 3.2 Pengumpulan Data Gambar 3.1 Tahapan Penelitian Pengumpulan data merupakan proses untuk mendapatkan informasi dan data terkait dengan penelitian yang selanjutnya akan menjadi landasan untuk

mengembangkan penelitian. Terdapat dua proses dalam pengumpulan data pada penelitian ini, diataranya: 3.2.1 Studi Pustaka Studi pustaka merupakan metode pengumpulan data dengan menganlisa dan mengutip informasi terkait melalui referensi tertentu. Beberapa sumber yang dijadikan referensi pada penelitian ini diantaranya adalah jurnal internasional maupun jurnal nasional, buku, e-book, artikel dan Skripsi. Beberpa jurnal referensi dalam penelitian ini diantaranya adalah: 1. Introduction to Information Retrieval (Manning dkk, 2009), Perbandingan Algortima Stemming Porter dengan Algoritma Nazief Adriani untuk Stemming Dokumen Teks Bahasa Indonesia (Agusta, 2009), Text Mining (Harlian, 2009) membahas mengenai seputar tahapan text mining dan tahapan pre-processing teks. 2. Comments-Oriented Documents Summarization: Understanding Documents With Reader s Feedback (Hu dkk, 2008), Mesin Pencarian Dokumen Dengan Pengklasteran Secara Otomatis (Martian dkk, 2010), Web Mining untuk Pencarian Dokumen Bahasa Inggris Menggunakan Hill Climbing Automatic Cluster (Eldira, 2010), Data Mining Mengolah Data Menjadi Informasi Menggunakan Matlab (Prasetyo, 2014) membahas mengenai tahapan cluster dengan CLHM dan metode Hill Climbing. 3.2.2 Observasi Observasi merupakan metode pengumpulan data dengan menganalisa objek yang menjadi topik penelitian secara langsung, dalam hal ini observasi dilakukan pada 2 forum diskusi online yaitu forum diskusi Indowebster dan Bersosial.com dan 1 website yaitu Teknojurnal.com. 3.3 Analisa Analisa yang diterapkan pada penelitian ini adalah menggunakan metode Text Mining. Beberapa proses yang terlibat pada tahap analisa menggunakan text mining diantaranya adalah: III-2

3.3.1 Text Pre-processing (Pra-Pemrosesan Teks) Terdapat enam proses dalam pemrosesan teks, yaitu: 1. Proses tokenisasi yaitu pemecahan kalimat atau paragraf menjadi kumpulan kata-kata. 2. Case folding yaitu proses penyeragaman teks dengan mengubah menjadi huruf kecil semua atau sebaliknya. 3. Spelling normalization yaitu proses transformasi kata tidak baku menjadi kata baku, untuk memperkecil dimensi matriks dokumen. 4. Filtering adalah tahap mengambil kata-kata penting dari hasil token. Biasanya tahap ini menggunakan algoritma stop-list (membuang kata-kata kurang penting) atau word-list (menyimpan kata penting). 5. Proses stemming/ pemotongan imbuhan yaitu memotong imbuhan-imbuhan yang terdapat pada kata yang telah ditokenisasi. 6. Proses tagging yaitu tahap mencari kata dasar dari kata lampau atau kata hasil dari stemming. 3.3.2 Text Transformation (Transformasi Teks) Pada tahap ini hasil dari proses pemrosesan teks dilanjutkan dengan proses transformasi teks menjadi data numerik sebagai representasi dari setiap dokumen. Terdapat dua pendekatan dalam penentuan representasi dokumen yaitu Bag of word/ pembobotan kata (TF/ IDF) dan vector space model. Pada penelitian ini untuk pembobotan dokumen diterapkan metode TF/ IDF dan normalisasi bobot dokumen menggunakan menggunakan vector space model. 3.3.3 Attribute Selection/ Seleksi Atribut Teknik pemilihan sebuah fitur subset yang relevan untuk membentuk model yang baik. Data yang dipilih adalah data yang benar-benar berguna untuk dianalisis. Pada penelitian ini seleksi atribut dilakukan pada pemilihan kata yang benar-benar merepresentasikan adanya keterkaitan antar komentar. Sehingga pada tahapan seleksi atribut ini, untuk kata-kata yang memiliki dokumen frekuensi/ DF dibawah 2 dokumen yang memuat, maka kata-kata tersebut akan dihapuskan dari III-3

indeks dokumen dan hanya memuat kata-kata dengan dokumen frekuensi diatas 2 dokumen. 3.3.4 Pattern Discovery/ Pengenalan Pola Tahap pengenalan pola merupakan tahap yang berperan menemukan pola atau pengetahuan dari keseluruhan teks. Terdapat dua teknik pembelajaran pada tahap ini yaitu supervised learning dan unsupervised learning. Dalam penelitian ini pengenalan pola yang digunakan adalah unsupervised learning yaitu metode clustering. Metode clustering yang digunakan adalah metode aglomeratif/ Agglomerative Hierarchical Clustering (AHC) dengan teknik pendekatan Centroid Linkage Hierarchical Method (CLHM). Dan untuk membentuk cluster secara otomatis Algoritma Hill-Climbing difungsikan sebagai constraint yang akan melakukan identifikasi terhadap pergerakan varian dari setiap cluster yang terbentuk. Metode hill climbing akan menemukan cluster yang telah memenuhi syarat berhenti algoritma CLHM dalam meng-cluster data, yaitu dengan menemukan posisi global optimum cluster, sehingga tebentuk jumlah cluster yang otomatis. 3.3.5 Contex Diagram dan Data Flow Diagram Analisa bagaimana aktifitas entitas terhadap sistem dapat digambarkan pada contex diagram dan data flow diagram. analisa tersebut dilakukan terhadap aliran data yang berupa data masukan dan keluaran dari sistem yang akan dibangun 3.4 Perancangan Tahap ini adalah proses perancangan sistem secara rinci yang mengacu pada tahapan analisa yang dilakukan sebelumnya. Terdapat 2 perancangan yang dilakukan dalam penelitian ini, yaitu : 1. Perancangan database digunakan merancang struktur database sistem yang akan dibangun sebagai penyimpanan data hasil proses sistem, data tersebut diantaranya adalah data dokumen hasil parsing dari dokumen website, data III-4

hasil proses transformasi terhadap dokumen, serta kumpulan klaster yang terbentuk. 2. Perancangan antar muka sistem ( user interface) merupakan perancangan tampilan sistem dalam menyajikan hasil output dari proses sistem. 3.5 Implementasi Tahap ini adalah proses lanjutan dari proses analisa dan peracangan yaitu penyajian hasil dari penerapan analisa dan perancangan. Implementasi tersebut diantaranya adalah implementasi interface utama maupun tampilan proses sistem lainnya yang telah dibangun, penyajian hasil analisa yang telah diperoleh dari proses implementasi. 3.6 Pengujian Pada tahap pengujian, sistem akan diuji dengan dua metode pengujian untuk mengetahui hasil analisa dan perancangan terhadap sistem serta akurasi dari proses sistem. 3.6.1 Pengujian Validitas Sistem Untuk mengetahui validitas sistem, maka akan dilakukan pengujian terhadap terhadap hasil yang diperoleh dari sistem. Pengujian ini dilakukan dengan membandingkan antara hasil yang diperoleh dari penghitungan data uji secara manual dan hasil yang diperoleh dari sistem. Pengujian secara manual ini melewati keseluruhan tahapan dari proses cluster hingga ditemukan posisi ideal cluster sesuai dengan metode analisis. 3.6.2 Pengujian Akurasi 1. Akurasi Cluster Untuk mengetahui keakuratan dari sutau metode pembentukan cluster pada hierarchical method, baik menggunakan valley-tracing maupun hillclimbing, digunakan Persamaan (2. 14), dengan nilai terdekat ke max ( ) adalah nilai kandidat max ( ) sebelumnya. Nilai yang lebih besar atau sama dengan 2 III-5

( 2), menunjukkan cluster yang tebentuk merupakan cluster yang wellseparated (terpisah dengan baik). 2. Validitas Eksternal/ Validitas Berorientasi Klasifikasi Validitas eksternal mengukur akurasi dengan dengan beberapa parameter berikut, yaitu precision, recall dan F-measure. Ketiga parameter ini diukur dengan melibatkan data eksternal yang diperoleh dengan mengamati dan menseleksi data komentar secara manual, apakah data tersebut benar memiliki kemiripan atau komentar tersebut memang berbeda. Proses seleksi secara manual ini berdasarkan beberapa aturan berikut: 1. Komentar A memuat lebih dari 50% kata pada komentar B. 2. Komentar A mengutip seluruh kata atau lebih dari 50 % kata pada komentar B. Selanjutnya data yang telah diseleksi secara manual dan data yang diperoleh dari hasil pengujian disajikan dalam bentuk matriks confusion. Untuk mendapatakan nilai precision, recall, F-measure digunakan Persamaan (2.15), (2.16) dan (2.17) untuk membandingkan antara data sebenarnya relevan dan tidak relevan dan data yang terambil benar oleh sistem, data terambil salah oleh sistem. 3.7 Kesimpulan dan Saran Tahap ini memuat kesimpulan yang diperoleh dari penelitian setelah dilakukan implementasi dan pengujian terhadap sistem dan saran penulis untuk penelitian lebih lanjut. III-6