BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

dokumen-dokumen yang mirip
BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III METODELOGI PENELITIAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB III METODOLOGI PENELITIAN

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN

BAB III METODOLOGI PENELITIAN

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB III METODOLOGI PENELITIAN

BAB 3 LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

BAB III ANALISIS DAN PERANCANGAN

beberapa tag-tag lain yang lebih spesifik di dalamnya.

BAB II LANDASAN TEORI

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

BAB IV HASIL DAN UJI COBA

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I-1

BAB III PEMBAHASAN. untuk menampilkan ringkasan dari teks yang dimasukkan pengguna. Ringkasan

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB 2 TINJAUAN PUSTAKA

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB 1 PENDAHULUAN. Latar Belakang

KLASIFIKASI PENENTUAN TIM UTAMA OLAHRAGA HOCKEY MENGGUNAKAN ALGORITMA C4.5 (Study Kasus : Hockey Kabupaten Kendal)

BAB I PENDAHULUAN 1.1 Latar Belakang

JURNAL IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK MEMPREDIKSI PRESTASI SISWA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Abstrak. Kata Kunci : pohon keputusan, data mining, kepuasan pelanggan, C4.5

PENDAHULUAN. Latar belakang

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB II TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

1.5 Metode Penelitian

HASIL DAN PEMBAHASAN. sim(, )=

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

BAB 2 LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Gambar 1.1 Proses Text Mining [7]

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 3 LANDASAN TEORI

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

Algoritma Data Mining (2) Tugas Klasifikasi


BAB III METODOLOGI PENELITIAN

1. PENDAHULUAN 1.1 Latar belakang Masalah

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB II LANDASAN TEORI

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

4 HASIL DAN PEMBAHASAN

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

PENENTUAN PENERIMAAN SISWA BARU MENGGUNAKAN DECISION TREE

Penerapan Data Mining dalam Memprediksi Pembelian cat

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

Identifikasi Tipe Pertanyaan Asumsi Pengelompokan Tipe Jawaban Lingkungan Implementasi Temu Kembali Jawaban HASIL DAN PEMBAHASAN

Decision Tree Learning Untuk Penentuan Jalur Kelulusan Mahasiswa

Burhanudin Junardi Karim Dr. Lintang Yuniar Banowosari, S.Kom., M.Sc

DAFTAR ISI PHP... 15

4 HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang

1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI

BAB III METODOLOGI PENELITIAN. Dataset

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

BAB III METODE PENELITIAN. Pendekatan metode pengembangan sistem yang digunakan peneliti merupakan

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

PROGRAM BANTU PEMILIHAN PAKAIAN DAN BAHAN BATIK BAGI KONSUMEN DENGAN PENDEKATAN DECISION TREE Studi Kasus : Toko InBATIK

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI DATA MINING DENGAN ALGORITMA C4.5 UNTUK PENJURUSAN SISWA (STUDI KASUS: SMA NEGERI 1 PONTIANAK)

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III METODOLOGI PENELITIAN

Transkripsi:

BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian dilanjutkan pada tahap training untuk menghasilkan model atau rule menggunakan metode decision tree. Setelah model keputusan dibuat, dilanjutkan pada tahap testing untuk menghasilkan ringkasan sistem. Tahap akhir adalah evaluasi, untuk menguji tingkat akurasi antara hasil ringkasan sistem dengan ringkasan secara manual. 4.1 Pengumpulan Dokumen Penelitian ini membutuhkan masukan dokumen teks berbahasa Indonesia dengan dokumen berjenis file teks. Pada penelitian ini digunakan sebanyak 100 dokumen teks berita nasional, yang terdiri atas 50 dokumen digunakan sebagai data training, dan 50 dokumen lainnya digunakan sebagai data testing. Dokumen tersebut bersumber dari berita online harian Kompas yang merupakan korpus penelitian (Aristoteles, Herdiyeni, Ridha, & Adisantoso, 2012). Masing-masing dokumen sudah memiliki hasil ringkasan manual. Pada tahap testing ringkasan manual digunakan untuk membandingkan dengan hasil ringkasan sistem, serta menilai seberapa akurat sistem peringkasan yang dibuat. 34

4.2 Training Data Gambar 1 Tahap Training Gambar 4 menunjukan tahapan training data dengan dua jenis masukan yaitu teks berita dan ringkasan manual. Tujuan akhir dari tahapan ini adalah untuk menghasilkan model keputusan yang terdiri dari rules atau aturan-aturan. Pada tahapan training, proses pertama adalah tokenisasi, dimana terdapat input masukan yaitu teks berita. Tokenisasi adalah proses untuk menghilangkan tanda baca dalam teks, kemudian memecah paragraf menjadi kalimat, dan dari kalimat dipecah menjadi kata-kata untuk mempermudah proses pembobotan pada tiap kalimat. Hasil dari tokenisasi ini akan diolah pada tahapan berikutnya yaitu stemming. Pada penelitian ini tokenisasi terdiri atas empat tahap, yaitu pemisahan 35

kalimat, case folding, dan yang terakhir pemisahan kata. Tokenisasi sangatlah penting dilakukan karena pada proses fitur teks, dokumen yang akan diolah harus sudah terpisah dengan bentuk kalimat dan kata. Proses pertama dalam tokenisasi yaitu memisahkan dokumen menjadi kumpulan kalimat. Menurut Aristoteles (2011), kalimat adalah gabungan dari dua buah kata atau lebih yang menghasilkan suatu arti dan diakhiri dengan suatu tanda berhenti. Tanda berhenti yang dimaksud adalah tanda baca titik. Pemisahan kalimat ini sangat penting, karena masingmasing kalimat ini nantinya akan diberikan skor dan akan diseleksi dengan batasan tertentu. Kalimat yang memiliki skor tertinggi merupakan hasil ekstraksi dokumen. Proses selanjutnya adalah case folding, case folding merupakan proses mengubah semua huruf dalam dokumen ke dalam bentuk yang seragam, pada kasus ini menjadikan lower case. Proses ini dilakukan dengan tujuan menyeragamkan kata yang sebenarnya sama tetapi berbeda dalam penulisan. Contoh pemisahan kalimat dan case folding bisa dilihat pada gambar berikut: 36

Gambar 2 Alur pemrosesan tokenisasi Setelah proses pemisahan kalimat dan kata, tahap selanjutnya dilakukan proses stemming. Stemming adalah proses mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata dasarnya (root word) dengan cara menghilangkan imbuhan baik awalan, akhiran, maupun sisipan.. Sebagai contoh, kata berdiri, pendirian, mendirikan, akan distem ke kata dasarnya yaitu diri. Langkah berikutnya adalah menghapus stopword. Stopword adalah kata umum yang tidak memiliki arti penting atau tidak relevan. Contohnya adalah katakata penghubung seperti dan, yang, atau, di, dari, dan seterusnya. Langkah ini perlu dilakukan agar sistem dapat mengenali kata-kata penting yang memiliki makna dalam sebuah dokumen teks. 37

4.2.1 Sentence Scoring Proses berikut adalah sentence scoring, dimana setiap kalimat akan diberi nilai atau bobot berdasarkan 8 fitur pembobotan yaitu TF/IDF, kalimat dengan huruf kapital, kalimat dengan kata benda, frasa penting, data angka, panjang kalimat, posisi kalimat, dan kemiripan kalimat dengan judul. Penjelasan dan rumus tiap-tiap fitur adalah sebagai berikut: 1. TF/IDF (F1) Pembobotan diperoleh berdasarkan jumlah kemunculan term atau kata dalam kalimat (TF) dan jumlah kemunculan term atau kata pada seluruh kalimat dalam dokumen (IDF). TF s, t term frequency s, t...(15) max term frequency s, ti N Score f 1 s, t TF s, tlog...(16) sft 2. Kalimat Mengandung Huruf Kapital (F2) Metode ini memberikan bobot yang lebih tinggi untuk kata-kata yang mengandung satu atau lebih huruf kapital, misalnya adalah nama orang, kota, negara, dan singkatan. Berikut rumus yang digunakan: CW s jumlah kata huruf besar dalam s...(17) jumlah kata dalam s Score f 2 s CW s...(18) max CW s 38

3. Kalimat Mengandung Kata Benda (F3) Kalimat yang mengandung jumlah kata benda yang lebih banyak mendapat bobot lebih tinggi dan cenderung untuk dimasukkan dalam ringkasan dokumen. Kata benda seperti nama orang atau nama tempat. Score f 3s jumlah kata benda dalam s...(19) jumlah kata dalam s 4. Kalimat Mengandung Frasa Penting (f4) Secara umum, kalimat dimulai dengan frasa dengan demikian, penyelidikan, dan menekankan seperti yang terbaik, paling penting, menurut penelitian, khususnya, serta frasa lainnya dapat menjadi indikator yang baik dari dokumen teks. Score f 4s jumlah frasa dalam s...(20) jumlah frasa dalam dokumen 5. Kalimat Mengandung Data Angka (F5) Pada peringkasan teks mempertimbangkan data angka dalam dokumen, karena pada kalimat yang berisi data angka biasanya mengandung informasi yang penting. Score f 5s data angka dalam s...(21) panjang s 39

6. Panjang Kalimat (F6) Kalimat yang panjang memiliki bobot yang lebih tinggi. Panjang kalimat dihitung berdasarkan jumlah kata dalam kalimat dikali dengan rata-rata panjang kalimat dalam dokumen. Score f 6 s panjang s * rerata panjang kalimat...(22) 7. Posisi Kalimat (F7) Posisi kalimat adalah letak kalimat dalam sebuah paragraf. Asumsinya bahwa kalimat pertama pada tiap paragraf adalah kalimat yang paling penting. Score f 7s posisi s dalam paragraf...(23) jumlahtotal kalimat dalam dokumen 8. Kemiripan Kalimat Dengan Judul (F8) Kalimat yang menyerupai judul dokumen adalah kata yang muncul dalam kalimat sama dengan kata yang ada dalam judul dokumen. Score f 8s keyword dalam s keyword dalam judul keyword dalam s keyword dalam judul...(24) 4.2.2 Decision Tree Setiap bobot yang dimiliki masing-masing kalimat akan digunakan sebagai data training pada algoritma decision tree untuk menghasilkan model keputusan. Sebelum melakukan ekstraksi data ke dalam bentuk model tree, tentumya ada beberapa proses yang harus diperhatikan dalam pembentukan struktur pohon ini, yaitu: 40

a. Pilih root berdasarkan gain ratio terbesar b. Pilih internal root atau cabang root berdasar gain ratio terbesar setelah menghapus atribut yang telah terpilih sebagai root c. Ulangi sampai semua atribut terhitung nilai gain ratio pada masing-masing atribut. Parameter yang tepat digunakan untuk mengukur efektifitas suatu atribut dalam melakukan teknik pengklasifikasian sampel data, salah satunya adalah dengan menggunakan information gain. Sebelum mencari nilai gain, terlebih dahulu mencari peluang kemunculan suatu record dalam atribut (entropy). Secara matematis nilai entropy dapat dihitung dengan menggunakan formula sebagai berikut : Entropi S n pi log pi...(25) * 2 i1 Dimana S adalah himpunan kasus, n adalah jumlah nilai yang ada pada atribut target (jumlah kelas), sedangkan pi adalah jumlah sampel pada kelas i. Ketika kita sudah mendapatkan nilai entropy, maka langkah selanjutnya adalah melakukan perhitungan terhadap information gain dengan formula sebagai berikut: n Si Gain S, A Entropi S * Entropi Si...(25) S i1 Dimana S adalah himpunan kasus, A adalah atribut, n adalah jumlah partisi atribut A, sedangkan i menyatakan suatu nilai yang mungkin untuk atribut 41

A dan Si adalah jumlah kasus partisi ke i. Selanjutnya untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi (SplitInformation). Pemisahan informasi dihitung dengan cara : SplitInformation S A c i...(26) i, log2 Dimana S 1 sampai S c adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai banyak C nilai. Selanjutnya rasio perolehan (gain ratio) dihitung dengan cara : GainRatio S, A t1 S S S S Gain S, A...(27) SplitInformation S, A Tabel 1 Contoh data training Kalimat f1 f2 f3 f4 f5 f6 f7 f8 Ringkasan 1 0.1 0.2 0.0 0.0 0.1 0.3 0.5 0.1 YA 2 0.3 0.1 0.2 0.0 0.1 0.4 0.2 0.0 YA 3 0.4 0.2 0.1 0.2 0.2 0.2 0.3 0.3 TIDAK 4 0.2 0.3 0.3 0.1 0.4 0.1 0.5 0.4 YA dst 0.1 0.4 0.0 0.0 0.1 0.4 0.1 0.0 TIDAK Dari tabel 1 diatas dapat dijelaskan bahwa setiap kalimat adalah sebagai data sample, f1 sampai f8 adalah atribut, dan pada kolom ringkasan adalah target atribut dimana terdapat dua atribut YA dan TIDAK. Atribut YA berarti kalimat yang muncul dalam ringkasan, sedangkan atribut TIDAK menunjukan kalimat yang tidak masuk dalam ringkasan. 42

4.3 Testing Data Tahapan selanjutnya adalah testing data. Pada tahapan ini, model keputusan yang sudah dihasilkan pada proses training akan digunakan untuk menghasilkan ringkasan sistem. Dokumen teks yang digunakan berjumlah 50 data. Adapun beberapa tahap testing dapat digambarkan sebagai berikut: Gambar 3 Tahap Testing Bagan diatas menunjukan tahapan testing, dimana alur prosesnya hampir sama dengan tahapan training. Dimulai dengan masukan berupa dokumen teks berita dan menghasilkan keluaran berupa ringkasan sistem. 43

4.4 Evaluasi Dalam penelitian ini, evaluasi dilakukan dengan mengukur keakuratan antara hasil ringkasan sistem dengan ringkasan manual. Pengujian terhadap ringkasan sistem ini akan menggunakan metode precision, recall, dan f-measure. Precision mengevaluasi proporsi ketepatan untuk kalimat dalam ringkasan sedangkan recall digunakan untuk mengevaluasi proporsi kalimat yang relevan termasuk dalam ringkasan (Prasad & Kulkarni, 2010). tp Precision tp fp tp Recall tp fn 2*Precision Recall F measure Precision Recall...(28)...(29)...(30) Dimana: tp (true positif) adalah kalimat yang ada dalam ringkasan manual dan muncul dalam ringkasan sistem. fp (false positif) adalah kalimat yang tidak ada dalam ringkasan manual tetapi kalimat tersebut muncul dalam ringkasan sistem. fn (false negatif) adalah kalimat yang ada dalam ringkasan manual tetapi tidak muncul dalam ringkasan sistem. tn (true negatif) adalah kalimat yang tidak ada dalam ringkasan manual maupun dalam ringkasan sistem. 44

4.5 Lingkungan Pengembangan Lingkungan pengembangan sistem peringkasan teks yang akan digunakan dalam penelitian ini sebagai berikut: Perangkat lunak: Windows 10, XAMPP, Rapid PHP 2015, Firefox developer edition, Microsoft Office 2016 Perangkat keras: Intel(R) Core(TM) i3-2356 CPU @ 1.40 GHz, 2037 MB RAM Bahasa Pemrograman PHP dan database MySQL. 45