Strategi Pemilihan Kalimat pada Peringkasan Multi Dokumen

dokumen-dokumen yang mirip
STRATEGI PEMILIHAN KALIMAT PADA PERINGKASAN MULTI DOKUMEN

BAB IV PEMBAHASAN MODEL

BAB 2 LANDASAN TEORI. Universitas Sumatera Utara

BAB III METODE PENELITIAN. sebuah fenomena atau suatu kejadian yang diteliti. Ciri-ciri metode deskriptif menurut Surakhmad W (1998:140) adalah

BAB 4 METODOLOGI PENELITIAN DAN ANALISIS

ANALISIS DATA KATEGORIK (STK351)

ANALISIS SENTIMEN PENGGUNA JEJARING SOSIAL MENGGUNAKAN METODE SUPPORT VECTOR MACHINE

PENENTUAN KELAS DENGAN NEAREST NEIGHBOR CLUSTERING DAN PENGGUNAAN METODE NAÏVE BAYES UNTUK KLASIFIKASI DOKUMEN

IV. UKURAN SIMPANGAN, DISPERSI & VARIASI

BAB III METODOLOGI PENELITIAN

Nama : Crishadi Juliantoro NPM :

BAB III METODOLOGI PENELITIAN

UJI NORMALITAS X 2. Z p i O i E i (p i x N) Interval SD

III. METODE PENELITIAN. Penelitian ini merupakan studi eksperimen yang telah dilaksanakan di SMA

III. METODE PENELITIAN. Penelitian ini merupakan penelitian pengembangan (Research and

PENENTUAN LOKASI PEMANCAR TELEVISI MENGGUNAKAN FUZZY MULTI CRITERIA DECISION MAKING

BAB III METODE PENELITIAN. Penelitian ini merupakan penelitian yang bertujuan untuk mendeskripsikan

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB III METODE PENELITIAN

IV. PERANCANGAN DAN IMPLEMENTASI SISTEM

BAB III HIPOTESIS DAN METODOLOGI PENELITIAN

BAB III METODE PENELITIAN. Metode penelitian yang digunakan dalam penelitian ini adalah metode

Tinjauan Algoritma Genetika Pada Permasalahan Himpunan Hitting Minimal

BAB I PENDAHULUAN I-1

Pengenalan Karakter Tulisan Tangan Angka dan Operator Matematika Berdasarkan Zernike Moments Menggunakan Support Vector Machine

ALGORITMA UMUM PENCARIAN INFORMASI DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS METODE VEKTORISASI KATA DAN DOKUMEN

BAB 2 LANDASAN TEORI

SISTEM PENDUKUNG KEPUTUSAN PENILAIAN KINERJA DAN PEMILIHAN MITRA BADAN PUSAT STATISTIK (BPS) KABUPATEN GUNUNGKIDUL MENGGUNAKAN METODE SAW BERBASIS WEB

Pengembangan Sistem Deteksi Kesesuaian Dokumen Proposal Program Kreativitas Mahasiswa Dengan Metode Extended Weighted Tree Similarity

Bab 1 PENDAHULUAN Latar Belakang

BAB IV HASIL DAN PEMBAHASAN PENELITIAN. penerapan Customer Relationship Management pada tanggal 30 Juni 2011.

SUMBER BELAJAR PENUNJANG PLPG 2016 MATA PELAJARAN/PAKET KEAHLIAN GURU KELAS SD

BAB 1 PENDAHULUAN. Pertumbuhan dan kestabilan ekonomi, adalah dua syarat penting bagi kemakmuran

PROPOSAL SKRIPSI JUDUL:

BAB III METODE PENELITIAN. yang digunakan meliputi: (1) PDRB Kota Dumai (tahun ) dan PDRB

Bab 2 AKAR-AKAR PERSAMAAN

Bab III Analisis dan Rancangan Sistem Kompresi Kalimat

BAB III METODE PENELITIAN. Jenis penelitian yang akan digunakan dalam penelitian ini adalah

BAB III METODE PENELITIAN. Karangkajen, Madrasah Tsanawiyah Mu'allimaat Muhammadiyah Yogyakarta,

BAB 2 LANDASAN TEORI. estimasi, uji keberartian regresi, analisa korelasi dan uji koefisien regresi.

BAB III METODE PENELITIAN. menghasilkan Lembar Kegiatan Siswa (LKS) pada materi Geometri dengan

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB III METODOLOGI PENELITIAN

BAB IV PEMBAHASAN HASIL PENELITIAN

III. METODE PENELITIAN

BAB V PENGEMBANGAN MODEL FUZZY PROGRAM LINIER

UKURAN LOKASI, VARIASI & BENTUK KURVA

Bab III Analisis Rantai Markov

BAB IV PENGUJIAN DAN ANALISA

IV. HASIL DAN PEMBAHASAN

Preferensi untuk alternatif A i diberikan

BAB I PENDAHULUAN. 1.1 Latar Belakang. Di dalam matematika mulai dari SD, SMP, SMA, dan Perguruan Tinggi

BAB I PENDAHULUAN. Semakin tinggi penerimaan Pajak di Indonesia, semakin tinggi pula kualitas

BAB III METODOLOGI PENELITIAN. Metode yang digunakan dalam penelitian ini adalah metode eksperimen

PERINGKAS DOKUMEN OTOMATIS MENGGUNAKAN METODE FUZZY MODEL SISTEM INFERENSI MAMDANI

BAB 2 LANDASAN TEORI

BAB III METODE PENELITIAN. Pada penelitian ini, penulis memilih lokasi di SMA Negeri 1 Boliyohuto khususnya

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB.3 METODOLOGI PENELITIN 3.1 Lokasi dan Waktu Penelitian Penelitian ini di laksanakan di Sekolah Menengah Pertama (SMP) N. 1 Gorontalo pada kelas

BAB III METODE PENELITIAN. berjumlah empat kelas terdiri dari 131 siswa. Sampel penelitian ini terdiri dari satu kelas yang diambil dengan

BAB IX. STATISTIKA. CONTOH : HASIL ULANGAN MATEMATIKA 5 SISWA SBB: PENGERTIAN STATISTIKA DAN STATISTIK:

TINJAUAN PUSTAKA Kualitas Dosen

III. METODE PENELITIAN. Metode dalam penelitian ini adalah metode eksperimen. Penggunaan metode eksperimen ini

BAB I PENDAHULUAN Latar Belakang. menghimpun dana dari pihak yang kelebihan dana (surplus spending unit) kemudian

BOKS A SUMBANGAN SEKTOR-SEKTOR EKONOMI BALI TERHADAP EKONOMI NASIONAL

BAB III METODE PENELITIAN. hasil penelitian. Walaupun penelitian ini merupakan penelitian kuasi eksperimen,

ANALISIS BENTUK HUBUNGAN

BAB III METODOLOGI PENELITIAN. dalam situs BAPEPAM dan berjumlah dua puluh delapan reksadana yang berasal dari dua

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Negeri 13 Bandar Lampung. Populasi dalam

Pendeteksian Data Pencilan dan Pengamatan Berpengaruh pada Beberapa Kasus Data Menggunakan Metode Diagnostik

BAB IV PERHITUNGAN DAN ANALISIS

III. METODE PENELITIAN. bersifat statistik dengan tujuan menguji hipotesis yang telah ditetapkan.

PENGEMBANGAN METODE ALGORITMA GENETIKA DAN DARWINIAN PARTICLE SWARM OPTIMIZATION UNTUK FUNGSI MULTIMODAL

BAB III METODE PENELITIAN

PENERAPAN METODE LINIEAR DISCRIMINANT ANALYSIS PADA PENGENALAN WAJAH BERBASIS KAMERA

Vol. 6, No. 2, September 2013 ISSN

BAB III METODE PENELITIAN. menggunakan strategi pembelajaran mind mapping dalam pendekatan

BAB III METODE PENELITIAN. Sebelum dilakukan penelitian, langkah pertama yang harus dilakukan oleh

PENGGUNAAN DINDING GESER SEBAGAI ELEMEN PENAHAN GEMPA PADA BANGUNAN BERTINGKAT 10 LANTAI

IMAGE CLUSTER BERDASARKAN WARNA UNTUK IDENTIFIKASI KEMATANGAN BUAH TOMAT DENGAN METODE VALLEY TRACING

BAB III METODOLOGI PENELITIAN. Jenis penelitian yang digunakan adalah penelitian pengembangan yang

BAB 3 PEMBAHASAN. 3.1 Prosedur Penyelesaian Masalah Program Linier Parametrik Prosedur Penyelesaian untuk perubahan kontinu parameter c

ANALISIS KEMIRIPAN POLA CITRA DIGITAL MENGGUNAKAN METODE EUCLIDEAN

BAB V ANALISA PEMECAHAN MASALAH

Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB III METODE PENELITIAN. Jenis penelitian yang dipakai adalah penelitian kuantitatif, dengan

Post test (Treatment) Y 1 X Y 2

EVALUASI METODE PENELUSURAN KERAGAMAN DALAM BLOK DENGAN ANALISIS INTERBLOK

JURNAL MATEMATIKA DAN KOMPUTER Vol. 5. No. 3, , Desember 2002, ISSN :

BAB III METODE PENELITIAN. pembelajaran berupa RPP dan LKS dengan pendekatan berbasis masalah ini

STATISTIK menyatakan kumpulan data, bilangan maupun non bilangan, yg disusun ke dlm tabeldiagram-grafik yang menggambarkan suatu persoalan.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB III METODE PENELITIAN. penelitian dilakukan secara purposive atau sengaja. Pemilihan lokasi penelitian

PERTEMUAN I PENGENALAN STATISTIKA TUJUAN PRAKTIKUM

III. METODOLOGI PENELITIAN

SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA 2010 ANALISIS DISKRIMINAN DISKRIT UNTUK MENGELOMPOKKAN KOMPONEN

PENDAHULUAN TINJAUAN PUSTAKA

SISTEM PENAMBANG TERM INDIKATOR PADA PELATIHAN KEBUTUHAN NON-FUNGSIONAL BERBASIS ISO/IEC 9126

III. METODE PENELITIAN. Penelitian ini dilaksanakan di SMP Al-Azhar 3 Bandar Lampung yang terletak di

Transkripsi:

JURNAL TEKNIK ITS Vol. 5, No. 2, (2016) ISSN: 2337-3539 (2301-9271 Prnt) A-924 Strateg Pemlhan Kalmat pada Perngkasan Mult Dokumen Satro Verdanto, Agus Zanal Arfn, dan Dana Purwtasar Jurusan Teknk Informatka, Fakultas Teknolog Informas, Insttut Teknolog Sepuluh Nopember (ITS) Jl. Aref Rahman Hakm, Surabaya 60111 Indonesa e-mal: agusza@cs.ts.ac.d Abstrak Rngkasan berta dartkan sebaga teks yang dhaslkan dar satu atau lebh kalmat yang menyampakan nformas pentng dar berta. Salah satu fase pentng dalam perngkasan adalah pembobotan kalmat (sentence scorng). Dmana pada perngkasan berta, metode pembobotannya sebagan besar menggunakan ftur dar berta sendr. Berdasarkan hasl dar peneltan [3] bahwa untuk pembobotan kalmat pada dokumen yang memlk karakter teks pendek dan terstruktur sepert berta maka teknk pembobotan kalmat terbak adalah dengan menggunakan kombnas dar keempat ftur yatu word frequency, TF-IDF, poss kalmat, dan kemrpan kalmat terhadap judul (Resemblance to the ttle ). Pada peneltan n kombnas keempat ftur tersebut dbandngkan dengan kombnas tga ftur dan dua ftur dan devaluas menggunakan nla ROUGE-N dan devaluas berdasarkan lama waktu eksekus. Berdasarkan hasl uj coba ddapatkan hasl bahwa yang palng optmal dantara keempat kombnas ftur tersebut adalah kombnas antara dua buah ftur yakn ftur poss kalmat dan word frequency dengan nla ROUGE-N sebesar 0.679 dan lama waktu eksekus 28.458 detk. Kata Kunc kemrpan kalmat terhadap judul, pembobotan kalmat, poss kalmat, ROUGE-N, TF-IDF, word frequency I. PENDAHULUAN EBUTUHAN untuk mengakses nformas khususnya Kberta secara prakts menjad masalah yang harus dselesakan serng berkembang-pesatnya berta yang dapat dakses secara onlne. Perngkasan berta secara otomats adalah salah satu solus untuk menjawab permasalahan datas. Rngkasan berta dapat dartkan sebaga sebuah teks yang dhaslkan dar satu atau lebh kalmat yang mampu menyampakan nformas pentng dar sebuah berta. Dmana panjang dar sebuah rngkasan tdak lebh dar setengah panjang dokumen asl, dan basanya lebh pendek [7]. Perngkasan mult dokumen berta merupakan sstem perngkasan yang melbatkan lebh dar satu berta sebaga nput. Selan tu, dbutuhkan teknk pembobotan kalmat yang handal untuk dapat menghaslkan rngkasan berta yang bak. Berdasarkan hasl dar peneltan [3] bahwa untuk pembobotan kalmat pada dokumen yang memlk karakter teks pendek dan terstruktur sepert berta maka teknk pembobotan kalmat terbak adalah dengan menggunakan kombnas dar keempat ftur yatu word frequency, TF-IDF, poss, dan Resemblance to the ttle. Gambar 1. Dagram alr proses sstem secara umum Sebelum memasuk proses pembobotan, koleks dokumen berta melalu fase praproses data. Fase praproses data melput proses xml parsng, tokenzng, stopword removal, dan stemmng. XML parsng adalah proses pengubahan data.xml ke bentuk strng atau teks. Tokenzng adalah proses pemenggalan kata-kata sehngga setap kata dapat berdr sendr. Stopword removal adalah proses menghapus kata kunc yang tdak layak untuk dgunakan, sepert kata sambung, kata depan, kata gant dls. Sedangkan stemmng adalah proses untuk memperoleh kata dasar dar setap kata. Dalam tugas akhr n stemmng dlakukan dengan memanfaatkan kateglodb. Proses stemmng dlakukan dengan mengubah setap kata ke bentuk dasarnya dengan merujuk ke kateglodb. Data hasl praproses dsmpan ke dalam database. II. TINJAUAN PUSTAKA A. Word Frequency Konsep dar Word Frequency (WF) adalah semakn serng suatu kata muncul dalam sebuah teks maka kata tersebut danggap sebaga kata pentng [3]. Sehngga untuk mendapatkan kata-kata pentng dar sebuah dokumen dlakukan pembobotan kata dengan menghtung frekuens kemunculan kata tersebut pada dokumen. Semakn besar frekuens kemunculan sebuah kata maka skornya akan semakn tngg. Langkah awal yang dlakukan adalah ekstraks term dar dokumen kemudan memberkan bobot pada tap

JURNAL TEKNIK ITS Vol. 5, No. 2, (2016) ISSN: 2337-3539 (2301-9271 Prnt) A-925 term tersebut berdasarkan jumlah kemunculan term pada dokumen. Kemudan merankng term berdasarkan bobot dan menyeleks term yang memlk bobot datas nla ambang (threshold). Term yang terseleks akan menjad Word Frequency Lst (WFLst). WFLst nlah yang nantnya dgunakan sebaga ftur pada pembobotan kalmat dengan cara mengukur kemrpan antara kalmat terhadap WFLst. Metode untuk mengukur kemrpan dapat menggunakan cosne smlarty atau metode pengukur kemrpan yang lan. B. TF-IDF Term Frequency Inverse Document Frequency (TF-IDF) adalah konsep pembobotan term pada sebuah dokumen. Ketka TF-IDF dterapkan pada lngkup kalmat, maka sebuah kalmat akan dberlakukan sebaga dokumen. Konsep dar TF- IDF adalah jka ada kata-kata yang spesfk muncul pada kalmat tertentu maka kalmat tersebut relatf danggap sebaga kalmat pentng [2]. Metode n melakukan perbandngan antara frekuens kemunculan term j pada kalmat ( dengan frekuens kalmat yang mengandung term j (. Bobot TF-IDF dar term j dapat dhtung dengan tf w doc j menggunakan persamaan 1, dmana adalah frekuens kata w ke- pada dokumen ke-j. Konsep tersebut memberkan pengukuran terhadap pentngnya kata w ke- pada dokumen tersebut. Sedangkan dfw dtentukan melalu Persamaan 2, dmana N adalah jumlah dokumen, dfw adalah jumlah dar dokumen yang mengandung kata w ke-. tf_ df tf df (1) w doc j w doc j w N dfw log( ) (2) df w C. Poss Kalmat Poss kalmat merupakan salah satu ftur yang dapat dgunakan untuk pembobotan kalmat. Dmana penlaannya berdasarkan pada letak kalmat dalam sebuah dokumen. Sama sepert peneltan [10] yang menggunakan poss sebaga salah ftur pembobotan kalmat. Dengan menggunakan aturan, kalmat yang possnya berada dawal dokumen memlk skor lebh besar dbandng kalmat yang possnya dakhr. Peneltan tersebut mampu memberkan penjelasan lmah tentang alasan penggunaan aturan tersebut untuk pembobotan kalmat dengan mengutp pernyataan dar Baxendale bahwa kebanyakan kalmat yang muncul dawal paragraf merupakan topc sentence. Hal nlah yang menjad dasar Jang-png (2012) untuk memberkan skor lebh besar pada kalmat yang muncul d awal dokumen. Namun sebenarnya, topc sentence kurang tepat dgunakan sebaga alasan dkarenakan topc sentence berlaku untuk semua jens tulsan termasuk berta onlne. Dan topc sentence bsa saja muncul dsemua poss dokumen, bak d awal, tengah, maupun akhr. Dalam lmu jurnalstk, ada beberapa teknk penulsan berta. Teknk yang palng banyak dgunakan untuk berta onlne adalah pramda terbalk. Pola pramda terbalk merupakan teknk penulsan berta yang dmula atau dawal dar kalmat yang danggap palng pentng, setelah tu dkut hal-hal yang kurang pentng. Peneltan n meyakn bahwa alasan n merupakan alasan yang tepat untuk memberkan skor lebh besar pada kalmat yang ada d poss awal dbandng dengan penggunaan alasan topc sentence. D. Kemrpan Kalmat dengan Judul Berta Judul berta merupakan satu komponen pentng dalam penulsan berta. Dalam berta onlne, judul dtuls secara rngkas dan jelas. Sebuah judul mnmal mengandung unsur S- P-O-K (Subyek Predkat Obyek Keterangan) dan dapat dambl dar beberapa kata atau kutpan yang ada dalam s berta. Hal nlah yang menjad dasar penggunaan judul sebaga nformas untuk mengetahu kalmat pentng dalam sebuah berta. Konsep dar teknk pembobotan kalmat berdasarkan kemrpan kalmat terhadap judul adalah bahwa bobot sebuah kalmat besar ketka nla kemrpan antara judul dengan kalmat tngg. Semakn besar bobot kalmat maka kalmat tersebut akan danggap semakn pentng. Hal n sama sepert yang ada pada peneltan [2] bahwa kalmat yang mrp dengan judul dan kalmat yang mencakup kata-kata dalam judul yang akan danggap sebaga kalmat pentng. III. PEMBOBOTAN KALIMAT DAN PEMILIHAN KALIMAT SEBAGAI RINGKASAN A. Pembobotan Kalmat Fase pembobotan kalmat merupakan proses perhtungan empat buah ftur untuk tap kalmat. Keempat buah ftur tersebut alah ftur poss kalmat, ftur word frequency, ftur TF-IDF, dan ftur kemrpan kalmat dengan judul. Konsep dar pembobotan kalmat yang pertama adalah dengan menggunakan WF. Dalam hal n WFLst ddapatkan dar sejumlah term dengan nla WF memenuh nla ambang (threshold), WFLst = {. Pembobotan kalmat dhtung berdasarkan nla kemrpan antara kalmat terhadap WFLst, persamaan 3. Dalam peneltan n dgunakan cosne smlarty untuk mengukur kemrpan antara kalmat dengan WFLst, Bobot kalmat berdasarkan WF untuk selanjutnya dsebut dengan, dengan S adalah kalmat. Sehngga adalah nla kemrpan kalmat terhadap WFLst, dmana S={. Pembobotan kalmat kedua ( ) pada peneltan n menggunakan pendekatan TF-IDF. Setelah ddapatkan bobot tap term dengan menggunakan persamaan 1, langkah selanjutnya adalah menghtung bobot kalmat berdasarkan bobot TF-IDF yang selanjutnya dsebut dengan menggunakan persamaan 4. merupakan hasl penjumlahan dar seluruh bobot term j yang muncul pada kalmat ( Pembobotan kalmat ketga ( ) menggunakan ftur poss. dhtung dengan menggunakan persamaan 5 yang mengadops dar peneltan (Me & Chen, 2012). Dengan aturan, kalmat yang possnya berada dawal dokumen memlk skor lebh besar dbandng kalmat yang possnya dakhr.

JURNAL TEKNIK ITS Vol. 5, No. 2, (2016) ISSN: 2337-3539 (2301-9271 Prnt) A-926 NO Pembobotan kalmat TOPIK keempat BERITA ( ) melbatkan judul JUMLAH berta BERITA (Ttle). Penghtungan menggunakan persamaan 6 yang mengadops 1 BLBI dar [2] yatu dengan cara membag antara 4 jumlah term 2 judul LG G4 yang muncul pada kalmat (Ntw) dengan 3 jumlah 3 Kunjungan Mark Zuckerberg 4 seluruh term yang ada pada judul (T). 4 Internet Indonesa lambat 2 5 Intel 3 6 Prosesor baru Intel 3 7 Smartphone 4G Intel 3 8 Kunjungan Jokow 2 9 Pdato Presden dan pemberan penghargaan 3 10 Saran SBY 3 11 Proyek LRT 3 12 Jokow ke Arab Saud 2 (3) (4) 13 Setelah Jokow ddapatkan ancam copot bobot menter sampa langkah berkutnya 2 adalah 14 menghtung Iklan Jokow total bobot kalmat dengan menggunakan 5 persamaan 15 Unkom 7. Bobot dan UPI d kalmat LIMA Badmnton yang ddapat berdasarkan 3 sampa seluruhnya TOTAL djumlahkan. Seluruh kalmat 45 akan dhtung bobotnya, hasl dar persamaan 7 nlah yang akan menjad total bobot kalmat. (5) (6) score 7) B. Pemlhan Kalmat sebaga Rngkasan Fase pemlhan kalmat dan penyusunan rngkasan dlakukan dengan melakukan pengurutan bobot kalmat secara descendng (terbesar ke terkecl). Kemudan beberapa kalmat dengan bobot terbesar dambl sebaga rngkasan. IV. UJI COBA DAN EVALUASI Uj coba dlakukan dengan mengukur performa hasl rngkasan dengan menggunakan kombnas empat ftur berta yatu poss kalmat (p), word frequency (w), TF-IDF (t), dan judul berta (j). Nantnya kombnas 4 ftur akan dbandngkan dengan kombnas 3 ftur dan kombnas 2 ftur. Untuk mengukur performans hasl rngkasan dgunakan metode evaluas ROUGE-N yatu ROUGE-1 dan evaluas berdasarkan waktu eksekus. A. Dataset Pengujan pada sstem perngkasan dalam peneltan n dlakukan dengan membandngkan hasl rngkasan sstem dengan hasl rngkasan manusa dengan menggunakan ROUGE-N. Pengujan dlakukan terhadap 15 kelompok dokumen berta berformat.xml yang dkelompokkan berdasarkan topk dmana masng-masng kelompok memlk jumlah dokumen berta yang djelaskan pada Tabel 1. Rngkasan yang dhaslkan terdr dar 10 buah kalmat untuk masng-masng topk. Tabel 1. Dataset berta B. Evaluas berdasarkan Nla ROUGE-1 Dar Tabel 2 dapat dlhat bahwa kombnas empat ftur yakn poss kalmat (p), word frequency (w), TF-IDF (t), dan judul berta (j) memlk total nla ROUGE-1 terbesar kedua setelah kombnas tga ftur yakn poss kalmat, word frequency, dan TF-IDF. Perbedaan dtunjukkan pada dataset rngkasan ke-4 yang dsebabkan oleh struktur xml yang kurang tepat sehngga mengakbatkan sstem dengan kombnas pwtj mengambl kalmat yang bukan bagan dar berta, yakn kalmat Baca juga Tabel 2. Nla ROUGE-1 antara rngkasan sstem (kombnas 2, 3, dan 4 ftur) dengan rngkasan groundtruth Selanjutnya poss ketga adalah kombnas dua ftur yakn poss kalmat dan word frequency. Perbedaan nla ROUGE-1 dantara ketganya pun dapat dkatakan sangat kecl yakn sektar 0.01. Hal n menunjukkan bahwa kombnas empat ftur bukanlah yang terbak dalam menghaslkan rngkasan yang bak. Selan tu, hasl n juga menunjukkan bahwa ftur poss kalmat dan word frequency mengambl peranan pentng dalam menghaslkan rngkasan yang bak. Sebalknya ftur kemrpan dengan judul berta tdak peranan pentng karena dengan atau tanpa ftur tersebut nla ROUGE-1 tdak menunjukkan perbedaan yakn antara pwtj dan pwt. Bahkan pada kombnas tga ftur dan dua ftur dapat dlhat bahwa penggunaan ftur tersebut menghaslkan nla ROUGE-1 yang lebh kecl dbandngkan menggunakan ftur lan. C. Evaluas berdasarkan Waktu Eksekus Selan tu, uj coba juga dlakukan dengan mengukur waktu eksekus masng-masng kombnas untuk seluruh berta. Tabel 3. Lama waktu eksekus program (dalam satuan detk) tap kombnas ftur untuk tap topk berta Dar Tabel 3 dapat dlhat bahwa urutan rata-rata waktu eksekus seluruh kombnas terhadap 15 topk berta dar yang tercepat hngga yang terlambat alah sebaga berkut. 1. pj 2. wj 3. pw

JURNAL TEKNIK ITS Vol. 5, No. 2, (2016) ISSN: 2337-3539 (2301-9271 Prnt) A-927 4. pwj 5. pt 6. tj 7. wt 8. wtj 9. pwt 10. pwtj 11. ptj Pengukuran berdasarkan waktu eksekus saja tentunya tdak dapat djadkan landasan mutlak untuk mengukur performa suatu metode. Maka dar tu, untuk mengetahu kombnas yang palng optmal untuk dgunakan dalam proses pemlhan kalmat, analss berdasarkan waktu eksekus akan dpadukan dengan analss berdasarkan nla ROUGE-1. D. Analss Tabel 4 menunjukkan urutan kombnas berdasarkan nla ROUGE-1 dan waktu eksekus. Nla ROUGE-1 durutkan secara descendng (terbesar - terkecl) sedangkan waktu eksekus durutkan secara ascendng (tercepat terlambat). Dar tabel tersebut dapat dambl dsmpulkan bahwa kombnas dua ftur yakn poss kalmat dan word frequency merupakan kombnas yang optmal untuk mendapatkan rngkasan yang bak dengan waktu yang cukup cepat. Kombnas dua ftur yakn poss kalmat dan word frequency merupakan kombnas yang optmal dsebabkan oleh hal-hal berkut. 1. Sebagan besar berta cenderung menyampakan de pokoknya pada awal-awal kalmat sedangkan kalmatkalmat selanjutnya merupakan penjelas atau bahkan nformas-nformas lan d luar pokok bahasan. Sehngga dengan menggunakan ftur poss kalmat, kta dapat mengambl ntsar dar berta tersebut. Selan tu, perhtungan skor poss kalmat juga sangat sederhana (persamaan 5 ) sehngga tdak memakan waktu eksekus program. 2. Kalmat-kalmat berta yang dapat djadkan sebaga rngkasan secara umum mengandung kata-kata yang serng muncul pada kumpulan dokumen. 3. Ftur TF-IDF sebenarnya merupakan ftur yang cukup pentng untuk menghaslkan rngkasan yang bak. Hal n dapat dlhat dar nla ROUGE-1 yang tngg ketka menggunakan ftur TF-IDF. Namun, jka dlhat berdasarkan waktu, penggunaan ftur TF-IDF cukup memakan waktu eksekus karena dalam prosesnya ftur n harus menghtung bobot TF-IDF tap kata d tap dokumen. Untuk ftur kemrpan dengan judul berta, berdasarkan hasl uj coba, dapat dsmpulkan bahwa ftur tersebut tdak terlalu memegang peranan pentng karena dengan atau tanpa ftur tersebut nla ROUGE-1 tdak menunjukkan perbedaan yakn antara kombnas 4 ftur dan kombnas ftur poss kalmat, word frequency, dan TF-IDF. Bahkan pada kombnas tga ftur dan dua ftur dapat dlhat bahwa penggunaan ftur tersebut menghaslkan nla ROUGE-1 yang lebh kecl dbandngkan menggunakan ftur lan. Tabel 4. Urutan kombnas berdasarkan ROUGE-1 dan waktu eksekus V. KESIMPULAN DAN SARAN A. Kesmpulan Berdasarkan uj coba, ddapatkan kesmpulan bahwa dantara empat kombnas ftur yakn ftur poss kalmat, word frequency, TF-IDF, dan judul berta, kombnas yang palng optmal berdasarkan nla ROUGE-1 dan waktu eksekus adalah kombnas ftur poss kalmat dan word frequency dengan nla ROUGE-1 sebesar 0.679 dan lama waktu eksekus 28.458 detk. B. Saran Adapun saran untuk pengembangan lebh lanjut dar proses perngkasan mult-dokumen dalam Tugas Akhr n alah dlakukan pengembangan lebh lanjut agar tngkat akuras yang dhaslkan bsa lebh bak yatu dengan cara mencar tahu nla parameter-parameter yang optmal contohnya parameter threshold jumlah kata yang dmasukkan ke dalam WFLst. DAFTAR PUSTAKA [1] Fachrurroz, M., Yuslan, N., & Yoanta, R. U. (2013). Frequent Term based Text Summarzaton for Bahasa Indonesa. Internatonal Conference on Innovatons n Engneerng and Technology (ICIET'2013). Bangkok (Thaland). [2] Ferrera, R., Cabral, L. d., Lns, R. D., e Slva, G. P., & Fretas, F. (2013). Assessng sentence scorng technques for extractve text summarzaton. Expert Systems wth Applcatons, 40, 5755 5764. [3] Ferrera, R., Fretas, F., Cabral, L. d., Lns, R. D., Lma, R., Franc a, G.,... Favaro, L. (2014). A Context Based Text Summarzaton System. 11th IAPR Internatonal Workshop on Document Analyss Systems. IEEE. [4] Hol, M. H. (2006). Integratng tf-df Weghtng Wth Fuzzy Vew based Search. Proceedngs of the ECAI Workshop on Text-Based Informaton Retreval (TIR-06). Rva del Garda, Italy. [5] Karel J., J. S. (2008). Automatc Text Summarzaton (The State of The Art 2007 and New Challenges). Znalost (hal. 1-12). Ústav nformatky a softvérového nznerstva: FIIT STU Bratslava. [6] Ln, C. Y. (2004). ROUGE: a Package for Automatc Evaluaton of Summares. In Proceedngs of Workshop on Text Summarzaton Brances Out (hal. 74-81). Barcelona: Assocaton for Computatonal Lngustcs. [7] Radev, D. R., Hovy, E. H., & McKeown, K. (2002). Introducton to the Specal Issue on Summarzaton. Computatonal Lngustcs, 28(4), 399-408. [8] Salton, G., & Buckley, C. (1988). TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL. Informaton Processng & Management, 24, 513-523. [9] Kavta-Ganesan (2016). ROUGE 2.0 Documentaton - Java Package for Evaluaton of Summarzaton Tasks [Onlne].Terseda:http://kavtaganesan.com/content/rouge-2.0-documentaton [18 Jul 2016]

JURNAL TEKNIK ITS Vol. 5, No. 2, (2016) ISSN: 2337-3539 (2301-9271 Prnt) A-928 [10] Me, J.-P., & Chen, L. (2012). SumCR: A new subtopc-based extractve approach for text summarzaton. Knowl Inf Syst (2012), 31, 527 545.