IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

Transkripsi

1 IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA SKRIPSI diajukan sebagai salah satu persyaratan untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan Teknik Informatika dan Komputer Oleh Winda Yulita NIM JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS NEGERI SEMARANG 2015 i

2 PERSETUJUAN PEMBIMBING Nama : Winda Yulita NIM : Program Studi Judul Skripsi : S-1 Pendidikan Teknik Informatika dan Komputer : Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Beria Skripsi ini telah disetujui oleh pembimbing untuk diajukan ke sidang Panitia Ujian Skripsi Program Studi S-1 Pendidikan Teknik Informatika dan Komputer FT. UNNES. Semarang, Juni 2015 Pembimbing Feddy Setio Pribadi S.Pd., M.T. NIP ii

3 PENGESAHAN Skripsi dengan judul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita telah dipertahankan di depan sidang Panitia Ujian Skripsi Fakultas Teknik UNNES pada tanggal 25 bulan Juni tahun Oleh Nama : Winda Yulita NIM : Program Studi : S-1 Pendidikan Teknik Informatika dan Komputer Panitia : Ketua Panitia Sekretaris Drs. Suryono, MT NIP Feddy Setio Pribadi, S.Pd., MT NIP Penguji I Penguji II Penguji III/Pembimbing Dr. Hari Wibawanto, MT Aryo Baskoro, ST, MT Feddy Setio Pribadi S.Pd.,MT NIP NIP NIP Mengetahui : Dekan Fakultas Teknik UNNES Drs. M. Harlanu, M.Pd. NIP iii

4 PERNYATAAN KEASLIAN Dengan ini saya menyatakan bahwa : 1. Skripsi ini adalah asli dan belum pernah diajukan untuk mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di Universitas Negeri Semarang (UNNES) maupun di perguruan tinggi lain. 2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri, tanpa bantuan pihak lain, kecuali arahan Pembimbing dan masukan Tim Penguji. 3. Dalam karya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan sebagai acuan dalam naskah dengan disebutkan nama pengarang dan dicantumkan dalam daftar pustaka. 4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang berlaku di perguruan tinggi ini. Semarang, Juni 2015 yang membuat pernyataan, Winda Yulita NIM iv

5 MOTTO DAN PERSEMBAHAN MOTTO Setiap tangisan akan berujung dengan senyuman, ketakutan akan berakhir dengan rasa aman, dan kegelisahan akan sirna oleh kedamaian (La Tahzan) PERSEMBAHAN Skripsi ini saya persembahkan kepada : Bapak dan Ibu yang selalu mendoakan dan menyayangi saya Abangku, David dan adikku Dicky yang aku sayangi Abah Yai Masyrohan beserta keluarga besar PPDAW Kak Siddiq Supriyanto yang memberikan saran Teman-teman Al-Kholik dan eks-alkholik v

6 ABSTRAK Yulita, Winda Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita. Dibimbing oleh Feddy Setio Pribadi, S.Pd., M.T. Program studi Pendidikan Teknik Informatika dan Komputer. Sejak tahun 2000, di Indonesia media online berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat. Berdasarkan konten berita, portal berita online ada yang berskala nasional dan lokal. Struktur kalimat pada portal berskala nasional lebih dominan menggunakan kalimat yang panjang, sedangkan berita pada portal berskala lokal lebih banyak menggunakan kalimat yang lebih ringkas. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang ringkas. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat, sehingga kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia mengetahui inti berita. Oleh karena itu dibuatlah sistem peringkasan teks otomatis dengan metode Maximum Marginal Relevance dan pembobotan kata dengan algoritma TF-IDF-DF untuk melihat keefektifan dalam menghasilkan ringkasan. Dokumen uji coba diambil dari antaranews.com untuk portal online berskala nasional, sedangkan untuk portal online berskala lokal dari tribunjateng.com dan radarmagelang.com. Proses peringkasan melalui tahap text preprocessing, yang terdiri dari segmentasi kalimat, case folding, tokenizing filtering dan stemming. Tahap selanjutnya perhitungan TF-IDF-DF untuk menentukan bobot kata dan menentukan ringkasan dengan MMR. Hasil pengujian dibandingkan dengan ringkasan manual yang menghasil nilai precision 76, 39 %, recall 65,28 %, dan f-measure 70,4 % untuk dokumen berita dari portal online berskala nasional, sedangkan peringkasan artikel berita dari portal berita online lokal menghasilkan nilai precision 45,83 %, recall 45,83 %, dan f-measure 45,83%. Kata kunci : peringkasan teks, artikel berita, portal online berskala nasional dan lokal, Maximum Marginal Relevance, TF-IDF-DF. vi

7 KATA PENGANTAR Segala puji dan syukur penulis ucapkan kehadirat Allah SWT dan mengharapkan ridho yang telah melimpahkan rahmat-nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita. Skripsi ini disusun sebagai salah satu persyaratan meraih gelar Sarjana Pendidikan pada Program Studi S-1 Pendidikan Teknik Informatika dan Komputer Universitas Negeri Semarang. Shalawat dan salam disampaikan kepada junjungan alam Nabi Muhammad SAW, mudah-mudahan kita semua mendapatkan safaat Nya di yaumil akhir nanti, Amin. Penyelesaian karya tulis ini tidak lepas dari bantuan berbagai pihak, oleh karena itu pada kesempatan ini penulis menyampaikan ucapan terima kasih kepada: 1. Prof. Dr. Fathur Rokhman, M.Hum, Rektor Universitas Negeri Semarang yang memberikan kesempatan untuk menempuh studi di Universitas Negeri Semarang. 2. Drs. M. Harlanu, M.Pd., Dekan Fakultas Teknik, Drs. Suryono, M.T., Ketua Jurusan Teknik Elektro, dan Feddy Setio Pribadi, S.Pd., M.T., Ketua Program Studi Pendidikan Teknik Informatika dan Komputer, yang memberikan kesempatan dan izin dalam penyusunan skripsi ini. 3. Feddy Setio Pribadi, S.Pd., M.T., selaku dosen pembimbing yang telah memberikan masukan dan arahan sehingga skripsi ini dapat diselesaikan dengan baik. 4. Dr. Hari Wibawanto, MT dan Aryo Baskoro, ST, MT, sebagai Penguji I dan Penguji II yang telah memberikan pertanyaan, saran dan perbaikan sehingga menambah bobot dan kualitas skripsi ini. 5. Para dosen Pendidikan Teknik Informatika dan Komputer FT. UNNES yang telah memberikan bekal dan pengetahuan yang berharga. 6. Orang tua dan keluarga saya yang telah memberikan dukungan dan doa. 7. Semua pihak yang telah membantu dalam penelitian ini. vii

8 Penulis berharap semoga skripsi ini dapat bermanfaat untuk perkembangan metode peringkasan otomatis. Semarang, Juni 2015 Penulis viii

9 DAFTAR ISI HALAMAN JUDUL... i PERSETUJUAN PEMBIMBING... ii PERNYATAAN KEASLIAN... iii PENGESAHAN... iv MOTTO DAN PERSEMBAHAN... v ABSTRAK... vi KATA PENGANTAR... vii DAFTAR ISI... ix DAFTAR TABEL... xii DAFTAR GAMBAR... xiv DAFTAR LAMPIRAN... xv BAB I PENDAHULUAN 1.1 Latar Belakang Rumusan Masalah Tujuan Penelitian Manfaat Penelitian Pembatasan Masalah Penegasan Istilah... 4 BAB II PUSTAKA DAN LANDASAN TEORI 2.1 Landasan Teori Konsep Dasar Peringkasan Teks Otomatis Morfologi Bahasa Indonesia Text Preprocessing Konsep Dasar Term Frequency-Inverse Document Frequency- Document Frequency (TF-IDF-DF) Konsep Dasar Cosine Similarity Konsep Dasar Maximum Marginal Relevance (MMR) ix

10 2.1.7 Evaluasi Peringkasan Teks Peringkasan Teks Otomatis Menggunakan Metode TF-IDF-DF dan Metode MMR Penelitian Terdahulu Perangkat Pembangunan Aplikasi Kerangka Berfikir BAB III METODE PENELITIAN 3.1 Metode Pengumpulan Data Observasi Studi Pustaka Pengembangan Sistem Arsitektur Sistem Desain Pengkodean Perancangan Pengujian Bahan Pengujian Tujuan Pengujian Skenario dan Kriteria Pengujian BAB IV HASIL DAN PEMBAHASAN 4.1 Spesifikasi Hardware dan Software Hasil Pengujian dan Analisis Hasil Responden Hasil Sistem Text preprocessing Algoritma TF-IDF-DF Algoritma cosine similarity Metode MMR Evaluasi sistem Perbandingan Hasil Ringkasan Portal Berita Online Berskala Nasional dan x

11 Lokal BAB V PENUTUP 5.1 Kesimpulan Saran DAFTAR PUSTAKA xi

12 DAFTAR TABEL Tabel 2.1. Proses segmentasi Tabel 2.2. Proses case folding Tabel 2.3. Proses tokenizing kata Tabel 2.4. Proses filtering Tabel 2.5. Hasil stemming Tabel 2.6. Kombinasi awalan akhiran yang tidak diizinkan Tabel 2.7. Aturan Pemenggalan Awalan Stemmer Nazief & Adriani Tabel 2.8. Jenis awalan berdasarkan tipe awalannya Tabel 2.9. Hasil penghitungan bobot masing-masing kata Tabel 4.1. Ringkasan manual portal berita online berskala nasional Tabel 4.2. Ringkasan manual portal berita online berskala lokal Tabel 4.3. Ringkasan sistem portal berita online berskala nasional Tabel 4.4. Hasil segmentasi kalimat Tabel 4.5. Hasil case folding Tabel 4.6. Hasil tokenizing Tabel 4.7. Hasil filtering Tabel 4.8. Hasil stemming Tabel 4.9. Hasil penghitungan bobot masing-masing kata Tabel Relevansi antara judul dan semua kalimat Tabel Similarity antara kalimat Tabel Perhitungan MMR iterasi ke Tabel Nilai S i untuk perhitungan MMR iterasi ke Tabel Nilai MMR iterasi ke Tabel Nilai similarity yang digunakan Tabel Hasil perhitungan MMR Tabel Hasil perangkingan kalimat xii

13 Tabel Nilai akurasi pada portal berita online nasional Tabel Nilai akurasi pada portal berita online lokal Tabel Pengaruh panjang kalimat Tabel Pengaruh banyak query xiii

14 DAFTAR GAMBAR Gambar 2.1. Proses text preprocessing Gambar 2.2. Kerangka berfikir Gambar 3.1. Arsitektur sistem peringkasan teks otomatis Gambar 3.2. Alur proses pengembangan sistem Gambar 3.3. Gambar interface proses peringkasan Gambar 3.4. Gambar interface menyimpan ringkasan Gambar 3.5. Pseudocode pemecahan paragraf dan tokenizing Gambar 3.6. Pseudocode penyaringan simbol dan stopword Gambar 3.7. Pseudocode penghitungan nilai TF dan DF Gambar 3.8. Pseudocode penghitungan nilai TF-IDF-IDF Gambar 3.9. Pseudocode penghitungan nilai cosine similarity Gambar Pseudocode penghitungan nilai MMR xiv

15 DAFTAR LAMPIRAN Lampiran 1. Perhitungan cosine similarity Lampiran 2. Surat Tugas Panitia Ujian Sarjana Lampiran 3. Surat Penetapan Dosen Pembimbing xv

16 BAB 1 PENDAHULUAN 1.1. Latar Belakang Sejak tahun 2000, di Indonesia media online berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat (Nugroho, et al., 2012:83). Portal berita online ada berskala nasional dan lokal. Antaranews.com merupakan portal berita online berskala nasional yang beritanya mencakup peristiwa atau kejadian di lokal, nasional, bahkan internasional dan distribusi media cetaknya hampir meliputi semua wilayah (pulau, provinsi, kota/kabupaten). Berbeda dengan portal berita online lokal, sebagian besar beritanya hanya seputar peristiwa yang terjadi di suatu daerah saja dan distribusi media cetaknya mencakup satu provinsi dan kota/kabupaten dalam provinsi tersebut, seperti tribunjateng.com dan radarmagelang.com. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat. Oleh karena itu, kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia. Dalam dunia komputer peringkasan teks dikenal dengan peringkasan teks otomatis (automatic text summarization). Peringkasan teks otomatis adalah secara otomatis komputer mengekstrak ringkasan dari artikel asli. Dalam keadaan ideal, ringkasan dapat mendeskripsikan isi 1

17 2 utama dari artikel secara akurat dan memahamkan serta bahasa ringkasan koheren (Lahari, et al., 2014:1519). Peringkasan teks otomatis telah banyak diteliti oleh beberapa peneliti terdahulu dengan menggunakan berbagai metode dan diterapkan dalam berbagai bahasa. Di antaranya word frequency (Luhn, 1958), sentence position (Hovy dan Lin, 1997), lexical chain (Barzilay, 1997) dan maximum marginal relevance (Cabonell dan Goldstein, 1998). Adapun metode dan algoritma yang diterapkan pada teks bahasa Indonesia, seperti algoritma genetika (Aristoteles, 2013), Metode Relevance Measure dan Latent Semantic Analysis (Triwibowo, et al., 2010) serta Maximum Marginal Relevance (Mustaqhfiri, 2011). Metode Maximum Marginal Relevance memiliki beberapa kelebihan yaitu, sederhana, efisien dan dapat mengurangi redundansi (Xie dan Liu, 2008:4985). Kelebihan tersebut menyebabkan banyak peneliti yang tertarik terhadap metode tersebut, seperti Mustaqhfiri, et al., (2011) yang meneliti mengenai peringkasan teks otomatis berbahasa Indonesia pada berita Tempo Interaktif menggunakan metode Maximum Marginal Relevance (MMR). Kesimpulan dari penelitiannya yaitu metode MMR dapat meringkas single dokumen secara otomatis dengan akurasi 66 %. Pesatnya perkembangan portal berita online yang tanpa kendali menyebabkan banyaknya portal berita online yang tampil dengan gaya dan struktur yang berbeda. Pada portal berita online berskala nasional, dominan

18 3 menggunakan kalimat yang panjang, sedangkan pada portal berita online berskala lokal, lebih banyak menggunakan kalimat yang pendek. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang pendek. Berdasarkan permasalahan tersebut, maka peneliti tertarik untuk melakukan penelitian terhadap peringkasan teks otomatis pada portal berita online berskala nasional dan lokal dengan judul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita Rumusan Masalah Berdasarkan latar belakang yang telah dikemukakan, maka terdapat masalah yang timbul, yaitu : bagaimana keefektifan metode summarization dengan menggunakan pembobotan kata TF-IDF-DF yang diterapkan dalam metode Maximum Marginal Relevance (MMR) sebagai alat bantu dalam proses peringkasan teks pada artikel berita? 1.3. Tujuan Penelitian Tujuan penulisan skripsi ini adalah mengetahui keefektifan metode summarization dengan menggunakan pembobotan kata dengan metode TF- IDF-DF yang diterapkan dalam metode Maximum Marginl Relevance (MMR) sebagai alat bantu dalam proses peringkasan teks pada artikel berita.

19 Manfaat Penelitian Manfaat dari penelitian ini adalah menghemat waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita, mengetahui kemampuan metode MMR (Maximum Marginal Relevance) dalam memperoleh ringkasan berita secara otomatis, serta menambah ilmu pengetahuan, menjadi bahan referensi dan perbandingan untuk penelitian yang berkaitan dengan penggunaan metode MMR Pembatasan Masalah Permasalahan dibatasi pada proses peringkasan teks otomatis yang telah dikembangkan yaitu menggunakan metode Maximum Marginal Relevance (MMR). Inputan teks yang digunakan berupa single document, artinya ringkasan dihasilkan dari satu dokumen sumber. Teks yang dapat diringkas hanya sebatas karakter a-z Penegasan Istilah Berikut dijelaskan beberapa istilah yang berkaitan dengan judul penelitian. Beberapa istilah tersebut adalah : a) Peringkasan Teks Otomatis (Automatic Summarization Text) Automatic Summarization Text adalah komputer secara otomatis mengekstrak ringkasan dari artikel asli. Dalam kasus ideal, ringkasan bisa menggambarkan isi utama dari artikel (Lahari, et al., 2014 : 1519). Peringkasan teks otomatis yang dimaksud dalam penelitian ini adalah suatu aplikasi yang dijalankan oleh komputer untuk memproses artikel

20 5 berita menjadi ringkasan yang lebih padat yang dapat mewakili isi dari suatu artikel berita. b) Artikel Artikel adalah sebuah susunan tulisan yang lengkap, mengenai suatu masalah tertentu, dalam surat kabar, majalah, dan sebagainya (Shahab, 2008:94). c) Berita Berdasarkan pendapat Harviyanto (2013:34), berita adalah laporan yang berisi suatu peristiwa atau kejadian penting yang menarik perhatian orang banyak dan berita itu berisi tentang fakta atau suatu yang baru yang dapat dipublikasikan melalui media cetak atau media elektronik. d) TF-IDF-DF Metode TF-IDF-DF (Term Frequency-Inverse Document Frequency-Document Frequency) merupakan modifikasi dari metode TF-IDF untuk mendapatkan bobot perwakilan dari kata-kata yang diekstrak dari data informasi dengan mempertimbangan penyebaran kata di dokumen lain (Pramono, et al., 2013). e) Maximum Marginal Relevance (MMR) Maximum Marginal Relevance (MMR) adalah algoritma untuk menentukan relevansi hasil ringkasan dengan dokumen dan query (judul artikel berita) yang diberikan oleh user berdasarkan bobot

21 6 kesamaannya serta dapat mengurangi redundansi dalam peringkasan (Mustaqhfiri, et al., 2011 : 135).

22 BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori Konsep Dasar Peringkasan Teks Otomatis Teks yang terdapat pada buku, koran, majalah dan artikel yang terdiri dari banyak kalimat terkadang membutuhkan ringkasan untuk mengetahui inti bacaan. Ringkasan merupakan miniatur karangan aslinya sehingga struktur dan kelengkapan unsur ringkasan harus sama dengan karangan asli. Konsep sederhana dari meringkas adalah mengambil bagian penting dari suatu teks yang menggambarkan keseluruhan dokumen. Dalam dunia komputer peringkasan teks dikenal dengan Peringkasan Teks Otomatis. Peringkasan Teks Otomatis (Automatic Summarization Text) adalah komputer secara otomatis mengekstrak ringkasan dari artikel asli. Dalam kasus yang ideal, ringkasan bisa menggambarkan isi utama dari artikel secara akurat dan komprehensif, dan bahasa ringkasan koheren dan halus (Lahari, et al., 2014 : 1519). Menurut Muchammad Mustaqhfiri peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih singkat dari suatu teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada komputer (Mustaqhfiri, et al., 2011 : 134). Peringkasan teks otomatis telah banyak diteliti oleh beberapa peneliti terdahulu dengan menggunakan berbagai metode dan pendekatan. Teknik untuk peringkasan dengan teknik statistika diantaranya yaitu teknik word 7

23 8 frequency (Luhn, 1958) dan sentence position (Hoovy dan Lin, 1997). Teknik pendekatan dengan natural language analysis yaitu maximum marginal relevance (Cabonell dan Goldstein, 1998). Peringkasan teks otomatis diklasifikasikan menjadi 2 kategori, yaitu ekstraksi dan abstraksi. Peringkasan ekstraksi adalah pilihan kalimat atau prase dari teks asli dengan skor paling besar tanpa mengubah teks sumber. Metode peringkasan abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks. Sebagian besar metode yang digunakan untuk peringkasan teks adalah metode peringkasan ekstraksi. Berdasarkan jumlah sumbernya peringkasan teks otomatis dapat dibagi menjadi dua yaitu single document dan multi document (Mulyana et al., : 2). Single document merupakan sumber dokumen yang akan diekstraksi berupa dokumen tunggal sedangkan, multi document adalah dokumen yang akan diekstrak terdiri dari beberapa dokumen. Berdasarkan metodenya, peringkasan dokumen dapat dibedakan menjadi peringkasan generik (generic summarization) dan peringkasan berdasarkan query (query-based summarization) (Jesek dan Steinberger, 2008:3). Metode peringkasan dilakukan dengan menggunakan metode perangkingan untuk memilih kalimat dengan informasi yang sesuai dengan kebutuhan user. Hal ini mengakibatkan kurangnya keefektifan suatu kalimat yang dipilih, karena tidak memperhitungkan adanya duplikasi informasi terhadap kalimat yang menjadi ringkasan. Oleh karena itu, dibutuhkan suatu metode untuk menangani duplikasi informasi (Yusintan et al., 2010:1-2).

24 9 Penulis memilih menggunakan metode Maximum Marginal Relevance (MMR) untuk meringkas artikel berita Morfologi Bahasa Indonesia Secara etimologi kata morfologi berasal dari kata morf yang berarti bentuk dan kata logi yang berarti ilmu. Secara harfiah kata morfologi berarti ilmu mengenal bentuk. Jadi, ujung dari proses morfologi adalah terbentuknya kata dalam bentuk dan makna sesuai dengan keperluan dalam satu tindak pertuturan (Chaer, 2008:3). Morfologi terbagi menjadi 2 bentuk, yaitu : a. Bentuk inflektif Dalam pembentukan kata inflektif, identitas leksikal kata yang dihasilkan sama dengan identitas leksikal bentuk dasarnya. Pembentukan kata membeli dari dasar beli adalah sebuah kasus inflektif. Hal ini karena beli dan kata membeli sama-sama berkategori verba. Kasus inflektif dalam bahasa Indonesia hanya terdapat dalam pembentukan verba transitif, yaitu dengan prefik me-, prefik di-, prefik ter-, dan prefik zero. Bentuk dasarnya dapat berupa : 1) Pangkal verba akar yang memiliki komponen makna, seperti baca, beli dan tulis. 2) Pangkal bersufiks kan, seperti selipkan dan daratkan. 3) Pangkal bersufiks i, seperti tangisi dan nasihati 4) Pengkal bersufiks per-, seperti perpanjang dan perluas. 5) Pangkal berkonfiks per-kan seperti persembahkan. 6) Pangkal berkonfiks per-i, seperti perbaiki.

25 10 Keenam tipe pangkal tersebut dapat diberi afiks me-, di-, ter-, dan zero. Contoh: 1) medi- + baca ter- Ø 2) medi- + selipkan ter- Ø 3) medi- + nasihati ter- Ø 4) medi- + perpanjang ter- Ø 5) medi- + persembahkan ter- Ø 6) medi- + perbaiki ter- Ø

26 11 b. Bentuk derivatif Proses pembentukan derivatif identitas bentuk yang dihasilkan tidak sama dengan identitas leksikal bentuk dasarnya. Pembentukan kata pembeli dari dasar beli adalah kasus derivatif. Dasar beli dan pembeli tidak sama kategorinya. Beli adalah verba dan pembeli adalah nomina. Pada derivatif juga terdapat prefiks me-, prefiks di-, dan prefiks ter-, seperti pada bentuk inflektif. Misal : 1) Prefiks me-, seperti melompat dan membengkak. 2) Prefiks di-, seperti dimaksud. 3) Prefiks ter-, seperti terlena dan tertidur Text Preprocessing Text preprocessing adalah suatu tahap untuk mengolah teks berita yang merupakan bahan mentah menjadi kata-kata yang telah siap dihitung bobot katanya. Beberapa proses dari text preprocessing, yaitu segmentasi kalimat, case folding, tokenizing, filtering, dan stemming. Berikut adalah diagram alirnya terlihat pada gambar 2.1.

27 12 Segmentasi kalimat Case folding tokenizing filtering stemming Gambar 2.1 Proses text preprocessing a. Segmentasi kalimat Segmentasi kalimat merupakan langkah awal dari proses text preprocessing. Dalam proses ini, teks berita yang terdiri dari paragraf yang dipecah menjadi beberapa kalimat. Pemisahan setiap kalimat berdasarkan tanda baca, seperti tanda titik (.), tanda seru (!) dan tanda tanya (?). Contoh pemecahan dokumen menjadi kalimat pada tabel 2.1. Tabel 2.1 Proses segmentasi Dokumen Membuang sampah sembarangan dapat menyebabkan banjir. Aliran air akan tersumbat karena sampah. Banjir merugikan manusia. Hasil segmentasi kalimat - Membuang sampah sembarangan dapat menyebabkan banjir - Aliran air akan tersumbat karena sampah - Banjir merugikan manusia

28 13 b. Case Folding Paragraf berita yang telah dipotong menjadi kalimat akan menjalankan proses case folding. Case folding adalah proses mengubah semua teks menjadi karakter dengan huruf kecil dan membuang semua karakter selain a-z. Jika terdapat tanda baca, bilangan numerik dan simbol akan dihilangkan. Contohnya terlihat pada tabel 2.2. Tabel 2.2 Proses case folding Kalimat - Membuang sampah sembarangan dapat menyebabkan banjir - Aliran air akan tersumbat karena sampah - Banjir merugikan manusia Hasil case folding - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah - banjir merugikan manusia c. Tokenizing Suatu proses untuk mengubah bentuk kalimat menjadi kata-kata tunggal. Pemotongan kalimat berdasarkan delimiter yang menyusunnya, yaitu spasi ( ). Proses ini bertujuan agar nantinya dapat melakukan proses stemming. Contoh hasil tokenizing kata terlihat pada tabel 2.3. Tabel 2.3 Proses tokenizing kata Hasil filtering - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah Hasil tokenizing kata - membuang - sampah - sembarangan - dapat

29 14 - banjir merugikan manusia - menyebabkan - banjir - aliran - air - akan - tersumbat - karena - sampah - banjir - merugikan - manusia d. Filtering Pada proses filtering dilakukan pembuangan stopword. Stopword adalah kata-kata yang tidak memiliki makna atau kata yang kurang berarti dan sering muncul dalam kumpulan kata-kata. Proses pembuangan katakata yang tidak penting dengan mengecek pada kamus stopword. Jika kata ada yang sama dengan kata pada kamus stopword maka kata tersebut akan dibuang atau dihapus. Seandainya stopword tidak dihilangkan maka stopword akan memiliki bobot yang besar karena sering muncul dalam teks, sehingga akan mempengaruhi hasil ringkasan karena kalimat yang terpilih adalah kalimat yang memiliki bobot paling besar. Stopword dapat berupa kata penghubung, kata ganti, preposisi, dll, seperti : dia, antara, akan, demi, karena, atau, bahwa, bila, juga, kalau, hingga, bagi, kecuali, oleh, dan lain-lain. Contoh filtering terlihat pada tabel 2.4.

30 15 Tabel 2.4 Proses filtering Kalimat - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah - banjir merugikan manusia Hasil filtering - membuang sampah sembarangan menyebabkan banjir - aliran air tersumbat sampah - banjir merugikan manusia e. Stemming Proses selanjutnya stemming, yaitu mengembalikan suatu kata ke bentuk akarnya (root word) dengan aturan-aturan tertentu, sehingga setiap kata memiliki representasi yang sama. Stemming dalam penelitian ini menggunakan algoritma Nazief & Adriani (1996). Contoh stemming terlihat pada tabel 2.5. Tabel 2.5 Hasil stemming Hasil tokenizing kata Hasil stemming Membuang air buang air sampah tersumbat sampah sumbat sembarangan sampah sembarang sampah menyebabkan banjir sebab banjir banjir merugikan banjir rugi aliran manusia alir manusia

31 16 Algoritma stemming Nazief dan Adriani (1996), dikembangkan berdasarkan morfologi bahasa Indonesia dengan mengelompokkan imbuhan menjadi awalan (prefix), akhiran (suffix), dan gabungan awalanakhiran (confixes). Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut: 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tersebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( - ku, -mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a. a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

32 17 a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan pada tabel 2.6. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2.8. Hapus awalan jika ditemukan.

33 18 Tabel 2.6 Kombinasi awalan akhiran yang tidak diizinkan Awalan Akhiran yang tidak diizinkan be- -i dikemese- -an -i, -kan -an -i, -kan Tabel 2.7 Aturan Pemenggalan Awalan Stemmer Nazief & Adriani Aturan Format Kata Pemenggalan 1 berv ber-v be-rv 2 bercap ber-cap dimana C!= r & P!= er 3 bercaerv ber-caerv dimana C! r 4 Belajar bel-ajar 5 bec l erc2 be-c lerc2 dimana C1!={ r I } 6 terv Ter-V te-rv 7 tercerv Ter-CerV dimana C!= r 8 tercp Ter-CP dimana C!= r dan P!= er 9 tec1erc2... te-c1erc2... dimana C1!= r 10 me{l r w y}v... me-{l r w y}v mem{b f v}... mem-{b f v} mempe{r l}... mem-pe mem{rv V}... me-m{rv V}... me-p{rv V} men{c d j z}... men-{c d j z} menv... me-nv... me-tv 16 meng{g h q}... meng-{g h q} mengv... meng-v... meng-kv menyv... meny-sv 19 mempv... mem-pv... dimana V!= e 20 pe{w y}v... pe-{w y}v perv... per-v... pe-rv percap per-cap... dimana C!= r dan P!= er 24 percaerv... per-caerv... dimana C!= r 25 pem{b f V}... pem-{b f V}...

34 19 Aturan Format Kata Pemenggalan 26 pem{rv V}... pe-m{rv V}... pe-p{rv V} pen{c d j z}... pen-{c d j z} penv... pe-nv... pe-tv peng{g h q}... peng-{g h q} pengv... peng-v... peng-kv penyv... peny-sv 32 pelv... pe-lv... kecuali pelajar yang menghasilkan ajar 33 pecerv... per-erv... dimana C!={r w y l m n} 34 pecp... pe-cp... dimana C!={r w y l m n} dan P!= er Keterangan simbol huruf : C : huruf konsonan V : huruf vokal A : huruf vokal atau konsonan P : partikel atau fragmen dari suatu kata, misalnya er Tabel 2.8 Jenis awalan berdasarkan tipe awalannya Tipe awalan dikeseteterter-luluh Awalan yang harus dihapus -di keseteterter

35 20 Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh: buku-buku root word-nya adalah buku. b. Kata lain, misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root word berbalas-balasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Untuk tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng-.

36 Konsep Dasar Term Frequency-Inverse Document Frequency- Document Frequency (TF-IDF-DF) Metode Term Frequency-Inverse Document Frequency-Document Frequency (TF-IDF-DF) merupakan modifikasi dari metode TF-IDF, karena metode TF-IDF memiliki kekurangan dalam pembobotan kata. Kekurangannya yaitu adanya anggapan bahwa kata yang tersebar dalam dokumen lain tidak penting, sehingga dianggap tidak ada. Padahal kata yang sering muncul dalam kalimat lain bisa jadi merupakan kata yang penting. Akibatnya, nilai bobot yang tinggi diperoleh pada kata yang memiliki frekuensi tinggi dalam dokumen, sedangkan kata yang tersebar di dokumen lain memiliki perhitungan bobot yang kecil. Oleh karena itu, metode TF-IDF ini dikembangkan lebih lanjut untuk mendapatkan bobot perwakilan dari kata-kata yang diekstrak dengan mempertimbangan penyebaran kata di dokumen lain. Document Frequency (DF) yang mengandung kata ke-i berpengaruh pada topik keseluruhan dokumen, sehingga nilai dalam pembobotan kata akan dikalikan dengan DF kata ke-i (Pramono, 2013). Rumus pembobotan kata dari modifikasi TF-IDF adalah : w i,j = (tf i,j x log ( N df i )) x df i Dimana w i,j adalah bobot dari kata ke-i dari dokumen ke-j. tf i,j adalah term frequency, adalah jumlah kata dari kata ke-i dalam dokumen ke-j. log ( N df i ) merupakan rumus Invers Document Frequency (IDF), N merupakan jumlah seluruh dokumen atau kalimat. df i yaitu document frequency

37 22 merupakan banyaknya kalimat yang berisi kata ke-i dalam kumpulan dokumen. Contoh perhitungan algoritma TF-IDF-DF dengan term sampah sesuai dengan tabel 2.5 sebagai berikut : w i,j = (tf i,j x log ( N df i )) x df i w 2,1 = (1 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 1 (D1) = 0,81093 w 2,2 = (1 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 2 (D2) = 0,81093 w 2,3 = (0 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 3 (D3) = 0 Pada tabel 2.1 diketahui bahwa jumlah dokumen (N) sebanyak 3 kalimat. Hasil perhitungan bobot kata dengan metode TF-IDF-DF terlihat pada tabel 2.9. Tabel 2.9 Hasil penghitungan bobot masing-masing kata Term tf W Df Idf D1 D2 D3 D1 D2 D3 buang , , sampah , , , sembarang , , sebab , , banjir , , , alir , , air , , sumbat , , rugi , , manusia , ,098612

38 23 Keterangan : Term : kata yang akan dihitung bobotnya Tf Df Idf W Di : jumlah kata muncul dalam satu kalimat/dokumen : jumlah dokumen yang berisi kata tersebut : kemunculan kata pada kumpulan kalimat/dokumen : bobot kata : dokumen atau kalimat (i=1,2,3) Konsep Dasar Cosine Similarity Cosine similarity digunakan untuk menghitung relevansi query dengan dokumen. Nilai relevansi didapat dengan mengukur kesamaan antara 2 vektor, yaitu vektor query dan vektor dokumen. Semakin besar nilai relevansi, maka query dan dokumen akan semakin relevan. Menurut Patidar et al. (2013: 90), ukuran kesamaan (similarity measure) adalah jarak antara berbagai titik data. Similarity measure juga digunakan dalam mengukur kesamaan antara set berdasarkan persimpangan dua set. Similarity measure juga dikenal sebagai fungsi yang menghitung tingkat kesamaan antara sepasang objek teks. Singkatnya, similarity adalah jumlah yang mencerminkan kekuatan hubungan antara dua data. Ada beberapa jenis similarity measure seperti Dice coeficient, Jaccard Similarity, Cosine Similarity, Euclidean Distance dan lain-lain. Similarity measure dapat mewakili kesamaan antara dua kalimat dan memungkinkan untuk merangking informasi yang diambil dalam urutan dengan anggapan itu penting.

39 24 Salah satu ukuran kesamaan yang paling umum digunakan adalah cosine similarity. Cosine similarity merupakan dasar perhitungan untuk mendapatkan nilai relevansi antara query dengan dokumen dan relevansi antara dokumen. Cosine similarity adalah cosine sudut θ antara vektor. Cosine similarity memiliki rumus seperti dibawah ini : Keterangan : sim (S 1, S 2 ) = S 1 = vektor bobot kata yang menjadi kandidat S 2 = vektor bobot kata selain kandidat i t 1i t 2i 2 i t 1i X 2 i t 2i Dimana t i merupakan bobot kata dari kata w i. Berikut adalah contoh perhitungan cosine similarity antara kalimat 1 (D1) dengan kalimat 2 (D2) : sim (D 1, D 2 ) = i t 1i t 2i 2 i t 1i X 2 i t 2i = (1, ) + (0, ,81093) + (1, ) + (1, ) + (0, ) + (0 1,098612) + (0 1,098612) + (0 1,098612) + (0 0) + (0 0) 1, , , , , , , , , Konsep Dasar Maximum Marginal Relevance (MMR) Summarization (peringkasan) bertujuan untuk menghasilkan ringkasan sebuah dokumen atau sekelompok dokumen. Teks summarization dapat dikategorikan dalam peringkasan single-document atau multi-document.

40 25 Peringkasan pada single-document, Carbonell (1998 : 336) mengusulkan metode Maximum Marginal Relevance (MMR) untuk menghasilkan ringkasan. Metode ini diusulkan pertama kali oleh Carbonell dan Goldstein pada tahun Maximum Marginal Relevance (MMR) adalah salah satu dari sekian metode ekstraksi teks yang dapat diterapkan untuk meringkas dokumen tunggal maupun multi dokumen dengan cara melakukan rangking ulang dan membandingkan similarity antar dokumen. Menurut Toth, B. (2010), Maximum Marginal Relevance (MMR) adalah teknik peringkasan yang bertujuan untuk menangkap informasi yang relevan dan tidak mengandung redudansi. MMR berfungsi untuk menghitung kesamaan antara bagian teks. Tujuannya adalah dicapainya skor kalimat berdasarkan kesamaan (similarity) query yang diberikan. Metode MMR sering digunakan untuk peringkasan teks karena metode MMR sederhana dan efisien (Xie, S dan Liu, Y., 2008 : 4985). Jika kesamaan (similarity) antara satu kalimat dengan kalimat yang lain tinggi, maka kemungkinan terjadi redundansi. Rumus untuk menghitung nilai MMR yang dapat mengurangi redundansi adalah : MMR (S i ) = λ. Sim 1 (S i, Q) (1 λ). max Sim 2 (S i, S j ) Keterangan : λ = parameter bobot untuk mengatur tingkat relevansi S i = vektor bobot kata yang menjadi kandidat

41 26 S j = vektor bobot kata selain yang menjadi kadidat Q = vektor bobot kata dari query user (judul berita) Sim 1 = nilai similarity antara query dengan tiap kalimat Sim 2 = nilai similarity antara kalimat Sim adalah kosinus kesamaan antara dua vektor fitur. λ adalah kofisien untuk mengatur relevansi kalimat dan mengurangi redundansi. Nilai parameter λ adalah 1 atau 0 atau diantaranya (0 < λ < 1). Pada saat parameter λ = 1 maka nilai MMR yang diperoleh cenderung relevan terhadap dokumen asli. Ketika λ = 0 maka nilai MMR yang diperoleh akan cenderung releven terhadap kalimat yang diekstrak sebelumnya yang akan dibandingkan. Oleh sebab itu, sebuah kombinasi linear dari kedua kriteria dioptimalkan ketika nilai λ terdapat pada interval 0 < λ < 1. Untuk peringkasan dengan dokumen yang kecil, seperti artikel berita akan menghasilkan hasil ringkasan yang baik, jika nilai parameter λ = 0,7 atau λ = 0,8 (Goldstein, 2008). Penggunaan rumus MMR dalam perangkingan ulang adalah untuk mendapatkan ringkasan dengan similarity query kalimat tinggi, sedangkan similarity antara kalimat rendah. Pada rumus dibawah ini merupakan rumus yang memperhitungkan relevansi kalimat dengan query. Jadi, rumus tersebut merupakan benih untuk menentukan kalimat yang akan dipilih selanjutnya untuk menjadi ringkasan. Kalimat yang akan dipilih sebagai ringkasan berikutnya adalah kaliamat yang berdekat dengan kalimat benih ini. MMR (S i ) = Sim (S i, Query)

42 Evaluasi Peringkasan Teks Menurut Nedunchelian (2011:5), proses evaluasi hasil text summarization dilakukan menggunakan tiga parameter yaitu precision, recall, dan F-measure. Cara mengevaluasi dengan membandingkan ringkasan otomatis hasil sistem dengan ringkasan manual. 1. Precision Merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi yang terambil oleh sistem baik yang relevan maupun tidak. Persamaan precision ditunjukkan pada persamaan berikut : 2. Recall P = correct (correct + wrong) Merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi relevan yang ada dalam koleksi informasi (baik yang terambil atau tidak terambil oleh sistem). Keterangan: R = correct (correct + missed) Correct : jumlah kalimat yang diekstrak oleh sistem dan manusia. Wrong : jumlah kalimat yang diekstrak oleh sistem tetapi tidak diekstrak oleh manusia. Missed : jumlah kalimat yang diekstrak oleh masnusia tetapi tidak diekstrak oleh sistem.

43 28 3. F-measure Merupakan hubungan antara recall dan precision yang mempresentasikan akurasi sistem. Persamaan F-measure seperti berikut : F = 2 R P (R + P) Peringkasan Teks Otomatis Menggunakan Metode TF-IDF-DF dan Metode MMR Pada penelitian ini, peringkasan teks otomatis dengan menggunakan metode TF-IDF-DF untuk pembobotan kata dan menggunakan metode MMR untuk peringkasannya. Inputan teks berupa artikel berita sebagai single dokument yang merupakan bahan mentah untuk menghasilkan ringkasan (summary). Untuk menghasilkan ringkasan, artikel berita tersebut harus menjalankan proses text preprocessing, yaitu tahap untuk mengubah artikel berita yang merupakan bahan mentah menjadi teks yang siap untuk dihitung bobot katanya. Text preprocessing melewati beberapa proses seperti segmentasi kalimat, case folding, tokenizing, filtering, dan stemming. Peringkasan teks otomatis dengan metode TF-IDF-DF dan MMR terdiri dari tahap-tahap berikut : (1) Artikel berita diinput dengan mamasukkan query berupa judul dan teks beritanya. (2) Segmentasi kalimat Memecah paragraf menjadi kalimat-kalimat. Pemecahan dilakukan berdasarkan tanda baca berupa tanda titik (.), tanda tanya (?) dan tanda seru (!). Pemisahannya menggunakan fungsi split().

44 29 (3) Case folding Proses mengubah huruf kapital menjadi huruf kecil dan membuang semua tanda baca, angka dan simbol. (4) Tokenizing Memecah kalimat menjadi kata berdasarkan spasi antara kata. (5) Filtering Proses pembuangan kata yang tidak berpengaruh terhadap proses peringkasan. Kumpulan kata tersebut berupa stopword, sehingga kata tersebut tidak mengganggu proses pembobotan kata nantinya. (6) Stemming Merupakan proses pencarian kata dasar dengan cara membuang imbuhan yang terdapat pada kata (kembali dalam bentuk akarnya). (7) Perhitungan pembobotan kata dengan metode TF-IDF-DF Pada tahap ini, penghitungan bobot kata dimulai dengan mencari nilai TF (Term Frequency), yaitu mencari nilai banyaknya kata yang muncul dalam suatu kalimat. Berikutnya mencari nilai IDF(Invers Document Frequency) merupakan perhitungan jumlah kata (term) dalam seluruh kalimat pada dokumen. Terakhir menghitung nilai DF(Document Frequency) yaitu nilai jumlah kalimat yang mengandung suatu kata. (8) Perhitungan cosine similarity Menghitung kesamaan antara satu kalimat dengan seluruh kalimat lain dan antara query (judul) dengan seluruh kalimat.

45 30 (9) Perhitungan MMR Tahap ini menghitung nilai relevansi antara nilai cosine similarity query dengan seluruh kalimat dan kalimat dengan seluruh kalimat (Mustaqhfiri, et al., 2011:144). (10) Perankingan kalimat Ringkasan artikel berita diperoleh dari memilih tiga kalimat (ukuran ringkasan yang diinginkan) dengan skor MMR yang tertinggi (Mustaqhfiri, et al., 2011:135). (11) Menentukan nilai precision, recall, dan F-measure. Sebuah sistem informasi dikatakan baik jika tingkat precision, recall, dan F-measure-nya tinggi. 2.2 Penelitian Terdahulu Beberapa penelitian terdahulu yang berkaitan dengan penelitian peringkasan teks otomatis, seperti : Luthfan Hadi Pramono, Arief Syaichu Rohman, dan Hilwadi Hindersah dari Institut Teknologi Bandung tahun 2013 dalam penelitiannya yang berjudul Modified Weighting Method in TF*IDF Algorithm for Extracting User Topic Based on and Social Media in Integrated Digital Assistant, menyatakan bahwa mengekstraksi topik dengan memodifikasi TF*IDF yaitu TF*IDF*DF diperoleh peningkatan pada jumlah informasi berita dan terdapat perbedaan informasi berita. Untuk algoritma TF*IDF diperoleh 39 berita, sedangkan algoritma TF*IDF*DF diperoleh 46 berita.

46 31 Muchammad Mustaqhfiri, Zainal Abidin dan Ririen Kusumawati dari Universitas Islam Negeri Maulana Malik Ibrahim Malang tahun 2011 dalam penelitiannya yang berjudul Peringkasan Teks Otomatis Berita Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance, membahas tentang metode MMR yang dapat digunakan untuk meringkas single dokument secara otomatis. Dokumen diperoleh dari portal berita online Tempo Interaktif dengan hasil rata-rata recall 60%, precision 77% dan f-measure 60% berdasarkan perbandingan dengan ringkasan manual. Jaime G. Carbonell dan Jade Golstein dari Carnegie Mellon University tahun 1998 dalam penelitian yang berjudul The Use of MMR and Diversity- Based Reranking in Document Reranking and Summarization, membahas tentang perangkingan dengan metode MMR menghasilkan kemanfaatan dan merupakan cara yang berguna untuk menyediakan informasi kepada user dengan membiarkan user meminimalkan redundansi. Penelitian ini diterapkan pada kasus peringkasan multi dokumen. Octarina Nur Hidayah, Warih Maharani, dan Kusuma Ayu Laksitowening dari Institut Teknologi Telkom Bandung tahun 2013 dalam penelitiannya yang berjudul Opinion Summarization Review Produk dalam Bahasa Indonesia dengan Metode Maximum Marginal Relevance (MMR), membahas tentang sistem opinion summarization yang dapat meringkas review produk dalam bahasa Indonesia dan mengelompokkannya dalam kategori positif dan negatif. Berdasarkan pengujian yang dilakukan, peringkasan review

47 32 produk berbahasa Indonesia menghasilkan precision tertinggi 88,89% dengan recall 88,89%. Zaman, B. & Winarko, E. pada tahun 2011 dalam penelitiannya yang berjudul Analisis Fitur Kalimat untuk Peringkasan Teks Otomatis pada Bahasa Indonesia, menghasilkan kesimpulan bahwa tingkat akurasi peringkas teks otomatis menggunakan pembobotan fitur lebih baik dibandingkan dengan tanpa fitur pembobotan. Dakumen uji cobanya diambil dari kompas.com. Aristoteles dari Universitas Lampung dalam penelitiannya yang berjudul Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia, membahas tentang meringkas dokumen bahasa Indonesia yang berjenis file teks dengan menggunakan algoritma genetika. Sumber dokumen uji cobanya diambil dari harian kompas online. Dalam penelitian ini menerapkan sebelas fitur teks, yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antar kalimat, kalimat menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antar-kalimat, penjumlahan bobot antar-kalimat, dan kalimat semantik. Hasil pengujian menunjukkan bahwa akurasi dengan pemampatan 30%, 20%, 10% sebesar 47,46%, 4,29% dan 35,01%. 2.3 Perangkat Pembangun Aplikasi XAMMP v3.2.1 terdiri dari beberapa aplikasi sebagai berikut : (1) PHP PHP (Hypertext Preprocessor) merupakan bahasa script server-side yang digunakan untuk mempermudah dan meningkatkan keefisiensi dalam

48 33 pembuatan Web. PHP merupakan software open-source yang disisipkan pada dokumen HTML (Peranginangin, 2006:2). PHP juga merupakan script pemograman yang terletak dan dieksekusi di server dan berfungsi sebagai pengolah data pada server sehingga website akan lebih interaktif dan dinamis. (2) MySQL MySQL adalah salah satu program yang dapat digunakan sebagai database dan merupakan salah satu software untuk database server yang banyak digunakan. MySQL bersifat Open Source dan menggunakan SQL. Kelebihan My SQL diantaranya adalah dapat digunakan oleh beberapa user dalam waktu bersamaan tanpa mengalami masalah, memiliki kecepatan yang bagus dalam menangani query sederhana, mampu menangani basis data dalam skala besar, memiliki keamanan yang baik, memiliki operator dan fungsi secara penuh dan mendukung perintah Select dan Where dalam perintah query, dll (MADCOMS, 2011:140). (3) phpmyadmin Merupakan sekumpulan script PHP yang dipergunakan untuk mengelola database MySQL. phpmyadmin ditujukan untuk menangani administrasi MySQL berbasis web. Artinya interaksi pemeliharaan dilakukan oleh client dengan menggunakan antar muka browser, sedangkan script PHP sendiri akan dijalankan oleh suatu web server. Keuntungan dengan basis web di sini adalah fleksibel penggunaan dan kemudahan interaksi user,

49 34 tidak tergantung pada platform sistem operasinya (Utdirartatmo, 2002:119). 2.4 Kerangka Pikir Media online di Indonesia berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat. Berdasarkan konten berita, portal berita online ada yang berskala nasional dan lokal. Struktur kalimat pada portal berskala nasional lebih dominan menggunakan kalimat yang panjang, sedangkan berita pada portal berskala lokal lebih banyak menggunakan kalimat yang lebih ringkas. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang ringkas. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat. Oleh karena itu, kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia dalam mengetahui inti berita. Penelitian mengenai peringkasan teks otomatis telah banyak dilakukan oleh peneliti terdahulu, tetapi sebagian besar hasil ringkasan ditentukan berdasarkan perangkingan saja. Kelemahan yang ditimbulkan yaitu terdapat duplikasi informasi, karena proses perangkingan hanya mengambil kalimat dengan bobot yang tertinggi tanpa adanya pengecekan kesamaan informasi antara satu kalimat dengan kalimat yang lain, sehingga dibutuhkan metode yang dapat mengatasi permasalah tersebut seperti metode MMR (Maximum Marginal Relevance).

50 35 Metode MMR memiliki beberapa kelebihan yaitu, sederhana, efisien dan dapat mengurangi redundansi. Metode MMR menghasilkan ringkasan dengan memperhitungkan tingkat relevansi antara kalimat serta relevansi antara judul dan kalimat, sehingga tidak terjadi duplikasi informasi dan tingkat akurasi ringkasan berita semakin besar. Pada gambar 2.2 disajikan kerangka pikir penelitian dalam bentuk skema. Hasil peringkasan teks berita berdasarkan perengkingan dengan memilih kalimat yang memiliki bobot paling besar. Terdapat duplikasi informasi pada ringkasan Peringkasan dengan metode MMR Menghasilkan ringkasan dengan memperhitungkan tingkat relevansi antara kalimat, relevansi antara judul dan kalimat, serta menghilangkan duplikasi informasi. Nilai akurasi ringkasan bertambah besar Gambar 2.2 Kerangka Pikir

Menunjukkan lagi