IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA

Ukuran: px
Mulai penontonan dengan halaman:

Download "IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA"

Transkripsi

1 IMPLEMENTASI METODE MAXIMUM MARGINAL RELEVANCE PADA PERINGKASAN TEKS OTOMATIS ARTIKEL BERITA SKRIPSI diajukan sebagai salah satu persyaratan untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan Teknik Informatika dan Komputer Oleh Winda Yulita NIM JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS NEGERI SEMARANG 2015 i

2 PERSETUJUAN PEMBIMBING Nama : Winda Yulita NIM : Program Studi Judul Skripsi : S-1 Pendidikan Teknik Informatika dan Komputer : Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Beria Skripsi ini telah disetujui oleh pembimbing untuk diajukan ke sidang Panitia Ujian Skripsi Program Studi S-1 Pendidikan Teknik Informatika dan Komputer FT. UNNES. Semarang, Juni 2015 Pembimbing Feddy Setio Pribadi S.Pd., M.T. NIP ii

3 PENGESAHAN Skripsi dengan judul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita telah dipertahankan di depan sidang Panitia Ujian Skripsi Fakultas Teknik UNNES pada tanggal 25 bulan Juni tahun Oleh Nama : Winda Yulita NIM : Program Studi : S-1 Pendidikan Teknik Informatika dan Komputer Panitia : Ketua Panitia Sekretaris Drs. Suryono, MT NIP Feddy Setio Pribadi, S.Pd., MT NIP Penguji I Penguji II Penguji III/Pembimbing Dr. Hari Wibawanto, MT Aryo Baskoro, ST, MT Feddy Setio Pribadi S.Pd.,MT NIP NIP NIP Mengetahui : Dekan Fakultas Teknik UNNES Drs. M. Harlanu, M.Pd. NIP iii

4 PERNYATAAN KEASLIAN Dengan ini saya menyatakan bahwa : 1. Skripsi ini adalah asli dan belum pernah diajukan untuk mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di Universitas Negeri Semarang (UNNES) maupun di perguruan tinggi lain. 2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri, tanpa bantuan pihak lain, kecuali arahan Pembimbing dan masukan Tim Penguji. 3. Dalam karya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan sebagai acuan dalam naskah dengan disebutkan nama pengarang dan dicantumkan dalam daftar pustaka. 4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang berlaku di perguruan tinggi ini. Semarang, Juni 2015 yang membuat pernyataan, Winda Yulita NIM iv

5 MOTTO DAN PERSEMBAHAN MOTTO Setiap tangisan akan berujung dengan senyuman, ketakutan akan berakhir dengan rasa aman, dan kegelisahan akan sirna oleh kedamaian (La Tahzan) PERSEMBAHAN Skripsi ini saya persembahkan kepada : Bapak dan Ibu yang selalu mendoakan dan menyayangi saya Abangku, David dan adikku Dicky yang aku sayangi Abah Yai Masyrohan beserta keluarga besar PPDAW Kak Siddiq Supriyanto yang memberikan saran Teman-teman Al-Kholik dan eks-alkholik v

6 ABSTRAK Yulita, Winda Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita. Dibimbing oleh Feddy Setio Pribadi, S.Pd., M.T. Program studi Pendidikan Teknik Informatika dan Komputer. Sejak tahun 2000, di Indonesia media online berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat. Berdasarkan konten berita, portal berita online ada yang berskala nasional dan lokal. Struktur kalimat pada portal berskala nasional lebih dominan menggunakan kalimat yang panjang, sedangkan berita pada portal berskala lokal lebih banyak menggunakan kalimat yang lebih ringkas. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang ringkas. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat, sehingga kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia mengetahui inti berita. Oleh karena itu dibuatlah sistem peringkasan teks otomatis dengan metode Maximum Marginal Relevance dan pembobotan kata dengan algoritma TF-IDF-DF untuk melihat keefektifan dalam menghasilkan ringkasan. Dokumen uji coba diambil dari antaranews.com untuk portal online berskala nasional, sedangkan untuk portal online berskala lokal dari tribunjateng.com dan radarmagelang.com. Proses peringkasan melalui tahap text preprocessing, yang terdiri dari segmentasi kalimat, case folding, tokenizing filtering dan stemming. Tahap selanjutnya perhitungan TF-IDF-DF untuk menentukan bobot kata dan menentukan ringkasan dengan MMR. Hasil pengujian dibandingkan dengan ringkasan manual yang menghasil nilai precision 76, 39 %, recall 65,28 %, dan f-measure 70,4 % untuk dokumen berita dari portal online berskala nasional, sedangkan peringkasan artikel berita dari portal berita online lokal menghasilkan nilai precision 45,83 %, recall 45,83 %, dan f-measure 45,83%. Kata kunci : peringkasan teks, artikel berita, portal online berskala nasional dan lokal, Maximum Marginal Relevance, TF-IDF-DF. vi

7 KATA PENGANTAR Segala puji dan syukur penulis ucapkan kehadirat Allah SWT dan mengharapkan ridho yang telah melimpahkan rahmat-nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita. Skripsi ini disusun sebagai salah satu persyaratan meraih gelar Sarjana Pendidikan pada Program Studi S-1 Pendidikan Teknik Informatika dan Komputer Universitas Negeri Semarang. Shalawat dan salam disampaikan kepada junjungan alam Nabi Muhammad SAW, mudah-mudahan kita semua mendapatkan safaat Nya di yaumil akhir nanti, Amin. Penyelesaian karya tulis ini tidak lepas dari bantuan berbagai pihak, oleh karena itu pada kesempatan ini penulis menyampaikan ucapan terima kasih kepada: 1. Prof. Dr. Fathur Rokhman, M.Hum, Rektor Universitas Negeri Semarang yang memberikan kesempatan untuk menempuh studi di Universitas Negeri Semarang. 2. Drs. M. Harlanu, M.Pd., Dekan Fakultas Teknik, Drs. Suryono, M.T., Ketua Jurusan Teknik Elektro, dan Feddy Setio Pribadi, S.Pd., M.T., Ketua Program Studi Pendidikan Teknik Informatika dan Komputer, yang memberikan kesempatan dan izin dalam penyusunan skripsi ini. 3. Feddy Setio Pribadi, S.Pd., M.T., selaku dosen pembimbing yang telah memberikan masukan dan arahan sehingga skripsi ini dapat diselesaikan dengan baik. 4. Dr. Hari Wibawanto, MT dan Aryo Baskoro, ST, MT, sebagai Penguji I dan Penguji II yang telah memberikan pertanyaan, saran dan perbaikan sehingga menambah bobot dan kualitas skripsi ini. 5. Para dosen Pendidikan Teknik Informatika dan Komputer FT. UNNES yang telah memberikan bekal dan pengetahuan yang berharga. 6. Orang tua dan keluarga saya yang telah memberikan dukungan dan doa. 7. Semua pihak yang telah membantu dalam penelitian ini. vii

8 Penulis berharap semoga skripsi ini dapat bermanfaat untuk perkembangan metode peringkasan otomatis. Semarang, Juni 2015 Penulis viii

9 DAFTAR ISI HALAMAN JUDUL... i PERSETUJUAN PEMBIMBING... ii PERNYATAAN KEASLIAN... iii PENGESAHAN... iv MOTTO DAN PERSEMBAHAN... v ABSTRAK... vi KATA PENGANTAR... vii DAFTAR ISI... ix DAFTAR TABEL... xii DAFTAR GAMBAR... xiv DAFTAR LAMPIRAN... xv BAB I PENDAHULUAN 1.1 Latar Belakang Rumusan Masalah Tujuan Penelitian Manfaat Penelitian Pembatasan Masalah Penegasan Istilah... 4 BAB II PUSTAKA DAN LANDASAN TEORI 2.1 Landasan Teori Konsep Dasar Peringkasan Teks Otomatis Morfologi Bahasa Indonesia Text Preprocessing Konsep Dasar Term Frequency-Inverse Document Frequency- Document Frequency (TF-IDF-DF) Konsep Dasar Cosine Similarity Konsep Dasar Maximum Marginal Relevance (MMR) ix

10 2.1.7 Evaluasi Peringkasan Teks Peringkasan Teks Otomatis Menggunakan Metode TF-IDF-DF dan Metode MMR Penelitian Terdahulu Perangkat Pembangunan Aplikasi Kerangka Berfikir BAB III METODE PENELITIAN 3.1 Metode Pengumpulan Data Observasi Studi Pustaka Pengembangan Sistem Arsitektur Sistem Desain Pengkodean Perancangan Pengujian Bahan Pengujian Tujuan Pengujian Skenario dan Kriteria Pengujian BAB IV HASIL DAN PEMBAHASAN 4.1 Spesifikasi Hardware dan Software Hasil Pengujian dan Analisis Hasil Responden Hasil Sistem Text preprocessing Algoritma TF-IDF-DF Algoritma cosine similarity Metode MMR Evaluasi sistem Perbandingan Hasil Ringkasan Portal Berita Online Berskala Nasional dan x

11 Lokal BAB V PENUTUP 5.1 Kesimpulan Saran DAFTAR PUSTAKA xi

12 DAFTAR TABEL Tabel 2.1. Proses segmentasi Tabel 2.2. Proses case folding Tabel 2.3. Proses tokenizing kata Tabel 2.4. Proses filtering Tabel 2.5. Hasil stemming Tabel 2.6. Kombinasi awalan akhiran yang tidak diizinkan Tabel 2.7. Aturan Pemenggalan Awalan Stemmer Nazief & Adriani Tabel 2.8. Jenis awalan berdasarkan tipe awalannya Tabel 2.9. Hasil penghitungan bobot masing-masing kata Tabel 4.1. Ringkasan manual portal berita online berskala nasional Tabel 4.2. Ringkasan manual portal berita online berskala lokal Tabel 4.3. Ringkasan sistem portal berita online berskala nasional Tabel 4.4. Hasil segmentasi kalimat Tabel 4.5. Hasil case folding Tabel 4.6. Hasil tokenizing Tabel 4.7. Hasil filtering Tabel 4.8. Hasil stemming Tabel 4.9. Hasil penghitungan bobot masing-masing kata Tabel Relevansi antara judul dan semua kalimat Tabel Similarity antara kalimat Tabel Perhitungan MMR iterasi ke Tabel Nilai S i untuk perhitungan MMR iterasi ke Tabel Nilai MMR iterasi ke Tabel Nilai similarity yang digunakan Tabel Hasil perhitungan MMR Tabel Hasil perangkingan kalimat xii

13 Tabel Nilai akurasi pada portal berita online nasional Tabel Nilai akurasi pada portal berita online lokal Tabel Pengaruh panjang kalimat Tabel Pengaruh banyak query xiii

14 DAFTAR GAMBAR Gambar 2.1. Proses text preprocessing Gambar 2.2. Kerangka berfikir Gambar 3.1. Arsitektur sistem peringkasan teks otomatis Gambar 3.2. Alur proses pengembangan sistem Gambar 3.3. Gambar interface proses peringkasan Gambar 3.4. Gambar interface menyimpan ringkasan Gambar 3.5. Pseudocode pemecahan paragraf dan tokenizing Gambar 3.6. Pseudocode penyaringan simbol dan stopword Gambar 3.7. Pseudocode penghitungan nilai TF dan DF Gambar 3.8. Pseudocode penghitungan nilai TF-IDF-IDF Gambar 3.9. Pseudocode penghitungan nilai cosine similarity Gambar Pseudocode penghitungan nilai MMR xiv

15 DAFTAR LAMPIRAN Lampiran 1. Perhitungan cosine similarity Lampiran 2. Surat Tugas Panitia Ujian Sarjana Lampiran 3. Surat Penetapan Dosen Pembimbing xv

16 BAB 1 PENDAHULUAN 1.1. Latar Belakang Sejak tahun 2000, di Indonesia media online berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat (Nugroho, et al., 2012:83). Portal berita online ada berskala nasional dan lokal. Antaranews.com merupakan portal berita online berskala nasional yang beritanya mencakup peristiwa atau kejadian di lokal, nasional, bahkan internasional dan distribusi media cetaknya hampir meliputi semua wilayah (pulau, provinsi, kota/kabupaten). Berbeda dengan portal berita online lokal, sebagian besar beritanya hanya seputar peristiwa yang terjadi di suatu daerah saja dan distribusi media cetaknya mencakup satu provinsi dan kota/kabupaten dalam provinsi tersebut, seperti tribunjateng.com dan radarmagelang.com. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat. Oleh karena itu, kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia. Dalam dunia komputer peringkasan teks dikenal dengan peringkasan teks otomatis (automatic text summarization). Peringkasan teks otomatis adalah secara otomatis komputer mengekstrak ringkasan dari artikel asli. Dalam keadaan ideal, ringkasan dapat mendeskripsikan isi 1

17 2 utama dari artikel secara akurat dan memahamkan serta bahasa ringkasan koheren (Lahari, et al., 2014:1519). Peringkasan teks otomatis telah banyak diteliti oleh beberapa peneliti terdahulu dengan menggunakan berbagai metode dan diterapkan dalam berbagai bahasa. Di antaranya word frequency (Luhn, 1958), sentence position (Hovy dan Lin, 1997), lexical chain (Barzilay, 1997) dan maximum marginal relevance (Cabonell dan Goldstein, 1998). Adapun metode dan algoritma yang diterapkan pada teks bahasa Indonesia, seperti algoritma genetika (Aristoteles, 2013), Metode Relevance Measure dan Latent Semantic Analysis (Triwibowo, et al., 2010) serta Maximum Marginal Relevance (Mustaqhfiri, 2011). Metode Maximum Marginal Relevance memiliki beberapa kelebihan yaitu, sederhana, efisien dan dapat mengurangi redundansi (Xie dan Liu, 2008:4985). Kelebihan tersebut menyebabkan banyak peneliti yang tertarik terhadap metode tersebut, seperti Mustaqhfiri, et al., (2011) yang meneliti mengenai peringkasan teks otomatis berbahasa Indonesia pada berita Tempo Interaktif menggunakan metode Maximum Marginal Relevance (MMR). Kesimpulan dari penelitiannya yaitu metode MMR dapat meringkas single dokumen secara otomatis dengan akurasi 66 %. Pesatnya perkembangan portal berita online yang tanpa kendali menyebabkan banyaknya portal berita online yang tampil dengan gaya dan struktur yang berbeda. Pada portal berita online berskala nasional, dominan

18 3 menggunakan kalimat yang panjang, sedangkan pada portal berita online berskala lokal, lebih banyak menggunakan kalimat yang pendek. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang pendek. Berdasarkan permasalahan tersebut, maka peneliti tertarik untuk melakukan penelitian terhadap peringkasan teks otomatis pada portal berita online berskala nasional dan lokal dengan judul Implementasi Metode Maximum Marginal Relevance pada Peringkasan Teks Otomatis Artikel Berita Rumusan Masalah Berdasarkan latar belakang yang telah dikemukakan, maka terdapat masalah yang timbul, yaitu : bagaimana keefektifan metode summarization dengan menggunakan pembobotan kata TF-IDF-DF yang diterapkan dalam metode Maximum Marginal Relevance (MMR) sebagai alat bantu dalam proses peringkasan teks pada artikel berita? 1.3. Tujuan Penelitian Tujuan penulisan skripsi ini adalah mengetahui keefektifan metode summarization dengan menggunakan pembobotan kata dengan metode TF- IDF-DF yang diterapkan dalam metode Maximum Marginl Relevance (MMR) sebagai alat bantu dalam proses peringkasan teks pada artikel berita.

19 Manfaat Penelitian Manfaat dari penelitian ini adalah menghemat waktu bagi para pembaca berita dalam memahami berita melalui ringkasan berita, mengetahui kemampuan metode MMR (Maximum Marginal Relevance) dalam memperoleh ringkasan berita secara otomatis, serta menambah ilmu pengetahuan, menjadi bahan referensi dan perbandingan untuk penelitian yang berkaitan dengan penggunaan metode MMR Pembatasan Masalah Permasalahan dibatasi pada proses peringkasan teks otomatis yang telah dikembangkan yaitu menggunakan metode Maximum Marginal Relevance (MMR). Inputan teks yang digunakan berupa single document, artinya ringkasan dihasilkan dari satu dokumen sumber. Teks yang dapat diringkas hanya sebatas karakter a-z Penegasan Istilah Berikut dijelaskan beberapa istilah yang berkaitan dengan judul penelitian. Beberapa istilah tersebut adalah : a) Peringkasan Teks Otomatis (Automatic Summarization Text) Automatic Summarization Text adalah komputer secara otomatis mengekstrak ringkasan dari artikel asli. Dalam kasus ideal, ringkasan bisa menggambarkan isi utama dari artikel (Lahari, et al., 2014 : 1519). Peringkasan teks otomatis yang dimaksud dalam penelitian ini adalah suatu aplikasi yang dijalankan oleh komputer untuk memproses artikel

20 5 berita menjadi ringkasan yang lebih padat yang dapat mewakili isi dari suatu artikel berita. b) Artikel Artikel adalah sebuah susunan tulisan yang lengkap, mengenai suatu masalah tertentu, dalam surat kabar, majalah, dan sebagainya (Shahab, 2008:94). c) Berita Berdasarkan pendapat Harviyanto (2013:34), berita adalah laporan yang berisi suatu peristiwa atau kejadian penting yang menarik perhatian orang banyak dan berita itu berisi tentang fakta atau suatu yang baru yang dapat dipublikasikan melalui media cetak atau media elektronik. d) TF-IDF-DF Metode TF-IDF-DF (Term Frequency-Inverse Document Frequency-Document Frequency) merupakan modifikasi dari metode TF-IDF untuk mendapatkan bobot perwakilan dari kata-kata yang diekstrak dari data informasi dengan mempertimbangan penyebaran kata di dokumen lain (Pramono, et al., 2013). e) Maximum Marginal Relevance (MMR) Maximum Marginal Relevance (MMR) adalah algoritma untuk menentukan relevansi hasil ringkasan dengan dokumen dan query (judul artikel berita) yang diberikan oleh user berdasarkan bobot

21 6 kesamaannya serta dapat mengurangi redundansi dalam peringkasan (Mustaqhfiri, et al., 2011 : 135).

22 BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori Konsep Dasar Peringkasan Teks Otomatis Teks yang terdapat pada buku, koran, majalah dan artikel yang terdiri dari banyak kalimat terkadang membutuhkan ringkasan untuk mengetahui inti bacaan. Ringkasan merupakan miniatur karangan aslinya sehingga struktur dan kelengkapan unsur ringkasan harus sama dengan karangan asli. Konsep sederhana dari meringkas adalah mengambil bagian penting dari suatu teks yang menggambarkan keseluruhan dokumen. Dalam dunia komputer peringkasan teks dikenal dengan Peringkasan Teks Otomatis. Peringkasan Teks Otomatis (Automatic Summarization Text) adalah komputer secara otomatis mengekstrak ringkasan dari artikel asli. Dalam kasus yang ideal, ringkasan bisa menggambarkan isi utama dari artikel secara akurat dan komprehensif, dan bahasa ringkasan koheren dan halus (Lahari, et al., 2014 : 1519). Menurut Muchammad Mustaqhfiri peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih singkat dari suatu teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada komputer (Mustaqhfiri, et al., 2011 : 134). Peringkasan teks otomatis telah banyak diteliti oleh beberapa peneliti terdahulu dengan menggunakan berbagai metode dan pendekatan. Teknik untuk peringkasan dengan teknik statistika diantaranya yaitu teknik word 7

23 8 frequency (Luhn, 1958) dan sentence position (Hoovy dan Lin, 1997). Teknik pendekatan dengan natural language analysis yaitu maximum marginal relevance (Cabonell dan Goldstein, 1998). Peringkasan teks otomatis diklasifikasikan menjadi 2 kategori, yaitu ekstraksi dan abstraksi. Peringkasan ekstraksi adalah pilihan kalimat atau prase dari teks asli dengan skor paling besar tanpa mengubah teks sumber. Metode peringkasan abstraksi menggunakan metode linguistik untuk memeriksa dan menafsirkan teks. Sebagian besar metode yang digunakan untuk peringkasan teks adalah metode peringkasan ekstraksi. Berdasarkan jumlah sumbernya peringkasan teks otomatis dapat dibagi menjadi dua yaitu single document dan multi document (Mulyana et al., : 2). Single document merupakan sumber dokumen yang akan diekstraksi berupa dokumen tunggal sedangkan, multi document adalah dokumen yang akan diekstrak terdiri dari beberapa dokumen. Berdasarkan metodenya, peringkasan dokumen dapat dibedakan menjadi peringkasan generik (generic summarization) dan peringkasan berdasarkan query (query-based summarization) (Jesek dan Steinberger, 2008:3). Metode peringkasan dilakukan dengan menggunakan metode perangkingan untuk memilih kalimat dengan informasi yang sesuai dengan kebutuhan user. Hal ini mengakibatkan kurangnya keefektifan suatu kalimat yang dipilih, karena tidak memperhitungkan adanya duplikasi informasi terhadap kalimat yang menjadi ringkasan. Oleh karena itu, dibutuhkan suatu metode untuk menangani duplikasi informasi (Yusintan et al., 2010:1-2).

24 9 Penulis memilih menggunakan metode Maximum Marginal Relevance (MMR) untuk meringkas artikel berita Morfologi Bahasa Indonesia Secara etimologi kata morfologi berasal dari kata morf yang berarti bentuk dan kata logi yang berarti ilmu. Secara harfiah kata morfologi berarti ilmu mengenal bentuk. Jadi, ujung dari proses morfologi adalah terbentuknya kata dalam bentuk dan makna sesuai dengan keperluan dalam satu tindak pertuturan (Chaer, 2008:3). Morfologi terbagi menjadi 2 bentuk, yaitu : a. Bentuk inflektif Dalam pembentukan kata inflektif, identitas leksikal kata yang dihasilkan sama dengan identitas leksikal bentuk dasarnya. Pembentukan kata membeli dari dasar beli adalah sebuah kasus inflektif. Hal ini karena beli dan kata membeli sama-sama berkategori verba. Kasus inflektif dalam bahasa Indonesia hanya terdapat dalam pembentukan verba transitif, yaitu dengan prefik me-, prefik di-, prefik ter-, dan prefik zero. Bentuk dasarnya dapat berupa : 1) Pangkal verba akar yang memiliki komponen makna, seperti baca, beli dan tulis. 2) Pangkal bersufiks kan, seperti selipkan dan daratkan. 3) Pangkal bersufiks i, seperti tangisi dan nasihati 4) Pengkal bersufiks per-, seperti perpanjang dan perluas. 5) Pangkal berkonfiks per-kan seperti persembahkan. 6) Pangkal berkonfiks per-i, seperti perbaiki.

25 10 Keenam tipe pangkal tersebut dapat diberi afiks me-, di-, ter-, dan zero. Contoh: 1) medi- + baca ter- Ø 2) medi- + selipkan ter- Ø 3) medi- + nasihati ter- Ø 4) medi- + perpanjang ter- Ø 5) medi- + persembahkan ter- Ø 6) medi- + perbaiki ter- Ø

26 11 b. Bentuk derivatif Proses pembentukan derivatif identitas bentuk yang dihasilkan tidak sama dengan identitas leksikal bentuk dasarnya. Pembentukan kata pembeli dari dasar beli adalah kasus derivatif. Dasar beli dan pembeli tidak sama kategorinya. Beli adalah verba dan pembeli adalah nomina. Pada derivatif juga terdapat prefiks me-, prefiks di-, dan prefiks ter-, seperti pada bentuk inflektif. Misal : 1) Prefiks me-, seperti melompat dan membengkak. 2) Prefiks di-, seperti dimaksud. 3) Prefiks ter-, seperti terlena dan tertidur Text Preprocessing Text preprocessing adalah suatu tahap untuk mengolah teks berita yang merupakan bahan mentah menjadi kata-kata yang telah siap dihitung bobot katanya. Beberapa proses dari text preprocessing, yaitu segmentasi kalimat, case folding, tokenizing, filtering, dan stemming. Berikut adalah diagram alirnya terlihat pada gambar 2.1.

27 12 Segmentasi kalimat Case folding tokenizing filtering stemming Gambar 2.1 Proses text preprocessing a. Segmentasi kalimat Segmentasi kalimat merupakan langkah awal dari proses text preprocessing. Dalam proses ini, teks berita yang terdiri dari paragraf yang dipecah menjadi beberapa kalimat. Pemisahan setiap kalimat berdasarkan tanda baca, seperti tanda titik (.), tanda seru (!) dan tanda tanya (?). Contoh pemecahan dokumen menjadi kalimat pada tabel 2.1. Tabel 2.1 Proses segmentasi Dokumen Membuang sampah sembarangan dapat menyebabkan banjir. Aliran air akan tersumbat karena sampah. Banjir merugikan manusia. Hasil segmentasi kalimat - Membuang sampah sembarangan dapat menyebabkan banjir - Aliran air akan tersumbat karena sampah - Banjir merugikan manusia

28 13 b. Case Folding Paragraf berita yang telah dipotong menjadi kalimat akan menjalankan proses case folding. Case folding adalah proses mengubah semua teks menjadi karakter dengan huruf kecil dan membuang semua karakter selain a-z. Jika terdapat tanda baca, bilangan numerik dan simbol akan dihilangkan. Contohnya terlihat pada tabel 2.2. Tabel 2.2 Proses case folding Kalimat - Membuang sampah sembarangan dapat menyebabkan banjir - Aliran air akan tersumbat karena sampah - Banjir merugikan manusia Hasil case folding - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah - banjir merugikan manusia c. Tokenizing Suatu proses untuk mengubah bentuk kalimat menjadi kata-kata tunggal. Pemotongan kalimat berdasarkan delimiter yang menyusunnya, yaitu spasi ( ). Proses ini bertujuan agar nantinya dapat melakukan proses stemming. Contoh hasil tokenizing kata terlihat pada tabel 2.3. Tabel 2.3 Proses tokenizing kata Hasil filtering - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah Hasil tokenizing kata - membuang - sampah - sembarangan - dapat

29 14 - banjir merugikan manusia - menyebabkan - banjir - aliran - air - akan - tersumbat - karena - sampah - banjir - merugikan - manusia d. Filtering Pada proses filtering dilakukan pembuangan stopword. Stopword adalah kata-kata yang tidak memiliki makna atau kata yang kurang berarti dan sering muncul dalam kumpulan kata-kata. Proses pembuangan katakata yang tidak penting dengan mengecek pada kamus stopword. Jika kata ada yang sama dengan kata pada kamus stopword maka kata tersebut akan dibuang atau dihapus. Seandainya stopword tidak dihilangkan maka stopword akan memiliki bobot yang besar karena sering muncul dalam teks, sehingga akan mempengaruhi hasil ringkasan karena kalimat yang terpilih adalah kalimat yang memiliki bobot paling besar. Stopword dapat berupa kata penghubung, kata ganti, preposisi, dll, seperti : dia, antara, akan, demi, karena, atau, bahwa, bila, juga, kalau, hingga, bagi, kecuali, oleh, dan lain-lain. Contoh filtering terlihat pada tabel 2.4.

30 15 Tabel 2.4 Proses filtering Kalimat - membuang sampah sembarangan dapat menyebabkan banjir - aliran air akan tersumbat karena sampah - banjir merugikan manusia Hasil filtering - membuang sampah sembarangan menyebabkan banjir - aliran air tersumbat sampah - banjir merugikan manusia e. Stemming Proses selanjutnya stemming, yaitu mengembalikan suatu kata ke bentuk akarnya (root word) dengan aturan-aturan tertentu, sehingga setiap kata memiliki representasi yang sama. Stemming dalam penelitian ini menggunakan algoritma Nazief & Adriani (1996). Contoh stemming terlihat pada tabel 2.5. Tabel 2.5 Hasil stemming Hasil tokenizing kata Hasil stemming Membuang air buang air sampah tersumbat sampah sumbat sembarangan sampah sembarang sampah menyebabkan banjir sebab banjir banjir merugikan banjir rugi aliran manusia alir manusia

31 16 Algoritma stemming Nazief dan Adriani (1996), dikembangkan berdasarkan morfologi bahasa Indonesia dengan mengelompokkan imbuhan menjadi awalan (prefix), akhiran (suffix), dan gabungan awalanakhiran (confixes). Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut: 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tersebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( - ku, -mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a. a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

32 17 a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan pada tabel 2.6. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recoding. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Jika tipe awalan adalah bukan none maka awalan dapat dilihat pada Tabel 2.8. Hapus awalan jika ditemukan.

33 18 Tabel 2.6 Kombinasi awalan akhiran yang tidak diizinkan Awalan Akhiran yang tidak diizinkan be- -i dikemese- -an -i, -kan -an -i, -kan Tabel 2.7 Aturan Pemenggalan Awalan Stemmer Nazief & Adriani Aturan Format Kata Pemenggalan 1 berv ber-v be-rv 2 bercap ber-cap dimana C!= r & P!= er 3 bercaerv ber-caerv dimana C! r 4 Belajar bel-ajar 5 bec l erc2 be-c lerc2 dimana C1!={ r I } 6 terv Ter-V te-rv 7 tercerv Ter-CerV dimana C!= r 8 tercp Ter-CP dimana C!= r dan P!= er 9 tec1erc2... te-c1erc2... dimana C1!= r 10 me{l r w y}v... me-{l r w y}v mem{b f v}... mem-{b f v} mempe{r l}... mem-pe mem{rv V}... me-m{rv V}... me-p{rv V} men{c d j z}... men-{c d j z} menv... me-nv... me-tv 16 meng{g h q}... meng-{g h q} mengv... meng-v... meng-kv menyv... meny-sv 19 mempv... mem-pv... dimana V!= e 20 pe{w y}v... pe-{w y}v perv... per-v... pe-rv percap per-cap... dimana C!= r dan P!= er 24 percaerv... per-caerv... dimana C!= r 25 pem{b f V}... pem-{b f V}...

34 19 Aturan Format Kata Pemenggalan 26 pem{rv V}... pe-m{rv V}... pe-p{rv V} pen{c d j z}... pen-{c d j z} penv... pe-nv... pe-tv peng{g h q}... peng-{g h q} pengv... peng-v... peng-kv penyv... peny-sv 32 pelv... pe-lv... kecuali pelajar yang menghasilkan ajar 33 pecerv... per-erv... dimana C!={r w y l m n} 34 pecp... pe-cp... dimana C!={r w y l m n} dan P!= er Keterangan simbol huruf : C : huruf konsonan V : huruf vokal A : huruf vokal atau konsonan P : partikel atau fragmen dari suatu kata, misalnya er Tabel 2.8 Jenis awalan berdasarkan tipe awalannya Tipe awalan dikeseteterter-luluh Awalan yang harus dihapus -di keseteterter

35 20 Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh: buku-buku root word-nya adalah buku. b. Kata lain, misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root word berbalas-balasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Untuk tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng-.

36 Konsep Dasar Term Frequency-Inverse Document Frequency- Document Frequency (TF-IDF-DF) Metode Term Frequency-Inverse Document Frequency-Document Frequency (TF-IDF-DF) merupakan modifikasi dari metode TF-IDF, karena metode TF-IDF memiliki kekurangan dalam pembobotan kata. Kekurangannya yaitu adanya anggapan bahwa kata yang tersebar dalam dokumen lain tidak penting, sehingga dianggap tidak ada. Padahal kata yang sering muncul dalam kalimat lain bisa jadi merupakan kata yang penting. Akibatnya, nilai bobot yang tinggi diperoleh pada kata yang memiliki frekuensi tinggi dalam dokumen, sedangkan kata yang tersebar di dokumen lain memiliki perhitungan bobot yang kecil. Oleh karena itu, metode TF-IDF ini dikembangkan lebih lanjut untuk mendapatkan bobot perwakilan dari kata-kata yang diekstrak dengan mempertimbangan penyebaran kata di dokumen lain. Document Frequency (DF) yang mengandung kata ke-i berpengaruh pada topik keseluruhan dokumen, sehingga nilai dalam pembobotan kata akan dikalikan dengan DF kata ke-i (Pramono, 2013). Rumus pembobotan kata dari modifikasi TF-IDF adalah : w i,j = (tf i,j x log ( N df i )) x df i Dimana w i,j adalah bobot dari kata ke-i dari dokumen ke-j. tf i,j adalah term frequency, adalah jumlah kata dari kata ke-i dalam dokumen ke-j. log ( N df i ) merupakan rumus Invers Document Frequency (IDF), N merupakan jumlah seluruh dokumen atau kalimat. df i yaitu document frequency

37 22 merupakan banyaknya kalimat yang berisi kata ke-i dalam kumpulan dokumen. Contoh perhitungan algoritma TF-IDF-DF dengan term sampah sesuai dengan tabel 2.5 sebagai berikut : w i,j = (tf i,j x log ( N df i )) x df i w 2,1 = (1 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 1 (D1) = 0,81093 w 2,2 = (1 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 2 (D2) = 0,81093 w 2,3 = (0 x log ( 3 )) x 2 1 bobot term sampah pada dokumen 3 (D3) = 0 Pada tabel 2.1 diketahui bahwa jumlah dokumen (N) sebanyak 3 kalimat. Hasil perhitungan bobot kata dengan metode TF-IDF-DF terlihat pada tabel 2.9. Tabel 2.9 Hasil penghitungan bobot masing-masing kata Term tf W Df Idf D1 D2 D3 D1 D2 D3 buang , , sampah , , , sembarang , , sebab , , banjir , , , alir , , air , , sumbat , , rugi , , manusia , ,098612

38 23 Keterangan : Term : kata yang akan dihitung bobotnya Tf Df Idf W Di : jumlah kata muncul dalam satu kalimat/dokumen : jumlah dokumen yang berisi kata tersebut : kemunculan kata pada kumpulan kalimat/dokumen : bobot kata : dokumen atau kalimat (i=1,2,3) Konsep Dasar Cosine Similarity Cosine similarity digunakan untuk menghitung relevansi query dengan dokumen. Nilai relevansi didapat dengan mengukur kesamaan antara 2 vektor, yaitu vektor query dan vektor dokumen. Semakin besar nilai relevansi, maka query dan dokumen akan semakin relevan. Menurut Patidar et al. (2013: 90), ukuran kesamaan (similarity measure) adalah jarak antara berbagai titik data. Similarity measure juga digunakan dalam mengukur kesamaan antara set berdasarkan persimpangan dua set. Similarity measure juga dikenal sebagai fungsi yang menghitung tingkat kesamaan antara sepasang objek teks. Singkatnya, similarity adalah jumlah yang mencerminkan kekuatan hubungan antara dua data. Ada beberapa jenis similarity measure seperti Dice coeficient, Jaccard Similarity, Cosine Similarity, Euclidean Distance dan lain-lain. Similarity measure dapat mewakili kesamaan antara dua kalimat dan memungkinkan untuk merangking informasi yang diambil dalam urutan dengan anggapan itu penting.

39 24 Salah satu ukuran kesamaan yang paling umum digunakan adalah cosine similarity. Cosine similarity merupakan dasar perhitungan untuk mendapatkan nilai relevansi antara query dengan dokumen dan relevansi antara dokumen. Cosine similarity adalah cosine sudut θ antara vektor. Cosine similarity memiliki rumus seperti dibawah ini : Keterangan : sim (S 1, S 2 ) = S 1 = vektor bobot kata yang menjadi kandidat S 2 = vektor bobot kata selain kandidat i t 1i t 2i 2 i t 1i X 2 i t 2i Dimana t i merupakan bobot kata dari kata w i. Berikut adalah contoh perhitungan cosine similarity antara kalimat 1 (D1) dengan kalimat 2 (D2) : sim (D 1, D 2 ) = i t 1i t 2i 2 i t 1i X 2 i t 2i = (1, ) + (0, ,81093) + (1, ) + (1, ) + (0, ) + (0 1,098612) + (0 1,098612) + (0 1,098612) + (0 0) + (0 0) 1, , , , , , , , , Konsep Dasar Maximum Marginal Relevance (MMR) Summarization (peringkasan) bertujuan untuk menghasilkan ringkasan sebuah dokumen atau sekelompok dokumen. Teks summarization dapat dikategorikan dalam peringkasan single-document atau multi-document.

40 25 Peringkasan pada single-document, Carbonell (1998 : 336) mengusulkan metode Maximum Marginal Relevance (MMR) untuk menghasilkan ringkasan. Metode ini diusulkan pertama kali oleh Carbonell dan Goldstein pada tahun Maximum Marginal Relevance (MMR) adalah salah satu dari sekian metode ekstraksi teks yang dapat diterapkan untuk meringkas dokumen tunggal maupun multi dokumen dengan cara melakukan rangking ulang dan membandingkan similarity antar dokumen. Menurut Toth, B. (2010), Maximum Marginal Relevance (MMR) adalah teknik peringkasan yang bertujuan untuk menangkap informasi yang relevan dan tidak mengandung redudansi. MMR berfungsi untuk menghitung kesamaan antara bagian teks. Tujuannya adalah dicapainya skor kalimat berdasarkan kesamaan (similarity) query yang diberikan. Metode MMR sering digunakan untuk peringkasan teks karena metode MMR sederhana dan efisien (Xie, S dan Liu, Y., 2008 : 4985). Jika kesamaan (similarity) antara satu kalimat dengan kalimat yang lain tinggi, maka kemungkinan terjadi redundansi. Rumus untuk menghitung nilai MMR yang dapat mengurangi redundansi adalah : MMR (S i ) = λ. Sim 1 (S i, Q) (1 λ). max Sim 2 (S i, S j ) Keterangan : λ = parameter bobot untuk mengatur tingkat relevansi S i = vektor bobot kata yang menjadi kandidat

41 26 S j = vektor bobot kata selain yang menjadi kadidat Q = vektor bobot kata dari query user (judul berita) Sim 1 = nilai similarity antara query dengan tiap kalimat Sim 2 = nilai similarity antara kalimat Sim adalah kosinus kesamaan antara dua vektor fitur. λ adalah kofisien untuk mengatur relevansi kalimat dan mengurangi redundansi. Nilai parameter λ adalah 1 atau 0 atau diantaranya (0 < λ < 1). Pada saat parameter λ = 1 maka nilai MMR yang diperoleh cenderung relevan terhadap dokumen asli. Ketika λ = 0 maka nilai MMR yang diperoleh akan cenderung releven terhadap kalimat yang diekstrak sebelumnya yang akan dibandingkan. Oleh sebab itu, sebuah kombinasi linear dari kedua kriteria dioptimalkan ketika nilai λ terdapat pada interval 0 < λ < 1. Untuk peringkasan dengan dokumen yang kecil, seperti artikel berita akan menghasilkan hasil ringkasan yang baik, jika nilai parameter λ = 0,7 atau λ = 0,8 (Goldstein, 2008). Penggunaan rumus MMR dalam perangkingan ulang adalah untuk mendapatkan ringkasan dengan similarity query kalimat tinggi, sedangkan similarity antara kalimat rendah. Pada rumus dibawah ini merupakan rumus yang memperhitungkan relevansi kalimat dengan query. Jadi, rumus tersebut merupakan benih untuk menentukan kalimat yang akan dipilih selanjutnya untuk menjadi ringkasan. Kalimat yang akan dipilih sebagai ringkasan berikutnya adalah kaliamat yang berdekat dengan kalimat benih ini. MMR (S i ) = Sim (S i, Query)

42 Evaluasi Peringkasan Teks Menurut Nedunchelian (2011:5), proses evaluasi hasil text summarization dilakukan menggunakan tiga parameter yaitu precision, recall, dan F-measure. Cara mengevaluasi dengan membandingkan ringkasan otomatis hasil sistem dengan ringkasan manual. 1. Precision Merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi yang terambil oleh sistem baik yang relevan maupun tidak. Persamaan precision ditunjukkan pada persamaan berikut : 2. Recall P = correct (correct + wrong) Merupakan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi relevan yang ada dalam koleksi informasi (baik yang terambil atau tidak terambil oleh sistem). Keterangan: R = correct (correct + missed) Correct : jumlah kalimat yang diekstrak oleh sistem dan manusia. Wrong : jumlah kalimat yang diekstrak oleh sistem tetapi tidak diekstrak oleh manusia. Missed : jumlah kalimat yang diekstrak oleh masnusia tetapi tidak diekstrak oleh sistem.

43 28 3. F-measure Merupakan hubungan antara recall dan precision yang mempresentasikan akurasi sistem. Persamaan F-measure seperti berikut : F = 2 R P (R + P) Peringkasan Teks Otomatis Menggunakan Metode TF-IDF-DF dan Metode MMR Pada penelitian ini, peringkasan teks otomatis dengan menggunakan metode TF-IDF-DF untuk pembobotan kata dan menggunakan metode MMR untuk peringkasannya. Inputan teks berupa artikel berita sebagai single dokument yang merupakan bahan mentah untuk menghasilkan ringkasan (summary). Untuk menghasilkan ringkasan, artikel berita tersebut harus menjalankan proses text preprocessing, yaitu tahap untuk mengubah artikel berita yang merupakan bahan mentah menjadi teks yang siap untuk dihitung bobot katanya. Text preprocessing melewati beberapa proses seperti segmentasi kalimat, case folding, tokenizing, filtering, dan stemming. Peringkasan teks otomatis dengan metode TF-IDF-DF dan MMR terdiri dari tahap-tahap berikut : (1) Artikel berita diinput dengan mamasukkan query berupa judul dan teks beritanya. (2) Segmentasi kalimat Memecah paragraf menjadi kalimat-kalimat. Pemecahan dilakukan berdasarkan tanda baca berupa tanda titik (.), tanda tanya (?) dan tanda seru (!). Pemisahannya menggunakan fungsi split().

44 29 (3) Case folding Proses mengubah huruf kapital menjadi huruf kecil dan membuang semua tanda baca, angka dan simbol. (4) Tokenizing Memecah kalimat menjadi kata berdasarkan spasi antara kata. (5) Filtering Proses pembuangan kata yang tidak berpengaruh terhadap proses peringkasan. Kumpulan kata tersebut berupa stopword, sehingga kata tersebut tidak mengganggu proses pembobotan kata nantinya. (6) Stemming Merupakan proses pencarian kata dasar dengan cara membuang imbuhan yang terdapat pada kata (kembali dalam bentuk akarnya). (7) Perhitungan pembobotan kata dengan metode TF-IDF-DF Pada tahap ini, penghitungan bobot kata dimulai dengan mencari nilai TF (Term Frequency), yaitu mencari nilai banyaknya kata yang muncul dalam suatu kalimat. Berikutnya mencari nilai IDF(Invers Document Frequency) merupakan perhitungan jumlah kata (term) dalam seluruh kalimat pada dokumen. Terakhir menghitung nilai DF(Document Frequency) yaitu nilai jumlah kalimat yang mengandung suatu kata. (8) Perhitungan cosine similarity Menghitung kesamaan antara satu kalimat dengan seluruh kalimat lain dan antara query (judul) dengan seluruh kalimat.

45 30 (9) Perhitungan MMR Tahap ini menghitung nilai relevansi antara nilai cosine similarity query dengan seluruh kalimat dan kalimat dengan seluruh kalimat (Mustaqhfiri, et al., 2011:144). (10) Perankingan kalimat Ringkasan artikel berita diperoleh dari memilih tiga kalimat (ukuran ringkasan yang diinginkan) dengan skor MMR yang tertinggi (Mustaqhfiri, et al., 2011:135). (11) Menentukan nilai precision, recall, dan F-measure. Sebuah sistem informasi dikatakan baik jika tingkat precision, recall, dan F-measure-nya tinggi. 2.2 Penelitian Terdahulu Beberapa penelitian terdahulu yang berkaitan dengan penelitian peringkasan teks otomatis, seperti : Luthfan Hadi Pramono, Arief Syaichu Rohman, dan Hilwadi Hindersah dari Institut Teknologi Bandung tahun 2013 dalam penelitiannya yang berjudul Modified Weighting Method in TF*IDF Algorithm for Extracting User Topic Based on and Social Media in Integrated Digital Assistant, menyatakan bahwa mengekstraksi topik dengan memodifikasi TF*IDF yaitu TF*IDF*DF diperoleh peningkatan pada jumlah informasi berita dan terdapat perbedaan informasi berita. Untuk algoritma TF*IDF diperoleh 39 berita, sedangkan algoritma TF*IDF*DF diperoleh 46 berita.

46 31 Muchammad Mustaqhfiri, Zainal Abidin dan Ririen Kusumawati dari Universitas Islam Negeri Maulana Malik Ibrahim Malang tahun 2011 dalam penelitiannya yang berjudul Peringkasan Teks Otomatis Berita Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance, membahas tentang metode MMR yang dapat digunakan untuk meringkas single dokument secara otomatis. Dokumen diperoleh dari portal berita online Tempo Interaktif dengan hasil rata-rata recall 60%, precision 77% dan f-measure 60% berdasarkan perbandingan dengan ringkasan manual. Jaime G. Carbonell dan Jade Golstein dari Carnegie Mellon University tahun 1998 dalam penelitian yang berjudul The Use of MMR and Diversity- Based Reranking in Document Reranking and Summarization, membahas tentang perangkingan dengan metode MMR menghasilkan kemanfaatan dan merupakan cara yang berguna untuk menyediakan informasi kepada user dengan membiarkan user meminimalkan redundansi. Penelitian ini diterapkan pada kasus peringkasan multi dokumen. Octarina Nur Hidayah, Warih Maharani, dan Kusuma Ayu Laksitowening dari Institut Teknologi Telkom Bandung tahun 2013 dalam penelitiannya yang berjudul Opinion Summarization Review Produk dalam Bahasa Indonesia dengan Metode Maximum Marginal Relevance (MMR), membahas tentang sistem opinion summarization yang dapat meringkas review produk dalam bahasa Indonesia dan mengelompokkannya dalam kategori positif dan negatif. Berdasarkan pengujian yang dilakukan, peringkasan review

47 32 produk berbahasa Indonesia menghasilkan precision tertinggi 88,89% dengan recall 88,89%. Zaman, B. & Winarko, E. pada tahun 2011 dalam penelitiannya yang berjudul Analisis Fitur Kalimat untuk Peringkasan Teks Otomatis pada Bahasa Indonesia, menghasilkan kesimpulan bahwa tingkat akurasi peringkas teks otomatis menggunakan pembobotan fitur lebih baik dibandingkan dengan tanpa fitur pembobotan. Dakumen uji cobanya diambil dari kompas.com. Aristoteles dari Universitas Lampung dalam penelitiannya yang berjudul Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia, membahas tentang meringkas dokumen bahasa Indonesia yang berjenis file teks dengan menggunakan algoritma genetika. Sumber dokumen uji cobanya diambil dari harian kompas online. Dalam penelitian ini menerapkan sebelas fitur teks, yaitu posisi kalimat, positive keyword, negative keyword, kemiripan antar kalimat, kalimat menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antar-kalimat, penjumlahan bobot antar-kalimat, dan kalimat semantik. Hasil pengujian menunjukkan bahwa akurasi dengan pemampatan 30%, 20%, 10% sebesar 47,46%, 4,29% dan 35,01%. 2.3 Perangkat Pembangun Aplikasi XAMMP v3.2.1 terdiri dari beberapa aplikasi sebagai berikut : (1) PHP PHP (Hypertext Preprocessor) merupakan bahasa script server-side yang digunakan untuk mempermudah dan meningkatkan keefisiensi dalam

48 33 pembuatan Web. PHP merupakan software open-source yang disisipkan pada dokumen HTML (Peranginangin, 2006:2). PHP juga merupakan script pemograman yang terletak dan dieksekusi di server dan berfungsi sebagai pengolah data pada server sehingga website akan lebih interaktif dan dinamis. (2) MySQL MySQL adalah salah satu program yang dapat digunakan sebagai database dan merupakan salah satu software untuk database server yang banyak digunakan. MySQL bersifat Open Source dan menggunakan SQL. Kelebihan My SQL diantaranya adalah dapat digunakan oleh beberapa user dalam waktu bersamaan tanpa mengalami masalah, memiliki kecepatan yang bagus dalam menangani query sederhana, mampu menangani basis data dalam skala besar, memiliki keamanan yang baik, memiliki operator dan fungsi secara penuh dan mendukung perintah Select dan Where dalam perintah query, dll (MADCOMS, 2011:140). (3) phpmyadmin Merupakan sekumpulan script PHP yang dipergunakan untuk mengelola database MySQL. phpmyadmin ditujukan untuk menangani administrasi MySQL berbasis web. Artinya interaksi pemeliharaan dilakukan oleh client dengan menggunakan antar muka browser, sedangkan script PHP sendiri akan dijalankan oleh suatu web server. Keuntungan dengan basis web di sini adalah fleksibel penggunaan dan kemudahan interaksi user,

49 34 tidak tergantung pada platform sistem operasinya (Utdirartatmo, 2002:119). 2.4 Kerangka Pikir Media online di Indonesia berkembang dengan pesat, terlihat dari jumlah portal berita online yang meningkat. Berdasarkan konten berita, portal berita online ada yang berskala nasional dan lokal. Struktur kalimat pada portal berskala nasional lebih dominan menggunakan kalimat yang panjang, sedangkan berita pada portal berskala lokal lebih banyak menggunakan kalimat yang lebih ringkas. Kalimat yang panjang memiliki informasi yang lebih lengkap jika dibandingkan dengan kalimat yang ringkas. Meningkatnya jumlah portal berita online menimbulkan tingginya jumlah berita yang disuguhkan kepada masyarakat. Oleh karena itu, kebutuhan peringkasan teks semakin diperlukan untuk kemudahan dan kehematan waktu manusia dalam mengetahui inti berita. Penelitian mengenai peringkasan teks otomatis telah banyak dilakukan oleh peneliti terdahulu, tetapi sebagian besar hasil ringkasan ditentukan berdasarkan perangkingan saja. Kelemahan yang ditimbulkan yaitu terdapat duplikasi informasi, karena proses perangkingan hanya mengambil kalimat dengan bobot yang tertinggi tanpa adanya pengecekan kesamaan informasi antara satu kalimat dengan kalimat yang lain, sehingga dibutuhkan metode yang dapat mengatasi permasalah tersebut seperti metode MMR (Maximum Marginal Relevance).

50 35 Metode MMR memiliki beberapa kelebihan yaitu, sederhana, efisien dan dapat mengurangi redundansi. Metode MMR menghasilkan ringkasan dengan memperhitungkan tingkat relevansi antara kalimat serta relevansi antara judul dan kalimat, sehingga tidak terjadi duplikasi informasi dan tingkat akurasi ringkasan berita semakin besar. Pada gambar 2.2 disajikan kerangka pikir penelitian dalam bentuk skema. Hasil peringkasan teks berita berdasarkan perengkingan dengan memilih kalimat yang memiliki bobot paling besar. Terdapat duplikasi informasi pada ringkasan Peringkasan dengan metode MMR Menghasilkan ringkasan dengan memperhitungkan tingkat relevansi antara kalimat, relevansi antara judul dan kalimat, serta menghilangkan duplikasi informasi. Nilai akurasi ringkasan bertambah besar Gambar 2.2 Kerangka Pikir

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Plagiarisme 2.1.1. Pengertian plagiarisme Maxim Mozgovoy (2007) mengemukakan bahwa komputer jika dan hanya jika dapat mendeteksi plagiarisme apabila sejumlah dokumen dianggap

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori, penelitian terdahulu, dan kerangka pikir yang mendasari penyelesaian permasalahan stemming dengan menggunakan algoritma enhanced confix

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING DOSEN PEMBIMBING Diana Purwitasarti, S.Kom., M.Sc. MAHASISWA Andita Dwiyoga T (5106

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul BAB II STUDI PUSTAKA 2.1 Tinjauan Pustaka Untuk penelitian berkaitan dengan peringkasan teks otomatis pernah dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul Perancangan Information

Lebih terperinci

Klasifikasi Konten Berita Dengan Metode Text Mining

Klasifikasi Konten Berita Dengan Metode Text Mining JURNAL DUNIA TEKNOLOGI INFORMASI Vol. 1, No. 1, (2012) 14-19 14 Klasifikasi Konten Berita Dengan Metode Text Mining 1 Bambang Kurniawan, 1 Shril Effendi, 1 Opim Salim Sitompul 1 Program Studi S1 Teknologi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut A. Peringkasan Teks Otomatis BAB II KAJIAN TEORI Peringkasan teks merupakan proses untuk mendapatkan ringkasan teks secara otomatis dengan menggunakan bantuan komputer. Ringkasan teks adalah kumpulan kalimat

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Sistem 3.1.1 Analisis Masalah Dilihat dari sistem yang sedang berjalan saat ini sistem pencarian yang berlaku masih manual, dimana pengunjung perpustakaan

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkas Teks Otomatis 2.1.1 Pengertian Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Ringkasan adalah mengambil isi yang paling

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING 1 IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING Andita Dwiyoga Tahitoe - Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

OTOMATISASI PEMILIHAN KALIMAT UTAMA DALAM DOKUMEN TUNGGAL BAHASA INDONESIA DENGAN METODE MAXIMUM MARGINAL RELEVANCE TUGAS AKHIR

OTOMATISASI PEMILIHAN KALIMAT UTAMA DALAM DOKUMEN TUNGGAL BAHASA INDONESIA DENGAN METODE MAXIMUM MARGINAL RELEVANCE TUGAS AKHIR OTOMATISASI PEMILIHAN KALIMAT UTAMA DALAM DOKUMEN TUNGGAL BAHASA INDONESIA DENGAN METODE MAXIMUM MARGINAL RELEVANCE TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013 PERANCANGAN INFORMATION RETRIEVAL (IR) BERBASIS TERM FREQUENCY- INVERSE DOCUMENT FREQUENCY (TF-IDF) UNTUK PERINGKASAN TEKS TUGAS KHUSUS BERBAHASA INDONESIA Erwien Tjipta Wijaya Sekolah Tinggi Manajemen

Lebih terperinci

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM HALAMAN JUDU L PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY Azhar Firdaus, Ernawati, dan Arie Vatresia Program Studi Teknik Informatika, Fakultas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER SKRIPSI Diajukan Untuk Memenuhi Sebagian Persyaratan Mencapai Derajat Sarjana Teknik Informatika Oleh : Suryatul Arifidin NIM

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes

Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Klasifikasi Iklan pada Online Shop dengan Metode Naive Bayes Danny Septiawan 1,Dwi Aries Suprayogi 1,Abdul Malik Mukhtar 1,Wahyudi Hatiyanto 1 1 Teknik Informatika, Program Teknologi Informasi dan Ilmu

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

1. Pendahuluan 2. Kajian Pustaka

1. Pendahuluan 2. Kajian Pustaka 1. Pendahuluan Evaluasi hasil belajar menjadi komponen yang sangat penting dalam proses pembelajaran, karena hasil evaluasi merupakan indikator dari pemahaman siswa terhadap materi ajar yang diberikan.

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan berkembangnya teknologi dewasa ini, segala sesuatu harus dilakukan secara cepat, begitu juga dengan pembaca yang ingin secara cepat mengetahui keseluruhan infomasi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means

Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means Pembandingan Aplikasi Peringkasan Multi Dokumen menggunakan Sentence Scoring dan Maximum Marginal Relevance dengan K- Means TUGAS AKHIR Diajukan Untuk Memenuhi Sebagai Persyaratan Mencapai Derajat Sarjana

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Analisis sentimen Analisis sentimen atau opinion mining merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentimen

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci