PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATER UTARA MEDAN 2014
ii PERSETUJUAN Judul : PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TF.IDF Kategori : SKRIPSI Nama : DANDUNG TRI SETIAWAN Nomor Induk Mahasiswa : 071402054 Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, Agustus 2014 Komisi Pembimbing : Pembimbing 2 Pembimbing 1 M Anggia Muchtar, ST, M.MIT Prof. Dr. Opim Salim Sitompul, M.Sc NIP. 19800110 200801 1 010 NIP. 19610817 198701 1 001 Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua, M Anggia Muchtar, ST, M.MIT NIP. 19800110 200801 1 010
iii PERNYATAAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF) SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya. Medan, Agustus 2014 Dandung Tri Setiawan 071402054
iv UCAPAN TERIMA KASIH Alhamdulillah, segala puji dan syukur penulis ucapkan kehadirat Allah SWT, serta shalawat dan salam kepada junjungan alam nabi Muhammad SAW, karena atas berkah, rahmat dan hidayah-nya penulis mampu menyelesaikan skripsi ini. Dalam penulisan skripsi ini penulis banyak mendapatkan bantuan serta dorongan dari pihak lain. Dalam kesempatan ini dengan segala kerendahan hati, penulis mengucapkan terima kasih sebesar-besarnya kepada: 1. Umi dan Papa selaku kedua orang tua penulis Fatimah dan M. Yahmin, karena berkat dukungannya baik secara moril maupun materil secara terus disetiap saat, sehingga penulis dapat menyelesaikan skripsi ini. 2. Pihak keluarga, kakak, abang, adik dan seluruh keluarga. 3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc, Bapak M. Anggia Muchtar, ST, M.MIT selaku dosen pembimbing penulis yang telah bersedia meluangkan waktu untuk memberikan saran dalam menyelesaikan skripsi ini. 4. Ketua dan Sekretaris Program Studi S-1 Teknologi Informasi Bapak M. Anggia Muchtar, ST, M.MIT dan Bapak M. Fadhly Syahputra, M.Sc. 5. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi serta semua dosen dan pegawai di Program Studi S-1 Teknologi Informasi. 6. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dr. Syahril Effendi, S.Si, M.IT selaku dosen pembanding dan penguji yang telah banyak memberikan saran dan kritik dalam menyelesaikan skripsi ini. 7. Seluruh rekan-rekan kuliah sejawat yang tidak dapat disebutkan satu persatu. Dalam penyusunan skripsi ini penulis menyadari bahwa masih banyak kekurangan, untuk itu penulis mengharapkan saran dan kritik yang bersifat membangun dari semua pihak demi kesempuranaan skripsi ini. Akhir kata penulis mengharapkan semoga skripsi ini dapat bermanfaat dan membantu semua pihak yang memerlukannya.
v ABSTRAK Perkembangan teknologi internet berdampak bertambahnya jumlah situs berita dan menciptakan ledakan informasi. Hal tersebut menuntut semua informasi bisa diakses dengan cepat dan tidak harus membutuhkan banyak waktu dalam membaca sebuah berita. Teknologi peringkas teks otomatis menawarkan solusi untuk membantu pencarian isi berita berupa deskripsi singkat. Penelitian diawali dengan tahap text preprocessing, feature selection dan proses selanjutnya menghitung bobot tf-idf. Hasil dari penelitian ini menunjukkan bahwa metode tf-idf dapat digunakan untuk meringkas teks secara otomatis meskipun tidak sampai pada proses stemming. Sistem dengan metode tf-idf masih memiliki kelemahan yaitu ringkasan teks yang dihasilkan kurang mencerminkan isi berita dan secara tata bahasa masih belum baik. Kata Kunci : ringkasan, ringkasan teks, peringkasan teks otomatis, tf-idf, berita.
vi THE AUTOMATIC NEWS TEXT SUMMARIZATION BY USING TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF.IDF) ABSTRACT The development of internet technology affect the increasing of news web and create an information explosion. This make all information can be accessed fast and not need so much time in reading a news. The automaic summarizaton technology of text give solution in searching the content of news in short description. This study begins with the processing text step, feature selection and count the amount tf-idf. The result of this study show that tf-idf can be used to summarize text automatcally though it cannot reach stemming process. The system of tf.idf method still has some weaknesses that is the result of text does not interprete the content of text and there are also some of text grammar. Keywords : summary, teks summarization, automatic text summarization, term frequency, inverse document frequency, tf-idf, news.
vii DAFTAR ISI Persetujuan Pernyataan Ucapan Terima Kasih Abstrak Abstract Daftar Isi Daftar Tabel Daftar Gambar Hal. ii iii iv v vi vii ix x 1 Bab 1 Pendahuluan 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 2 1.3. Tujuan Penelitian 2 1.4. Manfaat Penelitian 2 1.5. Batasan Masalah 3 1.6. Metodologi Penelitian 3 1.7. Sistematika Penulisan 4 2 Bab 2 Landasan Teori 6 2.1. Peringkasan Teks Otomatis 6 2.2. Berita 9 2.2.1. Nilai-Nilai Berita 9 2.2.2. Unsur-Unsur Berita 10 2.2.3. Anatomi Berita 10 2.3. Text Mining 12 2.4. Kata 13 2.5. Kalimat 14 2.6. Paragraf 14
viii 2.7. Term Frequency Inverse Document Frequency (TF-IDF) 15 2.8. Flowchart 17 2.9. Penelitian Terdahulu 18 3 Bab 3 Analisis dan Perancangan 21 3.1. Analisis Data 21 3.1.1. Data Berita 21 3.1.2. Data Stopword 23 3.1.3. Data Kata Dasar 23 3.2. Analisis Sistem 24 3.2.1. Text Preprocessing 24 3.2.2. Feature Selection 26 3.2.3. Contoh penggunaan algoritma (tf/idf) 28 3.3. Perancangan Sistem 31 3.3.1. Diagram konteks 31 3.3.2. DFD level 1 32 3.4. Perancangan Antarmuka Sistem 33 4 Bab 4 Implementasi dan Pengujian 35 4.1. Implementasi Sistem 35 4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak 35 4.1.2. Tampilan Awal 36 4.1.3. Tampilan Proses Sistem 36 4.1.4. Tampilan Hasil Sistem 37 4.2. Pengujian Sistem 38 5 Bab 5 Kesimpulan dan Saran 40 5.1. Kesimpulan 40 5.2. Saran 40 Daftar Pustaka 41
ix DAFTAR TABEL Hal. Tabel 2.1 Fungsi simbol-simbol flowchart 18 Tabel 2.2 Penelitian terdahulu 20 Tabel 3.1 Tabel Berita 22 Tabel 3.2 Tabel Stopword 23 Tabel 3.3 Tabel kata dasar 23 Tabel 3.4 Hasil dari proses text preprocessing 26 Tabel 3.5 Hasil dari proses text preprocessing yang dijadikan input. 27 Tabel 3.6 Kumpulan stopword 27 Tabel 3.7 Hasil dari proses filtering 28 Tabel 3.8 Menghitung tf 29 Tabel 3.9 Menghitung df 29 Tabel 3.10 Menghitung idf (1) 30 Tabel 3.11 Menghitung idf (2) 30 Tabel 3.12 Menghitung tf.id 31 Tabel 4.1 Rancangan Pengujian Tampilan Sistem 38 Tabel 4.2 Hasil Pengujian Tampilan Sistem 39
x DAFTAR GAMBAR Hal. Gambar 2.1 Mesin Peringkas Teks 8 Gambar 2.2 Modul Peringkas Teks 9 Gambar 2.3 Anatomi Berita 11 Gambar 2.4 Tahapan-tahapan peringkasan teks otomatis metode TF-IDF 17 Gambar 3.1 Skema proses pengambilan berita 21 Gambar 3.2 Flowchart Text Preprocessing 25 Gambar 3.3 Contoh kalimat yang akan diinput 25 Gambar 3.4 Contoh kalimat setelah ToLowerCase 25 Gambar 3.5 Flowchart proses filtering 27 Gambar 3.6 Konteks Diagram Peringkas Teks Otomatis 32 Gambar 3.7 DFD peringkas teks otomatis 32 Gambar 3.8 Tampilan Antarmuka Sistem 33 Gambar 4.1 Tampilan Awal Sistem 36 Gambar 4.2 Tampilan Proses Pemilihan 37 Gambar 4.3 Tampilan Hasil Proses Pemilihan 37 Gambar 4.4 Tampilan Hasil Ringkasan 38