Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM)

Transkripsi

1 Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM) Deni Fitriaman #1, Masayu Leylia Khodra #2, Bambang Rianto Trilaksono *3 # Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Bandung, Jawa Barat, Indonesia 1 deni.fitriaman@gmail.com 2 masayu@stei.itb.ac.id, * Teknik Elektro, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Bandung, Jawa Barat, Indonesia 3 briyanto@lskk.ee.itb.ac.id Abstrak Banyaknya berita-berita online sering menarik minat masyarakat untuk membacanya, tetapi kadang dengan terlalu banyaknya berita tersebut membuat orang susah mendapatkan informasi yang relevan. artikel berita dapat membantu pembaca untuk mendapatkan informasi penting dari berita. Pada penelitian ini sistem peringkasan teks otomatis berita pada multi-document dibagi menjadi empat tahap utama, yaitu: preprocessing, ekstraksi fitur, machine learning, dan generate summarization dari beberapa artikel yang mempunyai topik sama. Fitur-fitur kalimat yang digunakan adalah panjang kalimat, posisi kalimat, adanya data numeric, kata-kata thematic, similaritas kalimat dengan judul, kemiripan kalimat dengan kumpulan kalimat lain, ikatan leksikal dengan kalimat sebelum dan sesudahnya. Pada tahapan machine learning menggunakan metode support vector machine (SVM) dengan algoritma LibSVM untuk menghasilkan model. Sedangkan pada generate summarization menggunakan metode maximal marginal relevance (MMR) untuk menghilangkan redundancy data. Dengan menggunakan metode LibSVM dihasilkan beberapa kandidat ringkasan yang selanjutnya diseleksi menggunakan metode MMR. Sehingga didapatkan hasil ringkasan ekstraksi yang efektif dan efisien. Kata kunci peringkasan teks, berita, multi-document, Support Vector Machine (SVM), Maximal Marginal Relevance (MMR). I. PENDAHULUAN Seiring dengan perkembangan zaman membuat kebutuhan manusia terhadap informasi semakin besar, hal ini membuat manusia mulai beralih dari pencarian berita tradisional (seperti koran, radio, televisi, dll) ke penggunaan aplikasi media online dan situs media sosial [1]. Perkembangan pesat layanan informasi online telah mengakibatkan ledakan informasi (information overloading) sehingga tidak ada waktu untuk membaca semua informasi berita online secara lengkap [2][3]. Informasi yang ada pada saat ini tidak hanya bersumber dari satu dokumen saja, melainkan dari beberapa dokumen (multi-document) [4]. Cara dalam mengatasi permasalahan itu adalah dengan membuat satu ringkasan dari beberapa artikel berita. Sebagai dampak dari besarnya kumpulan dokumen online dan meningkatnya kebutuhan bagi pembaca untuk mendapatkan informasi penting dari kumpulan dokumen tersebut, maka dikembangkannya penelitian mengenai metode peringkasan teks multi-document [2] [4]. Peringkasan teks (Text Summarization) adalah proses penyaringan informasi paling penting dari satu atau beberapa sumber untuk menghasilkan teks (ringkasan) dengan panjang tidak lebih dari setengah (kurang dari 50%) teks asli untuk pengguna [2] [5]. Metode peringkasan teks yang digunakan dalam penelitian ini adalah pendekatan pembelajaran mesin (machine learning). Dengan menggunakan metode ini peringkasan kalimat akan dipandang sebagai permasalahan klasifikasi kalimat. dalam artikel akan dibagi menjadi dua kelas, yaitu kelas positif dan kelas negatif. positif berisi kalimat yang termasuk ke dalam ringkasan, sedangkan kalimat negatif tidak termasuk ke dalam ringkasan [6]. Metode klasifikasi yang akan digunakan dalam penelitian kali ini adalah Support Vector Machine (SVM). Tujuan dari penelitian ini adalah membangun SVM Classifier untuk peringkasan teks berita online berbahasa Indonesia pada multi-document, merumuskan kelompok fitur yang digunakan pada proses klasifikasi, serta menghasilkan ringkasan yang efektif dan efisien dengan menggunakan metode Maximal Marginal Relevance (MMR). Kumpulan dokumen yang digunakan sebagai dataset adalah kumpulan berita online yang diambil dalam satu topik dari sepuluh situs berita online ( metrotvnews.com, dan II. PERINGKASAN OTOMATIS BERITA ONLINE BERBAHASA INDONESIA PADA MULTI- DOCUMENT Peringkasan otomatis berita online berbahasa Indonesia pada multi-document adalah sistem peringkasan teks otomatis untuk kumpulan berita online yang diambil dari beberapa situs berita online yang memiliki topik yang sama (satu topik) dan menggunakan SVM Classifier. Masukan dari sistem adalah teks kumpulan berita yang diperoleh dari 10 situs berita online dalam satu topik. Output dari sistem adalah ringkasan ekstraksi dari teks input (compression rate). Sistem ini

2 memiliki dua proses utama, yaitu proses pelatihan (training) dan proses pengujian (testing). Pada proses pelatihan sistem akan mencari model klasifikasi untuk SVM Classifier, sedangkan pada proses pengujian dilakukan untuk mengetahui kinerja dari sistem. Arsitektur sistem Peringkasan Teks Otomatis multi-document ditunjukan oleh Gambar 1. Preprocessing Kumpulan Dokumen Pelatihan Tokenization Stop-words / Stop-list Removal E k s t r a k s i F I t u r Vektor Fitur Pelatihan SVM Model Klasifikasi Indexing Vektor Fitur SVM Classifier Kumpulan Dokumen Masukan Kandidat Pembentukan (MMR) Gambar 2. Struktur Konseptual SVM Hasil Gambar 1. Arsitektur Sistem Peringkasan Teks Berita Online Berbahasa Indonesia pada Multi-Document Langkah-langkah pada proses pelatihan adalah sebagai berikut: a. Mempersiapkan dokumen pelatihan (training dataset). Training dataset yang digunakan adalah kumpulan teks berita online berbahasa Indonesia yang memiliki topic yang sama. b. Membuat ringkasan manual dengan persentase pemampatan berkisar 25% sampai dengan 30% dari satu kumpulan topik yang sama. Yang digunakan oleh training dataset. c. Melakukan preprocessing yang umum digunakan dalam metode temu-balik informasi (tokenizing, stop-word, case folding, dan indexing) pada setiap dokumen pelatihan. d. Mengekstraksi dokumen pelatihan dengan cara mengubah seluruh kalimat ke dalam vektor fitur. e. Melatih SVM menggunakan vektor fitur untuk mendapatkan model klasifikasi. Sedangkan langkah-langkah pada proses pengujian adalah sebagai berikut: a. Melakukan preprocessing dan ekstraksi fitur untuk mendapatkan vektor fitur. b. Vektor fitur akan diklasifikasikan oleh SVM classifier dengan menggunakan model klasifikasi yang telah diperoleh pada proses pelatihan. c. Setiap kalimat dalam dokumen akan diurutkan berdasarkan nilai α. N kalimat teratas diekstrak untuk disusun ke dalam ringkasan. A. Support Vector Machines (SVM) Support Vector Machines (SVM) merupakan salah satu metode pembelajaran mesin (machine learning) yang memaksimumkan akurasi prediksi dengan mencari bidang pembatas (hyperplane) terbaik dari dua kelas dalam ruang fitur [7]. Gambar 2 memperlihatkan struktur konseptual dari SVM. Salah satu bidang pemisah yang memberikan generalisasi paling baik adalah bidang pemisah yang dapat memaksimumkan margin. Margin adalah jarak antara bidang pembatas kelas-1 dengan kelas-2. Data yang berada paling dekat dengan bidang pemnatas disebut support vector [7]. Data pada ruang input (input space) berdimensi d dinotasikan dengan x i R d, sedangkan label kelas dinotasikan dengan y i { 1, 1} untuk I = 1,2,, n, dimana n adalah banyaknya data. Dengan asumsi kedua kelas dapat dipisahkan secara linear bidang pembatas, maka persamaan bidang pembatasnya adalah: x i. w + b = 0 (1) Data x i yang terbagi ke dalam dua kelas didefinisikan sebagai vektor yang memenuhi pertidaksamaan: x i. w + b 1 (2) x i. w + b +1 (3) Dimana w adalah normal bidang, dan b adalah posisi bidang relatif terhadap pusat koordinat. Margin terbesar dapat dicari dengan cara memaksimalkan jarak antar bidang pembatas kedua kelas, yaitu 2/ w. Hal ini dirumuskan sebagai permasalahan quadratic programming [8], yaitu: min τ(w) = 1 2 w 2 (4) Subject to: w. x + b 1, i Permasalahan ini lebih mudah diselesaikan dengan mengubah persamaan (4) ke dalam fungsi Lagrangian berikut: L p (w, b, α) = 1 2 w 2 α i (y i (x i. w + b) 1) n i=1 (5) α i merupakan Lagrange multiplier yang bernilai tidak negatif (α i 0). Nilai optimal dari persamaan 5 dapat dihitung dengan meminimalkan L terhadap w dan b, dan memaksimalkan L terhadap α i. Dengan memperhatikan bahwa pada titik optimal gradient L adalah 0, persamaan 5 dapat diubah menjadi persamaan yang hanya mengandung α i, yaitu:

3 n max α i 1 2 α iα j x i x j y i y j i=1 n i=1,j=1 Permasalahan pada data yang tidak dapat dipisahkan secara linear oleh bidang pemisah, dapat diselesaikan dengan menggunakan teknik SVM soft margin hyperplane [9]. Dengan menggunakan teknik ini, persamaan 4 diubah dengan menambahkan slack variable ξ i (ξ i 0): min τ(w, ξ) = 1 2 w 2 + C ξ i n i=1 Subject to: w. x + b 1 ξ i, i Parameter C digunakan untuk mengontrol efek (tradeoff) antara margin dengan kesalahan (error) klasifikasi ξ. Nilai C yang semakin besar akan memberikan penalti yang lebih besar pada kesalahan klasifikasi. Nilai α i berada pada rentang 0 α i C. Selain dengan menggunakan soft margin hyperplane permasalahan data yang tidak dapat dipisahkan secara linear, dapat diatasi dengan cara mengubah vektor fitur ke dalam dimensi yang lebih tinggi dengan menggunakan fungsi kernel. Fungsi kernel yang digunakan pada penelitan ini adalah Radial Basis Function (RBF), karena kernel ini cocok untuk dataset yang besar [10]. Berikut ini persamaan fungsi kernel RBF: K(x i, x) = exp( γ x i x 2 ), γ > 0 (8) B. Ekstraksi Fitur Pada teks berita online, kata kunci tidak diberikan oleh narasumber. Dalam penelitian ini kata kunci akan dicari dengan cara menghitung frekuensi. Kata kunci digunakan dalam mengekstrak fitur. Fitur dalam penelitian ini merupakan hasil ekstraksi yang diasumsikan memberikan informasi mengenai kalimat. Berikut adalah fitur-fitur yang digunakan dalam mengekstraksi [9] [11]: 1. Fitur Panjang yang paling pendek tidak akan dimasukkan ke dalam kandidat ringkasan. Fitur ini dihitung dengan membagi jumlah kata-kata dalam kalimat terhadap jumlah kata dari kalimat terpanjang. 2. Fitur Posisi Fitur ini mengasumsikan kalimat pertama pada setiap paragraf merupakan kalimat yang paling penting. Pada fitur ini akan diurutkan N kalimat pertama. 3. Fitur Data Numerik Biasanya kalimat yang mengandung data numerik merupakan kalimat penting dan biasanya kalimat tersebut masuk ke dalam ringkasan. 4. Fitur Kata-Kata Thematic Dalam Fitur ini menghitung kemunculan relatif kata kunci pada suatu kalimat, biasanya kalimat yang memiliki relatif kata kunci yang baik, merupakan kalimat ringkasan. 5. Fitur yang Menyerupai dengan Judul (6) (7) yang menyerupai judul adalah kalimat yang memiliki vocabulary overlap antara kalimat dengan judul. 6. Fitur Kemiripan dengan Kumpulan Lain Kemiripan kalimat dapat dilihat dari vocabulary overlap antara kalimat dengan kalimat yang lain, untuk mempermudah maka kata yang dilihat hanya kata kunci. 7. Fitur Ikatan Leksikal dengan Sebelumnya Ikatan leksikal antara kalimat dengan kalimat sebelumnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya. 8. Fitur Ikatan Leksikal dengan Sesudahnya Ikatan leksikal antara kalimat dengan kalimat sesudahnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya. C. Pembangunan Model Untuk mendapatkan model klasifikasi yang dapat mengklasifikasikan kalimat dengan optimal, proses pembelajaran dilakukan dengan menggunakan parameter terbaik. Langkah-langkah untuk mencari parameter terbaik adalah sebagai berikut:: a. Berdasarakan dataset yang digunakan dalam penelitian ini, terjadi imbalanced dataset. Oleh karena itu perlu dilakukan perbaikan distribusi data dengan menggunakan metode Synthetic Minority Over-sampling Technique (SMOTE). Pada proses pembelajaran dilakukan dengan 10-fold cross validation. b. Mencari parameter terbaik C dan γ dengan menggunakan tools yang sudah disediakan oleh Grid Search dan LibSVM. Setelah nilai C dan γ terbaik ditemukan, maka dilakukan proses pelatihan terhadap dataset yang sudah di-balance. Hasil dari proses pelatihan adalah sebuah model klasifikasi. D. Pembentukan Model klasifikasi yang digunakan oleh SVM Classifier akan memisahkan kalimat-kalimat dalam teks berita berdasarkan kelasnya. -kalimat yang masuk ke dalam kelas positif akan diurutkan berdasarkan nilai relevansi, N jumlah kalimat dengan nilai relevansi tertinggi akan disusun dalam ringkasan [10]. Nilai relevansi dapat berupa nilai probabilitas kelas positif atau dengan menggunakan MMR. III. EKSPERIMEN A. Tools Eksperimen pada penelitian ini menggunakan sistem peringkasan teks otomatis pada multi-document untuk berita berbahasa Indonesia. Aplikasi SVM menggunakan library LibSVM pada Weka B. Dataset Dataset yang digunakan adalah kumpulan teks berita online berbahasa Indonesia yang memiliki topik yang sama. Dataset

4 ini diambil dari beberapa situs media berita online, diantaranya: detik.com, kompas.com, metrotvnews.com, dan Proses pengumpulan dataset ini dilakukan secara manual, sedangkan domain berita yang digunakan adalah berita umum, politik, ekonomi, dan olahraga. Setiap kumpulan berita dalam satu topik dibuat sebuah ringkasan manual dengan pemampatan 25-30% dari rata-rata jumlah kalimat pada setiap artikelnya. Setiap kalimat dalam teks berita akan menjadi satu instance data. Pada Tabel 1 adalah dataset yang digunakan dalam penelitian ini. Dataset Jumlah Artikel Tabel 1 Kumpulan Dataset Jumlah Topik Positif Negatif Pelatihan Pengujian C. Balancing Dataset Distribusi dataset pada data pelatihan menunjukkan adanya imbalanced dataset, untuk mengatasi permasalahan tersebut maka digunakan metode Synthetic Minority Oversampling Technique (SMOTE). SMOTE merupakan metode oversampling yang ide utamanya yaitu membuat class minoritas baru dengan menginterpolasi beberapa instances class minoritas yang terletak berdekatan (dengan menggunakan teknik k nearest neighbors). Metode SMOTE ini bekerja dengan mencari k nearest neighbors (yaitu ketetanggaan data) untuk setiap data di kelas minor, setelah itu buat synthetic data sebanyak persentase duplikasi yang diinginkan Antara data minor. D. Skenario Eksperimen Pada penelitian ini akan dilakukan beberapa eksperimen untuk mendapatkan model terbaik, diantaranya pencarian parameter terbaik, fitur yang paling baik, dan kinerja SVM tanpa MMR dan dengan menggunakan MMR. a. Eksperimen Penggunaan SMOTE untuk Imbalanced dataset Pada Eksperimen ini membandingkan hasil pelatihan sebelum menggunakan matode balancing dataset dan yang setelah menggunakan metode balancing dataset. Pada penelitian ini metode balancing dataset yang digunakan adalah Synthetic Minority Oversampling Technique (SMOTE). Dari hasil tersebut didapatkan bahwa hasil penelitian yang tanpa menggunakan balancing dataset, tidak berhasil mengidentifikasi kelas positif dan nilai f-measure pada kelas positifnya bernilai nol (0). Sedangkan hasil pelatihan yang menggunakan SMOTE untuk balancing dataset, berhasil mengidentifikasi kelas positif dan memiliki nilai f-measure pada kelas positif bernilai b. Eksperimen Pencarian Parameter Terbaik Pada Eksperimen ini akan menggunakan fungsi kernel RBF dimana kernel tersebut memerlukan parameter C & γ pada prosesnya. Untuk mendapatkan parameter terbaik, bisa di dapatkan dengan menggunakan tools Grid Search. Dari hasil pencarian menggunakan Grid Search, didapat sepasang parameter terbaik yaitu dengan nilai C = 4.0 dan nilai γ = Nilai f- measure yang diperoleh dari parameter terbaik tersebut adalah c. Eksperimen Fitur yang Paling Baik Fitur yang dianggap paling baik adalah fitur yang memiliki nilai f-measure yang mendekati 1. Setiap fitur akan dibuat model klasifikasinya, lalu dilihat n fitur mana yang memiliki f-measure terbaik. Pada Tabel 2 adalah hasil pengukuran f-measure untuk setiap fitur. Tabel 2 Hasil Eksperimen Setiap Fitur No Fitur Akurasi Precision Recall F-Measure 1 Panjang % Posisi % Data Numerik % Kata-kata Thematic Menyerupai Judul Kemiripan dengan Lainnya Ikatan Leksikal dengan Sebelumnya Ikatan Leksikal dengan Sesudahnya % % % % % d. Eksperimen Algoritma Klasifikasi Lainnya Pada Eksperimen ini melakukan percobaan dengan menggunakan setting terbaik untuk SVM diaplikasikan juga ke algoritma klasifikasi naïve bayes, dan k-nearest Neighbor (knn), yaitu: menggunakan SMOTE dan nilai parameter terbaik (C = 4.0 dan nilai γ = 512.0) yang bertujuan untuk membandingkan akurasi (f-measure) dari hasil pelatihan algoritma tersebut dengan algoritma SVM yang digunakan dalam penelitian ini. Dari hasil eksperimen ini didapat hasil sebagai berikut: Tabel 3 Hasil Perbandingan Hasil SVM Naïve Bayes knn Akurasi 77.25% 59.29% 76.25% Precision Recall f-measure Pada Tabel 3 dapat dilihat hasil kedua pelatihan tersebut (naïve bayes, dan k-nearest Neighbor) masih dibawah dari hasil pelatihan dengan menggunakan Support Vector Machine (SVM). Sehingga dapat disimpulkan bahwa kinerja dengan menggunakan SVM lebih baik dibandingkan dengan menggunakan klasifikasi naïve bayes, dan k-nearest Neighbor (knn).

5 Jumlah Responden e. Eksperimen Hasil tanpa MMR dan Hasil Menggunakan MMR Gambar 3. Tampilan Hasil Tanpa MMR Pada Gambar 3 diatas dapat dilihat bahwa hasil ringkasan tanpa MMR memiliki susunan kalimat yang kurang baik, sehingga pembaca/pengguna akan sulit dalam memahami informasi penting yang akan disampaikan. Gambar 4. Tampilan Hasil Dengan MMR Tabel 4 Scoring Board Hasil Tanpa MMR Topik Kurang Cukup Baik Sangat Baik Tabel 5 Scoring Board Hasil Dengan MMR Topik Kurang Cukup Baik Sangat Baik Dari hasil survei pada Tabel 4 dan Tabel 5 di atas, dapat dibuat sebuah grafik sebagai berikut: Pada Gambar 4 diatas dapat dilihat bahwa hasil ringkasan SVM dengan menggunakan MMR memiliki susunan kalimat yang lebih baik dibandingkan dengan hasil tanpa MMR, sehingga pembaca/pengguna akan lebih mudah dalam memahami informasi penting yang akan disampaikan Grafik Survei Hasil RIngkasan E. Survei Keterbacaan Survei ini digunakan untuk mengukur apakah teks yang dihasilkan oleh sistem dapat dipahami oleh pembaca dan relevan dengan sumber berita aslinya. Survei ini dilakukan dengan cara mengirimkan kuisioner kepada 40 responden. yang digunakan pada survei ini menggunakan model terbaik yang telah didapat pada proses training dengan parameter terbaik (C = 4.0 dan γ = 512.0) dari hasil eksperimen. Survei ini bertujuan untuk mencari metode mana yang dapat menghasilkan ringkasan dengan tingkat keterbacaan yang lebih baik bagi pembaca Tanpa MMR Dengan MMR Topik Kurang Cukup Baik Sangat Baik Gambar 5. Grafik Survei Hasil

6 Hasil grafik pada Gambar 5 dapat dilihat bahwa responden memilih ringkasan yang dihasilkan oleh metode SVM menggunakan MMR lebih banyak daripada ringkasan SVM tanpa MMR. Sehingga dapat disimpulkan bahwa hasil ringkasan SVM dengan menggunakan MMR keterbacaannya lebih baik dibandingkan hasil ringkasan SVM tanpa MMR. F. Evaluasi Hasil Evaluasi hasil ringkasan ini untuk mengukur hasil ringkasan yang dilakukan oleh sistem apakah sudah baik, dan relevan dengan sumber berita aslinya. Pengevaluasian ini dilakukan dengan membandingkan dan memberi penilaian terhadap hasil ringkasan dimana penilaian itu diberikan oleh orang yang ahli dalam bidangnya atau dalam hal ini sering disebut human expert judgement. Pada pengevaluasian ini dilakukan oleh Dr. Dadang S. Anshori, M.Si (Dosen Bahasa Indonesia di UPI sekaligus Ketua Jurusan). Penilaian dari ringkasan akan dikelompokkan dalam empat kategori, yaitu kurang, cukup, baik dan sangat baik. Adapun hasil penilaiannya sebagai berikut. dalam ringkasan) menggunakan SVM Classifier. Selanjutnya dipilih n kalimat dari kelas positif berdasarkan nilai relevansinya. Nilai relevansi dapat berupa nilai probabilitas kemunculan kelas positif atau nilai MR yang dihasilkan melalui MMR. Parameter klasifikasi SVM dengan kernel RBF terbaik yang digunakan sistem peringkasan teks otomatis pada multi-document dalam Tesis ini yaitu, nilai C = 4.0 dan γ = Nilai f-measure yang diperoleh dari parameter terbaik tersebut adalah Sistem peringkasan teks otomatis mengalami peningkatan kinerja jika permasalahan imbalanced dataset ditangani pada level data. Empat fitur yang terbaik pada proses klasifikasi pada Tesis ini adalah panjang kalimat, posisi kalimat, kemiripan kalimat dengan kalimat lainnya, dan data numerik. Pembangunan model klasifikasi menggunakan empat fitur yang terbaik tidak meningkatkan kinerja proses klasifikasi. Tipe Tanpa MMR Dengan MMR Tabel 6 Scoring Board Hasil Kurang Cukup Baik Sangat Baik Grafik Evaluasi Tanpa MMR Gambar 6. Grafik Evaluasi oleh Human Expert Judgement Dari Gambar 6 di atas dapat dilihat bahwa hasil ringkasan sistem dengan menggunakan MMR lebih baik dan relevan daripada hasil ringkasan sistem tanpa menggunakan MMR. IV. KESIMPULAN Dengan MMR Kurang Cukup Baik Sangat Baik Pada sistem peringkasan teks otomatis berita berbahasa Indonesia pada multi-document dapat dilakukan secara efektif dengan cara mengklasifikasikan kalimat-kalimat dalam setiap artikel ke dalam kelas positif (termasuk ke dalam ringkasan) atau kelas negatif (tidak termasuk ke REFERENSI [1] An, J., Cha, M., Gummadi, K., dan Crowcroft, J. (2011). Media Landscape in Twitter, A New World Convention and Political Diversity, University of Cambridge. [2] Lioret, Elena. (2008). Text Summarization: An Overview, Dept. Lenguajes y Sistemas Informaticos Universidad de Alicante Alicante, Spain. [3] Mani, Inderjeet, dan Marbury, T, Mark. (1999). Advances in Automatic Text Summarization, Massachusetts Institute of Technology, Massachusetts, Amerika. [4] Wardhana, Wisnu L. (2008). Peringkas Multi-Dokumen Untuk Bahasa Indonesia Menggunakan Teknik Centroid-Based Summarization Dan Teknik K-Means- Based Summarization. Skripsi pada Fakultas Ilmu Komputer Universitas Indonesia. tidak diterbitkan. [5] S, Suneetha. (2011). Automatic Text Summarization: The Current State of The Art, International Journal of Science and Advance Technology, Vol.1 No.9, JNTU, Hyderabad. [6] Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. In Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval (pp ). ACM. [7] Joachims, Thorsten. (1999). Making Large-Scale SVM Learning Practical. Universitait Dortmund, Jerman. [8] Hovy, E., dan Lin, C. Y. (1998). Automated Text Summarization and the SUMMARIST system, Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998 (pp ). Association for Computational Linguistics. [9] Karamuftuoglu, Murat. (2002). An Approach to Summarisation Based on Lexical Bonds. Document Understanding Conferences. [10] Ishikawa, Kai, 2004, Trainable Automatic Text Summarization using Segementation of Sentence, NEC Corporation. [11] Fattah, Abdel, Mohamed dan Ren, Fuji. (2008). Automatic Text Summarization, World Academy of Science, Engineering and Technology 37.