BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan

Transkripsi

1 BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Kebutuhan akan aplikasi Automatic Text Summarizer terus meningkat seiring dengan munculnya fenomena information overload. Akan tetapi, masih banyak masalah yang muncul dan menghambat pembuatan metode Automatic Text Summarization berbahasa Indonesia Analisis Kebutuhan Kemudahan dalam pencarian, manipulasi, penyimpanan, dan distribusi informasi teks secara digital diiringi dengan kemunculan fenomena information overload. Pengertian information overload menurut Bawden dan Robinson (2009:3-4) adalah keadaan efisiensi individu saat menggunakan informasi dalam aktivitasnya menjadi terhambat karena jumlah informasi relevan yang tersedia. Oleh karena itu, dibutuhkan cara untuk mengatasi masalah information overload tersebut. Salah satu solusi yang dapat digunakan adalah Automatic Text Summarization. Jurafsky dan Martin (2006:24) mendefinisikan Automatic Text Summarization sebagai proses penyaringan (process of distilling) informasi yang paling penting dari suatu teks untuk menghasilkan sebuah versi singkat dari suatu tugas tertentu. Automatic Text Summarization dapat menjawab kebutuhan akan metode yang bisa membantu pengguna menyaring dan menganalisis informasi berjumlah banyak untuk keperluan pengambilan keputusan dengan cepat. Melalui aplikasi Automatic Text Summarizer, pengguna dapat membaca cuplikan isi terpenting dari artikel atau dokumen teks. Dengan demikian, pengguna dapat mempertimbangkan apakah artikel atau dokumen teks tersebut mengandung informasi yang ia butuhkan. Sebagai bagian dari bidang Natural Language Processing, Automatic Text Summarization juga memiliki karakteristik yang sama dengan penelitian dalam bidang Natural Language Processing lainnya, yaitu memerlukan metode yang didesain spesifik untuk setiap bahasa. Algoritma Automatic Text Summarization untuk bahasa Indonesia dibutuhkan agar pengguna dapat melakukan pencarian dan analisis informasi teks berbahasa Indonesia dengan lebih efektif dan efisien. 55

2 Analisis Masalah Penelitian Automatic Text Summarization secara umum lebih terfokus pada metode extractive yang memilih beberapa kalimat terpenting dari teks asli tanpa melakukan perubahan dalam struktur maupun isi kalimat. Metode abstractive untuk Automatic Text Summarization melibatkan parafrasa dan memerlukan analisis Natural Language Processing yang jauh lebih dalam dan rumit, oleh karena itu belum banyak penelitian metode abstractive yang dilakukan terutama untuk bahasa selain bahasa Inggris. Sementara itu, penelitian Automatic Text Summarization metode extractive untuk bahasa Indonesia telah dilakukan, akan tetapi sejauh ini hanya dipublikasikan dalam beberapa dokumentasi singkat berbentuk jurnal dan demo online SIDoBI (Sistem Ikhtisar Dokumen untuk Bahasa Indonesia) pada tahun Sejauh ini, beberapa contoh penelitian Automatic Text Summarization berbahasa Indonesia dilakukan dengan basis metode graph (oleh Budhi, Intan, Silvia, dan Stevanus pada tahun 2007), cluster-based (Prasetyo, Uliniansyah, dan Riandi pada tahun 2008), dan Latent Semantic Analysis (Aristoteles, Herdiyeni, Ridha, dan Adisantoso pada tahun 2012). Perkembangan dalam bidang NLP untuk bahasa Inggris saat ini telah mengarah pada penggunaan Latent Dirichlet Allocation. Blei (2012:80) menyatakan bahwa Latent Dirichlet Allocation dibangun untuk memperbaiki model Probabilistic Latent Semantic Analysis agar mendapatkan hasil yang lebih akurat dan merepresentasikan isi dokumen teks dengan lebih baik. Oleh karena itu, akan dibangun metode Automatic Text Summarization untuk single document berbahasa Indonesia dengan menggunakan Latent Dirichlet Allocation sebagai salah satu komponen penilaian nilai kalimat dan Genetic Algorithm guna mendapatkan hasil ringkasan yang lebih baik.

3 Kerangka Berpikir Terdapat dua alur kerangka berpikir yang dibedakan menjadi alur kerangka berpikir proses training dan alur kerangka berpikir proses testing. Flowchart training digunakan pada saat penentuan bobot sentence features, sedangkan flowchart testing menunjukkan alur proses saat peringkasan teks pengguna. Alur kerangka berpikir dari algoritma Automatic Text Summarization digambarkan dalam skema flowchart training pada Gambar 3.1 dan flowchart testing pada Gambar 3.6. Gambar 3.1 Flowchart Training Algoritma Automatic Text Summarization Keterangan flowchart training algoritma Automatic Text Summarization (Gambar 3.1): 1. Read text input: membaca input dokumen teks dari pengguna. Detailnya dijelaskan pada keterangan Gambar Pre-summarization: mengubah struktur teks asli untuk mengoptimalkan proses pembuatan ringkasan. Detail proses ini terdapat pada keterangan Gambar Summarization: proses inti dari pembuatan ringkasan melalui ekstraksi sejumlah kalimat dari hasil penghitungan skor atau nilai kalimat tertinggi berdasarkan beberapa aspek yang rinciannya tertera pada keterangan Gambar 3.4. Kalimat yang terpilih akan ditampilkan sesuai dengan urutannya dalam teks asli.

4 58 4. Genetic Algorithm: penggunaan Genetic Algorithm untuk menentukan bobot masing-masing sentence feature. Nilai setiap sentence feature per kalimat hasil proses summarization (proses 3) akan disimpan untuk digunakan pada proses ini. Rincian proses terdapat pada keterangan Gambar Learned Sentence Feature Weights. Bobot sentence features yang memberikan hasil terbaik saat training Genetic Algorithm akan disimpan untuk dipakai pada kalkulasi nilai total kalimat untuk ekstraksi ringkasan pada proses testing. Gambar 3.2 Detail Proses Read Text Input Keterangan detail proses read text input (Gambar 3.2): 1.1. Read title, text content, summarization ratio: aplikasi membaca judul, isi dokumen teks atau artikel yang akan diringkas, dan rasio ringkasan yang diinginkan pengguna (dalam bentuk persentase). Selection: Check content length Pengecekan terhadap jumlah karakter isi teks. Jika lebih besar sama dengan 200 karakter, maka input akan diteruskan ke tahap berikutnya (pre-summmarization). Akan tetapi jika jumlah karakter kurang dari 200, maka akan kembali ke halaman input awal.

5 59 Gambar 3.3 Detail Proses Pre-summarization Keterangan detail proses pre-summarization (Gambar 3.3): 2.1. Split into paragraphs: menentukan paragraf-paragraf dalam teks untuk keperluan penghitungan sentence location pada tahap summarization Sentence and word tokenization: pemisahan teks ke dalam kalimat dan kalimat ke dalam kata/token Convert to lowercase: mengubah token ke bentuk huruf kecil untuk menyeragamkan bentuk kata. Selection: Fetch next word from token list Jika masih ada kata yang belum diproses dalam token list, akan dilanjutkan ke selection berikutnya (untuk memilih proses 2.4 atau 2.5 yang akan dijalankan bagi token tersebut). Jika semua token telah diproses, lanjut ke proses berikutnya (summarization). Selection: Check if word is in stop words list Jika kata/token terdapat dalam daftar stop words bahasa Indonesia maka proses 2.4 akan dilaksanakan, sedangkan jika kata tidak termasuk dalam daftar stop words bahasa Indonesia, akan dilanjutkan ke proses 2.5.

6 Stop words elimination: kata/token akan dihilangkan dari daftar token per kalimat untuk summarization Lemmatization: menghasilkan bentuk dasar dari kata untuk disertakan dalam daftar token per kalimat. Gambar 3.4 Detail Proses Summarization Keterangan detail proses summarization (Gambar 3.4): 3.1. TF-ISF: membuat Term Frequency-Inverse Sentence Frequency dan menjumlahkan nilai setiap token per kalimat serta melakukan normalisasi nilai (pembagian dengan nilai TF-ISF tertinggi) Sentence location: menghitung nilai kalimat berdasarkan posisinya dalam paragraf Relative sentence length: menghitung nilai kalimat berdasarkan panjangnya relatif dengan kalimat terpanjang dalam teks LDA topic modeling: membuat model topik LDA secara generatif untuk digunakan pada penghitungan title similarities, keyword similarities, dan sentence cohesion.

7 Title similarities: menghitung nilai kemiripan setiap kalimat dengan judul melalui Jensen-Shannon Divergence dengan melibatkan transformasi ke dalam model topik LDA Keyword similarities: menghitung nilai kemiripan setiap kalimat dengan 10 (sepuluh) token dengan frekuensi kemunculan tertinggi dan melibatkan transformasi ke dalam model topik LDA Sentence cohesion: menghitung nilai kemiripan antarkalimat dengan melibatkan transformasi ke dalam model topik LDA Numerical data: menghitung nilai berdasarkan keberadaan angka atau data numerik dalam kalimat Sentence extraction: penjumlahan seluruh nilai setiap kalimat, memilih sejumlah kalimat dengan nilai tertinggi, dan menampilkan kalimat-kalimat tersebut sesuai urutan semula. Gambar 3.5 Genetic Algorithm Keterangan detail proses Genetic Algorithm (Gambar 3.5):

8 Define fitness function and GA parameters: menentukan fitness function, jumlah populasi, jumlah generasi, jumlah kromosom untuk elitist selection, crossover rate, dan mutation rate Generate initial population: membuat populasi awal secara acak Decode chromosome: mengubah nilai binary (basis 2) kromosom menjadi nilai basis Find fitness for each chromosome: nilai fitness setiap kromosom dihitung melalui fitness function yang menerima input berupa nilai kromosom itu sendiri Select chromosomes for elitism: mengurutkan kromosom dari nilai fitness tertinggi hingga terendah dan mengambil sejumlah kromosom teratas untuk langsung dimasukkan ke dalam populasi baru Select parents: memilih dua kromosom yang akan menjadi parents bagi kromosom baru (child/offspring) Crossover/mating: mengombinasikan bits kromosom dua parents untuk menghasilkan kromosom baru Mutation: mengubah bit kromosom dari 0 menjadi 1 atau sebaliknya Add to new population: menambahkan child/offpsring ke dalam populasi baru yang akan dipakai untuk generasi selanjutnya. Selection: Generation <= 100 Jika jumlah generasi yang telah dibuat belum melebihi 100, populasi baru akan menggantikan populasi lama dan akan kembali ke proses 4.3. Jika jumlah generasi melebihi 100, akan dilanjutkan ke proses 5. Berikut ini adalah flowchart testing algoritma Automatic Text Summarization yang digunakan pada saat peringkasan teks pengguna. Bobot sentence features hasil training akan digunakan dalam proses testing.

9 63 Gambar 3.6 Flowchart Testing Algoritma Automatic Text Summarization Keterangan flowchart testing algoritma Automatic Text Summarization (Gambar 3.6): 1. Read text input: membaca input dokumen teks dari pengguna. Detailnya dijelaskan pada keterangan Gambar Pre-summarization: mengubah struktur teks asli untuk mengoptimalkan proses pembuatan ringkasan. Detail proses ini terdapat pada keterangan Gambar Summarization: proses inti dari pembuatan ringkasan melalui ekstraksi sejumlah kalimat dari hasil penghitungan skor atau nilai kalimat tertinggi berdasarkan beberapa aspek yang rinciannya tertera pada keterangan Gambar 3.4. Nilai setiap sentence feature akan dikalikan dengan bobot sentence feature yang didapatkan dari training Genetic Algorithm, kemudian dijumlahkan per kalimat. Kalimat yang terpilih akan ditampilkan sesuai dengan urutannya dalam teks asli. Selection: Save Jika pengguna memilih untuk menyimpan hasil ringkasan ke storage miliknya, lakukan proses 4 (empat). Jika pengguna tidak ingin menyimpan ringkasan maka proses telah selesai. 4. Saving summary: langkah ini bersifat opsional, pengguna dapat memilih untuk menyimpan hasil ringkasan ke storage miliknya atau tidak. Pilihan format penyimpanan ringkasan yang disediakan adalah plain text (.txt) dan PDF (.pdf). Proses selesai.

10 Metodologi Perancangan algoritma ini berdasarkan pada pemberian nilai sentence features dalam Genetic Algorithm Based Sentence Extraction for Text Summarization yang dibuat oleh Suanmali, Salim dan Binwahlan pada tahun 2011, serta penerapan Genetic Algorithm untuk pembobotan features kalimat dalam Using Genetic Algorithms with Lexical Chains for Automatic Text Summarization milik Berker dan Gungor pada tahun Sentence features dan pembobotan features tersebut diterapkan dengan beberapa modifikasi sesuai dengan kebutuhan. Tahapan metode Automatic Text Summarization untuk bahasa Indonesia ini diaplikasikan dalam dua proses yaitu training dan testing. Tahap training digunakan untuk menentukan bobot sentence features. Hasil bobot sentence features dari tahap training akan digunakan pada kalkulasi total nilai kalimat dalam testing. Testing merupakan tahap pembuatan ringkasan teks pengguna. Berikut ini adalah penjelasan proses-proses yang terdapat dalam training dan testing Read Text Input Input yang diterima dapat dibagi menjadi tiga komponen yaitu judul dokumen, isi dokumen, dan rasio ringkasan (dalam persen). Input yang diterima harus memiliki jumlah karakter lebih besar sama dengan 200 dan terdiri lebih dari satu kalimat. Ekstraksi kalimat tidak dapat berjalan dengan optimal jika input teks hanya terdiri dari satu kalimat atau jumlah karakternya sangat sedikit. Tidak ada perbedaan dalam pembacaan input teks pada tahap training maupun testing Pre-summarization Gupta dan Lehal (2010:258) menyatakan bahwa proses pre-summarization dilakukan untuk mengubah representasi struktur dari teks asli sehingga nantinya akan membuat proses summarization lebih optimal. Secara garis besar tahap presummarization terdiri dari split into paragraphs (pemisahan teks ke dalam paragraf), sentence and word tokenization (tokenization kalimat dan kata), convert to lowercase (konversi ke huruf kecil), stop words elimination (eliminasi stop words), dan lemmatization. Tidak ada perbedaan dalam proses pre-summarization pada tahap training maupun testing.

11 Split into Paragraphs Teks akan dipisahkan ke dalam paragraf-paragraf berdasarkan keberadaan karakter carriage return ('\r', 0x0D pada sistem heksadesimal, 13 pada sistem desimal dalam ASCII) atau line feed ('\n', 0x0A pada sistem heksadesimal, 10 pada sistem desimal dalam ASCII). Kegunaan dari pemisahan ke dalam paragraf ini adalah untuk keperluan penghitungan sentence feature berdasarkan posisi kalimat dalam paragraf yang akan dilakukan pada tahap summarization. Kalimat yang terletak pada baris baru dan terpisah dari kalimat sebelumnya oleh minimal satu karakter carriage return atau line feed akan dimasukkan sebagai awal dari paragraf baru. Pengecualian adalah untuk kalimat berupa poin-poin pendek yang menjadi sambungan dari kalimat penjelas sebelumnya. Poin-poin yang dimaksud masing-masing terdiri dari satu kalimat dan ditandai dengan adanya penomoran (1, 2, 3,...dst) atau menggunakan huruf (a, b, c,...dst) atau karakter penanda poin (*, +, -, #) di bagian awal kalimat-kalimat tersebut. Meskipun poinpoin tersebut dipisahkan oleh baris baru, keberadaan karakter carriage return atau line feed akan diabaikan dan kalimat-kalimat tersebut akan digabungkan dalam satu paragraf. Contoh di bawah ini merupakan kutipan dari Zaman dan Winarko (2011:61) yang menunjukkan pemisahan paragraf berdasarkan keberadaan carriage return atau line feed. Dalam ikhtisar, penulis dapat langsung mengemukakan pokok uraian, sementara bagian yang dianggap kurang penting dapat dibuang. Ringkasan dapat disusun dalam dua bentuk, yaitu bentuk verbal uraian (paragraf) dan bentuk nonverbal berupa bagan atau skema. Kutipan tersebut akan dipisah menjadi dua paragraf dikarenakan terdapat pergantian baris menjadi: 1. Dalam ikhtisar, penulis dapat langsung mengemukakan pokok uraian, sementara bagian yang dianggap kurang penting dapat dibuang. 2. Ringkasan dapat disusun dalam dua bentuk, yaitu bentuk verbal uraian (paragraf) dan bentuk nonverbal berupa bagan atau skema. Berikut ini adalah contoh pemisahan paragraf jika terdapat lebih dari satu poin yang masing-masing terdiri dari satu kalimat dan dipisahkan oleh baris baru. Kutipan berikut ini diambil dari Zaman dan Winarko (2011:61). Pada dasarnya, tugas summarization dapat dibagi menjadi dua tahap utama: (a) Pembangunan representasi teks. 65

12 66 (b) Membuat ringkasan. Pembangunan representasi teks di antaranya terdapat proses pembagian dokumen menjadi kalimat dan stemming. Jika dilihat dari keberadaan carriage return atau line feed saja, maka kutipan tersebut akan dibagi menjadi empat paragraf. Akan tetapi karena (a) dan (b) merupakan bentuk poin yang masing-masing terdiri dari satu kalimat, maka poin (a) dan (b) akan digabungkan dengan paragraf kalimat di atasnya, sehingga menjadi: 1. Pada dasarnya, tugas summarization dapat dibagi menjadi dua tahap utama: (a) Pembangunan representasi teks. (b) Membuat ringkasan. 2. Pembangunan representasi teks di antaranya terdapat proses pembagian dokumen menjadi kalimat dan stemming Sentence and Word Tokenization Schmid (2007:1) mendefinisikan tokenization sebagai proses segmentasi teks ke dalam kata dan kalimat. Proses ini membagi rangkaian karakter ke dalam kalimat dan kalimat ke dalam token. Setelah pemisahan paragraf, langkah berikutnya yaitu input teks akan dipisahkan ke dalam kalimat-kalimat (sentence tokenization). Pembatas antarkalimat ditandai oleh tanda titik (.), tanda tanya (?), atau tanda seru (!) pada akhir kalimat. Identifikasi batas kalimat harus memperhatikan kemungkinan keberadaan tanda titik yang bukan menandakan akhir kalimat. Contohnya yaitu pada penulisan gelar (seperti S.H., dr., S.Kom., dan M.Sc.) dan singkatan (seperti Ny., Tn., kec., kel., dan no.). Penentuan apakah tanda titik pada penulisan gelar dan singkatan merupakan akhir dari kalimat atau bukan, diasumsikan dipengaruhi oleh kata yang mengikuti tanda titik tersebut diawali huruf kapital atau tidak. Jika tidak diawali huruf kapital, maka tanda titik tersebut bukan akhir dari kalimat. Sedangkan jika diawali huruf kapital, perlu dipertimbangkan apakah tanda titik tersebut mengakhiri kalimat berdasarkan konteks dan penggunaannya. Contohnya jika ditemukan "Ny." yang merupakan singkatan dari "Nyonya", biasanya diikuti oleh nama orang sehingga "Ny." bukan merupakan akhir kalimat. Sedangkan gelar "S.H." diletakkan di akhir nama, sehingga jika kata berikutnya diawali huruf kapital, maka tanda titik pada "S.H." merupakan akhir kalimat. Singkatan yang diperhatikan dalam identifikasi batas kalimat ini adalah singkatan yang terdapat pada Lampiran Kamus Besar Bahasa Indonesia IV, dan

13 67 menurut lampiran tersebut menggunakan tanda titik dalam penulisannya. Singkatan yang tidak memiliki tanda titik tidak dihitung karena singkatan tersebut tidak berpengaruh dalam penentuan akhir kalimat. Berikut ini adalah daftar singkatan yang menggunakan tanda titik dalam penulisannya menurut Departemen Pendidikan dan Kebudayaan (2008): Tabel 3.1 Daftar Singkatan Menggunakan Tanda Titik a.d.c. Co. e.g id. log. M.T. Ph.D. S.H. S.V.P. a.i. d.a E.Z. Ir. ltd. Mgr. pjs. S.Hut. saw. a.m. d.l ed. Jln. M.A. Mr. Prof. S.K.M. ssk. A.M.v.B. D.Sc. et al. jo. M.Ag. Mrs. Psi. S.Kedg. st. a.n. dkk. et seq. Jr. M.B.A. n.b. psw. S.Kedh. Swt. a.s. dll. etc. K. M.Hum. N.N. q.e. S.Kom. T. adm. Dr./dr. ext. K.H. M.Kes. Nn. q.q. S.Pd. Tap. art. Dr.h.c. faks. kab. M.Kom. no. q.v. S.Pol. Tb. Ass. Supt. Dr.Phil. fasc. kapt. M.M. Ny. R.A. S.Psi. tel. B.A. Dr.Th. fol. kec. M.P. op r.p.m. S.S. u.b. cit. B.B.A. Dra. Fr. kel. M.P.A. p.a. r.p.s. S.Si. u.p. B.Ch.E. drg. ft. kep. M.P.H. p.c. red. S.Sn. v.h. b.d. drh. Gg. l.l. M.Pd. p.f. reg. S.Sos. v.s. B.Sc. Drs. Hj. lamp. M.Ph. p.f.v. rhs. S.T. v.v. C.C. ds. hlm. LL.B M.Sc. p.m. Rr. S.Tekp. vol. c.o. dsb. i.c. LL.D M.Si. p.p. S.Ag. S.Th. ybs. c.q. dst. i.e. loc cit. M.Sn. p.r. S.E. s.v. yth. Kalimat yang mengandung tanda petik dua untuk mengapit kutipan yang terdiri dari beberapa kalimat akan dianggap sebagai satu kalimat. Sebagai contoh yaitu: Ana berkata, "Jika memang demikian kondisinya, lebih baik rencana ini ditunda hingga minggu depan. Tidak ada salahnya menunggu sampai cuaca membaik."

14 68 maka teks tersebut akan dihitung sebagai satu kalimat, bukan dua kalimat yang terpisah karena keberadaan tanda titik di dalam kutipan. Kalimat tidak dipisah menjadi Ana berkata, "Jika memang demikian kondisinya, lebih baik rencana ini ditunda hingga minggu depan. dan Tidak ada salahnya menunggu sampai cuaca membaik." Identifikasi batas kalimat akan dilanjutkan dengan tokenization kata dari kalimat. Karakter akan dipisahkan ke dalam kata saat terdapat spasi atau didahului atau diikuti oleh tanda baca, tanda kurung, atau tanda petik Convert to Lowercase Sebelum melangkah ke tahap selanjutnya, kata-kata yang sudah disegmentasi akan diubah ke bentuk huruf kecil (lowercase). Hal ini dilakukan untuk menyeragamkan bentuk kata untuk mempermudah pemrosesan Stop Words Elimination Definisi stop words menurut Manning, Raghavan, dan Schutze (2009:27) adalah kata-kata yang biasa ditemui dan memiliki nilai kecil dalam membantu memilih dokumen yang sesuai dengan kebutuhan pengguna. Kata-kata ini akan dihilangkan atau diabaikan dari analisis. Beberapa contoh kata yang terdapat dalam daftar stop words yaitu dan, yang, maka, jika, melakukan, dan lain-lain. Daftar stop words yang digunakan adalah berdasarkan daftar yang dibuat oleh Tala, Kamps, Muller, dan de Rijke pada tahun Detail 758 kata yang terdapat di dalam daftar tersebut dapat dilihat di dalam lampiran Lemmatization Manning, Raghavan, dan Schutze (2009:32) menyatakan pengertian lemmatization adalah proses analisis kosakata dan morfologi kata dengan tujuan menghasilkan bentuk kata dasar yang disebut juga sebagai lemma. Ingason (2008:1) memperkuat teori ini dengan menjelaskan bahwa lemmatization adalah proses untuk menemukan dasar (entry) dari suatu bentuk kata tertentu. Dengan melakukan proses lemmatization, tidak perlu memeriksa semua kombinasi kata Indonesia. Proses lemmatization akan menemukan bentuk kata dasar. Lemmatizer yang akan diimplementasikan pada proses pembuatan ringkasan teks ini adalah lemmatizer bahasa Indonesia oleh Stephen, Christiandy, dan Rolando

15 69 (2013:39-40). Algoritma berbasis kamus dan rules ini dikembangkan dari algoritma Enhanced Confix-Stripping Stemmer yang dibuat oleh Arifin, Mahendra, dan Ciptaningtyas pada tahun Enhanced Confix-Stripping Stemmer (ECS) paling relevan dan diperbaharui, khususnya di dalam Indonesian stemming subject. Akurasi lemmatizer ini mencapai 98%. Algoritma ini melibatkan proses rule precedence check, inflectional suffix removal, derivational suffix removal, derivational prefix removal, recoding, suffix backtracking, hyphenation checking, dan dictionary lookup Summarization Proses lanjutan dari pre-summarization ini merupakan inti dari Automatic Text Summarization. Pada proses ini, nilai features setiap kalimat akan dihitung berdasarkan analisis terhadap kalimat tersebut dan juga kata-kata yang terkandung di dalamnya. Sentence features adalah kategori kriteria penilaian kalimat berdasarkan karakteristik yang dimilikinya. Sentence features yang digunakan yaitu feature TF- ISF, sentence location (posisi kalimat dalam paragraf), relative sentence length (panjang kalimat relatif), title similarities (kemiripan dengan judul), keyword similarities (kemiripan dengan kata kunci), sentence cohesion (kohesi antarkalimat), dan numerical data (data numerik). Feature proper noun tidak dibahas dalam lingkup algoritma Automatic Text Summarization ini. Basis penghitungan untuk title similarities, keyword similarities, dan sentence cohesion adalah LDA Topic Modeling. Tidak ada perbedaan antara tahap training maupun testing kecuali pada proses sentence extraction. Dalam tahap training, masing-masing nilai feature setiap kalimat akan ditampung untuk menjadi input dalam penentuan bobot feature oleh Genetic Algorithm. Sedangkan dalam tahap testing, nilai kalimat merupakan penjumlahan dari perkalian bobot feature (yang didapat dari training Genetic Algorithm) dengan masing-masing nilai sentence feature TF-ISF TF-ISF (Term Frequency-Inverse Sentence Frequency) merupakan nama lain dari TF-IDF (Term Frequency-Inverse Document Frequency) dalam penggunaannya untuk Automatic Text Summarization. Menurut Gupta dan Lehal (2010:261), TF-IDF menggunakan teori bahwa term di dalam dokumen berbanding terbalik secara

16 70 proporsional dengan jumlah dokumen dalam korpus yang mengandung term tersebut. Motivasi di balik penggunaan TF-IDF ini yaitu penelitian bahwa kata/token/term yang muncul pada setiap dokumen belum tentu menunjukkan keunikan yang dibutuhkan untuk kata kunci meskipun frekuensi kemunculannya besar. Pengertian TF-ISF kurang lebih sama dengan pengertian TF-IDF, hanya perlu mengganti "dokumen" dengan "kalimat". Sebagai langkah awal, akan dilakukan penghitungan jumlah masing-masing kata atau term yang terdapat pada setiap kalimat sehingga akan terbentuk matriks dengan baris mewakili kalimat dan kolom mewakili token. Token yang dihitung merupakan hasil dari proses pre-summarization. token-1 token-2 token-3... token-n kalimat kalimat kalimat kalimat-m Contoh tersebut adalah matriks Term Frequency dari dokumen yang terdiri dari m buah kalimat dan n buah token unik. Jika pada kalimat-1 terdapat 1 (satu) buah token-1, 2 (dua) buah token-2, 1 (satu) buah token-3 dan tidak ada token-n, maka representasi frekuensinya adalah [ ] seperti pada baris pertama matriks di atas. Demikian seterusnya untuk seluruh kalimat yang terdapat dalam dokumen teks. TF-ISF mengalikan komponen lokal (Term Frequency) dan komponen global (Inverse Sentence Frequency). Formula TF-ISF tersebut dapat dinyatakan dengan persamaan: tf (t,s) menyatakan frekuensi token (term) t pada kalimat s, N adalah jumlah seluruh kalimat dalam dokumen, sedangkan n adalah jumlah kalimat dalam dokumen yang mengandung term t.

17 71 Hasil dari TF-ISF ini kemudian akan dinormalisasi menjadi unit vector. Arfken, Weber dan Harris (2013:47-48) mendefinisikan unit vector sebagai vektor yang memiliki panjang 1 (satu). Proses normalisasi TF-ISF ke unit vector akan diawali dengan menghitung panjang awal vektor dengan persamaan: Kemudian setiap komponen vektor v akan dibagi dengan nilai v tersebut untuk menghasilkan v nor (vektor yang telah dinormalisasi menjadi unit vector): Suanmali, Salim, dan Binwahlan (2011:6) menjumlahkan nilai TF-ISF setiap kata dalam suatu kalimat. Hasil penjumlahan untuk masing-masing kalimat akan dinormalisasi melalui pembagian dengan nilai TF-ISF kalimat yang tertinggi, sehingga nilai TF-ISF maksimal yang telah dinormalisasi yaitu 1 (satu). Berikut ini adalah contoh penghitungan TF-ISF dari tiga kalimat yang telah melalui tahap pre-summarization: 1. daftar token pada kalimat-1: hewan paus mamalia paus daftar token pada kalimat-2: paus putih daftar token pada kalimat-3: mamalia mamalia 2. token-1 = hewan; token-2 = paus; token-3 = mamalia; token-4 = putih 3. Matriks term frequency: token-1 token-2 token-3 token-4 kalimat kalimat kalimat Nilai TF-ISF setiap token t pada kalimat s akan dihitung dengan menggunakan persamaan:

18 72 Keterangan: tf t,s = frekuensi t pada kalimat s; N = jumlah seluruh kalimat dalam dokumen; n = jumlah kalimat dalam dokumen yang mengandung term t. Untuk token-1 pada kalimat-1: Untuk token-2 pada kalimat-1: Demikian seterusnya sampai seluruh token dalam setiap kalimat selesai diproses. Hasil Matriks TF-ISF untuk contoh di atas yaitu: token-1 token-2 token-3 token-4 kalimat-1 1, , , kalimat-2 0 0, , kalimat , Normalisasi nilai TF-ISF menjadi unit vector. Panjang vektor untuk kalimat-1 ( v 1 ): Pembagian vektor dengan panjang vektor untuk menghasilkan unit vector: Vektor yang telah dinormalisasi akan memiliki panjang vektor = 1. Langkah tersebut dilakukan untuk seluruh kalimat dalam teks. Hasil lengkapnya adalah sebagai berikut: token-1 token-2 token-3 token-4 kalimat-1 0, , kalimat-2 0 0, kalimat

19 73 6. Melakukan penjumlahan TF-ISF setiap kalimat dan normalisasi melalui pembagian dengan TF-ISF maksimum. kalimat-1 = 0, , = 1, (maksimum) kalimat-2 = 0, , = 1, kalimat-3 = 1 Dengan menggunakan persamaan berikut: bobot kalimat-1 = 1, / 1, = 1 bobot kalimat-2 = 1, / 1, = 0, bobot kalimat-3 = 1 / 1, = 0, Sentence Location Sentence location (posisi kalimat) pada paragraf memiliki pengaruh cukup besar dalam menentukan kalimat. Dalam bahasa Indonesia, Rahayu (2007:104) menyatakan bahwa terdapat 4 (empat) jenis paragraf berdasarkan posisi kalimat pokoknya, yaitu: a. Paragraf deduksi, yaitu paragraf yang letak kalimat pokoknya di awal. b. Paragraf induksi, kalimat pokoknya terletak di akhir paragraf. c. Paragraf campuran, kalimat pokoknya terletak di awal dan akhir paragraf. d. Paragraf tanpa kalimat pokok, biasanya mengungkapkan proses yang disusun berdasarkan urutan waktu. Contohnya pada karangan naratif. Suanmali, Salim, dan Binwahlan (20011:6) memberikan bobot untuk 5 (lima) kalimat pertama dalam paragraf dengan tingkatan yang berbeda. Kalimat yang berada di awal akan mendapatkan bobot lebih tinggi dibandingkan kalimat berikutnya. Proporsi pemberian bobot untuk 5 (lima) kalimat pertama berdasarkan posisi dalam paragraf diberikan sebagai berikut: S_F2(s) merupakan bobot kalimat berdasarkan posisi, i sebagai posisi kalimat dalam paragraf, dan n adalah jumlah kalimat dalam satu paragraf. Sedikit modifikasi dilakukan pada pemberian bobot kalimat ini dikarenakan kemungkinan kemunculan kalimat utama dalam paragraf bahasa Indonesia dapat terletak pada kalimat pertama atau kalimat terakhir. Maka untuk kalimat terakhir dalam suatu paragraf, bobotnya

20 74 akan diberikan sama dengan kalimat pertama. Ferrier (2001:7) juga menyatakan bahwa posisi kalimat yang terletak di awal dan akhir paragraf sering merupakan kalimat yang penting untuk diekstrak sebagai bagian dari ringkasan. Dengan demikian, rentang bobot yang dapat diberikan adalah: 1,0 untuk kalimat pertama; 0,8 untuk kalimat kedua; 0,6 untuk kalimat ketiga; 0,4 untuk kalimat keempat; 0,2 untuk kalimat kelima; 1,0 untuk kalimat terakhir; dan 0,0 untuk sisa kalimat lainnya dalam paragraf Relative Sentence Length Menurut Suanmali, Salim, dan Binwahlan (2011:5), komponen relative sentence length (panjang kalimat relatif) dipertimbangkan dalam pemilihan kalimat dengan tujuan untuk memperkecil kemungkinan kalimat yang terlalu pendek untuk terpilih menjadi bagian dari ringkasan. Hal ini dikarenakan kemungkinan kalimat yang terlalu pendek untuk mewakili topik inti dari teks sangat kecil. Contohnya adalah tanggal dan nama penulis dokumen atau artikel. Panjang kalimat akan dihitung melalui pembagian jumlah kata yang terdapat pada suatu kalimat len(s) dengan jumlah kata yang terdapat pada kalimat terpanjang dalam dokumen max(len(s max )). Dengan demikian nilai tertinggi yang dapat diperoleh yaitu 1 (satu) LDA Topic Modeling Blei (2012:78) menjelaskan bahwa Latent Dirichlet Allocation (LDA) merupakan probabilistic topic model untuk dokumen teks yang berdasarkan pada asumsi bahwa dokumen terdiri dari beberapa topik dengan distribusi probabilitas tertentu. LDA bersifat generatif dalam penentuan topik unsupervised dokumen melalui proses acak. Topik didefinisikan sebagai distribusi kosakata tetap (fixed vocabulary). Tujuan topic modeling adalah untuk menemukan topik secara otomatis dari dokumen. Topik, distribusi topik per dokumen, dan penentuan topik untuk setiap kata dalam dokumen tersebut adalah struktur yang tersembunyi (hidden structure). Menurut Wilson dan Chew (2010:467), karena LDA dapat digunakan untuk mencari distribusi topik untuk dokumen baru, maka matriks distribusi tersebut dapat digunakan untuk menghitung similarities antara dua dokumen. Dalam LSA (Latent

21 75 Semantic Analysis), similarity dihitung dengan menggunakan cosine similarity. Akan tetapi untuk LDA, digunakan penghitungan Jensen-Shannon Divergence (JSD). JSD ini akan digunakan dalam kalkulasi title similarities, sentence cohesion, dan keyword similarities. Menurut Blei (2012:82), LDA menggunakan konsep bag of words sehingga urutan kemunculan kata dalam dokumen tidak berpengaruh. Rehurek dan Sojka (2010:48) menyatakan bahwa dalam konsep bag of words, frekuensi kemunculan setiap token pada kalimat akan dihitung dalam bentuk matriks term frequency dan berupa sparse matrix (matriks yang banyak mengandung angka 0). Dictionary dan model topik LDA yang akan digunakan dalam training maupun testing dibuat terlebih dahulu. Pembuatan dictionary, bag of words, model LDA, dan transformasi ke LDA menggunakan Gensim. Kumpulan dokumen (training data) yang digunakan untuk inferensi model topik LDA diambil dari data dump situs Wikipedia berbahasa Indonesia ( edisi 3 Oktober Data tersebut berjumlah artikel yang memiliki format XML (.xml) dan di-compress dalam format Bzip2 (.bz2) sebesar 239 MB. Ukuran asli file XML (.xml) tersebut sebelum dicompress yaitu 1,24 GB. Demi keperluan pemrosesan, data artikel harus diekstrak ke bentuk plain text (.txt) dengan menghilangkan tag XML yang ada. Aplikasi yang digunakan untuk melakukan ekstraksi paragraf dari file XML artikel Wikipedia tersebut adalah WP2TXT versi yang dibuat oleh Hasebe pada tahun WP2TXT menerima input file berformat Bzip2 dan menyimpan hasil paragraf plain text ke dalam output files (.txt) yang masing-masing berukuran 10 MB. Pemrosesan training data dari Wikipedia berbahasa Indonesia menghasilkan 25 plain text files dengan total ukuran 242 MB. Langkah-langkah pre-summarization diterapkan pada ke-25 plain text files, yakni: sentence and word tokenization, convert to lowercase, stop words elimination, dan lemmatization. Pemisahan paragraf tidak dilakukan karena pada pembentukan model LDA tidak menyertakan posisi kalimat dalam paragraf. Dikarenakan jumlah kutipan teks bahasa Inggris yang tercantum dalam training data cukup banyak, maka stop words elimination yang dilakukan untuk training data tidak hanya mencakup stop words bahasa Indonesia melainkan juga stop words bahasa Inggris sejumlah 127 kata dari NLTK Data. Karakter dalam training data yang bukan merupakan karakter

22 76 dengan encoding UTF-8 akan diabaikan. Selain itu, kata yang terdiri dari karakter tunggal atau angka dihilangkan karena tidak memberi arti signifikan bagi inferensi model topik LDA. Masing-masing file juga diinspeksi secara manual untuk menghilangkan kata-kata yang banyak ditemui dan tidak berhubungan dengan kalimat seperti hyperlink sumber, keterangan waktu referensi, keterangan attachment file atau gambar, dan konversi satuan (satuan panjang, berat, dan lain-lain). Output file berisi daftar token per baris. Ke-25 file yang telah melalui langkah-langkah pre-summarization di atas akan dibuat model topik LDA-nya dengan memanfaatkan library Gensim versi yang dibuat oleh Rehurek pada tahun Langkah pertama yaitu penggabungan ke-25 file menjadi satu plain text file berukuran 106 MB. Kemudian dengan menggunakan library Gensim, file diproses untuk membuat dictionary. Rehurek dan Sojka (2010:47) menyatakan bahwa dalam dictionary, akan dibuat identitas integer untuk setiap token unik dan sekaligus juga menghitung frekuensi kemunculannya dalam teks. Dalam file training, terdapat token unik, akan tetapi yang disimpan dalam dictionary hanya token teratas yang frekuensinya tidak kurang dari 5 (lima) dan tidak lebih dari 50% jumlah dokumen. Proses pembuatan dictionary ini berlangsung selama 1 menit 55,546 detik. Dictionary tersebut akan disimpan ke storage untuk keperluan pemakaian selanjutnya dalam training maupun testing. Setelah itu, corpus bag of words akan dibangun dan dibuat indeksnya untuk kemudahan akses data. Corpus bag of words dari training data akan disimpan di storage dalam format Matrix Market. Format ini cocok untuk menyimpan sparse matrix karena hanya menyimpan koordinat baris dan kolom matriks beserta nilai nonzero. Waktu yang dibutuhkan untuk membuat bag of words yaitu 3 menit 22,641 detik. Model topik LDA dibuat secara generatif dari corpus bag of words tersebut. Jumlah topik LDA ditentukan sebanyak 100 topik dengan menggunakan dictionary dan corpus bag of words yang tersimpan di storage. Dengan didapatkannya topik LDA, pembuatan model LDA telah selesai dilakukan dan model LDA disimpan ke storage. Waktu yang dibutuhkan untuk menyelesaikan proses ini adalah 2 jam 27 menit 0,454 detik. Daftar topik yang dihasilkan merupakan distribusi dari token dan akan digunakan untuk menentukan distribusi probabilitas topik dokumen di luar training data.

23 77 Berikut ini adalah contoh sebagian model topik LDA yang dihasilkan (hanya menampilkan 10 kata dengan probabilitas tertinggi per topik): Topik 1: [('0.094', 'inggris'), ('0.061', 'raya'), ('0.044', 'britania'), ('0.035', 'john'), ('0.033', 'london'), ('0.022', 'st'), ('0.021', 'irlandia'), ('0.019', 'william'), ('0.019', 'henry'), ('0.017', 'james')] Topik 2: [('0.070', 'buah'), ('0.046', 'makan'), ('0.045', 'bahan'), ('0.028', 'potong'), ('0.020', 'daging'), ('0.020', 'buat'), ('0.018', 'biji'), ('0.016', 'jenis'), ('0.014', 'masak'), ('0.013', 'kandung')] Topik 3: [('0.067', 'hukum'), ('0.065', 'kitab'), ('0.063', 'alkitab'), ('0.061', 'janji'), ('0.030', 'ibrani'), ('0.028', 'adil'), ('0.021', 'kristen'), ('0.016', 'hakim'), ('0.015', 'sepakat'), ('0.012', 'putus')] Sebelum kalkulasi JSD (title similarities, keyword similarities dan sentence cohesion) dilakukan, transformasi judul, isi dokumen, dan keywords ke dalam bentuk distribusi topik LDA harus dilaksanakan terlebih dulu. Transformasi tersebut akan memanfaatkan dictionary dan model topik LDA yang telah dibuat sebelumnya. Judul dokumen yang telah melalui proses pre-summarization akan dibuat ke dalam bentuk bag of words. Demikian pula dengan isi dokumen. Untuk keywords atau kata kunci dari dokumen ditentukan dengan mengambil 10 (sepuluh) kata yang memiliki frekuensi kemunculan tertinggi, seperti disebutkan oleh Suanmali, Salim, dan Binwahlan (2011:7-8). Kesepuluh kata kunci ini akan diubah ke dalam bentuk bag of words dengan asumsi bahwa kata-kata tersebut merupakan bagian dari suatu kalimat atau query baru terhadap model LDA. Pada proses LDA topic modeling ini, bag of words dari judul dokumen, isi dokumen, dan keywords, akan mengalami transformasi menjadi bentuk LDA dengan menggunakan model topik LDA yang telah dibuat sebelumnya. Hasil transformasi berupa distribusi topik untuk judul, distribusi topik untuk kalimat-kalimat isi dokumen, dan distribusi topik untuk keywords. Berikut ini adalah contoh transformasi isi dokumen (terdiri dari 3 kalimat) ke dalam bentuk LDA pada Gensim. 1. Daftar token per kalimat setelah proses pre-summarization: [ ['hewan', 'paus', 'mamalia', 'paus'],

24 78 ['paus', 'putih'], ['mamalia', 'mamalia'] ] 2. Dictionary (menggunakan dictionary dari proses pembuatan model topik LDA). Direpresentasikan dalam bentuk {'kata': id_integer}: { 'hewan': 32439, 'putih': 22949, 'mamalia': 73150, 'paus': } 3. Bag of words: [ [(32439, 1), (73079, 2), (73150, 1)] [(22949, 1), (73079, 1)] [(73150, 2)] ] 4. Beberapa contoh topik LDA (hanya ditampilkan 10 kata dengan probabilitas tertinggi untuk masing-masing topik): Topik #35: '0.061*warna *merah *putih *pakai *hitam *kaki *kadang *milik *sisi *hijau' Topik #57: '0.055*tumbuh *manusia *sel *hewan *tubuh *hidup *darah *jenis *spesies *temu' 5. Transformasi bag of words ke LDA: [ [(9, ), (26, ), (57, )] [(9, ), (35, )] [(26, )] ] Title Similarities Judul teks yang baik merupakan representasi dari inti keseluruhan teks tersebut. Oleh sebab itu dalam pembuatan ringkasan, judul merupakan unsur esensial yang dapat memberi indikasi kalimat-kalimat terpenting dari teks melalui analisis kemiripannya dengan judul. Modifikasi pada feature title similarities ini yaitu penggunaan Jensen- Shannon Divergence untuk menghitung similarities dari setiap kalimat dengan judul dokumen. Hal ini berbeda dari title feature pada Suanmali, Salim, dan Binwahlan (2011:5) yang hanya menghitung jumlah kata yang sama persis antara kalimat dan judul dibagi dengan jumlah kata dalam judul. Title feature tersebut tidak mempertimbangkan kemungkinan kesamaan topik antara judul dan kalimat karena

25 79 hanya bertumpu pada kemunculan kata-kata yang sama. Hasil transformasi judul dan kalimat-kalimat isi dokumen dalam bentuk LDA pada proses sebelumnya akan digunakan untuk kalkulasi feature ini. Heinrich (2009:26-27) menjelaskan bahwa Jensen-Shannon Divergence (JSD) berdasarkan pada Kullback-Leibler (KL) Divergence, yang merupakan pengukuran distance standar untuk membandingkan distribusi. Persamaan KL Divergence antara dua variabel X dan Y diskrit adalah: KL Divergence dapat diinterpretasikan sebagai perbedaan dari distribusi X dan Y, jika kedua distribusi tersebut sama maka KL Divergence bernilai 0. KL Divergence bersifat tidak simetris, sehingga dibuatlah alternatifnya yang simetris dan smoothed: dengan nilai M: Hasil JSD masih berupa distance sehingga untuk mengubahnya menjadi similarity, harus dinormalisasi: Keyword Similarities Pada metode milik Suanmali, Salim, dan Binwahlan (2011:7-8), kata thematic dinyatakan sebagai istilah untuk sepuluh kata yang paling sering muncul dalam dokumen. Kata-kata tersebut digunakan untuk kalkulasi jumlah kata thematic dalam sebuah kalimat dibagi dengan jumlah kata thematic terbanyak yang muncul dalam kalimat. Sedangkan Kiyoumarsi dan Esfahani (2011:108) menggunakan keywords atau thematic words untuk dihitung cosine similarity-nya dengan setiap kalimat. Kalkulasi keyword similarities (kemiripan dengan kata kunci) secara prinsip sama dengan komponen title similarities (kemiripan dengan judul). Keyword similarities dipilih untuk digunakan karena feature thematic word tersebut hanya bertumpu pada

26 80 kemunculan kata-kata yang sama dan mengabaikan kemungkinan kesamaan topik. Hasil transformasi keywords dan isi dokumen dari proses LDA topic modeling akan digunakan untuk kalkulasi feature ini. Hasil LDA dari kata kunci akan dianalisis terhadap masing-masing LDA kalimat untuk mendapatkan nilai similarity dengan setiap kalimat. Kemiripan ini akan dihitung dengan Jensen-Shannon Divergence (JSD) Sentence Cohesion Penghitungan sentence cohesion (kohesi antarkalimat) dijelaskan oleh Kiyoumarsi dan Esfahani (2011:108) sebagai penjumlahan nilai kemiripan antara kalimat S i dengan setiap kalimat lain pada dokumen. Proses ini dilakukan untuk setiap kalimat. Lalu, nilai ini akan dinormalisasi dengan membagi nilai kalimat S i dengan nilai kalimat tertinggi S max. Nilai yang paling mendekati 1 menandakan kalimat dengan kohesi antarkalimat tertinggi. Hasil transformasi kalimat-kalimat isi dokumen dari proses LDA topic modeling akan digunakan untuk kalkulasi feature ini. Similarity antara setiap kalimat dengan kalimat lainnya dalam dokumen tersebut akan dihitung dengan memakai Jensen-Shannon Divergence (JSD) pada representasi LDA masing-masing kalimat. Sebuah kalimat s akan dihitung similarity-nya dengan seluruh kalimat lain (s i ) berdasarkan JSD dan kemudian dinormalisasi melalui pembagian dengan nilai similarity tertinggi dari kalimat dalam dokumen. Dengan demikian maka nilai maksimal yang dapat diraih adalah 1 (satu) Numerical Data Menurut Suanmali, Salim, dan Binwahlan (2011:8), keberadaan numerical data (data numerik) dalam kalimat sangat penting dan memperbesar kemungkinan kalimat tersebut menjadi bagian dari ringkasan. Nilai bobot yang digunakan berdasarkan pada persamaan:

27 81 S_F7(s) adalah bobot data numerik pada kalimat s, count(numerical data in s) menunjukkan banyak data numerik yang terdapat di dalam kalimat s sedangkan len(s) merupakan jumlah kata dalam kalimat s Sentence Extraction Dalam tahap training, total nilai kalimat diperoleh hanya dengan menambahkan ketujuh nilai features. Kemudian sejumlah kalimat dengan total nilai tertinggi akan diambil menjadi ringkasan. Setiap nilai feature masing-masing kalimat (S_F1(s), S_F2(s), S_F3(s), S_F4(s), S_F5(s), S_F6(s), dan S_F7(s)), akan ditampung untuk menjadi input dalam proses training Genetic Algorithm. Hal ini berbeda dengan tahap testing. Setelah penghitungan komponen bobot kalimat TF-ISF (S_F1(s)), sentence location (S_F2(s)), relative sentence length (S_F3(s)), title similarities (S_F4(s)), keyword similarities (S_F5(s)), sentence cohesion (S_F6(s)), dan numerical data (S_F7(s)), langkah berikutnya menurut Suanmali, Salim, dan Binwahlan (2011:15) adalah penghitungan total nilai kalimat dengan menggunakan bobot features dari training Genetic Algorithm untuk masingmasing kalimat melalui persamaan berikut: Score(S) adalah nilai kalimat S, W k adalah bobot rata-rata feature k yang dihasilkan dari training GA, dan S_Fk(S) adalah nilai feature k. Rasio ringkasan (dalam bentuk persentase) akan digunakan untuk menentukan jumlah kalimat yang akan dipilih untuk masuk ke dalam ringkasan, berdasarkan bobot total tertinggi dari seluruh kalimat yang ada pada dokumen. Sebagai contoh jika rasio ditetapkan sebesar 30% untuk dokumen yang terdiri dari 50 kalimat, maka akan dipilih 15 kalimat dengan bobot tertinggi. Kalimat yang terpilih akan diurutkan sesuai dengan letaknya di dokumen asli untuk membentuk ringkasan.

28 Genetic Algorithm Proses Genetic Algorithm hanya terjadi pada tahap training. Pembobotan features menggunakan metode milik Berker dan Gungor (2012: ) dalam Using Genetic Algorithms with Lexical Chain for Automatic Text Summarization. Untuk setiap artikel atau dokumen, dilakukan penghitungan nilai setiap feature kalimat (TF-ISF, sentence location, relative sentence length, title similarities, keyword similarities, sentence cohesion, dan numerical data). Nilai sentence features dari sistem akan menjadi input bagi GA. Ringkasan manual digunakan sebagai standar pengukuran kualitas ringkasan sistem Define Fitness Function and GA Parameters Jumlah generasi ditetapkan 100 generasi dengan populasi sebanyak 1000 individu/kromosom. Fitness function yang digunakan yaitu rata-rata presisi dari 100 dokumen training. Sistem elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi ke dalam populasi baru untuk generasi berikutnya. Crossover rate yang digunakan adalah 0,8 dan mutation rate sebesar 0, Generate Initial Population Populasi awal yang terdiri dari 1000 kromosom akan dibuat secara acak. Kromosom direpresentasikan dalam bentuk binary string. Masing-masing bobot feature direpresentasikan sebagai gen dari kromosom binary dengan panjang 4 bits. Karena terdapat tujuh bobot features yang hendak dicari nilainya, berarti satu kromosom terdiri dari 28 bits binary. Untuk setiap kromosom, bit bernilai 0 atau 1 sesuai dengan hasil pengacakan dan bit ini digabungkan sampai memenuhi panjang satu kromosom yaitu 28 bits. Seribu kromosom acak ini akan menjadi populasi pertama Decode Chromosome Kromosom harus diubah dulu nilainya agar bisa digunakan dalam kalkulasi fitness function. Setiap bobot feature terdiri dari 4 bits, berarti rentang nilai bobot feature yaitu dari 0 (binary 0000) sampai 15 (binary 1111).

29 S_F1 S_F2 S_F3 S_F4 S_F5 S_F6 S_F Gambar 3.7 Contoh Representasi Binary Kromosom Pada contoh di atas, nilai bobot feature S_F1 adalah 6; S_F2=15; S_F3=3; S_F4=10; S_F5=7; S_F6=6; dan S_F7= Find Fitness for Each Chromosome Fitness dari setiap kromosom dihitung dengan menggunakan nilai rata-rata presisi. Seperti dinyatakan oleh Steinberger dan Jezek (2009:1007), nilai presisi adalah jumlah kalimat yang muncul dalam sistem S dan ringkasan ideal T, dibagi dengan jumlah kalimat dalam ringkasan sistem S. Jumlah dari setiap bobot feature dikalikan dengan nilai feature per kalimat dalam sebuah dokumen akan diurutkan dan diambil sejumlah kalimat dengan nilai tertinggi sesuai dengan rasio ringkasan. Kalimat yang terpilih menjadi ringkasan sistem akan dibandingkan dengan referensi ringkasan manual untuk dihitung nilai presisinya. Kalkulasi ini dilakukan untuk 100 dokumen dan rata-rata presisi dihitung melalui pembagian total presisi seluruh dokumen dibagi jumlah dokumen yaitu 100. Avg.P adalah nilai rata-rata presisi sedangkan P i merupakan nilai presisi dokumen ke-i. Rata-rata presisi akan menjadi nilai fitness untuk suatu kromosom Select Chromosomes for Elitism Seribu kromosom dalam satu populasi akan diurutkan berdasarkan nilai fitness dari nilai tertinggi sampai terendah. Sistem elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi ke dalam populasi baru untuk generasi berikutnya. Sisa 950 kromosom lagi akan dihasilkan melalui crossover/mating dan mutation.

30 Select Parents Pasangan parents akan dipilih dari populasi melalui roulette wheel weighting. Setiap kromosom dapat terpilih menjadi parent, tergantung pada tingkat probabilitas berdasarkan fitness. Dalam metode ini, kromosom dengan fitness lebih tinggi akan memiliki peluang lebih besar untuk terpilih menjadi parent. Nilai acak dari 0 sampai 1 akan digunakan untuk memilih kromosom pertama dari daftar populasi kromosom yang peluang kumulatifnya lebih besar dari nilai acak. Kromosom yang terpilih akan menjadi parent untuk crossover/mating Crossover/Mating Crossover antara kedua parents bergantung pada nilai acak. Jika nilai acak (antara 0 sampai 1) kurang dari crossover rate, maka crossover akan dilakukan. Jika nilai acak lebih besar sama dengan crossover rate maka crossover tidak terjadi dan akan dihasilkan dua offsprings (keturunan) yang sama persis dengan parents. Crossover dilakukan dengan menggabungkan n bits pertama dari satu parent dengan 28-n bits terakhir dari parent lainnya, dengan nilai n (antara 1 sampai 28) diacak untuk setiap reproduksi. Nilai acak titik crossover (n) = 10 Parent Parent Child Child Gambar 3.8 Contoh Crossover

Menunjukkan lagi