2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad 1997). Ada dua kriteria peringkasan teks yaitu peringkasan teks berdasarkan eksktraksi dan abstraksi (Jezek & Steinberger 2008). Teknik ekstraksi merupakan suatu teknik untuk menyalin unit-unit teks yang paling penting atau paling informatif dari teks sumber menjadi ringkasan, sedangkan teknik abstraksi adalah mengambil intisari dari teks sumber kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda (Jezek & Steinberger 2008). 2.2 Paragraf Paragraf dapat didefinisikan sebagai unit informasi yang memiliki topik atau pikiran utama atau topik sebagai dasarnya dan disatukan oleh ide pengontrol. Suatu paragraf yang baik adalah paragraf yang mampu mengarahkan dan membawa pembaca memahami dengan baik kesatuan informasi yang diberikan penulisnya melalui ide-ide pengontrolnya (Gunawan et al. 2008). 2.3 Ekstraksi fitur teks Penelitian ini menggunakan sepuluh fitur teks berdasarkan penelitian Fattah dan Ren (2008) yaitu: posisi kalimat, positive keyword negative keyword, kemiripan antar kalimat, kalimat yang menyerupai judul kalimat, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, panjang kalimat, koneksi antar-kalimat, penjumlahan bobot koneksi antar-kalimat, dan penambahan fitur teks kalimat semantik dengan menggunakan teknik SVD. 2.3.1 Posisi Kalimat (f1) Posisi kalimat adalah letak kalimat dalam sebuah paragraf. Pada penelitian ini diasumsikan bahwa kalimat pertama pada tiap paragraf adalah kalimat yang

5 paling penting. Oleh karena itu, penelitian ini mengurutkan kalimat tersebut berdasarkan posisinya. Berikut ini contoh fitur teks posisi kalimat pada sebuah dokumen. Merokok dapat menjadi kebiasaan yang mahal. Seorang yang sudah candu merokok rata-rata menghabiskan rokok satu bungkus per hari. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Banyaknya pengeluaran per tahun dapat melebihi nilai tersebut karena ekstra untuk mengganti bajunya yang berlubang karena percikan api rokok. Berdasarkan contoh dokumen tersebut, maka perhitungan skor fitur teks posisi kalimat untuk kalimat pertama adalah, skor kalimat kedua adalah, skor kalimat ketiga adalah, dan skor kalimat keempat adalah. Oleh karena itu, menghitung skor fitur teks posisi kalimat dapat dilihat pada (2.1). (2.1) Asumsikan s adalah kalimat didalam paragraf, adalah fitur teks posisi kalimat (fitur teks kesatu), N adalah total jumlah kalimat dalam satu paragraf dan X adalah posisi kalimat dalam tiap paragraf. 2.3.2 Positive Keyword (f2) Positive keyword adalah kata yang paling banyak muncul pada sebuah kalimat. Berikut ini ilustrasi positive keyword pada dokumen pelatihan dan ringkasan manual: Merokok dapat menjadi kebiasaan yang mahal. Seorang yang sudah candu merokok rata-rata menghabiskan rokok satu bungkus per hari. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Banyaknya pengeluaran per tahun dapat melebihi nilai tersebut karena ekstra untuk mengganti bajunya yang berlubang karena percikan api rokok. Merokok dapat menjadi kebiasaan yang mahal. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Berdasarkan isi dokumen tersebut, kata merokok merupakan kata yang muncul pada kalimat dan memiliki peluang kemunculan yang tinggi pada

6 ringkasan (tahap pelatihan pada ringkasan manual). adalah, adalah, adalah, adalah. Oleh karena itu, menghitung skor fitur teks positive keyword dapat dilihat pada (2.2). (2.2) Asumsikan s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen, adalah fitur teks positive keyword (fitur teks kedua), n adalah jumlah keyword dalam kalimat, adalah banyaknya keyword ke-i yang muncul dalam kalimat. adalah perhitungan dari korpus pelatihan (ringkasan manual),, n, dan panjang kalimat dihitung menggunakan kalimat s pada tahap pengujian. 2.3.3 Negative Keyword (f3) Negative keyword merupakan kebalikan dari fitur teks positive keyword. Negative keyword adalah kata yang sedikit muncul dalam kalimat. Berikut ini ilustrasi negative keyword pada dokumen pelatihan dan ringkasan manual: Merokok dapat menjadi kebiasaan yang mahal. Seorang yang sudah candu merokok rata-rata menghabiskan rokok satu bungkus per hari. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Banyaknya pengeluaran per tahun dapat melebihi nilai tersebut karena ekstra untuk mengganti bajunya yang berlubang karena percikan api rokok. Merokok dapat menjadi kebiasaan yang mahal. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun.

7 Berdasarkan isi dokumen tersebut, kata ekstra merupakan kata yang mucul pada kalimat dan memiliki peluang yang tinggi tidak muncul pada ringkasan. adalah 1, adalah, adalah, adalah. Oleh karena itu, menghitung skor fitur teks negative keyword dapat dilihat pada (2.3). (2.3) Asumsikan s adalah kalimat dalam ringkasan dokumen, S adalah kalimat dalam dokumen, adalah fitur teks negative keyword (fitur teks ketiga), n adalah jumlah keyword dalam kalimat, adalah banyaknya keyword ke-i yang muncul dalam kalimat. 2.3.4 Kemiripan Antar-Kalimat (f4) Kemiripan antar-kalimat merupakan kata yang muncul dalam kalimat sama dengan kata yang muncul dalam kalimat lain. Berikut ini contoh penerapan kemiripan antar-kalimat yaitu : Saya pergi belajar dan nonton Saya pergi makan Saya sedang nonton Berdasarkan ketiga kalimat tersebut, maka perhitungan skor fitur teks kemiripan antar-kalimat diilustrasikan pada Gambar 1. Skor kalimat pertama adalah, skor kalimat kedua adalah, dan skor kalimat ketiga adalah. Pada kalimat pertama memiliki tiga kata yang sama dengan kalimat kedua dan kalimat ketiga, yaitu kata pergi, saya, nonton. Kalimat kedua memiliki dua kata yang sama dengan kalimat kesatu dan kalimat ketiga, yaitu kata pergi, saya. Kalimat ketiga memiliki dua kata yang sama dengan kalimat kesatu dan kalimat kedua yaitu kata saya, nonton. Berdasarkan ilustrasi kemiripan antar-kalimat pada Gambar 1, maka skor fitur teks kemiripan antar-kalimat dihitung dengan menggunakan (2.4) dengan asumsi s adalah kalimat, adalah fitur teks kemiripan antar-kalimat (fitur teks keempat). (2.4)

8 Gambar 1 Ilustrasi kemiripan antar-kalimat. 2.3.5 Kalimat yang Menyerupai Judul Dokumen (f5) Kalimat yang menyerupai judul dokumen adalah kata yang muncul dalam kalimat sama dengan kata yang ada dalam judul dokumen. Berikut ini contoh penerapan kemiripan antar-kalimat yaitu : Judul dokumen : Aktivitas Saya Saya pergi belajar Saya pergi makan Aktivitas saya adalah nonton Berdasarkan contoh tersebut, maka perhitungan skor fitur teks kalimat yang menyerupai judul diilustrasikan pada Gambar 2. Skor kalimat pertama adalah, skor kalimat kedua adalah, dan skor kalimat ketiga adalah. Pada kalimat pertama memiliki satu kata yang sama dengan judul dokumen yaitu kata saya. Kalimat kedua memiliki satu kata yang sama dengan judul dokumen yaitu kata saya. Kalimat ketiga memiliki dua kata yang sama dengan judul dokumen yaitu kata aktivitas, saya. Gambar 2 Ilustrasi kalimat yang menyerupai judul.

9 Berdasarkan ilustrasi Gambar 2, maka skor fitur teks kalimat yang menyerupai judul dokumen dapat dihitung dengan menggunakan (2.5) dengan asumsi s adalah kalimat, adalah fitur teks kalimat yang menyerupai judul dokumen (fitur teks kelima). (2.5) 2.3.6 Kalimat yang Mengandung Nama Entiti (f6) Nama entiti adalah sebuah kumpulan kata yang memiliki makna atau membentuk nama sebuah institusi, nama orang, nama pulau. Misalnya Institut Pertanian Bogor merupakan kumpulan kata yang memiliki makna sebuah institusi perguruan tinggi. Berikut ini ilustrasi kalimat dalam dokumen yang mengandung nama entiti: Ada dua alasan utama mengapa saya memutuskan untuk memilih Institut Pertanian Bogor setelah tamat SMU. Pertama, biaya tidak terlalu mahal. Biaya kuliah cukup murah dan boleh dibayar dua kali. Hal ini penting karena orang tua saya bukan orang kaya. Kedua, sistem pendidikan yang baik. Institut Pertanian Bogor sudah dikenal karena tenaga pengajarnya banyak yang doktor dan berpengalaman dalam mengajar. Selain itu, mahasiswanya diberi praktek baik di laboratorium maupun di lapangan. Berdasarkan teks dokumen tersebut, kalimat yang mengandung nama entiti terdapat pada kalimat kesatu dan kalimat keenam, sehingga skor untuk kalimat kesatu adalah, skor kalimat keenam adalah, dan skor untuk kalimat yang lain adalah bernilai 0. Maka perhitungan fitur teks kalimat mengandung nama entiti dapat menggunakan (2.6) dengan asumsi s adalah kalimat, adalah fitur teks kalimat yang mengandung nama entiti (fitur teks keenam). (2.6) 2.3.7 Kalimat yang Mengandung Data Numerik (f7) Pada peringkasan teks mempertimbangkan data numerik, karena dalam kalimat yang berisi data numerik terdapat kalimat yang penting. Dokumen keuangan merupakan contoh dokumen yang banyak mengandung data numerik,

10 sehingga peringkasan dokumen tersebut mempertimbangkan fitur teks data nemerik. Berikut ini ilustrasi kalimat dalam dokumen yang mengandung data numerik: Merokok dapat menjadi kebiasaan yang mahal. Seorang yang sudah candu merokok rata-rata menghabiskan rokok satu bungkus per hari. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Banyaknya pengeluaran per tahun dapat melebihi nilai tersebut karena ekstra untuk mengganti bajunya yang berlubang karena percikan api rokok. Berdasarkan teks dokumen tersebut, kalimat yang mengandung data numerik terdapat pada kalimat kedua, sehingga skor untuk kalimat kedua adalah, sedangkan skor kalimat-kalimat lain adalah bernilai 0, maka perhitungan fitur teks kalimat mengandung data numerik dapat menggunakan (2.7) dengan s adalah kalimat, adalah fitur teks kalimat yang mengandung data numerik (fitur teks ketujuh). (2.7) 2.3.8 Panjang Kalimat (f8) Panjang kalimat dihitung berdasarkan jumlah kata dalam kalimat dibagi jumlah kata unik dalam dokumen. Berikut ini ilustrasi panjang kalimat pada sebuah dokumen: Panjang kalimat Merokok dapat menjadi kebiasaan yang mahal. Seorang yang sudah candu merokok rata-rata menghabiskan rokok satu bungkus per hari. Dengan merokok rata-rata Rp. 9000,00 per bungkus, maka seorang pencandu akan mengeluarkan sekitar Rp. 3.285.000,00 per tahun. Banyaknya pengeluaran per tahun dapat melebihi nilai tersebut karena ekstra untuk mengganti bajunya yang berlubang karena percikan api rokok. Berdasarkan contoh dokumen tersebut, maka kata dalam kalimat pertama berjumlah 3 (tidak termasuk kata umum atau stoplist), sedangkan kata unik dalam dokumen berjumlah 25 kata, sehingga panjang kalimat pertama bernilai. Berdasarkan ilustrasi tersebut, maka perhitungan fitur teks panjang kalimat dapat

11 menggunakan (2.8) dengan asumsi s adalah kalimat, adalah fitur teks panjang kalimat (fitur teks kedelapan). (2.8) 2.3.9 Koneksi Antar-Kalimat (f9) Koneksi antar-kalimat adalah banyaknya kalimat yang memiliki kata yang sama dengan kalimat lain dalam satu dokumen. Berikut ini contoh penerapan koneksi antar-kalimat yaitu : Saya pergi belajar Saya pergi makan Saya nonton Dia sedang nonton juga Gambar 3 Ilustrasi koneksi antar-kalimat. Berdasarkan contoh kalimat tersebut, maka fitur teks koneksi antar-kalimat diilustrasikan pada Gambar 3. Kalimat pertama memiliki dua kata yang sama dengan kalimat kedua dan kalimat ketiga yaitu kata pergi, saya, sehingga kalimat pertama memiliki dua koneksi. Kalimat kedua memiliki dua kata yang sama dengan kalimat pertama dan kalimat ketiga yaitu kata pergi, saya, maka kalimat kedua memiliki dua koneksi. Kalimat ketiga memiliki dua kata yang sama dengan kalimat kedua dan kalimat keempat yaitu kata saya, nonton, maka kalimat kalimat ketiga memiliki dua koneksi. Kalimat keempat hanya memiliki kata yang sama dengan kalimat ketiga yaitu kata nonton, sehingga kalimat keempat hanya memiliki satu koneksi. Penelitian ini menggunakan normalisasi agar skor nilai pada tiap kalimat dalam jangkauan 0 sampai 1. Perhitungan fitur

12 teks koneksi antar-kalimat dilihat pada (2.9) dengan asumsi s adalah kalimat, adalah fitur teks jumlah koneksi antar-kalimat (fitur teks kesembilan). (2.9) 2.3.10 Penjumlahan Bobot Koneksi Antar-Kalimat (f10) Fungsi fitur teks ini adalah menjumlahkan bobot koneksi antar-kalimat. Perhitungan fitur teks penjumlahan bobot koneksi antar-kalimat dilihat pada (2.10) dengan asumsi s adalah kalimat, adalah fitur teks penjumlahan bobot koneksi antar-kalimat (fitur teks kesepuluh). (2.10) 2.3.11 Kalimat Semantik (f11) Kalimat semantik adalah kalimat yang mencirikan hubungan antar kalimat yang didasari semantik. Asumsikan D adalah sebuah dokumen, adalah banyaknya kata dalam D, dan adalah banyaknya kalimat dalam D. Matriks kata dapat dilihat pada (2.11), dengan adalah kalimat ke-j dalam dokumen dan adalah term ke-i yang muncul didalam dokumen. Pada penelitian ini menggunakan semua keyword atau term yang ada dalam dokumen kecuali kata-kata stoplist. A = (2.11) dengan didefinisikan pada (2.12), dan adalah banyaknya kemunculan term ke-i pada kalimat. sentences frequency i merupakan banyak kalimat yang mengandung term ke-i, sedangkan merupakan ukuran diskriminan kemunculan term ke-i dalam dokumen, N adalah banyaknya kalimat dalam satu dokumen. (2.12) Pada penelitian ini, kalimat semantik ditentukan dengan menggunakan teknik SVD (Yie et al. 2005). Persamaan Singular Value Decomposition (SVD)

13 adalah, dengan adalah matriks vektor singular kiri, adalah matriks diagonal singular value, dan adalah matriks vektor singular kanan. Dimana vektor V merepresentasikan kalimat, sedangkan vektor U merepresentasikan kata yang ada pada suatu dokumen. Vektor S merupakan tingkat penciri dari matrik A. Skor fitur teks kalimat semantik dapat diterapkan pada (2.13) dengan asumsi s adalah kalimat, adalah fitur teks kalimat semantik (fitur teks kesebelas), penjelasan secara detail pada bab pembahasan. (2.13) 2.4 Algoritme Genetika Menurut Goldberg (1989) algoritme genetika atau genetic algorithm adalah algoritme pencarian yang didasari pada mekanisme genetik alamiah dan seleksi alamiah. GA dapat diaplikasikan untuk menyelesaikan permasalahan optimasi kombinasi, yaitu dengan mendapatkan suatu nilai solusi optimal terhadap suatu permasalahan yang mempunyai banyak kemungkinan (Hermanto 2003). GA dikarakteristik dengan lima komponen dasar yaitu: 1. Representasi kromosom untuk memudahkan penemuan solusi dalam masalah pengoptimasian. 2. Inisialisasi populasi. 3. Fitness function yang mengevaluasi setiap solusi. 4. Proses genetik yang menghasilkan sebuah populasi baru dari populasi yang ada. 5. Parameter seperti ukuran populasi, peluang proses genetik, dan jumlah generasi. 2.4.1 Siklus Algoritme Genetika Siklus dari algoritme genetika pertama kali diperkenalkan oleh Goldberg (1989), dapat dilihat pada Gambar 4. Siklus ini terdiri beberapa bagian yaitu: populasi awal, evaluasi fitness, seleksi individu, pindah silang (crossover), mutasi (mutation), dan populasi baru.

14 Gambar 4 Siklus algoritma genetika oleh Goldberg (1989). 2.4.1.1 Populasi Populasi awal adalah sekumpulan kromosom awal yang dibangkitkan secara acak dalam satu generasi. Populasi baru merupakan sekumpulan kromosom baru hasil dari proses seleksi, pindah silang dan mutasi. Jumlah populasi dalam algoritme genetika bergantung pada masalah yang akan diselesaikan. Kromosom adalah kumpulan gen yang membentuk nilai tertentu, yang direpresentasikan sebagai solusi atau individu. Gen-gen dapat berupa nilai biner, float, integer, atau string. Allele merupakan nilai dari gen. Generasi merupakan satu siklus proses evolusi atau satu iterasi didalam algoritme genetika. Gambar 5 menjelaskan ilustrasi tentang representasi penyelesaian masalah dalam algoritme genetika. Teknik untuk pembangkitan populasi awal yaitu: random generator. Random generator adalah suatu proses pembangkitan bilangan acak untuk nilai tiap gen sesuai dengan representasi kromosom yang digunakan. Teknik ini digunakan untuk bilangan real atau float. Penerapan random generator pada Persamaan 2.14. (2.14) dengan IPOP merupakan gen berisi nilai dari bilangan acak yang dibangkitkan sebanyak (jumlah populasi) dan (jumlah gen dalam tiap kromosom). Teknik pengkodean adalah suatu teknik untuk membuat kode atau membentuk struktur kromosom. Satu gen umumnya merepresentasikan satu variabel. Teknik pengkodean ini bergantung pada pemecahan masalah yang dihadapi. Kromosom dapat direpresentasikan sebagai string bit, array bilangan real. Berikut ini contoh representasi kromosom: String bit : 11001, 10111

15 Array bilangan real : 7.9, 9.7, -70 Gambar 5 Ilustrasi penyelesaian masalah dalam algoritme genetika. 2.4.1.2 Fungsi Evaluasi Suatu individu atau kromosom dievaluasi berdasarkan suatu fungsi tertentu sebagai ukuran performansinya. Fitness function adalah suatu fungsi yang digunakan untuk mengukur nilai kesamaan atau nilai optimal suatu individu. Nilai fitness adalah suatu nilai yang menyatakan baik atau tidak suatu solusi. Nilai fitness ini yang akan dijadikan referensi dalam mencapai nilai optimal dalam algoritme genetika. Pada evolusi alam, individu yang nilai evaluasi atau fitness tinggi akan bertahan hidup, sedangkan individu yang bernilai evaluasi rendah akan mati (Suyanto 2005). Pada peringkasan teks, nilai fitness ini direpresentasikan sebagai solusi atau irisan hasil ringkasan sistem dengan hasil ringkasan manusia. 2.4.1.3 Seleksi Seleksi adalah tahapan dalam algoritme genetika yang berfungsi memilih kromosom yang terbaik untuk proses pindah silang dan mutasi (Cox 2005) dan mendapatkan calon induk yang baik. Semakin tinggi nilai fitness suatu individu semakin besar kemungkinannya untuk dipilih. Jika kromosom memiliki nilai fitness kecil, maka tergantikan oleh kromosom baru yang lebih baik. Tiap kromosom dalam wadah seleksi akan menerima peluang reproduksi tergantung

16 pada nilai objektif kromosom terhadap nilai objektif dari semua kromosom dalam wadah seleksi tersebut. 2.4.1.4 Pindah Silang Pindah silang merupakan komponen yang penting dalam GA (Gen & Cheng 1997). Pindah silang adalah operator dari algoritme genetika yang melibatkan dua induk untuk membentuk kromosom baru. Pindah silang menghasilkan titik baru dalam ruang pencarian yang siap diuji. Operasi ini tidak selalu dilakukan pada semua individu yang ada. Individu dipilih secara acak untuk dilakukan penyilangan dengan (peluang terjadi pindah silang) antara 0.6 sampai 0.95. Jika pindah silang tidak dilakukan, maka nilai dari induk akan diturunkan kepada anak (keturunan). Prinsip dari pindah silang adalah melakukan operasi genetika (pertukaran, aritmatika) pada gen-gen yang bersesuaian dari dua induk untuk menghasilkan individu baru. Pindah silang dilakukan pada setiap individu dengan peluang pindah silang yang telah ditentukan. Gambar 6 mengilustrasikan diagram alir proses pindah silang. Gambar 6 Diagram alir proses pindah silang. Pindah Silang Satu Titik Pindah silang satu titik dan banyak titik biasanya digunakan untuk representasi kromosom dalam biner. Pada pindah silang satu titik, posisi pindah

17 silang k (k=1,2,,n-1) dengan N = panjang kromosom diseleksi secara acak. Variabel-variabel ditukar antar kromosom pada titik tersebut untuk menghasilkan anak. Pada Gambar 7, ilustrasi pindah silang satu titik dengan peluang pindah silang 0.65 dan 0.70. Gambar 7 Pindah silang satu titik. 2.4.1.5 Mutasi Mutasi adalah operator sekunder atau operator pendukung dalam algoritme genetika yang berperan mengubah struktur kromosom secara spontan. Perubahan spontan ini menyebabkan terbentuknya suatu mutan, yaitu suatu kromosom baru yang secara genetik berbeda dengan kromosom sebelumnya. Mutasi diperlukan untuk mencari solusi optimum, yaitu 1) mengembalikan gen-gen yang hilang pada generasi berikutnya, 2) memunculkan gen-gen baru yang belum pernah muncul pada generasi sebelumnya (Gen & Cheng 1997). Tingkat mutasi atau peluang mutasi ( adalah rasio antara jumlah gen yang diharapkan mengalami mutasi pada setiap generasi dengan jumlah gen total dalam populasi. Peluang mutasi yang digunakan untuk running program biasanya rendah antara 0.001 sampai 0.2. Jika tingkat mutasi rendah terlalu rendah, maka semakin kecil memunculkan gen-gen baru. Jika mutasi terlalu tinggi maka banyak

18 mutan yan muncul, akibatnya banyak karakteristik kromosom induk yang hilang pada generasi berikutnya sehingga algoritme generika akan kehilangan mengingat atau belajar dari proses sebelumnya (Gen & Cheng 1997). Gambar 8 mengilustrasikan diagram alir mutasi. Gambar 8 Diagram alir mutasi. Gambar 9 merupakan contoh penerapan mutasi pada gen yang berisi nilai biner, dengan r adalah indeks atau posisi gen yang mengalami mutasi. Mutasi biner merupakan salah satu cara sederhana untuk mengganti satu atau beberapa nilai gen dari kromosom. Pada Gambar 9, nilai acak r adalah tiga maka nilai gen ketiga yang mengalami mutasi. Gambar 9 Proses dan hasil mutasi.