IMPLEMENTASI PERINGKASAN OTOMATIS PADA DOKUMEN TERSTRUKTUR DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF

Transkripsi

1 IMPLEMENTASI PERINGKASAN OTOMATIS PADA DOKUMEN TERSTRUKTUR DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF Arlisa Yuliawati 1, Diana Purwitasari, Umi Laili Yuhana 3 Teknik Informatika, Fakultas Teknologi Informasi, ITS arlisa.yuliawati@gmail.com 1, diana@if.its.ac.id, yuhana@if.its.ac.id 3 Abstract Salah satu kegunaan dari peringkasan teks otomatis adalah untuk memudahkan proses pencarian kata kunci pada mesin pencari. Pencarian kata kunci lebih baik jika dilakukan terhadap dokumendokumen yang sudah teringkas, sehingga hasil pencarian bisa lebih tepat. Oleh karenanya, peringkasan harus bias menghasilkan informasi inti dari suatu dokumen yang diringkas, yang mana dapat dilakukan dengan pengambilan topik-topik penting dari setiap bagian dokumen. Dalam makalah Tugas Akhir ini dijelaskan mengenai peringkasan yang dikhususkan pada dokumen terstruktur untuk mengambil kalimat-kalimat penting yang mewakili maksud utama dokumen. Dengan ekstraksi matriks term-by-sentences dari dokumen menggunakan metode Faktorisasi Matriks Nonnegatif (Nonnegative Matrix Factorization/NMF), diharapkan proses peringkasan dapat memberi hasil ringkasan yang lebih bermakna. Evaluasi dilakukan untuk mengetahui hasil peringkasan dokumen. Dengan metode NMF, hasil peringkasan cenderung lebih baik dan bermakna. Kata kunci : Peringkasan Otomatis, Dokumen Terstruktur, Faktorisasi Matriks Nonnegatif, Multiplicative Update, Generic Relevance of Sentence (GRS). I. PENDAHULUAN Dalam proses pencarian dokumen pada halaman web, pencarian kata kunci terhadap koleksi dokumen pada umumnya dilakukan pada keseluruhan isi dokumen. Dengan demikian terkadang proses temu kembali informasi memerlukan waktu yang lama. Padahal pengguna cenderung mengharapkan hasil yang tepat dengan waktu singkat dalam proses pencarian informasi. Oleh karena itu sebaiknya proses pencocokan kata kunci terhadap koleksi dokumen dilakukan pada inti dokumen yang memiliki isi lebih singkat tentunya. Hal tersebut melatarbelakangi diperlukannya sistem peringkas otomatis pada suatu dokumen. Peringkas teks otomatis (Automatic Text Summarization) sendiri merupakan perangkat berbasis komputer untuk menghasilkan teks yang lebih pendek dari teks aslinya namun masih menyimpan poin utama dari teks yang diringkas (Dalianis, 005). Untuk keperluan tersebut, beberapa perangkat lunak untuk peringkasan dokumen telah lebih dulu dikembangkan, diantaranya SUMMARIST, The MEAD Summarizer, LexRank, Corporum Summarizer-Cognit AS, dan sebagainya (Dalianis, 005; Radev, 003). Dokumen terstruktur yang dimaksud dalam makalah ini menggambarkan pengorganisasian dokumen ke dalam struktur-struktur hirarki tertentu. (Lemone, 1998). Peringkasan pada dokumen terstruktur dimaksudkan untuk mengambil pokok bahasan dari setiap bagian sehingga ringkasan yang dihasilkan lebih dapat menggambarkan intisari dokumen yang diringkas. Berdasarkan metodenya, peringkasan dokumen dapat dibedakan menjadi peringkasan generik (generic summarization) dan peringksan berdasarkan query (query-based summarization) (Lee, Park, Ahn, & Kim, 009). Metode pertama merupakan proses peringkasan dengan mengambil poin penting dokumen secara semantik dengan pengolahan kata-kata dalam dokumen, sedangkan pada metode kedua, peringkasan dilakukan dengan memperhatikan kata kunci dalam menghasilkan ringkasan. Dalam jurnal tersebut juga dijelaskan bahwa generic summarization dibagi lagi ke dalam dua bagian, yaitu metode supervised dan unsupervised. Pada metode supervised, diperlukan data training dari sekumpulan orang untuk menghasilkan ringkasan suatu dokumen, sehingga ketika terdapat dokumen yang berbeda, diperlukan pula data training yang berbeda. Metode supervised ini hanya dapat ditetapkan untuk model data tertentu. Sedangkan pada metode unsupervised, peringkasan tidak memerlukan data training seperti yang dilakukan pada metode supervised. II. PENELITIAN TERDAHULU Salah satu metode peringkasan secara unsupervised yang pernah dikembangkan adalah metode peringkasan menggunakan LSA (Latent Semantik Analysis) (Gong & Liu, 001). Metode ini menggunakan metode SVD (Singular Value Decomposition) untuk proses dekomposisi matriks. Salah satu matriks yang dihasilkan adalah matriks yang merepresentasikan topik dalam suatu kalimat. Matriks tersebut cenderung bersifat non sparse dan berisi bilangan negatif dan nonnegatif pada elemenelemennya. Karena sifat matriks yang non sparse (padat) itulah, kecenderungan suatu kalimat mengandung suatu topik tertentu lebih sulit dikenali. Hal itu dikarenakan 1

2 setiap elemen pada vektor kolom matriks hasil dekomposisi tersebut pasti memiliki nilai yang merepresentasikan persentase kecenderungan kalimat terhadap suatu topik. Hal itulah yang memunculkan metode dekomposisi matriks yang menghasilkan matriks yang lebih sparse dan bersifat nonnegatif sebagai metode peringkasan dokumen. Metode ini adalah dekomposisi matriks dengan proses faktorisasi matriks nonnegatif (Nonnegative Matrix Factorization/NMF) yang dapat menghasilkan matriks yang merepresentasikan kaitan kalimat dengan topik tersembunyi (hidden topic). Elemen-elemen matriks yang lebih sparse ini lebih mudah digunakan untuk mengetahui kecenderungan suatu kalimat terhadap suatu topik tertentu sehingga memiliki kemungkinan lebih besar dalam mengekstrak kalimat penting (Lee, Park, Ahn, & Kim, 009). Dengan perpaduan pengambilan ringkasan pada setiap section dokumen dan menggunakan metode Faktorisasi Matriks Nonnegatif, diharapkan ringkasan yang dihasilkan lebih bermakna dan dapat dengan mudah dimengerti. III. FAKTORISASI MATRIKS NONNEGATIF Faktorisasi matriks nonnegatif (NMF) merupakan metode dekomposisi matriks term-by-sentences A yang berukuran mxn menjadi matriks W (mxr) dan H (rxn) yang hanya bernilai bilangan nonnegatif dan bersifat lebih sparse (Lee, Park, Ahn, & Kim, 009). Metode dekomposisi dengan NMF dapat dinyatakan dalam bentuk persamaan berikut. A WH (1) Matriks W merepresentasikan matriks term yang memiliki topik hidden di dalamnya, disebut sebagai Non-negative Semantic Feature Matrix (NSFM), dan ditunjukkan dalam setiap vektor barisnya. Sedangkan matriks H merepresentasikan variabel yang menyimpan bobot topik hidden dalam setiap kalimat, Non-negative Semantic Variable Matrix (NSVM), ditunjukkan dalam vektor kolomnya, seperti ditunjukkan pada Gambar 1. Dalam pembahasan mengenai peringkasan dokumen dengan metode NMF, matriks A menunjukkan matriks yang berisi bobot term dalam kalimat dan berukuran jumlah term (m) x jumlah kalimat (n). Sedangkan matriks W merupakan matriks berukuran mxr dan matriks H berukuran rxn. Nilai r dinyatakan sebagai 10% dari nilai n (Lee, Park, Ahn, & Kim, 009). a b Term 1 a b c c d Term d e f e f Term 3 Kalimat 1 Kalimat 3 g h Term 4 Kalimat (i) (ii) Gambar 1. Ilustrasi Representasi Matriks W (i) dan Matriks H (ii) Bentuk A WH pada Persamaan (1) dapat dijelaskan sebagai bentuk similar antara matriks A dengan hasil perkalian dari matriks W dan H. Untuk mencapai kondisi similar antara A dengan W*H tersebut, diperlukan suatu kriteria yang dapat dikatakan sebagai Cost Function. Beberapa model Cost Function dapat dibangun dengan pengukuran jarak antara dua matriks nonnegatif A dan B, seperti dijelaskan dalam Persamaan () (Lee & Seung, 001). A B = A ij B ij ij () Persamaan () menunjukkan aturan Cost Function untuk jarak antara A dan B yang memiliki batas bawah nol, dan kondisi terpenuhi jika dan hanya jika A = B. Dalam Tugas Akhir ini, proses pengukuran menuju kondisi A WH menggunakan aturan Frobenius Norm (Lee, Park, Ahn, & Kim, 009) yang dibuat berdasarkan aturan Cost Function seperti dijelaskan pada Persamaan (). Dengan aturan ini, terdapat dua buah matriks yang akan dihitung jarak keduanya, yaitu matriks A dengan perkalian antara matriks W dan H. Aturan Frobenius Norm yang digunakan dalam metode dekomposisi NMF dijelaskan pada Persamaan (3) berikut. Θ E (W, H) A WH F A ji W jl H li m n j=1 i=1 r l=1 (3) Bentuk umum dari Frobenius Norm dijelaskan dalam bentuk persamaan A F = a ij i,j. Nilai variabel A menunjukkan suatu matriks, sehingga nilai Frobenius Norm dari A atau A F dijelaskan dalam bentuk jumlah kuadrat dari masing-masing elemen matriks penyusun matriks A. Dengan demikian bentuk Frobenius Norm yang digunakan dalam metode NMF seperti pada Persamaan (3) menunjukkan hasil perhitungan Frobenius Norm untuk selisih masing-masing elemen dari matriks A dengan matriks hasil perkalian matriks W dan H. III.1. MULTIPLICATIVE UPDATE RULE Multiplicative Update berfungsi untuk meng-update nilai matriks W dan H untuk mencapai kondisi A WH. Oleh karena itu terdapat suatu persoalan, dimana nilai A WH F harus kecil. Salah satu cara yang digunakan adalah aturan Multiplicative Update ini. Dimana dengan adanya aturan ini diharapkan nilai dari A WH F tidak meningkat (Lee & Seung, 001). Persamaan update nya sendiri dijelaskan pada Persamaan (4) dan (5). (W T A) αμ H αμ H αμ (W T WH) αμ (4)

3 rp = ip = np = qp = MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 011 (AH T ) iα W iα W iα (WHH T ) iα (5) Proses update seperti nampak pada Persamaan (4) dan Persamaan (5), perhitungan perkalian dan pembagian matriks nya dilakukan dengan perkalian dan pembagian antar elemen matriks, seperti ditunjukkan oleh indeks ke- αμ dan indeks ke-iα pada matriks W dan H. III.. GENERIC RELEVANCE OF SENTENCE (GRS) Proses ekstraksi kalimat ringkasan dilakukan dengan mengambil n kalimat dengan skor kalimat tertinggi (Lee, Park, Ahn, & Kim, 009). Skor kalimat diperoleh dari perhitungan Generic Relevance of Sentence (GRS) setiap kalimat. Perhitungan nilai GRS melibatkan elemenelemen matriks H sebagai matriks yang merepresentasikan variabel yang berisi bobot topik hidden dalam setiap kalimat. Penjelasan persamaan GRS untuk setiap kalimat dapat dilihat pada Persamaan (6) dan (7). r GRSj = H ij. weight(h i ) i=1 (6) Pada Persamaan (6), GRSj menunjukkan skor untuk setiap vektor kolom ke-j pada matriks H. Sedangkan nilai weight yang tertera pada Persamaan (6) tersebut merupakan bobot untuk elemen (i,j) pada matriks H yang dijelaskan dalam Persamaan (7) berikut. weight(h i ) = q=1 H iq r n p=1 q=1 H pq (7) Keterangan Persamaan (6) dan (7): jumlah baris pada matriks H indeks baris, dengan 1 < i < r H ij = elemen matriks H pada posisi (i,j), dengan j adalah indeks kolom yang merepresentasikan kalimat (1 < j < n). jumlah kalimat indeks kolom kalimat, dengan 1 < q < n H ij = elemen-elemen matriks H pada posisi baris i tertentu p = indeks baris, dengan 1 < p < r H ij = elemen-elemen matriks H pada posisi (p,q), yang merupakan keseluruhan elemen pada matriks H IV. PEMBOBOTAN KATA UNTUK MEMBENTUK MATRIKS TERM-BY-SENTENCES Untuk membangun matriks term-by-sentences yang digunakan dalam proses dekomposisi matriks, diperlukan pembobotan setiap term yang telah diambil bentuk dasarnya menggunakan metode Porter s Stemming. Bobot masing-masing term ini yang akan menyusun elemenelemen matriks term-by-sentences. Persamaan pembobotan term yang sering digunakan adalah persamaan tf-idf pada model vector space. Berikut n ini persamaan dasar pada model vector space (Garcia, 006). w ij = t ij log 10 D df i (8) Pada Persamaan (8), w ij menunjukkan bobot term ke-i pada dokumen ke-j, t ij menunjukkan termfrequency/jumlah kemunculan term ke-i pada dokumen ke-j yang seringkali dinyatakan sebagai term-frequency yang dinormalisasi yang dijelaskan dalam bentuk tf ij = t ij max t. Nilai max t ij menunjukkan jumlah ij maksimum term yang muncul pada sebuah kalimat. Bentuk idf (inverse document frequency) pada Persamaan (8) dijelaskan dalam bentuk logaritma dari D. df df i i menunjukkan document-frequency (jumlah dokumen yang berisi term ke-i) sedangkan nilai D menunjukkan jumlah koleksi dokumen. Dalam kaitannya dengan peringkasan dokumen, perhitungan idf dilakukan pada term terhadap kalimat. Beberapa jenis persamaan pembobotan (Lee, Park, Ahn, & Kim, 009) yang digunakan dalam implementasi Tugas Akhir ini dijelaskan pada Persamaan (9) hingga Persamaan (16). No Weight Merupakan perhitungan bobot term yang murni dihitung berdasarkan jumlah kemunculan suatu term pada suatu koleksi dengan menggunakan persamaan tf (termfrequency) tanpa normalisasi. w ij = t ij (9) Ordinary Weight Merupakan perhitungan bobot term berdasar prinsip tf*idf dengan menggunakan tf tanpa normalisasi (t ij ). w ij = t ij log 10 N n(i) (10) Pada Persamaan (10), N menunjukkan jumlah kalimat dalam satu dokumen sedangkan n(i) menunjukkan jumlah kalimat yang mengandung term ke-i. Binary Weight Merupakan perhitungan bobot term menggunakan model tf biner. Jika term ke-i pernah muncul dalam kalimat ke-j setidaknya satu kali, maka bobotnya 1, jika tidak maka bobotnya nol. 1, jika term i muncul minimal sekali dalam kalimat w ij = 0, jika sebaliknya (11) Modified Binary Weight Bentuk modifikasi dari Binary Weight, dimana kondisi ketika term ke-i muncul setidaknya sekali dalam kalimat maka bobotnya merupakan perhitungan idf, jika tidak maka bobot term ke-i dalam kalimat ke-j adalah nol. 3

4 w ij = log 10 N, jika term i muncul minimal sekali dalam kalimat n(i) 0, jika sebaliknya Augmented Weight (1) Merupakan bentuk pembobotan menggunakan tf yang dinormalisasi dan dimodifikasi dengan penambahan dan perkalian dengan konstanta 0.5 pada persamaan tf normalisasinya. w ij = (0.5 tf ij ) (13) Nilai tf ij pada Persamaan (13) menunjukkan nilai tf normalisasi. Ordinary Augmented Weight Merupakan perhitungan tf*idf menggunakan bentuk tf normalisasi (tf ij ) yang digunakan pada perhitungan Augmented Weight dan dikalikan dengan idf. w ij = (0.5 tf ij ) log 10 N n(i) (14) Logarithm Weight Bentuk modifikasi tf tanpa normalisasi dalam bentuk logaritmik dari penjumlahan nilai term-frequency setiap term dengan konstanta 1. w ij = log t ij (15) Pada Persamaan (15) t ij menunjukkan nilai tf tanpa normalisasi. Persamaan (9) hingga Persamaan (16) matriks A yang berukuran term-by-sentences. 6. Melakukan proses dekomposisi matriks dengan metode Faktorisasi Matriks Nonnegatif pada matriks term-by-sentences untuk menghasilkan matriks H (termasuk proses Multiplicative Update di dalamnya). 7. Menghitung skor setiap kalimat menggunakan metode Generic Relevance of Sentence (GRS) menggunakan matriks H yang merepresentasikan kalimat dalam dokumen. 8. Memilih n kalimat dengan skor GRS tertinggi. Nilai n ditentukan oleh pengguna. Gambaran setiap langkah lebih detil dijelaskan pada Gambar. Sistem utama perangkat lunak dibagi ke dalam dua bagian utama, yaitu bagian prapemrosesan dan bagian ekstraksi hasil peringkasan. Bagian prapemrosesan terdiri atas proses ekstraksi teks dari dokumen HTML, proses tokenisasi untuk mendapatkan term penting pada dokumen, penerapan proses stemming dan perhitungan bobot setiap term untuk membangun matriks term-bysentences. Sedangkan tahap ekstraksi hasil peringkasan dijelaskan ke dalam tahap ekstraksi matriks term-bysentences, tahap dekomposisi matriks dengan metode NMF, perhitungan skor GRS per kalimat kemudian diakhiri dengan proses ektraksi teks hasil ringkasan dokumen. Ordinary Logarithm Weight Bentuk tf*idf dengan menggunakan model tf logaritmik seperti yang diterapkan pada Persamaan (15). w ij = log t ij log 10 N n(i) (16) V. IMPLEMENTASI EKSTRAKSI RINGKASAN DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF Langkah-langkah melakukan peringkasan menggunakan metode Faktorisasi Matriks Nonnegatif (Lee, Park, Ahn, & Kim, 009) yang diterapkan pada dokumen terstruktur adalah sebagai berikut: 1. Melakukan ekstraksi teks dari dokumen HTML.. Memecah teks ke dalam kalimat-kalimat 3. Memecah kalimat ke dalam kata-kata dan menghilangkan stopword dan penghilangan karakter karakter aneh. 4. Mengambil bentuk kata dasar dengan metode Porter s Stemmer 5. Menghitung bobot setiap term dengan salah satu persamaan pembobotan yang ditunjukkan pada Gambar. Arsitektur Perangkat Lunak Dari bagan pada Gambar tersebut dapat diketahui bahwa pengguna memiliki peran dalam perangkat lunak yaitu dengan memeberi masukan kepada perangkat lunak berupa dokumen HTML yang akan diringkas, jenis pembobotan dan rentang bilangan acak yang digunakan. 4

5 Empat komponen luar yang digunakan dalam pembangunan perangkat lunak peringakas dokumen terstruktur ini antara lain pustaka jsoup untuk untuk ekstraksi isi dokumen HTML, dan JAMA untuk proses perhitungan matriks. Kemudian algoritma Porter s Stemmer untuk proses pengambilan kata dasar, dan database yang digunakan sebagai storage untuk hasil pengolahan dokumen. Hasil implementasi perngkat peringkas pada dokumen terstruktur ini berupa perangkat lunak berbasis desktop. Hasil pengambilan gambar untuk tampilan antarmuka ditampilkan pada Gambar 3 dan Gambar 5berikut. Gambar 5. Tampilan Antarmuka ketika Peringkasan Selesai Tampilan yang ditunjukkan pada Gambar 5 menunjukkan tampilan antarmuka ketika proses peringkasan telah selesai dilakukan. Di dalamnya terdapat notifikasi untuk pengguna ketika perangkat lunak telah selesai melakukan peringkasan pada dokumen. VI. UJI COBA DAN EVALUASI Gambar 3. Tampilan Antarmuka Utama Perangkat Lunak Gambar 3 menunjukkan tampilan utama perangkat lunak ketika pertama kali dijalankan. Terdapat menu-menu pilihan yang memungkinkan pengguna untuk member masukan-masukan yang digunakan dalam proses peringkasan. Gambar 4. Tampilan Antarmuka ketika Proses Peringkasan Gambar 3 menampilkan proses selama terjadi peringkasan dokumen. pada bagian ini ditampilkan proses yang sedang berjalan serta nilai yang dihasilkan pada setiap iterasi update matriks. Dengan adanya bagian ini, pengguna dapat mengetahui sejauh mana proses peringkasan sedang berjalan. Terdapat dua macam uji coba yang dilakukan, yaitu uji coba parameter dan uji coba hasil peringkasan. Uji coba paramater dilakukan untuk mendapatkan parameterparameter yang relevan untuk diimplementasikan pada metode Faktorisasi Matriks Nonnegatif. Uji coba peringkasan digunakan untuk mengetahui kebenaran ringkasan yang dihasilkan. Data uji yang digunakan ada dua macam, yaitu data uji dari dokumen jurnal dari situs Science Direct sejumlah enam puluh data dan satu paragraf sederhana yang dipakai dalam uji coba parameter. Contoh data dokumen HTML dan satu paragraf sederhana yang digunakan sebagai data uji ditunjukkan pada Tabel 1 dan Gambar 6. Tabel 1. Data Uji 1 : Contoh Sepuluh Data Dokumen HTML dari Total Enam Puluh Data No Judul Dokumen 1. A complexity perspective on collaborative decision making in organizations The ecology of group-performance An empirical study of the effectiveness of multimedia. disclosure of informed consent A technology mediated learning perspective 3. An investigation of moderators of the link between technology use in the supply chain and supply chain performance Building and leveraging information in dynamic environments 4. The role of IT infrastructure flexibility as enabler of organizational responsivene 5. Communicative practices in an online financial forum during abnormal stock market behavior 6. Consumer feelings and behaviours towards well designed websites 7. Effects of initial and ongoing trust in IT outsourcing A bilateral perspective 8. Family and work-related consequences of addiction to organizational pervasive technologies 9. Identifying key factors affecting transnational knowledge transfer 10. Information technology and productivity Empirical evidence from the Chinese electronics industry 5

6 Sepuluh contoh data uji pada Tabel 1 merupakan dokumen-dokumen yang telah diunduh dari situs Science Direct yang berada pada domain IT & Management. Data tersebut digunakan dalam uji coba hasil peringkasan. Non-negative matrix factorization (NMF) has previously been shown to be a useful decomposition for multivariate data. Two different multiplicative algorithms for NMF are analyzed. They differ only slightly in the multiplicative factor used in the update rules. One algorithm can be shown to minimize the conventional least squares error while the other minimizes the generalized Kullback-Leibler divergence. The monotonic convergence of both algorithms can be proven using an auxiliary function analogous to that used for proving convergence of the Expectation-Maximization algorithm. The algorithms can also be interpreted as diagonally rescaled gradient descent, where the rescaling factor is optimally chosen to ensure convergence. Gambar 6. Data Uji : Paragraf Sederhana VI.1. UJI COBA PARAMETER Data uji yang digunakan dalam uji coba parameter ini adalah data paragraf sederhana seperti pada Gambar 6. Terdapat empat macam skenario uji coba parameter. 1. Penentuan rentang bilangan acak berdasar nilai Frobenius Norm. Uji coba ini bertujuan untuk mendapatkan rentang nilai acak yang menghasilkan nilai Frobenius Norm lebih kecil. Pada uji coba ini dilakukan lima kali uji coba untuk masing-masing rentang bilangan acak pada masingmasing persamaan pembobotan. Dari uji coba tersebut diperoleh data rata-rata hasil pengamatan nilai Frobenius Norm yang dihasilkan oleh masing-masing rentang bilangan acak yang ditentukan. Rata-rata nilai Frobenius Norm yang kecil menunjukkan jarak yang dekat antara matriks A dengan hasil perkalian matriks W dan H. Hasil rata-rata nilai Frobenius Norm pada setiap rentang bilangan acak dapat dilihat pada Tabel. Tabel. Rata-rata Nilai Frobenius Norm pada Setiap Rentang Nilai Acak Rentang Bilangan Batas Bawah Batas Atas Interval Rata-rata Nilai Frobenius Norm Hasil yang diperoleh dari uji coba parameter untuk menentukan rentang bilangan acak berdasarkan nilai Frobenius Norm yang dihasilkan, diperoleh rentang bilangan antara 0.05 hingga 0.5 yang menghasilkan nilai Frobenius Norm paling kecil.. Penentuan rentang bilangan acak berdasarkan waktu eksekusi Uji coba bertujuan untuk mengetahui rentang bilangan acak di antara rentang 0.05 hingga 0.5 (pada uji coba sebelumnya) yang memerlukan waktu eksekusi paling kecil. Uji coba ini dilakukan menggunakan dokumen jurnal berjudul IT investments disclosure, information quality, and factors influencing managers choices. Uji coba dilakukan sebanyak sepuluh kali untuk masingmasing rentang bilangan yang ditentukan. Hasil uji coba ini digunakan sebagai pertimbangan poemilihan rentang bilangan acak yang sesuai untuk inisialisasi matriks term (W) dan mastriks kalimat (H). Hasil pengamatan terhadap waktu eksekusi yang dihasilkan setiap rentang bilangan ditunjukkan pada Tabel 3 berikut. Tabel 3. Rata-rata Waktu Eksekusi pada Setiap Rentang Bilangan Acak Rentang Bilangan Acak Waktu Eksekusi (menit) Hasil yang ditunjukkan oleh Tabel 3 menghasilkan rentang bilangan antara 0.1 hingga 0.5 yang memerlukan waktu eksekusi paling kecil (4.35 menit). Pada implementasi selanjutnya digunakan rentang bilangan acak tersebut untuk inisialisasi matriks awal. VI.. UJI COBA HASIL PERINGKASAN Pada uji coba ini terdapat dua macam uji coba, yang pertama pengamatan nilai Kappa yang dihasilkan oleh ringkasan menggunakan metode NMF dengan ringkasan kunci. Uji coba kedua adalah perbandingan nilai Kappa antara metode NMF dengan metode LSA yang masingmasing perhitungan Kappanya diperoleh dari pembandingan dengan ringkasan kunci. Perhitungan Tingkat Kesepakatan Dua Observer Menggunakan Kappa Salah satu metode untuk evaluasi hasil peringkasan adalah dengan Kappa Statistics (Hori, Hirao, & Isozaki, 004). Metode ini memungkinkan proses perhitungan tingkat kesepakatan/agreement diantara dua interobserver atau lebih atas sebuah kondisi/permasalahan yang sama secara analisis statistik (Vierra & Garrett, 005). Secara umum perhitungan Kappa dilakukan berdasarkan perbedaan tingkat kesepakatan antara berapa banyak kesepakatan yang diperoleh (observed agreement) dibandingkan dengan berapa banyak kesepakatan yang diharapkan (expected agreement). Tampilan perhitungan 6

7 data dapat dilihat pada. Secara perhitungan statistik Kappa dinyatakan dalam Persamaan (17) berikut. κ = (p o p e ) (1 p e ) (17) Pada Persamaan (17), κ menyatakan nilai Kappa, p o menyatakan observed agreement, dan p e menyatakan expected agreement. Berdasarkan Tabel 4, a dan d menyatakan jumlah kedua observer setuju, sedangkan b dan c menytakan jumlah kedua observer tidak setuju. Ketika nilai b dan c bernilai 0 maka nilai observed agreement (p o ) adalah 1 atau 100%, sebaliknya, jika a dan d bernilai 0 maka p o bernilai 0 (Vierra & Garrett, 005). Observer Tabel 4. Variasi Interobserver Observer 1 Hasil Ya Tidak Total Hasil Ya a b m 1 Tidak c d m 0 Total n 1 n 0 n Perhitungan p o dan p e dijelaskan dalam Persamaan (18) berikut. p e = n 1 n m 1 n + n 0 n m 0 n (18) Pada Persamaan (18), n 1 menyatakan jumlah persetujuan observer 1, sedangkan n 0 menyatakan jumlah total observer tidak setuju dengan hasil. Demikian halnya dengan m 1 dan m 0 secara berurutan keduanya menyatakan tingkat persetujuan dan ketidaksetujuan dari observer. Sedangkan p o menyatakan probabilitas dari jumlah dimana kedua observer (a dan d) setuju dibandingkan dengan jumlah total (n). p o = a + d n (19) Penerapan perhitungan Kappa pada Tugas Akhir ini adalah dengan menjadikan hasil ringkasan perangkat lunak dan hasil ringkasan kunci yang telah ditentukan sebagai dua observer yang berbeda. Dengan demikian kondisi yang dibandingkan antara kedua ringkasan sebagai observer adalah ketersediaan kalimat-kalimat ringkasan yang menjadi ringkasan kunci pada ringkasan hasil keluaran perangkat lunak. Sehingga p o dalam hal ini menyatakan probabilitas kalimat yang terpilih menjadi kalimat penyusun ringkasan pada kedua observer. Tabel 5. Intepretasi Nilai Kappa Nilai κ Strength of Agreement <0 Poor 0 0. Slight Fair Moderate Substatsial Almost perfect Tabel 5 menunjukkan intepretasi hasil nilai Kappa yang berarti tingkat kesepakatan yang terjadi antara dua hasil ringkasan yang dibandingkan. Semakin tinggi nilai Kappa, intepretasi yang dihasilkan semakin baik. Uji coba pertama bertujuan untuk mengetahui persamaan pembobotan yang menghasilkan nilai Kappa terbaik. Uji coba dilakukan pada masing-masing persamaan pembobotan dengan menggunakan enam puluh data uji. Nilai Kappa yang tinggi menunjukkan tingkat kesepakatan yang tinggi antara dua ringkasan yang dibandingkan. Hasil uji coba perhitungan tingkat kesepakatan dua ringkasan dengan metode Kappa antara ringkasan dengan metode NMF dan ringkasan kunci ini dapat dilihat pada Tabel 6 berikut. Tabel 6. Rata-rata Nilai Kappa untuk setiap Persamaan Pembobotan Menggunkaan 60 Dokumen Persamaan pembobotan Rata-rata Kappa 60 dokumen Intepretasi Kappa No Weight Fair Logarithm Weight Fair Binary Weight Fair Ordinary Weight Fair Ordinary Logarithm Weight Slight Modified Binary Weight Slight Augmented Weight Slight Ordinary Augmented Weight Poor Dari hasil uji coba pada Tabel 6 diperoleh dua persamaan yaitu No Weight dan Logarithm Weight yang menghasilkan nilai Kappa tertinggi dengan intepretasi nilai Kappa adalah Fair. Persamaan No Weight menunjukkan model persamaan tf murni (perhitungan jumlah kemunculan term dalam kalimat), sedangkan persamaan Logarithm Weight merupakan bentuk persamaan tf logaritmik. Uji coba yang kedua bertujuan untuk membandingkan nilai Kappa yang diperoleh dari metode NMF dengan metode LSA. Uji coba ini dilakukan dengan enam puluh data uji menggunakan persamaan pembobotan yang telah diperoleh pada uji coba sebelumnya, yaitu No Weight yang memiliki nilai Kappa tertinggi. Dilakukan dua macam pengujian, yaitu perhitungan nilai Kappa antara ringkasan metode NMF dengan ringkasan kunci dan perhitungan nilai Kappa antara ringkasan metode LSA dengan ringkasan kunci. Hasil perhitungan Kappa menunjukkan bahwa rata-rata nilai Kappa yang dihasilkan ringkasan dengan metode NMF lebih besar ( /Fair) daripada ringkasan hasil metode LSA ( /Slight). Sehingga dapat diartikan bahwa ringkasan dengan metode NMF lebih bagus daripada ringkasan dengan metode LSA. 7

8 VII. EVALUASI HASIL UJI COBA Berdasarkan uji coba yang telah dilakukan pada Subbab VI.1 dan VI. dapat dilakukan evaluasi mengenai hasil uji coba. 1. Dari uji coba penentuan rentang bilangan acak yang menghasilkan nilai Frobenius Norm paling kecil diperoleh rentang bilangan acak terbaik adalah antara 0.05 hingga 0.5. Namun berdasar waktu eksekusi terkecil pada proses peringkasan dokumen, rentang bilangan acak yang diperoleh adalah antara 0.1 hingga Dari pengamatan hasil perhitungan nilai Kappa antara ringkasan yang dihasilkan metode NMF dengan ringkasan kunci diperoleh persamaan pembobotan dengan nilai Kappa tertinggi, yaitu No Weight. Hal tersebut karena persamaan No Weight menggunakan model pembobotan tf tanpa normalisasi (murni jumlah kemunculan term dalam kalimat). Sehingga kalimat-kalimat yang diekstrak sebagai kalimat penyusun ringkasan cenderung kalimat-kalimat yang mengandung bobot topik yang tinggi. 3. Dari perbandingan nilai Kappa yang dihasilkan oleh ringkasan metode NMF dan ringkasan metode LSA, diketahui bahwa ringkasan dengan metode NMF memilili rata-rata nilai Kappa yang lebih baik daripada metode LSA. Hal tersebut karena proses pemilihan kalimat-kalimat penting yang dilakukan metode NMF lebih tepat. Metode NMF menghasilkan matriks yang nonegatif dan sparse sehingga kecenderungan suatu kalimat terhadap suatu topik lebih mudah dikenali daripada matriks yang berisi bilangan negative dan nonegatif serta bersifat padat seperti yang dihasilkan pada metode LSA. VIII. SIMPULAN DAN SARAN PERBAIKAN Proses peringkasan pada suatu dokumen web dapat dilakukan dengan cara melakukan peringaksan pada setiap subbab/section dalam dokumen. Pengambilan isi setiap bagian dokumen dilakukan dengan cara mengenali struktur yang membangun bagian tersebut sehingga proses ekstraksi dapat dibatasi pada bagian-bagian tertentu pada suatu dokumen. Untuk menbangun matriks term-by-sentences, diperlukan persamaan pembobotan yang tepat agar dapat menghasilkan matriks yang tepat mewakili isi dokumen. Dari hasil pengamatan terhadap ringkasan yang dihasilkan oleh masing-masing persamaan, diperoleh peramaan No Weight yang menghasilkan nilai Kappa besar paling besar. Berdasarkan hasil uji coba penentuan rentang bilangan acak terbaik untuk implementasi peringkasan menggunakan metode Faktorisasi Matriks Nonnegatif dapat digunakan rentang bilangan acak antara 0.1 hingga 0.5. Rentang tersebut menghasilkan nilai Frobenius Norm dan waktu ekseskusi yang kecil dalam proses peringkasan dokumen. Melalui perhitungan Kappa antara dua ringkasan, dapat diketahui tingkat kesepakatan hasil ringkasan menggunakan metode NMF dengan ringkasan kunci yang diharapkan. Berdasar dua macam uji coba hasil ringkasan diperoleh bahwa ringkasan menggunakan metode NMF cenderung menghasilkan nilai Kappa yang tinggi dan terbukti lebih bagus dibandingkan dengan ringkasan menggunakan metode LSA. Untuk penelitian lebih lanjut, diharapkan proses peringkasan dokumen terstruktur dapat diterapkan apda seluruh tipe dokumen, tak hanya terbatas pada dokumen jurnal dari halaman web. REFERENSI Dalianis, H. (005). GSLT: Natural Language Generation Spring 005,. Retrieved 5 June, 011, from GSLT-OH.pdf Garcia, D. E. (006). Mi Islita. Retrieved April 18, 011, from The Classic Vector Space Model: Gong, Y., & Liu, X. (001). Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis. Proceedings of the 4th annual international ACM SIGIR conference on research and development in information retrival (SIGIR 01), (pp. (pp. 19 5)). New Orleans, USA. Hori, C., Hirao, T., & Isozaki, H. (004). Evaluation Measures Considering Sentence Concatenation for Automatic Summarization by Sentence or Word Extraction. Lee, D. D., & Seung, H. S. (001). Algorithm for nonnegative matrix factorization. Advance in Neural Information Processing Systems, 13, Lee, J.-H., Park, S., Ahn, C.-M., & Kim, D. (009). Automatic generic document summarization based on non-negative matrix factorization. Information Processing and Management, 45, Lemone, K. (1998). What is a Structured Document? Retrieved May 10, 011, from Worcester Polytechnic Institute - Computer Science: Radev, D. (003). Text Summarization. Retrieved 6 June, 011, from Vierra, A. J., & Garrett, J. M. (005). Undertanding Interobserver Agreement: The Kappa Statistic. Family Medicine Vol 37 no 5, pp

9 9