IMPLEMENTASI PERINGKASAN OTOMATIS PADA DOKUMEN TERSTRUKTUR DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF

Ukuran: px
Mulai penontonan dengan halaman:

Download "IMPLEMENTASI PERINGKASAN OTOMATIS PADA DOKUMEN TERSTRUKTUR DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF"

Transkripsi

1 IMPLEMENTASI PERINGKASAN OTOMATIS PADA DOKUMEN TERSTRUKTUR DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF Arlisa Yuliawati 1, Diana Purwitasari, Umi Laili Yuhana 3 Teknik Informatika, Fakultas Teknologi Informasi, ITS arlisa.yuliawati@gmail.com 1, diana@if.its.ac.id, yuhana@if.its.ac.id 3 Abstract Salah satu kegunaan dari peringkasan teks otomatis adalah untuk memudahkan proses pencarian kata kunci pada mesin pencari. Pencarian kata kunci lebih baik jika dilakukan terhadap dokumendokumen yang sudah teringkas, sehingga hasil pencarian bisa lebih tepat. Oleh karenanya, peringkasan harus bias menghasilkan informasi inti dari suatu dokumen yang diringkas, yang mana dapat dilakukan dengan pengambilan topik-topik penting dari setiap bagian dokumen. Dalam makalah Tugas Akhir ini dijelaskan mengenai peringkasan yang dikhususkan pada dokumen terstruktur untuk mengambil kalimat-kalimat penting yang mewakili maksud utama dokumen. Dengan ekstraksi matriks term-by-sentences dari dokumen menggunakan metode Faktorisasi Matriks Nonnegatif (Nonnegative Matrix Factorization/NMF), diharapkan proses peringkasan dapat memberi hasil ringkasan yang lebih bermakna. Evaluasi dilakukan untuk mengetahui hasil peringkasan dokumen. Dengan metode NMF, hasil peringkasan cenderung lebih baik dan bermakna. Kata kunci : Peringkasan Otomatis, Dokumen Terstruktur, Faktorisasi Matriks Nonnegatif, Multiplicative Update, Generic Relevance of Sentence (GRS). I. PENDAHULUAN Dalam proses pencarian dokumen pada halaman web, pencarian kata kunci terhadap koleksi dokumen pada umumnya dilakukan pada keseluruhan isi dokumen. Dengan demikian terkadang proses temu kembali informasi memerlukan waktu yang lama. Padahal pengguna cenderung mengharapkan hasil yang tepat dengan waktu singkat dalam proses pencarian informasi. Oleh karena itu sebaiknya proses pencocokan kata kunci terhadap koleksi dokumen dilakukan pada inti dokumen yang memiliki isi lebih singkat tentunya. Hal tersebut melatarbelakangi diperlukannya sistem peringkas otomatis pada suatu dokumen. Peringkas teks otomatis (Automatic Text Summarization) sendiri merupakan perangkat berbasis komputer untuk menghasilkan teks yang lebih pendek dari teks aslinya namun masih menyimpan poin utama dari teks yang diringkas (Dalianis, 005). Untuk keperluan tersebut, beberapa perangkat lunak untuk peringkasan dokumen telah lebih dulu dikembangkan, diantaranya SUMMARIST, The MEAD Summarizer, LexRank, Corporum Summarizer-Cognit AS, dan sebagainya (Dalianis, 005; Radev, 003). Dokumen terstruktur yang dimaksud dalam makalah ini menggambarkan pengorganisasian dokumen ke dalam struktur-struktur hirarki tertentu. (Lemone, 1998). Peringkasan pada dokumen terstruktur dimaksudkan untuk mengambil pokok bahasan dari setiap bagian sehingga ringkasan yang dihasilkan lebih dapat menggambarkan intisari dokumen yang diringkas. Berdasarkan metodenya, peringkasan dokumen dapat dibedakan menjadi peringkasan generik (generic summarization) dan peringksan berdasarkan query (query-based summarization) (Lee, Park, Ahn, & Kim, 009). Metode pertama merupakan proses peringkasan dengan mengambil poin penting dokumen secara semantik dengan pengolahan kata-kata dalam dokumen, sedangkan pada metode kedua, peringkasan dilakukan dengan memperhatikan kata kunci dalam menghasilkan ringkasan. Dalam jurnal tersebut juga dijelaskan bahwa generic summarization dibagi lagi ke dalam dua bagian, yaitu metode supervised dan unsupervised. Pada metode supervised, diperlukan data training dari sekumpulan orang untuk menghasilkan ringkasan suatu dokumen, sehingga ketika terdapat dokumen yang berbeda, diperlukan pula data training yang berbeda. Metode supervised ini hanya dapat ditetapkan untuk model data tertentu. Sedangkan pada metode unsupervised, peringkasan tidak memerlukan data training seperti yang dilakukan pada metode supervised. II. PENELITIAN TERDAHULU Salah satu metode peringkasan secara unsupervised yang pernah dikembangkan adalah metode peringkasan menggunakan LSA (Latent Semantik Analysis) (Gong & Liu, 001). Metode ini menggunakan metode SVD (Singular Value Decomposition) untuk proses dekomposisi matriks. Salah satu matriks yang dihasilkan adalah matriks yang merepresentasikan topik dalam suatu kalimat. Matriks tersebut cenderung bersifat non sparse dan berisi bilangan negatif dan nonnegatif pada elemenelemennya. Karena sifat matriks yang non sparse (padat) itulah, kecenderungan suatu kalimat mengandung suatu topik tertentu lebih sulit dikenali. Hal itu dikarenakan 1

2 setiap elemen pada vektor kolom matriks hasil dekomposisi tersebut pasti memiliki nilai yang merepresentasikan persentase kecenderungan kalimat terhadap suatu topik. Hal itulah yang memunculkan metode dekomposisi matriks yang menghasilkan matriks yang lebih sparse dan bersifat nonnegatif sebagai metode peringkasan dokumen. Metode ini adalah dekomposisi matriks dengan proses faktorisasi matriks nonnegatif (Nonnegative Matrix Factorization/NMF) yang dapat menghasilkan matriks yang merepresentasikan kaitan kalimat dengan topik tersembunyi (hidden topic). Elemen-elemen matriks yang lebih sparse ini lebih mudah digunakan untuk mengetahui kecenderungan suatu kalimat terhadap suatu topik tertentu sehingga memiliki kemungkinan lebih besar dalam mengekstrak kalimat penting (Lee, Park, Ahn, & Kim, 009). Dengan perpaduan pengambilan ringkasan pada setiap section dokumen dan menggunakan metode Faktorisasi Matriks Nonnegatif, diharapkan ringkasan yang dihasilkan lebih bermakna dan dapat dengan mudah dimengerti. III. FAKTORISASI MATRIKS NONNEGATIF Faktorisasi matriks nonnegatif (NMF) merupakan metode dekomposisi matriks term-by-sentences A yang berukuran mxn menjadi matriks W (mxr) dan H (rxn) yang hanya bernilai bilangan nonnegatif dan bersifat lebih sparse (Lee, Park, Ahn, & Kim, 009). Metode dekomposisi dengan NMF dapat dinyatakan dalam bentuk persamaan berikut. A WH (1) Matriks W merepresentasikan matriks term yang memiliki topik hidden di dalamnya, disebut sebagai Non-negative Semantic Feature Matrix (NSFM), dan ditunjukkan dalam setiap vektor barisnya. Sedangkan matriks H merepresentasikan variabel yang menyimpan bobot topik hidden dalam setiap kalimat, Non-negative Semantic Variable Matrix (NSVM), ditunjukkan dalam vektor kolomnya, seperti ditunjukkan pada Gambar 1. Dalam pembahasan mengenai peringkasan dokumen dengan metode NMF, matriks A menunjukkan matriks yang berisi bobot term dalam kalimat dan berukuran jumlah term (m) x jumlah kalimat (n). Sedangkan matriks W merupakan matriks berukuran mxr dan matriks H berukuran rxn. Nilai r dinyatakan sebagai 10% dari nilai n (Lee, Park, Ahn, & Kim, 009). a b Term 1 a b c c d Term d e f e f Term 3 Kalimat 1 Kalimat 3 g h Term 4 Kalimat (i) (ii) Gambar 1. Ilustrasi Representasi Matriks W (i) dan Matriks H (ii) Bentuk A WH pada Persamaan (1) dapat dijelaskan sebagai bentuk similar antara matriks A dengan hasil perkalian dari matriks W dan H. Untuk mencapai kondisi similar antara A dengan W*H tersebut, diperlukan suatu kriteria yang dapat dikatakan sebagai Cost Function. Beberapa model Cost Function dapat dibangun dengan pengukuran jarak antara dua matriks nonnegatif A dan B, seperti dijelaskan dalam Persamaan () (Lee & Seung, 001). A B = A ij B ij ij () Persamaan () menunjukkan aturan Cost Function untuk jarak antara A dan B yang memiliki batas bawah nol, dan kondisi terpenuhi jika dan hanya jika A = B. Dalam Tugas Akhir ini, proses pengukuran menuju kondisi A WH menggunakan aturan Frobenius Norm (Lee, Park, Ahn, & Kim, 009) yang dibuat berdasarkan aturan Cost Function seperti dijelaskan pada Persamaan (). Dengan aturan ini, terdapat dua buah matriks yang akan dihitung jarak keduanya, yaitu matriks A dengan perkalian antara matriks W dan H. Aturan Frobenius Norm yang digunakan dalam metode dekomposisi NMF dijelaskan pada Persamaan (3) berikut. Θ E (W, H) A WH F A ji W jl H li m n j=1 i=1 r l=1 (3) Bentuk umum dari Frobenius Norm dijelaskan dalam bentuk persamaan A F = a ij i,j. Nilai variabel A menunjukkan suatu matriks, sehingga nilai Frobenius Norm dari A atau A F dijelaskan dalam bentuk jumlah kuadrat dari masing-masing elemen matriks penyusun matriks A. Dengan demikian bentuk Frobenius Norm yang digunakan dalam metode NMF seperti pada Persamaan (3) menunjukkan hasil perhitungan Frobenius Norm untuk selisih masing-masing elemen dari matriks A dengan matriks hasil perkalian matriks W dan H. III.1. MULTIPLICATIVE UPDATE RULE Multiplicative Update berfungsi untuk meng-update nilai matriks W dan H untuk mencapai kondisi A WH. Oleh karena itu terdapat suatu persoalan, dimana nilai A WH F harus kecil. Salah satu cara yang digunakan adalah aturan Multiplicative Update ini. Dimana dengan adanya aturan ini diharapkan nilai dari A WH F tidak meningkat (Lee & Seung, 001). Persamaan update nya sendiri dijelaskan pada Persamaan (4) dan (5). (W T A) αμ H αμ H αμ (W T WH) αμ (4)

3 rp = ip = np = qp = MAKALAH SEMINAR TUGAS AKHIR PERIODE JULI 011 (AH T ) iα W iα W iα (WHH T ) iα (5) Proses update seperti nampak pada Persamaan (4) dan Persamaan (5), perhitungan perkalian dan pembagian matriks nya dilakukan dengan perkalian dan pembagian antar elemen matriks, seperti ditunjukkan oleh indeks ke- αμ dan indeks ke-iα pada matriks W dan H. III.. GENERIC RELEVANCE OF SENTENCE (GRS) Proses ekstraksi kalimat ringkasan dilakukan dengan mengambil n kalimat dengan skor kalimat tertinggi (Lee, Park, Ahn, & Kim, 009). Skor kalimat diperoleh dari perhitungan Generic Relevance of Sentence (GRS) setiap kalimat. Perhitungan nilai GRS melibatkan elemenelemen matriks H sebagai matriks yang merepresentasikan variabel yang berisi bobot topik hidden dalam setiap kalimat. Penjelasan persamaan GRS untuk setiap kalimat dapat dilihat pada Persamaan (6) dan (7). r GRSj = H ij. weight(h i ) i=1 (6) Pada Persamaan (6), GRSj menunjukkan skor untuk setiap vektor kolom ke-j pada matriks H. Sedangkan nilai weight yang tertera pada Persamaan (6) tersebut merupakan bobot untuk elemen (i,j) pada matriks H yang dijelaskan dalam Persamaan (7) berikut. weight(h i ) = q=1 H iq r n p=1 q=1 H pq (7) Keterangan Persamaan (6) dan (7): jumlah baris pada matriks H indeks baris, dengan 1 < i < r H ij = elemen matriks H pada posisi (i,j), dengan j adalah indeks kolom yang merepresentasikan kalimat (1 < j < n). jumlah kalimat indeks kolom kalimat, dengan 1 < q < n H ij = elemen-elemen matriks H pada posisi baris i tertentu p = indeks baris, dengan 1 < p < r H ij = elemen-elemen matriks H pada posisi (p,q), yang merupakan keseluruhan elemen pada matriks H IV. PEMBOBOTAN KATA UNTUK MEMBENTUK MATRIKS TERM-BY-SENTENCES Untuk membangun matriks term-by-sentences yang digunakan dalam proses dekomposisi matriks, diperlukan pembobotan setiap term yang telah diambil bentuk dasarnya menggunakan metode Porter s Stemming. Bobot masing-masing term ini yang akan menyusun elemenelemen matriks term-by-sentences. Persamaan pembobotan term yang sering digunakan adalah persamaan tf-idf pada model vector space. Berikut n ini persamaan dasar pada model vector space (Garcia, 006). w ij = t ij log 10 D df i (8) Pada Persamaan (8), w ij menunjukkan bobot term ke-i pada dokumen ke-j, t ij menunjukkan termfrequency/jumlah kemunculan term ke-i pada dokumen ke-j yang seringkali dinyatakan sebagai term-frequency yang dinormalisasi yang dijelaskan dalam bentuk tf ij = t ij max t. Nilai max t ij menunjukkan jumlah ij maksimum term yang muncul pada sebuah kalimat. Bentuk idf (inverse document frequency) pada Persamaan (8) dijelaskan dalam bentuk logaritma dari D. df df i i menunjukkan document-frequency (jumlah dokumen yang berisi term ke-i) sedangkan nilai D menunjukkan jumlah koleksi dokumen. Dalam kaitannya dengan peringkasan dokumen, perhitungan idf dilakukan pada term terhadap kalimat. Beberapa jenis persamaan pembobotan (Lee, Park, Ahn, & Kim, 009) yang digunakan dalam implementasi Tugas Akhir ini dijelaskan pada Persamaan (9) hingga Persamaan (16). No Weight Merupakan perhitungan bobot term yang murni dihitung berdasarkan jumlah kemunculan suatu term pada suatu koleksi dengan menggunakan persamaan tf (termfrequency) tanpa normalisasi. w ij = t ij (9) Ordinary Weight Merupakan perhitungan bobot term berdasar prinsip tf*idf dengan menggunakan tf tanpa normalisasi (t ij ). w ij = t ij log 10 N n(i) (10) Pada Persamaan (10), N menunjukkan jumlah kalimat dalam satu dokumen sedangkan n(i) menunjukkan jumlah kalimat yang mengandung term ke-i. Binary Weight Merupakan perhitungan bobot term menggunakan model tf biner. Jika term ke-i pernah muncul dalam kalimat ke-j setidaknya satu kali, maka bobotnya 1, jika tidak maka bobotnya nol. 1, jika term i muncul minimal sekali dalam kalimat w ij = 0, jika sebaliknya (11) Modified Binary Weight Bentuk modifikasi dari Binary Weight, dimana kondisi ketika term ke-i muncul setidaknya sekali dalam kalimat maka bobotnya merupakan perhitungan idf, jika tidak maka bobot term ke-i dalam kalimat ke-j adalah nol. 3

4 w ij = log 10 N, jika term i muncul minimal sekali dalam kalimat n(i) 0, jika sebaliknya Augmented Weight (1) Merupakan bentuk pembobotan menggunakan tf yang dinormalisasi dan dimodifikasi dengan penambahan dan perkalian dengan konstanta 0.5 pada persamaan tf normalisasinya. w ij = (0.5 tf ij ) (13) Nilai tf ij pada Persamaan (13) menunjukkan nilai tf normalisasi. Ordinary Augmented Weight Merupakan perhitungan tf*idf menggunakan bentuk tf normalisasi (tf ij ) yang digunakan pada perhitungan Augmented Weight dan dikalikan dengan idf. w ij = (0.5 tf ij ) log 10 N n(i) (14) Logarithm Weight Bentuk modifikasi tf tanpa normalisasi dalam bentuk logaritmik dari penjumlahan nilai term-frequency setiap term dengan konstanta 1. w ij = log t ij (15) Pada Persamaan (15) t ij menunjukkan nilai tf tanpa normalisasi. Persamaan (9) hingga Persamaan (16) matriks A yang berukuran term-by-sentences. 6. Melakukan proses dekomposisi matriks dengan metode Faktorisasi Matriks Nonnegatif pada matriks term-by-sentences untuk menghasilkan matriks H (termasuk proses Multiplicative Update di dalamnya). 7. Menghitung skor setiap kalimat menggunakan metode Generic Relevance of Sentence (GRS) menggunakan matriks H yang merepresentasikan kalimat dalam dokumen. 8. Memilih n kalimat dengan skor GRS tertinggi. Nilai n ditentukan oleh pengguna. Gambaran setiap langkah lebih detil dijelaskan pada Gambar. Sistem utama perangkat lunak dibagi ke dalam dua bagian utama, yaitu bagian prapemrosesan dan bagian ekstraksi hasil peringkasan. Bagian prapemrosesan terdiri atas proses ekstraksi teks dari dokumen HTML, proses tokenisasi untuk mendapatkan term penting pada dokumen, penerapan proses stemming dan perhitungan bobot setiap term untuk membangun matriks term-bysentences. Sedangkan tahap ekstraksi hasil peringkasan dijelaskan ke dalam tahap ekstraksi matriks term-bysentences, tahap dekomposisi matriks dengan metode NMF, perhitungan skor GRS per kalimat kemudian diakhiri dengan proses ektraksi teks hasil ringkasan dokumen. Ordinary Logarithm Weight Bentuk tf*idf dengan menggunakan model tf logaritmik seperti yang diterapkan pada Persamaan (15). w ij = log t ij log 10 N n(i) (16) V. IMPLEMENTASI EKSTRAKSI RINGKASAN DENGAN METODE FAKTORISASI MATRIKS NONNEGATIF Langkah-langkah melakukan peringkasan menggunakan metode Faktorisasi Matriks Nonnegatif (Lee, Park, Ahn, & Kim, 009) yang diterapkan pada dokumen terstruktur adalah sebagai berikut: 1. Melakukan ekstraksi teks dari dokumen HTML.. Memecah teks ke dalam kalimat-kalimat 3. Memecah kalimat ke dalam kata-kata dan menghilangkan stopword dan penghilangan karakter karakter aneh. 4. Mengambil bentuk kata dasar dengan metode Porter s Stemmer 5. Menghitung bobot setiap term dengan salah satu persamaan pembobotan yang ditunjukkan pada Gambar. Arsitektur Perangkat Lunak Dari bagan pada Gambar tersebut dapat diketahui bahwa pengguna memiliki peran dalam perangkat lunak yaitu dengan memeberi masukan kepada perangkat lunak berupa dokumen HTML yang akan diringkas, jenis pembobotan dan rentang bilangan acak yang digunakan. 4

5 Empat komponen luar yang digunakan dalam pembangunan perangkat lunak peringakas dokumen terstruktur ini antara lain pustaka jsoup untuk untuk ekstraksi isi dokumen HTML, dan JAMA untuk proses perhitungan matriks. Kemudian algoritma Porter s Stemmer untuk proses pengambilan kata dasar, dan database yang digunakan sebagai storage untuk hasil pengolahan dokumen. Hasil implementasi perngkat peringkas pada dokumen terstruktur ini berupa perangkat lunak berbasis desktop. Hasil pengambilan gambar untuk tampilan antarmuka ditampilkan pada Gambar 3 dan Gambar 5berikut. Gambar 5. Tampilan Antarmuka ketika Peringkasan Selesai Tampilan yang ditunjukkan pada Gambar 5 menunjukkan tampilan antarmuka ketika proses peringkasan telah selesai dilakukan. Di dalamnya terdapat notifikasi untuk pengguna ketika perangkat lunak telah selesai melakukan peringkasan pada dokumen. VI. UJI COBA DAN EVALUASI Gambar 3. Tampilan Antarmuka Utama Perangkat Lunak Gambar 3 menunjukkan tampilan utama perangkat lunak ketika pertama kali dijalankan. Terdapat menu-menu pilihan yang memungkinkan pengguna untuk member masukan-masukan yang digunakan dalam proses peringkasan. Gambar 4. Tampilan Antarmuka ketika Proses Peringkasan Gambar 3 menampilkan proses selama terjadi peringkasan dokumen. pada bagian ini ditampilkan proses yang sedang berjalan serta nilai yang dihasilkan pada setiap iterasi update matriks. Dengan adanya bagian ini, pengguna dapat mengetahui sejauh mana proses peringkasan sedang berjalan. Terdapat dua macam uji coba yang dilakukan, yaitu uji coba parameter dan uji coba hasil peringkasan. Uji coba paramater dilakukan untuk mendapatkan parameterparameter yang relevan untuk diimplementasikan pada metode Faktorisasi Matriks Nonnegatif. Uji coba peringkasan digunakan untuk mengetahui kebenaran ringkasan yang dihasilkan. Data uji yang digunakan ada dua macam, yaitu data uji dari dokumen jurnal dari situs Science Direct sejumlah enam puluh data dan satu paragraf sederhana yang dipakai dalam uji coba parameter. Contoh data dokumen HTML dan satu paragraf sederhana yang digunakan sebagai data uji ditunjukkan pada Tabel 1 dan Gambar 6. Tabel 1. Data Uji 1 : Contoh Sepuluh Data Dokumen HTML dari Total Enam Puluh Data No Judul Dokumen 1. A complexity perspective on collaborative decision making in organizations The ecology of group-performance An empirical study of the effectiveness of multimedia. disclosure of informed consent A technology mediated learning perspective 3. An investigation of moderators of the link between technology use in the supply chain and supply chain performance Building and leveraging information in dynamic environments 4. The role of IT infrastructure flexibility as enabler of organizational responsivene 5. Communicative practices in an online financial forum during abnormal stock market behavior 6. Consumer feelings and behaviours towards well designed websites 7. Effects of initial and ongoing trust in IT outsourcing A bilateral perspective 8. Family and work-related consequences of addiction to organizational pervasive technologies 9. Identifying key factors affecting transnational knowledge transfer 10. Information technology and productivity Empirical evidence from the Chinese electronics industry 5

6 Sepuluh contoh data uji pada Tabel 1 merupakan dokumen-dokumen yang telah diunduh dari situs Science Direct yang berada pada domain IT & Management. Data tersebut digunakan dalam uji coba hasil peringkasan. Non-negative matrix factorization (NMF) has previously been shown to be a useful decomposition for multivariate data. Two different multiplicative algorithms for NMF are analyzed. They differ only slightly in the multiplicative factor used in the update rules. One algorithm can be shown to minimize the conventional least squares error while the other minimizes the generalized Kullback-Leibler divergence. The monotonic convergence of both algorithms can be proven using an auxiliary function analogous to that used for proving convergence of the Expectation-Maximization algorithm. The algorithms can also be interpreted as diagonally rescaled gradient descent, where the rescaling factor is optimally chosen to ensure convergence. Gambar 6. Data Uji : Paragraf Sederhana VI.1. UJI COBA PARAMETER Data uji yang digunakan dalam uji coba parameter ini adalah data paragraf sederhana seperti pada Gambar 6. Terdapat empat macam skenario uji coba parameter. 1. Penentuan rentang bilangan acak berdasar nilai Frobenius Norm. Uji coba ini bertujuan untuk mendapatkan rentang nilai acak yang menghasilkan nilai Frobenius Norm lebih kecil. Pada uji coba ini dilakukan lima kali uji coba untuk masing-masing rentang bilangan acak pada masingmasing persamaan pembobotan. Dari uji coba tersebut diperoleh data rata-rata hasil pengamatan nilai Frobenius Norm yang dihasilkan oleh masing-masing rentang bilangan acak yang ditentukan. Rata-rata nilai Frobenius Norm yang kecil menunjukkan jarak yang dekat antara matriks A dengan hasil perkalian matriks W dan H. Hasil rata-rata nilai Frobenius Norm pada setiap rentang bilangan acak dapat dilihat pada Tabel. Tabel. Rata-rata Nilai Frobenius Norm pada Setiap Rentang Nilai Acak Rentang Bilangan Batas Bawah Batas Atas Interval Rata-rata Nilai Frobenius Norm Hasil yang diperoleh dari uji coba parameter untuk menentukan rentang bilangan acak berdasarkan nilai Frobenius Norm yang dihasilkan, diperoleh rentang bilangan antara 0.05 hingga 0.5 yang menghasilkan nilai Frobenius Norm paling kecil.. Penentuan rentang bilangan acak berdasarkan waktu eksekusi Uji coba bertujuan untuk mengetahui rentang bilangan acak di antara rentang 0.05 hingga 0.5 (pada uji coba sebelumnya) yang memerlukan waktu eksekusi paling kecil. Uji coba ini dilakukan menggunakan dokumen jurnal berjudul IT investments disclosure, information quality, and factors influencing managers choices. Uji coba dilakukan sebanyak sepuluh kali untuk masingmasing rentang bilangan yang ditentukan. Hasil uji coba ini digunakan sebagai pertimbangan poemilihan rentang bilangan acak yang sesuai untuk inisialisasi matriks term (W) dan mastriks kalimat (H). Hasil pengamatan terhadap waktu eksekusi yang dihasilkan setiap rentang bilangan ditunjukkan pada Tabel 3 berikut. Tabel 3. Rata-rata Waktu Eksekusi pada Setiap Rentang Bilangan Acak Rentang Bilangan Acak Waktu Eksekusi (menit) Hasil yang ditunjukkan oleh Tabel 3 menghasilkan rentang bilangan antara 0.1 hingga 0.5 yang memerlukan waktu eksekusi paling kecil (4.35 menit). Pada implementasi selanjutnya digunakan rentang bilangan acak tersebut untuk inisialisasi matriks awal. VI.. UJI COBA HASIL PERINGKASAN Pada uji coba ini terdapat dua macam uji coba, yang pertama pengamatan nilai Kappa yang dihasilkan oleh ringkasan menggunakan metode NMF dengan ringkasan kunci. Uji coba kedua adalah perbandingan nilai Kappa antara metode NMF dengan metode LSA yang masingmasing perhitungan Kappanya diperoleh dari pembandingan dengan ringkasan kunci. Perhitungan Tingkat Kesepakatan Dua Observer Menggunakan Kappa Salah satu metode untuk evaluasi hasil peringkasan adalah dengan Kappa Statistics (Hori, Hirao, & Isozaki, 004). Metode ini memungkinkan proses perhitungan tingkat kesepakatan/agreement diantara dua interobserver atau lebih atas sebuah kondisi/permasalahan yang sama secara analisis statistik (Vierra & Garrett, 005). Secara umum perhitungan Kappa dilakukan berdasarkan perbedaan tingkat kesepakatan antara berapa banyak kesepakatan yang diperoleh (observed agreement) dibandingkan dengan berapa banyak kesepakatan yang diharapkan (expected agreement). Tampilan perhitungan 6

7 data dapat dilihat pada. Secara perhitungan statistik Kappa dinyatakan dalam Persamaan (17) berikut. κ = (p o p e ) (1 p e ) (17) Pada Persamaan (17), κ menyatakan nilai Kappa, p o menyatakan observed agreement, dan p e menyatakan expected agreement. Berdasarkan Tabel 4, a dan d menyatakan jumlah kedua observer setuju, sedangkan b dan c menytakan jumlah kedua observer tidak setuju. Ketika nilai b dan c bernilai 0 maka nilai observed agreement (p o ) adalah 1 atau 100%, sebaliknya, jika a dan d bernilai 0 maka p o bernilai 0 (Vierra & Garrett, 005). Observer Tabel 4. Variasi Interobserver Observer 1 Hasil Ya Tidak Total Hasil Ya a b m 1 Tidak c d m 0 Total n 1 n 0 n Perhitungan p o dan p e dijelaskan dalam Persamaan (18) berikut. p e = n 1 n m 1 n + n 0 n m 0 n (18) Pada Persamaan (18), n 1 menyatakan jumlah persetujuan observer 1, sedangkan n 0 menyatakan jumlah total observer tidak setuju dengan hasil. Demikian halnya dengan m 1 dan m 0 secara berurutan keduanya menyatakan tingkat persetujuan dan ketidaksetujuan dari observer. Sedangkan p o menyatakan probabilitas dari jumlah dimana kedua observer (a dan d) setuju dibandingkan dengan jumlah total (n). p o = a + d n (19) Penerapan perhitungan Kappa pada Tugas Akhir ini adalah dengan menjadikan hasil ringkasan perangkat lunak dan hasil ringkasan kunci yang telah ditentukan sebagai dua observer yang berbeda. Dengan demikian kondisi yang dibandingkan antara kedua ringkasan sebagai observer adalah ketersediaan kalimat-kalimat ringkasan yang menjadi ringkasan kunci pada ringkasan hasil keluaran perangkat lunak. Sehingga p o dalam hal ini menyatakan probabilitas kalimat yang terpilih menjadi kalimat penyusun ringkasan pada kedua observer. Tabel 5. Intepretasi Nilai Kappa Nilai κ Strength of Agreement <0 Poor 0 0. Slight Fair Moderate Substatsial Almost perfect Tabel 5 menunjukkan intepretasi hasil nilai Kappa yang berarti tingkat kesepakatan yang terjadi antara dua hasil ringkasan yang dibandingkan. Semakin tinggi nilai Kappa, intepretasi yang dihasilkan semakin baik. Uji coba pertama bertujuan untuk mengetahui persamaan pembobotan yang menghasilkan nilai Kappa terbaik. Uji coba dilakukan pada masing-masing persamaan pembobotan dengan menggunakan enam puluh data uji. Nilai Kappa yang tinggi menunjukkan tingkat kesepakatan yang tinggi antara dua ringkasan yang dibandingkan. Hasil uji coba perhitungan tingkat kesepakatan dua ringkasan dengan metode Kappa antara ringkasan dengan metode NMF dan ringkasan kunci ini dapat dilihat pada Tabel 6 berikut. Tabel 6. Rata-rata Nilai Kappa untuk setiap Persamaan Pembobotan Menggunkaan 60 Dokumen Persamaan pembobotan Rata-rata Kappa 60 dokumen Intepretasi Kappa No Weight Fair Logarithm Weight Fair Binary Weight Fair Ordinary Weight Fair Ordinary Logarithm Weight Slight Modified Binary Weight Slight Augmented Weight Slight Ordinary Augmented Weight Poor Dari hasil uji coba pada Tabel 6 diperoleh dua persamaan yaitu No Weight dan Logarithm Weight yang menghasilkan nilai Kappa tertinggi dengan intepretasi nilai Kappa adalah Fair. Persamaan No Weight menunjukkan model persamaan tf murni (perhitungan jumlah kemunculan term dalam kalimat), sedangkan persamaan Logarithm Weight merupakan bentuk persamaan tf logaritmik. Uji coba yang kedua bertujuan untuk membandingkan nilai Kappa yang diperoleh dari metode NMF dengan metode LSA. Uji coba ini dilakukan dengan enam puluh data uji menggunakan persamaan pembobotan yang telah diperoleh pada uji coba sebelumnya, yaitu No Weight yang memiliki nilai Kappa tertinggi. Dilakukan dua macam pengujian, yaitu perhitungan nilai Kappa antara ringkasan metode NMF dengan ringkasan kunci dan perhitungan nilai Kappa antara ringkasan metode LSA dengan ringkasan kunci. Hasil perhitungan Kappa menunjukkan bahwa rata-rata nilai Kappa yang dihasilkan ringkasan dengan metode NMF lebih besar ( /Fair) daripada ringkasan hasil metode LSA ( /Slight). Sehingga dapat diartikan bahwa ringkasan dengan metode NMF lebih bagus daripada ringkasan dengan metode LSA. 7

8 VII. EVALUASI HASIL UJI COBA Berdasarkan uji coba yang telah dilakukan pada Subbab VI.1 dan VI. dapat dilakukan evaluasi mengenai hasil uji coba. 1. Dari uji coba penentuan rentang bilangan acak yang menghasilkan nilai Frobenius Norm paling kecil diperoleh rentang bilangan acak terbaik adalah antara 0.05 hingga 0.5. Namun berdasar waktu eksekusi terkecil pada proses peringkasan dokumen, rentang bilangan acak yang diperoleh adalah antara 0.1 hingga Dari pengamatan hasil perhitungan nilai Kappa antara ringkasan yang dihasilkan metode NMF dengan ringkasan kunci diperoleh persamaan pembobotan dengan nilai Kappa tertinggi, yaitu No Weight. Hal tersebut karena persamaan No Weight menggunakan model pembobotan tf tanpa normalisasi (murni jumlah kemunculan term dalam kalimat). Sehingga kalimat-kalimat yang diekstrak sebagai kalimat penyusun ringkasan cenderung kalimat-kalimat yang mengandung bobot topik yang tinggi. 3. Dari perbandingan nilai Kappa yang dihasilkan oleh ringkasan metode NMF dan ringkasan metode LSA, diketahui bahwa ringkasan dengan metode NMF memilili rata-rata nilai Kappa yang lebih baik daripada metode LSA. Hal tersebut karena proses pemilihan kalimat-kalimat penting yang dilakukan metode NMF lebih tepat. Metode NMF menghasilkan matriks yang nonegatif dan sparse sehingga kecenderungan suatu kalimat terhadap suatu topik lebih mudah dikenali daripada matriks yang berisi bilangan negative dan nonegatif serta bersifat padat seperti yang dihasilkan pada metode LSA. VIII. SIMPULAN DAN SARAN PERBAIKAN Proses peringkasan pada suatu dokumen web dapat dilakukan dengan cara melakukan peringaksan pada setiap subbab/section dalam dokumen. Pengambilan isi setiap bagian dokumen dilakukan dengan cara mengenali struktur yang membangun bagian tersebut sehingga proses ekstraksi dapat dibatasi pada bagian-bagian tertentu pada suatu dokumen. Untuk menbangun matriks term-by-sentences, diperlukan persamaan pembobotan yang tepat agar dapat menghasilkan matriks yang tepat mewakili isi dokumen. Dari hasil pengamatan terhadap ringkasan yang dihasilkan oleh masing-masing persamaan, diperoleh peramaan No Weight yang menghasilkan nilai Kappa besar paling besar. Berdasarkan hasil uji coba penentuan rentang bilangan acak terbaik untuk implementasi peringkasan menggunakan metode Faktorisasi Matriks Nonnegatif dapat digunakan rentang bilangan acak antara 0.1 hingga 0.5. Rentang tersebut menghasilkan nilai Frobenius Norm dan waktu ekseskusi yang kecil dalam proses peringkasan dokumen. Melalui perhitungan Kappa antara dua ringkasan, dapat diketahui tingkat kesepakatan hasil ringkasan menggunakan metode NMF dengan ringkasan kunci yang diharapkan. Berdasar dua macam uji coba hasil ringkasan diperoleh bahwa ringkasan menggunakan metode NMF cenderung menghasilkan nilai Kappa yang tinggi dan terbukti lebih bagus dibandingkan dengan ringkasan menggunakan metode LSA. Untuk penelitian lebih lanjut, diharapkan proses peringkasan dokumen terstruktur dapat diterapkan apda seluruh tipe dokumen, tak hanya terbatas pada dokumen jurnal dari halaman web. REFERENSI Dalianis, H. (005). GSLT: Natural Language Generation Spring 005,. Retrieved 5 June, 011, from GSLT-OH.pdf Garcia, D. E. (006). Mi Islita. Retrieved April 18, 011, from The Classic Vector Space Model: Gong, Y., & Liu, X. (001). Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis. Proceedings of the 4th annual international ACM SIGIR conference on research and development in information retrival (SIGIR 01), (pp. (pp. 19 5)). New Orleans, USA. Hori, C., Hirao, T., & Isozaki, H. (004). Evaluation Measures Considering Sentence Concatenation for Automatic Summarization by Sentence or Word Extraction. Lee, D. D., & Seung, H. S. (001). Algorithm for nonnegative matrix factorization. Advance in Neural Information Processing Systems, 13, Lee, J.-H., Park, S., Ahn, C.-M., & Kim, D. (009). Automatic generic document summarization based on non-negative matrix factorization. Information Processing and Management, 45, Lemone, K. (1998). What is a Structured Document? Retrieved May 10, 011, from Worcester Polytechnic Institute - Computer Science: Radev, D. (003). Text Summarization. Retrieved 6 June, 011, from Vierra, A. J., & Garrett, J. M. (005). Undertanding Interobserver Agreement: The Kappa Statistic. Family Medicine Vol 37 no 5, pp

9 9

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

BAB II KAJIANPUSTAKA

BAB II KAJIANPUSTAKA BAB II KAJIANPUSTAKA 2.1 Klasifikasi Klasifikasi adalah proses pengelompokan data menjadi suatu kelas berdasarkan kesamaan karakteristik pada data data yang ada. Ada 2 jenis metode yang dapat digunakan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Matrix Factorization. Machine Learning

Matrix Factorization. Machine Learning MMA10991 Topik Khusus - Machine Learning Matrix Factorization Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 05.11.13 1 Telp.

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak

Pembuatan Kakas Komunikasi Antar Pengembang Perangkat Lunak JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) 1 Pembuatan Kakas Komunikasi Antar Perangkat Lunak Anugerah Firdaus, Daniel Oranova Siahaan dan Rizky Januar Akbar Jurusan Teknik

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA Fernando Winata 1, Ednawati Rainarli 2 1,2 Teknik Informatika, Teknik dan Ilmu Komputer, Universitas

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION

PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION Irwan Darmawan *1, Reddy Alexandro Harianto 2, Hendrawan Armanto 3 1,2,3 Sekolah Tinggi Teknik Surabaya

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN EORI Pada bab ini akan dielaskan landasan teori yang digunakan pada pengeraan tugas akhir ini. Landasan teori meliputi penelasan mengenai pengelompokan dokumen, teknik-teknik yang digunakan

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul BAB II STUDI PUSTAKA 2.1 Tinjauan Pustaka Untuk penelitian berkaitan dengan peringkasan teks otomatis pernah dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul Perancangan Information

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI

BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI 3.1. KONSEP APLIKASI SIMPLE-O adalah aplikasi penilaian esai otomatis berbasis web yang dikembangkan di Indonesia, tepatnya di Departemen Teknik

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

DAFTAR ISI. SKRIPSI... ii

DAFTAR ISI. SKRIPSI... ii DAFTAR ISI SKRIPSI... i SKRIPSI... ii HALAMAN PENGESAHAN... ii PERNYATAAN... iii HALAMAN MOTO DAN PERSEMBAHAN... iv PRAKATA... v DAFTAR ISI... vii DAFTAR GAMBAR... x DAFTAR TABEL... xiii INTISARI... xiv

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Pengenalan Ekspresi Wajah Manusia Pengenalan ekspresi wajah manusia oleh mesin dapat dideskripsikan sebagai interpretasi terhadap karakteristik ekspresi wajah manusia melalui

Lebih terperinci

Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia

Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia DERWIN SUHARTONO Technical Report Fakultas Ilmu Komputer Program Studi Doktor Ilmu Komputer Universitas

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Aplikasi Peringkasan Teks Berita Otomatis Menggunakan Pembobotan Kalimat. Pendahuluan

Aplikasi Peringkasan Teks Berita Otomatis Menggunakan Pembobotan Kalimat. Pendahuluan Aplikasi Peringkasan Teks Berita Otomatis Menggunakan Pembobotan Kalimat Yuandri Trisaputra Mirza Rakhmadianti Muhammad Zulfikar Annisa Trianadewi Gema Abriantini G64120004 G64120056 G64120062 G64120070

Lebih terperinci

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal

Lebih terperinci

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM Pengukuran Kemiripan Dokumen dengan Menggunakan Tools Gensim (Sekarwati dkk.) PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM Kemal Ade Sekarwati 1*, Lintang Yuniar Banowosari 2, I Made Wiryana

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Techno.COM, Vol. 13, No. 1, Februari 2014: 61-68 INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Ardytha

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES Nur Hayatin* 1, Gita I. Marthasari 2 1,2 Informatic Engineering Departement, Engineering Departement Universitas

Lebih terperinci

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto

VECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA BERBASIS NON-NEGATIVE MATRIX FACTORIZATION ( NMF)

PERINGKASAN DOKUMEN BAHASA INDONESIA BERBASIS NON-NEGATIVE MATRIX FACTORIZATION ( NMF) Jurnal eknologi Informasi dan Ilmu Komputer (JIIK) Vol. 1, No. 1, April 2014, hlm. 39-44 PERINGKASAN DOKUMEN BAHASA INDONESIA BERBASIS NON-NEGAIVE MARIX FACORIZAION ( NMF) Achmad Ridok Program Studi Ilmu

Lebih terperinci

BAB III PERANCANGAN. Tabel 3.1 Detil Tabel mpage

BAB III PERANCANGAN. Tabel 3.1 Detil Tabel mpage BAB III PERANCANGAN Bab ini menjelaskan mengenai perancangan sistem peringkas berita otomatis pada media massa online berbasis GVSM. Perancangan dibagi dalam beberapa bagian antara lain perancangan database,

Lebih terperinci

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Indonesia. Perbandingan metode..., Heninggar Septiantri, FASILKOM UI, 2009

BAB 1 PENDAHULUAN. Universitas Indonesia. Perbandingan metode..., Heninggar Septiantri, FASILKOM UI, 2009 1 BAB 1 PENDAHULUAN Bab ini menguraikan latar belakang penelitian beserta perumusan masalah, tujuan, dan ruang lingkup penelitian, yang dilanjutkan dengan penjelasan tahapan penelitian dan sistematika

Lebih terperinci

ANALISIS PENGARUH INISIALISASI NNDSVD PADA METODE NMF DALAM EKSTRAKSI TOPIK UTAMA BERITA ONLINE INDONESIA

ANALISIS PENGARUH INISIALISASI NNDSVD PADA METODE NMF DALAM EKSTRAKSI TOPIK UTAMA BERITA ONLINE INDONESIA ANALISIS PENGARUH INISIALISASI NNDSVD PADA METODE NMF DALAM EKSTRAKSI TOPIK UTAMA BERITA ONLINE INDONESIA Tasya Rahmita 1, Hendri Murfi 2, Dhian Widya 3 1 Departemen Matematika, FMIPA UI, Kampus UI Depok,

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan

Lebih terperinci

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan BAB I PENDAHULUAN 1.1 Latar Belakang Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan sebuah sistem penilaian atau evaluasi. Penilaian adalah suatu proses untuk mengambil keputusan dengan

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF

TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF TESIS PEMBANGUNAN PERANGKAT LUNAK PERINGKAS DOKUMEN DARI BANYAK SUMBER BERBASIS WEB MENGGUNAKAN SENTENCE SCORING DENGAN METODE TF-IDF FABIANUS HENDY EVAN No. Mhs.: 125301915/PS/MTF PROGRAM STUDI MAGISTER

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web

Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web Implementasi Teknik Peringkasan Semantic Virtual Document Pada Pengelompokkan Hasil Pencarian Halaman Web Rahmani Dwiastuti, Diana Purwitasari, Umi Laili Yuhana Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN

SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 1, No. 2, Oktober 2014 hlm. 91-97 SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN Pasnur 1, Putu Praba

Lebih terperinci

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN Catur Supriyanto 1, Affandy 2 1,2 Fakulti Teknologi Maklumat dan Komunikasi, Universiti Teknikal

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih

Lebih terperinci

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.

ABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition. ABSTRAK Penelitian ini bertujuan untuk memudahkan pencarian dokumen-dokumen yang memiliki hubungan antar kata, bukan hanya pencarian pada judul dokumen saja akan tetapi dapat juga mencari dari isi dokumen

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Studi Kasus Sistem Rekomendasi

Studi Kasus Sistem Rekomendasi MMA10991 Topik Khusus - Machine Learning Studi Kasus Sistem Rekomendasi Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439,

Lebih terperinci

Pembimbing 1 : Diana Purwitasari, S.Kom, M.Sc. Pembimbing 2 : Umi Laily Yuhana, S.Kom, M.Sc.

Pembimbing 1 : Diana Purwitasari, S.Kom, M.Sc. Pembimbing 2 : Umi Laily Yuhana, S.Kom, M.Sc. Pembimbing 1 : Diana Purwitasari, S.Kom, M.Sc. Pembimbing 2 : Umi Laily Yuhana, S.Kom, M.Sc. Anotasi = rangkuman / catatan / penandaan Pada sebuah artikel anotasi = penanda topik-topik apa saja yang dibahas

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci