BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan"

Transkripsi

1 BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Kebutuhan akan aplikasi Automatic Text Summarizer terus meningkat seiring dengan munculnya fenomena information overload. Akan tetapi, masih banyak masalah yang muncul dan menghambat pembuatan metode Automatic Text Summarization berbahasa Indonesia Analisis Kebutuhan Kemudahan dalam pencarian, manipulasi, penyimpanan, dan distribusi informasi teks secara digital diiringi dengan kemunculan fenomena information overload. Pengertian information overload menurut Bawden dan Robinson (2009:3-4) adalah keadaan efisiensi individu saat menggunakan informasi dalam aktivitasnya menjadi terhambat karena jumlah informasi relevan yang tersedia. Oleh karena itu, dibutuhkan cara untuk mengatasi masalah information overload tersebut. Salah satu solusi yang dapat digunakan adalah Automatic Text Summarization. Jurafsky dan Martin (2006:24) mendefinisikan Automatic Text Summarization sebagai proses penyaringan (process of distilling) informasi yang paling penting dari suatu teks untuk menghasilkan sebuah versi singkat dari suatu tugas tertentu. Automatic Text Summarization dapat menjawab kebutuhan akan metode yang bisa membantu pengguna menyaring dan menganalisis informasi berjumlah banyak untuk keperluan pengambilan keputusan dengan cepat. Melalui aplikasi Automatic Text Summarizer, pengguna dapat membaca cuplikan isi terpenting dari artikel atau dokumen teks. Dengan demikian, pengguna dapat mempertimbangkan apakah artikel atau dokumen teks tersebut mengandung informasi yang ia butuhkan. Sebagai bagian dari bidang Natural Language Processing, Automatic Text Summarization juga memiliki karakteristik yang sama dengan penelitian dalam bidang Natural Language Processing lainnya, yaitu memerlukan metode yang didesain spesifik untuk setiap bahasa. Algoritma Automatic Text Summarization untuk bahasa Indonesia dibutuhkan agar pengguna dapat melakukan pencarian dan analisis informasi teks berbahasa Indonesia dengan lebih efektif dan efisien. 55

2 Analisis Masalah Penelitian Automatic Text Summarization secara umum lebih terfokus pada metode extractive yang memilih beberapa kalimat terpenting dari teks asli tanpa melakukan perubahan dalam struktur maupun isi kalimat. Metode abstractive untuk Automatic Text Summarization melibatkan parafrasa dan memerlukan analisis Natural Language Processing yang jauh lebih dalam dan rumit, oleh karena itu belum banyak penelitian metode abstractive yang dilakukan terutama untuk bahasa selain bahasa Inggris. Sementara itu, penelitian Automatic Text Summarization metode extractive untuk bahasa Indonesia telah dilakukan, akan tetapi sejauh ini hanya dipublikasikan dalam beberapa dokumentasi singkat berbentuk jurnal dan demo online SIDoBI (Sistem Ikhtisar Dokumen untuk Bahasa Indonesia) pada tahun Sejauh ini, beberapa contoh penelitian Automatic Text Summarization berbahasa Indonesia dilakukan dengan basis metode graph (oleh Budhi, Intan, Silvia, dan Stevanus pada tahun 2007), cluster-based (Prasetyo, Uliniansyah, dan Riandi pada tahun 2008), dan Latent Semantic Analysis (Aristoteles, Herdiyeni, Ridha, dan Adisantoso pada tahun 2012). Perkembangan dalam bidang NLP untuk bahasa Inggris saat ini telah mengarah pada penggunaan Latent Dirichlet Allocation. Blei (2012:80) menyatakan bahwa Latent Dirichlet Allocation dibangun untuk memperbaiki model Probabilistic Latent Semantic Analysis agar mendapatkan hasil yang lebih akurat dan merepresentasikan isi dokumen teks dengan lebih baik. Oleh karena itu, akan dibangun metode Automatic Text Summarization untuk single document berbahasa Indonesia dengan menggunakan Latent Dirichlet Allocation sebagai salah satu komponen penilaian nilai kalimat dan Genetic Algorithm guna mendapatkan hasil ringkasan yang lebih baik.

3 Kerangka Berpikir Terdapat dua alur kerangka berpikir yang dibedakan menjadi alur kerangka berpikir proses training dan alur kerangka berpikir proses testing. Flowchart training digunakan pada saat penentuan bobot sentence features, sedangkan flowchart testing menunjukkan alur proses saat peringkasan teks pengguna. Alur kerangka berpikir dari algoritma Automatic Text Summarization digambarkan dalam skema flowchart training pada Gambar 3.1 dan flowchart testing pada Gambar 3.6. Gambar 3.1 Flowchart Training Algoritma Automatic Text Summarization Keterangan flowchart training algoritma Automatic Text Summarization (Gambar 3.1): 1. Read text input: membaca input dokumen teks dari pengguna. Detailnya dijelaskan pada keterangan Gambar Pre-summarization: mengubah struktur teks asli untuk mengoptimalkan proses pembuatan ringkasan. Detail proses ini terdapat pada keterangan Gambar Summarization: proses inti dari pembuatan ringkasan melalui ekstraksi sejumlah kalimat dari hasil penghitungan skor atau nilai kalimat tertinggi berdasarkan beberapa aspek yang rinciannya tertera pada keterangan Gambar 3.4. Kalimat yang terpilih akan ditampilkan sesuai dengan urutannya dalam teks asli.

4 58 4. Genetic Algorithm: penggunaan Genetic Algorithm untuk menentukan bobot masing-masing sentence feature. Nilai setiap sentence feature per kalimat hasil proses summarization (proses 3) akan disimpan untuk digunakan pada proses ini. Rincian proses terdapat pada keterangan Gambar Learned Sentence Feature Weights. Bobot sentence features yang memberikan hasil terbaik saat training Genetic Algorithm akan disimpan untuk dipakai pada kalkulasi nilai total kalimat untuk ekstraksi ringkasan pada proses testing. Gambar 3.2 Detail Proses Read Text Input Keterangan detail proses read text input (Gambar 3.2): 1.1. Read title, text content, summarization ratio: aplikasi membaca judul, isi dokumen teks atau artikel yang akan diringkas, dan rasio ringkasan yang diinginkan pengguna (dalam bentuk persentase). Selection: Check content length Pengecekan terhadap jumlah karakter isi teks. Jika lebih besar sama dengan 200 karakter, maka input akan diteruskan ke tahap berikutnya (pre-summmarization). Akan tetapi jika jumlah karakter kurang dari 200, maka akan kembali ke halaman input awal.

5 59 Gambar 3.3 Detail Proses Pre-summarization Keterangan detail proses pre-summarization (Gambar 3.3): 2.1. Split into paragraphs: menentukan paragraf-paragraf dalam teks untuk keperluan penghitungan sentence location pada tahap summarization Sentence and word tokenization: pemisahan teks ke dalam kalimat dan kalimat ke dalam kata/token Convert to lowercase: mengubah token ke bentuk huruf kecil untuk menyeragamkan bentuk kata. Selection: Fetch next word from token list Jika masih ada kata yang belum diproses dalam token list, akan dilanjutkan ke selection berikutnya (untuk memilih proses 2.4 atau 2.5 yang akan dijalankan bagi token tersebut). Jika semua token telah diproses, lanjut ke proses berikutnya (summarization). Selection: Check if word is in stop words list Jika kata/token terdapat dalam daftar stop words bahasa Indonesia maka proses 2.4 akan dilaksanakan, sedangkan jika kata tidak termasuk dalam daftar stop words bahasa Indonesia, akan dilanjutkan ke proses 2.5.

6 Stop words elimination: kata/token akan dihilangkan dari daftar token per kalimat untuk summarization Lemmatization: menghasilkan bentuk dasar dari kata untuk disertakan dalam daftar token per kalimat. Gambar 3.4 Detail Proses Summarization Keterangan detail proses summarization (Gambar 3.4): 3.1. TF-ISF: membuat Term Frequency-Inverse Sentence Frequency dan menjumlahkan nilai setiap token per kalimat serta melakukan normalisasi nilai (pembagian dengan nilai TF-ISF tertinggi) Sentence location: menghitung nilai kalimat berdasarkan posisinya dalam paragraf Relative sentence length: menghitung nilai kalimat berdasarkan panjangnya relatif dengan kalimat terpanjang dalam teks LDA topic modeling: membuat model topik LDA secara generatif untuk digunakan pada penghitungan title similarities, keyword similarities, dan sentence cohesion.

7 Title similarities: menghitung nilai kemiripan setiap kalimat dengan judul melalui Jensen-Shannon Divergence dengan melibatkan transformasi ke dalam model topik LDA Keyword similarities: menghitung nilai kemiripan setiap kalimat dengan 10 (sepuluh) token dengan frekuensi kemunculan tertinggi dan melibatkan transformasi ke dalam model topik LDA Sentence cohesion: menghitung nilai kemiripan antarkalimat dengan melibatkan transformasi ke dalam model topik LDA Numerical data: menghitung nilai berdasarkan keberadaan angka atau data numerik dalam kalimat Sentence extraction: penjumlahan seluruh nilai setiap kalimat, memilih sejumlah kalimat dengan nilai tertinggi, dan menampilkan kalimat-kalimat tersebut sesuai urutan semula. Gambar 3.5 Genetic Algorithm Keterangan detail proses Genetic Algorithm (Gambar 3.5):

8 Define fitness function and GA parameters: menentukan fitness function, jumlah populasi, jumlah generasi, jumlah kromosom untuk elitist selection, crossover rate, dan mutation rate Generate initial population: membuat populasi awal secara acak Decode chromosome: mengubah nilai binary (basis 2) kromosom menjadi nilai basis Find fitness for each chromosome: nilai fitness setiap kromosom dihitung melalui fitness function yang menerima input berupa nilai kromosom itu sendiri Select chromosomes for elitism: mengurutkan kromosom dari nilai fitness tertinggi hingga terendah dan mengambil sejumlah kromosom teratas untuk langsung dimasukkan ke dalam populasi baru Select parents: memilih dua kromosom yang akan menjadi parents bagi kromosom baru (child/offspring) Crossover/mating: mengombinasikan bits kromosom dua parents untuk menghasilkan kromosom baru Mutation: mengubah bit kromosom dari 0 menjadi 1 atau sebaliknya Add to new population: menambahkan child/offpsring ke dalam populasi baru yang akan dipakai untuk generasi selanjutnya. Selection: Generation <= 100 Jika jumlah generasi yang telah dibuat belum melebihi 100, populasi baru akan menggantikan populasi lama dan akan kembali ke proses 4.3. Jika jumlah generasi melebihi 100, akan dilanjutkan ke proses 5. Berikut ini adalah flowchart testing algoritma Automatic Text Summarization yang digunakan pada saat peringkasan teks pengguna. Bobot sentence features hasil training akan digunakan dalam proses testing.

9 63 Gambar 3.6 Flowchart Testing Algoritma Automatic Text Summarization Keterangan flowchart testing algoritma Automatic Text Summarization (Gambar 3.6): 1. Read text input: membaca input dokumen teks dari pengguna. Detailnya dijelaskan pada keterangan Gambar Pre-summarization: mengubah struktur teks asli untuk mengoptimalkan proses pembuatan ringkasan. Detail proses ini terdapat pada keterangan Gambar Summarization: proses inti dari pembuatan ringkasan melalui ekstraksi sejumlah kalimat dari hasil penghitungan skor atau nilai kalimat tertinggi berdasarkan beberapa aspek yang rinciannya tertera pada keterangan Gambar 3.4. Nilai setiap sentence feature akan dikalikan dengan bobot sentence feature yang didapatkan dari training Genetic Algorithm, kemudian dijumlahkan per kalimat. Kalimat yang terpilih akan ditampilkan sesuai dengan urutannya dalam teks asli. Selection: Save Jika pengguna memilih untuk menyimpan hasil ringkasan ke storage miliknya, lakukan proses 4 (empat). Jika pengguna tidak ingin menyimpan ringkasan maka proses telah selesai. 4. Saving summary: langkah ini bersifat opsional, pengguna dapat memilih untuk menyimpan hasil ringkasan ke storage miliknya atau tidak. Pilihan format penyimpanan ringkasan yang disediakan adalah plain text (.txt) dan PDF (.pdf). Proses selesai.

10 Metodologi Perancangan algoritma ini berdasarkan pada pemberian nilai sentence features dalam Genetic Algorithm Based Sentence Extraction for Text Summarization yang dibuat oleh Suanmali, Salim dan Binwahlan pada tahun 2011, serta penerapan Genetic Algorithm untuk pembobotan features kalimat dalam Using Genetic Algorithms with Lexical Chains for Automatic Text Summarization milik Berker dan Gungor pada tahun Sentence features dan pembobotan features tersebut diterapkan dengan beberapa modifikasi sesuai dengan kebutuhan. Tahapan metode Automatic Text Summarization untuk bahasa Indonesia ini diaplikasikan dalam dua proses yaitu training dan testing. Tahap training digunakan untuk menentukan bobot sentence features. Hasil bobot sentence features dari tahap training akan digunakan pada kalkulasi total nilai kalimat dalam testing. Testing merupakan tahap pembuatan ringkasan teks pengguna. Berikut ini adalah penjelasan proses-proses yang terdapat dalam training dan testing Read Text Input Input yang diterima dapat dibagi menjadi tiga komponen yaitu judul dokumen, isi dokumen, dan rasio ringkasan (dalam persen). Input yang diterima harus memiliki jumlah karakter lebih besar sama dengan 200 dan terdiri lebih dari satu kalimat. Ekstraksi kalimat tidak dapat berjalan dengan optimal jika input teks hanya terdiri dari satu kalimat atau jumlah karakternya sangat sedikit. Tidak ada perbedaan dalam pembacaan input teks pada tahap training maupun testing Pre-summarization Gupta dan Lehal (2010:258) menyatakan bahwa proses pre-summarization dilakukan untuk mengubah representasi struktur dari teks asli sehingga nantinya akan membuat proses summarization lebih optimal. Secara garis besar tahap presummarization terdiri dari split into paragraphs (pemisahan teks ke dalam paragraf), sentence and word tokenization (tokenization kalimat dan kata), convert to lowercase (konversi ke huruf kecil), stop words elimination (eliminasi stop words), dan lemmatization. Tidak ada perbedaan dalam proses pre-summarization pada tahap training maupun testing.

11 Split into Paragraphs Teks akan dipisahkan ke dalam paragraf-paragraf berdasarkan keberadaan karakter carriage return ('\r', 0x0D pada sistem heksadesimal, 13 pada sistem desimal dalam ASCII) atau line feed ('\n', 0x0A pada sistem heksadesimal, 10 pada sistem desimal dalam ASCII). Kegunaan dari pemisahan ke dalam paragraf ini adalah untuk keperluan penghitungan sentence feature berdasarkan posisi kalimat dalam paragraf yang akan dilakukan pada tahap summarization. Kalimat yang terletak pada baris baru dan terpisah dari kalimat sebelumnya oleh minimal satu karakter carriage return atau line feed akan dimasukkan sebagai awal dari paragraf baru. Pengecualian adalah untuk kalimat berupa poin-poin pendek yang menjadi sambungan dari kalimat penjelas sebelumnya. Poin-poin yang dimaksud masing-masing terdiri dari satu kalimat dan ditandai dengan adanya penomoran (1, 2, 3,...dst) atau menggunakan huruf (a, b, c,...dst) atau karakter penanda poin (*, +, -, #) di bagian awal kalimat-kalimat tersebut. Meskipun poinpoin tersebut dipisahkan oleh baris baru, keberadaan karakter carriage return atau line feed akan diabaikan dan kalimat-kalimat tersebut akan digabungkan dalam satu paragraf. Contoh di bawah ini merupakan kutipan dari Zaman dan Winarko (2011:61) yang menunjukkan pemisahan paragraf berdasarkan keberadaan carriage return atau line feed. Dalam ikhtisar, penulis dapat langsung mengemukakan pokok uraian, sementara bagian yang dianggap kurang penting dapat dibuang. Ringkasan dapat disusun dalam dua bentuk, yaitu bentuk verbal uraian (paragraf) dan bentuk nonverbal berupa bagan atau skema. Kutipan tersebut akan dipisah menjadi dua paragraf dikarenakan terdapat pergantian baris menjadi: 1. Dalam ikhtisar, penulis dapat langsung mengemukakan pokok uraian, sementara bagian yang dianggap kurang penting dapat dibuang. 2. Ringkasan dapat disusun dalam dua bentuk, yaitu bentuk verbal uraian (paragraf) dan bentuk nonverbal berupa bagan atau skema. Berikut ini adalah contoh pemisahan paragraf jika terdapat lebih dari satu poin yang masing-masing terdiri dari satu kalimat dan dipisahkan oleh baris baru. Kutipan berikut ini diambil dari Zaman dan Winarko (2011:61). Pada dasarnya, tugas summarization dapat dibagi menjadi dua tahap utama: (a) Pembangunan representasi teks. 65

12 66 (b) Membuat ringkasan. Pembangunan representasi teks di antaranya terdapat proses pembagian dokumen menjadi kalimat dan stemming. Jika dilihat dari keberadaan carriage return atau line feed saja, maka kutipan tersebut akan dibagi menjadi empat paragraf. Akan tetapi karena (a) dan (b) merupakan bentuk poin yang masing-masing terdiri dari satu kalimat, maka poin (a) dan (b) akan digabungkan dengan paragraf kalimat di atasnya, sehingga menjadi: 1. Pada dasarnya, tugas summarization dapat dibagi menjadi dua tahap utama: (a) Pembangunan representasi teks. (b) Membuat ringkasan. 2. Pembangunan representasi teks di antaranya terdapat proses pembagian dokumen menjadi kalimat dan stemming Sentence and Word Tokenization Schmid (2007:1) mendefinisikan tokenization sebagai proses segmentasi teks ke dalam kata dan kalimat. Proses ini membagi rangkaian karakter ke dalam kalimat dan kalimat ke dalam token. Setelah pemisahan paragraf, langkah berikutnya yaitu input teks akan dipisahkan ke dalam kalimat-kalimat (sentence tokenization). Pembatas antarkalimat ditandai oleh tanda titik (.), tanda tanya (?), atau tanda seru (!) pada akhir kalimat. Identifikasi batas kalimat harus memperhatikan kemungkinan keberadaan tanda titik yang bukan menandakan akhir kalimat. Contohnya yaitu pada penulisan gelar (seperti S.H., dr., S.Kom., dan M.Sc.) dan singkatan (seperti Ny., Tn., kec., kel., dan no.). Penentuan apakah tanda titik pada penulisan gelar dan singkatan merupakan akhir dari kalimat atau bukan, diasumsikan dipengaruhi oleh kata yang mengikuti tanda titik tersebut diawali huruf kapital atau tidak. Jika tidak diawali huruf kapital, maka tanda titik tersebut bukan akhir dari kalimat. Sedangkan jika diawali huruf kapital, perlu dipertimbangkan apakah tanda titik tersebut mengakhiri kalimat berdasarkan konteks dan penggunaannya. Contohnya jika ditemukan "Ny." yang merupakan singkatan dari "Nyonya", biasanya diikuti oleh nama orang sehingga "Ny." bukan merupakan akhir kalimat. Sedangkan gelar "S.H." diletakkan di akhir nama, sehingga jika kata berikutnya diawali huruf kapital, maka tanda titik pada "S.H." merupakan akhir kalimat. Singkatan yang diperhatikan dalam identifikasi batas kalimat ini adalah singkatan yang terdapat pada Lampiran Kamus Besar Bahasa Indonesia IV, dan

13 67 menurut lampiran tersebut menggunakan tanda titik dalam penulisannya. Singkatan yang tidak memiliki tanda titik tidak dihitung karena singkatan tersebut tidak berpengaruh dalam penentuan akhir kalimat. Berikut ini adalah daftar singkatan yang menggunakan tanda titik dalam penulisannya menurut Departemen Pendidikan dan Kebudayaan (2008): Tabel 3.1 Daftar Singkatan Menggunakan Tanda Titik a.d.c. Co. e.g id. log. M.T. Ph.D. S.H. S.V.P. a.i. d.a E.Z. Ir. ltd. Mgr. pjs. S.Hut. saw. a.m. d.l ed. Jln. M.A. Mr. Prof. S.K.M. ssk. A.M.v.B. D.Sc. et al. jo. M.Ag. Mrs. Psi. S.Kedg. st. a.n. dkk. et seq. Jr. M.B.A. n.b. psw. S.Kedh. Swt. a.s. dll. etc. K. M.Hum. N.N. q.e. S.Kom. T. adm. Dr./dr. ext. K.H. M.Kes. Nn. q.q. S.Pd. Tap. art. Dr.h.c. faks. kab. M.Kom. no. q.v. S.Pol. Tb. Ass. Supt. Dr.Phil. fasc. kapt. M.M. Ny. R.A. S.Psi. tel. B.A. Dr.Th. fol. kec. M.P. op r.p.m. S.S. u.b. cit. B.B.A. Dra. Fr. kel. M.P.A. p.a. r.p.s. S.Si. u.p. B.Ch.E. drg. ft. kep. M.P.H. p.c. red. S.Sn. v.h. b.d. drh. Gg. l.l. M.Pd. p.f. reg. S.Sos. v.s. B.Sc. Drs. Hj. lamp. M.Ph. p.f.v. rhs. S.T. v.v. C.C. ds. hlm. LL.B M.Sc. p.m. Rr. S.Tekp. vol. c.o. dsb. i.c. LL.D M.Si. p.p. S.Ag. S.Th. ybs. c.q. dst. i.e. loc cit. M.Sn. p.r. S.E. s.v. yth. Kalimat yang mengandung tanda petik dua untuk mengapit kutipan yang terdiri dari beberapa kalimat akan dianggap sebagai satu kalimat. Sebagai contoh yaitu: Ana berkata, "Jika memang demikian kondisinya, lebih baik rencana ini ditunda hingga minggu depan. Tidak ada salahnya menunggu sampai cuaca membaik."

14 68 maka teks tersebut akan dihitung sebagai satu kalimat, bukan dua kalimat yang terpisah karena keberadaan tanda titik di dalam kutipan. Kalimat tidak dipisah menjadi Ana berkata, "Jika memang demikian kondisinya, lebih baik rencana ini ditunda hingga minggu depan. dan Tidak ada salahnya menunggu sampai cuaca membaik." Identifikasi batas kalimat akan dilanjutkan dengan tokenization kata dari kalimat. Karakter akan dipisahkan ke dalam kata saat terdapat spasi atau didahului atau diikuti oleh tanda baca, tanda kurung, atau tanda petik Convert to Lowercase Sebelum melangkah ke tahap selanjutnya, kata-kata yang sudah disegmentasi akan diubah ke bentuk huruf kecil (lowercase). Hal ini dilakukan untuk menyeragamkan bentuk kata untuk mempermudah pemrosesan Stop Words Elimination Definisi stop words menurut Manning, Raghavan, dan Schutze (2009:27) adalah kata-kata yang biasa ditemui dan memiliki nilai kecil dalam membantu memilih dokumen yang sesuai dengan kebutuhan pengguna. Kata-kata ini akan dihilangkan atau diabaikan dari analisis. Beberapa contoh kata yang terdapat dalam daftar stop words yaitu dan, yang, maka, jika, melakukan, dan lain-lain. Daftar stop words yang digunakan adalah berdasarkan daftar yang dibuat oleh Tala, Kamps, Muller, dan de Rijke pada tahun Detail 758 kata yang terdapat di dalam daftar tersebut dapat dilihat di dalam lampiran Lemmatization Manning, Raghavan, dan Schutze (2009:32) menyatakan pengertian lemmatization adalah proses analisis kosakata dan morfologi kata dengan tujuan menghasilkan bentuk kata dasar yang disebut juga sebagai lemma. Ingason (2008:1) memperkuat teori ini dengan menjelaskan bahwa lemmatization adalah proses untuk menemukan dasar (entry) dari suatu bentuk kata tertentu. Dengan melakukan proses lemmatization, tidak perlu memeriksa semua kombinasi kata Indonesia. Proses lemmatization akan menemukan bentuk kata dasar. Lemmatizer yang akan diimplementasikan pada proses pembuatan ringkasan teks ini adalah lemmatizer bahasa Indonesia oleh Stephen, Christiandy, dan Rolando

15 69 (2013:39-40). Algoritma berbasis kamus dan rules ini dikembangkan dari algoritma Enhanced Confix-Stripping Stemmer yang dibuat oleh Arifin, Mahendra, dan Ciptaningtyas pada tahun Enhanced Confix-Stripping Stemmer (ECS) paling relevan dan diperbaharui, khususnya di dalam Indonesian stemming subject. Akurasi lemmatizer ini mencapai 98%. Algoritma ini melibatkan proses rule precedence check, inflectional suffix removal, derivational suffix removal, derivational prefix removal, recoding, suffix backtracking, hyphenation checking, dan dictionary lookup Summarization Proses lanjutan dari pre-summarization ini merupakan inti dari Automatic Text Summarization. Pada proses ini, nilai features setiap kalimat akan dihitung berdasarkan analisis terhadap kalimat tersebut dan juga kata-kata yang terkandung di dalamnya. Sentence features adalah kategori kriteria penilaian kalimat berdasarkan karakteristik yang dimilikinya. Sentence features yang digunakan yaitu feature TF- ISF, sentence location (posisi kalimat dalam paragraf), relative sentence length (panjang kalimat relatif), title similarities (kemiripan dengan judul), keyword similarities (kemiripan dengan kata kunci), sentence cohesion (kohesi antarkalimat), dan numerical data (data numerik). Feature proper noun tidak dibahas dalam lingkup algoritma Automatic Text Summarization ini. Basis penghitungan untuk title similarities, keyword similarities, dan sentence cohesion adalah LDA Topic Modeling. Tidak ada perbedaan antara tahap training maupun testing kecuali pada proses sentence extraction. Dalam tahap training, masing-masing nilai feature setiap kalimat akan ditampung untuk menjadi input dalam penentuan bobot feature oleh Genetic Algorithm. Sedangkan dalam tahap testing, nilai kalimat merupakan penjumlahan dari perkalian bobot feature (yang didapat dari training Genetic Algorithm) dengan masing-masing nilai sentence feature TF-ISF TF-ISF (Term Frequency-Inverse Sentence Frequency) merupakan nama lain dari TF-IDF (Term Frequency-Inverse Document Frequency) dalam penggunaannya untuk Automatic Text Summarization. Menurut Gupta dan Lehal (2010:261), TF-IDF menggunakan teori bahwa term di dalam dokumen berbanding terbalik secara

16 70 proporsional dengan jumlah dokumen dalam korpus yang mengandung term tersebut. Motivasi di balik penggunaan TF-IDF ini yaitu penelitian bahwa kata/token/term yang muncul pada setiap dokumen belum tentu menunjukkan keunikan yang dibutuhkan untuk kata kunci meskipun frekuensi kemunculannya besar. Pengertian TF-ISF kurang lebih sama dengan pengertian TF-IDF, hanya perlu mengganti "dokumen" dengan "kalimat". Sebagai langkah awal, akan dilakukan penghitungan jumlah masing-masing kata atau term yang terdapat pada setiap kalimat sehingga akan terbentuk matriks dengan baris mewakili kalimat dan kolom mewakili token. Token yang dihitung merupakan hasil dari proses pre-summarization. token-1 token-2 token-3... token-n kalimat kalimat kalimat kalimat-m Contoh tersebut adalah matriks Term Frequency dari dokumen yang terdiri dari m buah kalimat dan n buah token unik. Jika pada kalimat-1 terdapat 1 (satu) buah token-1, 2 (dua) buah token-2, 1 (satu) buah token-3 dan tidak ada token-n, maka representasi frekuensinya adalah [ ] seperti pada baris pertama matriks di atas. Demikian seterusnya untuk seluruh kalimat yang terdapat dalam dokumen teks. TF-ISF mengalikan komponen lokal (Term Frequency) dan komponen global (Inverse Sentence Frequency). Formula TF-ISF tersebut dapat dinyatakan dengan persamaan: tf (t,s) menyatakan frekuensi token (term) t pada kalimat s, N adalah jumlah seluruh kalimat dalam dokumen, sedangkan n adalah jumlah kalimat dalam dokumen yang mengandung term t.

17 71 Hasil dari TF-ISF ini kemudian akan dinormalisasi menjadi unit vector. Arfken, Weber dan Harris (2013:47-48) mendefinisikan unit vector sebagai vektor yang memiliki panjang 1 (satu). Proses normalisasi TF-ISF ke unit vector akan diawali dengan menghitung panjang awal vektor dengan persamaan: Kemudian setiap komponen vektor v akan dibagi dengan nilai v tersebut untuk menghasilkan v nor (vektor yang telah dinormalisasi menjadi unit vector): Suanmali, Salim, dan Binwahlan (2011:6) menjumlahkan nilai TF-ISF setiap kata dalam suatu kalimat. Hasil penjumlahan untuk masing-masing kalimat akan dinormalisasi melalui pembagian dengan nilai TF-ISF kalimat yang tertinggi, sehingga nilai TF-ISF maksimal yang telah dinormalisasi yaitu 1 (satu). Berikut ini adalah contoh penghitungan TF-ISF dari tiga kalimat yang telah melalui tahap pre-summarization: 1. daftar token pada kalimat-1: hewan paus mamalia paus daftar token pada kalimat-2: paus putih daftar token pada kalimat-3: mamalia mamalia 2. token-1 = hewan; token-2 = paus; token-3 = mamalia; token-4 = putih 3. Matriks term frequency: token-1 token-2 token-3 token-4 kalimat kalimat kalimat Nilai TF-ISF setiap token t pada kalimat s akan dihitung dengan menggunakan persamaan:

18 72 Keterangan: tf t,s = frekuensi t pada kalimat s; N = jumlah seluruh kalimat dalam dokumen; n = jumlah kalimat dalam dokumen yang mengandung term t. Untuk token-1 pada kalimat-1: Untuk token-2 pada kalimat-1: Demikian seterusnya sampai seluruh token dalam setiap kalimat selesai diproses. Hasil Matriks TF-ISF untuk contoh di atas yaitu: token-1 token-2 token-3 token-4 kalimat-1 1, , , kalimat-2 0 0, , kalimat , Normalisasi nilai TF-ISF menjadi unit vector. Panjang vektor untuk kalimat-1 ( v 1 ): Pembagian vektor dengan panjang vektor untuk menghasilkan unit vector: Vektor yang telah dinormalisasi akan memiliki panjang vektor = 1. Langkah tersebut dilakukan untuk seluruh kalimat dalam teks. Hasil lengkapnya adalah sebagai berikut: token-1 token-2 token-3 token-4 kalimat-1 0, , kalimat-2 0 0, kalimat

19 73 6. Melakukan penjumlahan TF-ISF setiap kalimat dan normalisasi melalui pembagian dengan TF-ISF maksimum. kalimat-1 = 0, , = 1, (maksimum) kalimat-2 = 0, , = 1, kalimat-3 = 1 Dengan menggunakan persamaan berikut: bobot kalimat-1 = 1, / 1, = 1 bobot kalimat-2 = 1, / 1, = 0, bobot kalimat-3 = 1 / 1, = 0, Sentence Location Sentence location (posisi kalimat) pada paragraf memiliki pengaruh cukup besar dalam menentukan kalimat. Dalam bahasa Indonesia, Rahayu (2007:104) menyatakan bahwa terdapat 4 (empat) jenis paragraf berdasarkan posisi kalimat pokoknya, yaitu: a. Paragraf deduksi, yaitu paragraf yang letak kalimat pokoknya di awal. b. Paragraf induksi, kalimat pokoknya terletak di akhir paragraf. c. Paragraf campuran, kalimat pokoknya terletak di awal dan akhir paragraf. d. Paragraf tanpa kalimat pokok, biasanya mengungkapkan proses yang disusun berdasarkan urutan waktu. Contohnya pada karangan naratif. Suanmali, Salim, dan Binwahlan (20011:6) memberikan bobot untuk 5 (lima) kalimat pertama dalam paragraf dengan tingkatan yang berbeda. Kalimat yang berada di awal akan mendapatkan bobot lebih tinggi dibandingkan kalimat berikutnya. Proporsi pemberian bobot untuk 5 (lima) kalimat pertama berdasarkan posisi dalam paragraf diberikan sebagai berikut: S_F2(s) merupakan bobot kalimat berdasarkan posisi, i sebagai posisi kalimat dalam paragraf, dan n adalah jumlah kalimat dalam satu paragraf. Sedikit modifikasi dilakukan pada pemberian bobot kalimat ini dikarenakan kemungkinan kemunculan kalimat utama dalam paragraf bahasa Indonesia dapat terletak pada kalimat pertama atau kalimat terakhir. Maka untuk kalimat terakhir dalam suatu paragraf, bobotnya

20 74 akan diberikan sama dengan kalimat pertama. Ferrier (2001:7) juga menyatakan bahwa posisi kalimat yang terletak di awal dan akhir paragraf sering merupakan kalimat yang penting untuk diekstrak sebagai bagian dari ringkasan. Dengan demikian, rentang bobot yang dapat diberikan adalah: 1,0 untuk kalimat pertama; 0,8 untuk kalimat kedua; 0,6 untuk kalimat ketiga; 0,4 untuk kalimat keempat; 0,2 untuk kalimat kelima; 1,0 untuk kalimat terakhir; dan 0,0 untuk sisa kalimat lainnya dalam paragraf Relative Sentence Length Menurut Suanmali, Salim, dan Binwahlan (2011:5), komponen relative sentence length (panjang kalimat relatif) dipertimbangkan dalam pemilihan kalimat dengan tujuan untuk memperkecil kemungkinan kalimat yang terlalu pendek untuk terpilih menjadi bagian dari ringkasan. Hal ini dikarenakan kemungkinan kalimat yang terlalu pendek untuk mewakili topik inti dari teks sangat kecil. Contohnya adalah tanggal dan nama penulis dokumen atau artikel. Panjang kalimat akan dihitung melalui pembagian jumlah kata yang terdapat pada suatu kalimat len(s) dengan jumlah kata yang terdapat pada kalimat terpanjang dalam dokumen max(len(s max )). Dengan demikian nilai tertinggi yang dapat diperoleh yaitu 1 (satu) LDA Topic Modeling Blei (2012:78) menjelaskan bahwa Latent Dirichlet Allocation (LDA) merupakan probabilistic topic model untuk dokumen teks yang berdasarkan pada asumsi bahwa dokumen terdiri dari beberapa topik dengan distribusi probabilitas tertentu. LDA bersifat generatif dalam penentuan topik unsupervised dokumen melalui proses acak. Topik didefinisikan sebagai distribusi kosakata tetap (fixed vocabulary). Tujuan topic modeling adalah untuk menemukan topik secara otomatis dari dokumen. Topik, distribusi topik per dokumen, dan penentuan topik untuk setiap kata dalam dokumen tersebut adalah struktur yang tersembunyi (hidden structure). Menurut Wilson dan Chew (2010:467), karena LDA dapat digunakan untuk mencari distribusi topik untuk dokumen baru, maka matriks distribusi tersebut dapat digunakan untuk menghitung similarities antara dua dokumen. Dalam LSA (Latent

21 75 Semantic Analysis), similarity dihitung dengan menggunakan cosine similarity. Akan tetapi untuk LDA, digunakan penghitungan Jensen-Shannon Divergence (JSD). JSD ini akan digunakan dalam kalkulasi title similarities, sentence cohesion, dan keyword similarities. Menurut Blei (2012:82), LDA menggunakan konsep bag of words sehingga urutan kemunculan kata dalam dokumen tidak berpengaruh. Rehurek dan Sojka (2010:48) menyatakan bahwa dalam konsep bag of words, frekuensi kemunculan setiap token pada kalimat akan dihitung dalam bentuk matriks term frequency dan berupa sparse matrix (matriks yang banyak mengandung angka 0). Dictionary dan model topik LDA yang akan digunakan dalam training maupun testing dibuat terlebih dahulu. Pembuatan dictionary, bag of words, model LDA, dan transformasi ke LDA menggunakan Gensim. Kumpulan dokumen (training data) yang digunakan untuk inferensi model topik LDA diambil dari data dump situs Wikipedia berbahasa Indonesia ( edisi 3 Oktober Data tersebut berjumlah artikel yang memiliki format XML (.xml) dan di-compress dalam format Bzip2 (.bz2) sebesar 239 MB. Ukuran asli file XML (.xml) tersebut sebelum dicompress yaitu 1,24 GB. Demi keperluan pemrosesan, data artikel harus diekstrak ke bentuk plain text (.txt) dengan menghilangkan tag XML yang ada. Aplikasi yang digunakan untuk melakukan ekstraksi paragraf dari file XML artikel Wikipedia tersebut adalah WP2TXT versi yang dibuat oleh Hasebe pada tahun WP2TXT menerima input file berformat Bzip2 dan menyimpan hasil paragraf plain text ke dalam output files (.txt) yang masing-masing berukuran 10 MB. Pemrosesan training data dari Wikipedia berbahasa Indonesia menghasilkan 25 plain text files dengan total ukuran 242 MB. Langkah-langkah pre-summarization diterapkan pada ke-25 plain text files, yakni: sentence and word tokenization, convert to lowercase, stop words elimination, dan lemmatization. Pemisahan paragraf tidak dilakukan karena pada pembentukan model LDA tidak menyertakan posisi kalimat dalam paragraf. Dikarenakan jumlah kutipan teks bahasa Inggris yang tercantum dalam training data cukup banyak, maka stop words elimination yang dilakukan untuk training data tidak hanya mencakup stop words bahasa Indonesia melainkan juga stop words bahasa Inggris sejumlah 127 kata dari NLTK Data. Karakter dalam training data yang bukan merupakan karakter

22 76 dengan encoding UTF-8 akan diabaikan. Selain itu, kata yang terdiri dari karakter tunggal atau angka dihilangkan karena tidak memberi arti signifikan bagi inferensi model topik LDA. Masing-masing file juga diinspeksi secara manual untuk menghilangkan kata-kata yang banyak ditemui dan tidak berhubungan dengan kalimat seperti hyperlink sumber, keterangan waktu referensi, keterangan attachment file atau gambar, dan konversi satuan (satuan panjang, berat, dan lain-lain). Output file berisi daftar token per baris. Ke-25 file yang telah melalui langkah-langkah pre-summarization di atas akan dibuat model topik LDA-nya dengan memanfaatkan library Gensim versi yang dibuat oleh Rehurek pada tahun Langkah pertama yaitu penggabungan ke-25 file menjadi satu plain text file berukuran 106 MB. Kemudian dengan menggunakan library Gensim, file diproses untuk membuat dictionary. Rehurek dan Sojka (2010:47) menyatakan bahwa dalam dictionary, akan dibuat identitas integer untuk setiap token unik dan sekaligus juga menghitung frekuensi kemunculannya dalam teks. Dalam file training, terdapat token unik, akan tetapi yang disimpan dalam dictionary hanya token teratas yang frekuensinya tidak kurang dari 5 (lima) dan tidak lebih dari 50% jumlah dokumen. Proses pembuatan dictionary ini berlangsung selama 1 menit 55,546 detik. Dictionary tersebut akan disimpan ke storage untuk keperluan pemakaian selanjutnya dalam training maupun testing. Setelah itu, corpus bag of words akan dibangun dan dibuat indeksnya untuk kemudahan akses data. Corpus bag of words dari training data akan disimpan di storage dalam format Matrix Market. Format ini cocok untuk menyimpan sparse matrix karena hanya menyimpan koordinat baris dan kolom matriks beserta nilai nonzero. Waktu yang dibutuhkan untuk membuat bag of words yaitu 3 menit 22,641 detik. Model topik LDA dibuat secara generatif dari corpus bag of words tersebut. Jumlah topik LDA ditentukan sebanyak 100 topik dengan menggunakan dictionary dan corpus bag of words yang tersimpan di storage. Dengan didapatkannya topik LDA, pembuatan model LDA telah selesai dilakukan dan model LDA disimpan ke storage. Waktu yang dibutuhkan untuk menyelesaikan proses ini adalah 2 jam 27 menit 0,454 detik. Daftar topik yang dihasilkan merupakan distribusi dari token dan akan digunakan untuk menentukan distribusi probabilitas topik dokumen di luar training data.

23 77 Berikut ini adalah contoh sebagian model topik LDA yang dihasilkan (hanya menampilkan 10 kata dengan probabilitas tertinggi per topik): Topik 1: [('0.094', 'inggris'), ('0.061', 'raya'), ('0.044', 'britania'), ('0.035', 'john'), ('0.033', 'london'), ('0.022', 'st'), ('0.021', 'irlandia'), ('0.019', 'william'), ('0.019', 'henry'), ('0.017', 'james')] Topik 2: [('0.070', 'buah'), ('0.046', 'makan'), ('0.045', 'bahan'), ('0.028', 'potong'), ('0.020', 'daging'), ('0.020', 'buat'), ('0.018', 'biji'), ('0.016', 'jenis'), ('0.014', 'masak'), ('0.013', 'kandung')] Topik 3: [('0.067', 'hukum'), ('0.065', 'kitab'), ('0.063', 'alkitab'), ('0.061', 'janji'), ('0.030', 'ibrani'), ('0.028', 'adil'), ('0.021', 'kristen'), ('0.016', 'hakim'), ('0.015', 'sepakat'), ('0.012', 'putus')] Sebelum kalkulasi JSD (title similarities, keyword similarities dan sentence cohesion) dilakukan, transformasi judul, isi dokumen, dan keywords ke dalam bentuk distribusi topik LDA harus dilaksanakan terlebih dulu. Transformasi tersebut akan memanfaatkan dictionary dan model topik LDA yang telah dibuat sebelumnya. Judul dokumen yang telah melalui proses pre-summarization akan dibuat ke dalam bentuk bag of words. Demikian pula dengan isi dokumen. Untuk keywords atau kata kunci dari dokumen ditentukan dengan mengambil 10 (sepuluh) kata yang memiliki frekuensi kemunculan tertinggi, seperti disebutkan oleh Suanmali, Salim, dan Binwahlan (2011:7-8). Kesepuluh kata kunci ini akan diubah ke dalam bentuk bag of words dengan asumsi bahwa kata-kata tersebut merupakan bagian dari suatu kalimat atau query baru terhadap model LDA. Pada proses LDA topic modeling ini, bag of words dari judul dokumen, isi dokumen, dan keywords, akan mengalami transformasi menjadi bentuk LDA dengan menggunakan model topik LDA yang telah dibuat sebelumnya. Hasil transformasi berupa distribusi topik untuk judul, distribusi topik untuk kalimat-kalimat isi dokumen, dan distribusi topik untuk keywords. Berikut ini adalah contoh transformasi isi dokumen (terdiri dari 3 kalimat) ke dalam bentuk LDA pada Gensim. 1. Daftar token per kalimat setelah proses pre-summarization: [ ['hewan', 'paus', 'mamalia', 'paus'],

24 78 ['paus', 'putih'], ['mamalia', 'mamalia'] ] 2. Dictionary (menggunakan dictionary dari proses pembuatan model topik LDA). Direpresentasikan dalam bentuk {'kata': id_integer}: { 'hewan': 32439, 'putih': 22949, 'mamalia': 73150, 'paus': } 3. Bag of words: [ [(32439, 1), (73079, 2), (73150, 1)] [(22949, 1), (73079, 1)] [(73150, 2)] ] 4. Beberapa contoh topik LDA (hanya ditampilkan 10 kata dengan probabilitas tertinggi untuk masing-masing topik): Topik #35: '0.061*warna *merah *putih *pakai *hitam *kaki *kadang *milik *sisi *hijau' Topik #57: '0.055*tumbuh *manusia *sel *hewan *tubuh *hidup *darah *jenis *spesies *temu' 5. Transformasi bag of words ke LDA: [ [(9, ), (26, ), (57, )] [(9, ), (35, )] [(26, )] ] Title Similarities Judul teks yang baik merupakan representasi dari inti keseluruhan teks tersebut. Oleh sebab itu dalam pembuatan ringkasan, judul merupakan unsur esensial yang dapat memberi indikasi kalimat-kalimat terpenting dari teks melalui analisis kemiripannya dengan judul. Modifikasi pada feature title similarities ini yaitu penggunaan Jensen- Shannon Divergence untuk menghitung similarities dari setiap kalimat dengan judul dokumen. Hal ini berbeda dari title feature pada Suanmali, Salim, dan Binwahlan (2011:5) yang hanya menghitung jumlah kata yang sama persis antara kalimat dan judul dibagi dengan jumlah kata dalam judul. Title feature tersebut tidak mempertimbangkan kemungkinan kesamaan topik antara judul dan kalimat karena

25 79 hanya bertumpu pada kemunculan kata-kata yang sama. Hasil transformasi judul dan kalimat-kalimat isi dokumen dalam bentuk LDA pada proses sebelumnya akan digunakan untuk kalkulasi feature ini. Heinrich (2009:26-27) menjelaskan bahwa Jensen-Shannon Divergence (JSD) berdasarkan pada Kullback-Leibler (KL) Divergence, yang merupakan pengukuran distance standar untuk membandingkan distribusi. Persamaan KL Divergence antara dua variabel X dan Y diskrit adalah: KL Divergence dapat diinterpretasikan sebagai perbedaan dari distribusi X dan Y, jika kedua distribusi tersebut sama maka KL Divergence bernilai 0. KL Divergence bersifat tidak simetris, sehingga dibuatlah alternatifnya yang simetris dan smoothed: dengan nilai M: Hasil JSD masih berupa distance sehingga untuk mengubahnya menjadi similarity, harus dinormalisasi: Keyword Similarities Pada metode milik Suanmali, Salim, dan Binwahlan (2011:7-8), kata thematic dinyatakan sebagai istilah untuk sepuluh kata yang paling sering muncul dalam dokumen. Kata-kata tersebut digunakan untuk kalkulasi jumlah kata thematic dalam sebuah kalimat dibagi dengan jumlah kata thematic terbanyak yang muncul dalam kalimat. Sedangkan Kiyoumarsi dan Esfahani (2011:108) menggunakan keywords atau thematic words untuk dihitung cosine similarity-nya dengan setiap kalimat. Kalkulasi keyword similarities (kemiripan dengan kata kunci) secara prinsip sama dengan komponen title similarities (kemiripan dengan judul). Keyword similarities dipilih untuk digunakan karena feature thematic word tersebut hanya bertumpu pada

26 80 kemunculan kata-kata yang sama dan mengabaikan kemungkinan kesamaan topik. Hasil transformasi keywords dan isi dokumen dari proses LDA topic modeling akan digunakan untuk kalkulasi feature ini. Hasil LDA dari kata kunci akan dianalisis terhadap masing-masing LDA kalimat untuk mendapatkan nilai similarity dengan setiap kalimat. Kemiripan ini akan dihitung dengan Jensen-Shannon Divergence (JSD) Sentence Cohesion Penghitungan sentence cohesion (kohesi antarkalimat) dijelaskan oleh Kiyoumarsi dan Esfahani (2011:108) sebagai penjumlahan nilai kemiripan antara kalimat S i dengan setiap kalimat lain pada dokumen. Proses ini dilakukan untuk setiap kalimat. Lalu, nilai ini akan dinormalisasi dengan membagi nilai kalimat S i dengan nilai kalimat tertinggi S max. Nilai yang paling mendekati 1 menandakan kalimat dengan kohesi antarkalimat tertinggi. Hasil transformasi kalimat-kalimat isi dokumen dari proses LDA topic modeling akan digunakan untuk kalkulasi feature ini. Similarity antara setiap kalimat dengan kalimat lainnya dalam dokumen tersebut akan dihitung dengan memakai Jensen-Shannon Divergence (JSD) pada representasi LDA masing-masing kalimat. Sebuah kalimat s akan dihitung similarity-nya dengan seluruh kalimat lain (s i ) berdasarkan JSD dan kemudian dinormalisasi melalui pembagian dengan nilai similarity tertinggi dari kalimat dalam dokumen. Dengan demikian maka nilai maksimal yang dapat diraih adalah 1 (satu) Numerical Data Menurut Suanmali, Salim, dan Binwahlan (2011:8), keberadaan numerical data (data numerik) dalam kalimat sangat penting dan memperbesar kemungkinan kalimat tersebut menjadi bagian dari ringkasan. Nilai bobot yang digunakan berdasarkan pada persamaan:

27 81 S_F7(s) adalah bobot data numerik pada kalimat s, count(numerical data in s) menunjukkan banyak data numerik yang terdapat di dalam kalimat s sedangkan len(s) merupakan jumlah kata dalam kalimat s Sentence Extraction Dalam tahap training, total nilai kalimat diperoleh hanya dengan menambahkan ketujuh nilai features. Kemudian sejumlah kalimat dengan total nilai tertinggi akan diambil menjadi ringkasan. Setiap nilai feature masing-masing kalimat (S_F1(s), S_F2(s), S_F3(s), S_F4(s), S_F5(s), S_F6(s), dan S_F7(s)), akan ditampung untuk menjadi input dalam proses training Genetic Algorithm. Hal ini berbeda dengan tahap testing. Setelah penghitungan komponen bobot kalimat TF-ISF (S_F1(s)), sentence location (S_F2(s)), relative sentence length (S_F3(s)), title similarities (S_F4(s)), keyword similarities (S_F5(s)), sentence cohesion (S_F6(s)), dan numerical data (S_F7(s)), langkah berikutnya menurut Suanmali, Salim, dan Binwahlan (2011:15) adalah penghitungan total nilai kalimat dengan menggunakan bobot features dari training Genetic Algorithm untuk masingmasing kalimat melalui persamaan berikut: Score(S) adalah nilai kalimat S, W k adalah bobot rata-rata feature k yang dihasilkan dari training GA, dan S_Fk(S) adalah nilai feature k. Rasio ringkasan (dalam bentuk persentase) akan digunakan untuk menentukan jumlah kalimat yang akan dipilih untuk masuk ke dalam ringkasan, berdasarkan bobot total tertinggi dari seluruh kalimat yang ada pada dokumen. Sebagai contoh jika rasio ditetapkan sebesar 30% untuk dokumen yang terdiri dari 50 kalimat, maka akan dipilih 15 kalimat dengan bobot tertinggi. Kalimat yang terpilih akan diurutkan sesuai dengan letaknya di dokumen asli untuk membentuk ringkasan.

28 Genetic Algorithm Proses Genetic Algorithm hanya terjadi pada tahap training. Pembobotan features menggunakan metode milik Berker dan Gungor (2012: ) dalam Using Genetic Algorithms with Lexical Chain for Automatic Text Summarization. Untuk setiap artikel atau dokumen, dilakukan penghitungan nilai setiap feature kalimat (TF-ISF, sentence location, relative sentence length, title similarities, keyword similarities, sentence cohesion, dan numerical data). Nilai sentence features dari sistem akan menjadi input bagi GA. Ringkasan manual digunakan sebagai standar pengukuran kualitas ringkasan sistem Define Fitness Function and GA Parameters Jumlah generasi ditetapkan 100 generasi dengan populasi sebanyak 1000 individu/kromosom. Fitness function yang digunakan yaitu rata-rata presisi dari 100 dokumen training. Sistem elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi ke dalam populasi baru untuk generasi berikutnya. Crossover rate yang digunakan adalah 0,8 dan mutation rate sebesar 0, Generate Initial Population Populasi awal yang terdiri dari 1000 kromosom akan dibuat secara acak. Kromosom direpresentasikan dalam bentuk binary string. Masing-masing bobot feature direpresentasikan sebagai gen dari kromosom binary dengan panjang 4 bits. Karena terdapat tujuh bobot features yang hendak dicari nilainya, berarti satu kromosom terdiri dari 28 bits binary. Untuk setiap kromosom, bit bernilai 0 atau 1 sesuai dengan hasil pengacakan dan bit ini digabungkan sampai memenuhi panjang satu kromosom yaitu 28 bits. Seribu kromosom acak ini akan menjadi populasi pertama Decode Chromosome Kromosom harus diubah dulu nilainya agar bisa digunakan dalam kalkulasi fitness function. Setiap bobot feature terdiri dari 4 bits, berarti rentang nilai bobot feature yaitu dari 0 (binary 0000) sampai 15 (binary 1111).

29 S_F1 S_F2 S_F3 S_F4 S_F5 S_F6 S_F Gambar 3.7 Contoh Representasi Binary Kromosom Pada contoh di atas, nilai bobot feature S_F1 adalah 6; S_F2=15; S_F3=3; S_F4=10; S_F5=7; S_F6=6; dan S_F7= Find Fitness for Each Chromosome Fitness dari setiap kromosom dihitung dengan menggunakan nilai rata-rata presisi. Seperti dinyatakan oleh Steinberger dan Jezek (2009:1007), nilai presisi adalah jumlah kalimat yang muncul dalam sistem S dan ringkasan ideal T, dibagi dengan jumlah kalimat dalam ringkasan sistem S. Jumlah dari setiap bobot feature dikalikan dengan nilai feature per kalimat dalam sebuah dokumen akan diurutkan dan diambil sejumlah kalimat dengan nilai tertinggi sesuai dengan rasio ringkasan. Kalimat yang terpilih menjadi ringkasan sistem akan dibandingkan dengan referensi ringkasan manual untuk dihitung nilai presisinya. Kalkulasi ini dilakukan untuk 100 dokumen dan rata-rata presisi dihitung melalui pembagian total presisi seluruh dokumen dibagi jumlah dokumen yaitu 100. Avg.P adalah nilai rata-rata presisi sedangkan P i merupakan nilai presisi dokumen ke-i. Rata-rata presisi akan menjadi nilai fitness untuk suatu kromosom Select Chromosomes for Elitism Seribu kromosom dalam satu populasi akan diurutkan berdasarkan nilai fitness dari nilai tertinggi sampai terendah. Sistem elitist selection diberlakukan dengan meloloskan secara langsung 50 kromosom yang memiliki nilai fitness tertinggi ke dalam populasi baru untuk generasi berikutnya. Sisa 950 kromosom lagi akan dihasilkan melalui crossover/mating dan mutation.

30 Select Parents Pasangan parents akan dipilih dari populasi melalui roulette wheel weighting. Setiap kromosom dapat terpilih menjadi parent, tergantung pada tingkat probabilitas berdasarkan fitness. Dalam metode ini, kromosom dengan fitness lebih tinggi akan memiliki peluang lebih besar untuk terpilih menjadi parent. Nilai acak dari 0 sampai 1 akan digunakan untuk memilih kromosom pertama dari daftar populasi kromosom yang peluang kumulatifnya lebih besar dari nilai acak. Kromosom yang terpilih akan menjadi parent untuk crossover/mating Crossover/Mating Crossover antara kedua parents bergantung pada nilai acak. Jika nilai acak (antara 0 sampai 1) kurang dari crossover rate, maka crossover akan dilakukan. Jika nilai acak lebih besar sama dengan crossover rate maka crossover tidak terjadi dan akan dihasilkan dua offsprings (keturunan) yang sama persis dengan parents. Crossover dilakukan dengan menggabungkan n bits pertama dari satu parent dengan 28-n bits terakhir dari parent lainnya, dengan nilai n (antara 1 sampai 28) diacak untuk setiap reproduksi. Nilai acak titik crossover (n) = 10 Parent Parent Child Child Gambar 3.8 Contoh Crossover

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

Silvia Bina Nusantara University Pitri Rukmana Bina Nusantara University

Silvia Bina Nusantara University Pitri Rukmana Bina Nusantara University ALGORITMA AUTOMATIC TEXT SUMMARIZATION UNTUK SINGLE DOCUMENT BERBAHASA INDONESIA MENGGUNAKAN SENTENCE FEATURES DENGAN LATENT DIRICHLET ALLOCATION DAN GENETIC ALGORITHM Silvia Bina Nusantara University

Lebih terperinci

APLIKASI AUTOMATIC TEXT SUMMARIZER

APLIKASI AUTOMATIC TEXT SUMMARIZER APLIKASI AUTOMATIC TEXT SUMMARIZER Silvia, Pitri Rukmana, Vivi Regina Aprilia Computer Science Department, Bina Nusantara University email: silvia.phang1@gmail.com, pitrirukmana@gmail.com, vieviemoochill@yahoo.com

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB 4 HASIL DAN PEMBAHASAN

BAB 4 HASIL DAN PEMBAHASAN BAB 4 HASIL DAN PEMBAHASAN 4.1 Uji Algoritma Pengujian algoritma dilakukan untuk tahap training dan testing. Setiap dokumen dalam training dan testing melalui proses read text input, presummarization (split

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks

2 TINJAUAN PUSTAKA. 2.1 Peringkasan Teks 4 2 TINJAUAN PUSTAKA 2.1 Peringkasan Teks Peringkasan teks adalah proses pemampatan teks sumber ke dalam versi lebih pendek namun tetap mempertahankan informasi yang terkandung didalamnya (Barzilay & Elhadad

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI

PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI PERINGKASAN TEKS OTOMATIS DOKUMEN BAHASA INDONESIA DENGAN ALGORITMA GENETIKA LEMBAR JUDUL KOMPETENSI REKAYASA PERANGKAT LUNAK SKRIPSI LUH GEDE PUTRI SUARDANI NIM. 1208605018 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II BAB 2 TINJAUAN PUSTAKA 2.1. Related research Penelitian yang dilakukan oleh Abdel Fatah dan Fuji Ren membahas beberapa bentuk model pembobotan pada fitur teks pada peringkasan teks yaitu mathematical

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem

Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Otomatisasi Peringkasan Dokumen Sebagai Pendukung Sistem Manajemen Surat Ahmad Najibullah 1, Wang Mingyan 2 1,2 Fakultas Teknologi Informasi, Universitas Nanchang, Nanchang, Republik Rakyat Tiongkok E-mail:

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Lingkup Metode Optimasi

Lingkup Metode Optimasi Algoritma Genetika Lingkup Metode Optimasi Analitik Linier Non Linier Single Variabel Multi Variabel Dgn Kendala Tanpa Kendala Numerik Fibonacci Evolusi Complex Combinasi Intelijen/ Evolusi Fuzzy Logic

Lebih terperinci

Algoritma Evolusi Real-Coded GA (RCGA)

Algoritma Evolusi Real-Coded GA (RCGA) Algoritma Evolusi Real-Coded GA (RCGA) Imam Cholissodin imam.cholissodin@gmail.com Pokok Bahasan 1. Siklus RCGA 2. Alternatif Operator Reproduksi pada Pengkodean Real 3. Alternatif Operator Seleksi 4.

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Membaca adalah salah satu aktifitas yang dilakukan oleh seseorang untuk mendapatkan intisari dari sebuah teks, misalnya teks berita. Untuk mendapatkan intisari dari

Lebih terperinci

IV. RANCANG BANGUN SISTEM. Perangkat lunak bantu yang dibuat adalah perangkat lunak yang digunakan untuk

IV. RANCANG BANGUN SISTEM. Perangkat lunak bantu yang dibuat adalah perangkat lunak yang digunakan untuk IV. RANCANG BANGUN SISTEM 4.1 Analisis dan Spesifikasi Sistem Perangkat lunak bantu yang dibuat adalah perangkat lunak yang digunakan untuk menyisipkan label digital, mengekstraksi label digital, dan dapat

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

TF-IDF-ENHANCED GENETIC ALGORITHM UNTUK EXTRACTIVE AUTOMATIC TEXT SUMMARIZATION

TF-IDF-ENHANCED GENETIC ALGORITHM UNTUK EXTRACTIVE AUTOMATIC TEXT SUMMARIZATION Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 3, No. 3, September 2016, hlm. 208-215 TF-IDF-ENHANCED GENETIC ALGORITHM UNTUK EXTRACTIVE AUTOMATIC TEXT SUMMARIZATION Dhimas Anjar Prabowo 1,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG

MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG MENGUKUR KINERJA ALGORITMA GENETIK PADA PEMAMPATAN MATRIKS JARANG Nico Saputro dan Joice Aritonang Email : nico@home.unpar.ac.id, jo_aritonang@yahoo.com A matrix that has lots of zero elements is called

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan sebuah informasi berbanding lurus dengan tingginya laju teknologi pada saat ini, ketersediaan dan perkembangan dari informasi yang berbentuk text digital

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN APLIKASI

BAB 3 ANALISIS DAN PERANCANGAN APLIKASI 27 BAB 3 ANALISIS DAN PERANCANGAN APLIKASI 3.1 Analisis Pada subbab ini akan diuraikan tentang analisis kebutuhan untuk menyelesaikan masalah jalur terpendek yang dirancang dengan menggunakan algoritma

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto Wibowo 2, Gia Septiana 3 123 Fakultas Informatika, Universitas Telkom, Bandung,

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.0 29/08/2012 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram)

Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use Case Diagram) JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-71 Pembuatan Kakas Bantu untuk Mendeteksi Ketidaksesuaian Diagram Urutan (Sequence Diagram) dengan Diagram Kasus Penggunaan (Use

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB III METODE PENELITIAN. Penelitian dilakukan dilingkungan Jurusan Ilmu Komputer Fakultas Matematika

BAB III METODE PENELITIAN. Penelitian dilakukan dilingkungan Jurusan Ilmu Komputer Fakultas Matematika BAB III METODE PENELITIAN 3.1. Waktu dan Tempat Penelitian Penelitian dilakukan dilingkungan Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung. Waktu penelitian dilaksanakan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENERAPAN ALGORITMA GENETIKA PADA PERENCANAAN LINTASAN KENDARAAN Achmad Hidayatno Darjat Hendry H L T

PENERAPAN ALGORITMA GENETIKA PADA PERENCANAAN LINTASAN KENDARAAN Achmad Hidayatno Darjat Hendry H L T PENERAPAN ALGORITMA GENETIKA PADA PERENCANAAN LINTASAN KENDARAAN Achmad Hidayatno Darjat Hendry H L T Abstrak : Algoritma genetika adalah algoritma pencarian heuristik yang didasarkan atas mekanisme evolusi

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK

ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK ALTERNATIF MODEL PEMAMPATAN MATRIKS JARANG DENGAN MENGGUNAKAN ALGORITMA GENETIK Nico Saputro dan Ruth Beatrix Yordan Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Katolik

Lebih terperinci

Algoritma Evolusi Dasar-Dasar Algoritma Genetika

Algoritma Evolusi Dasar-Dasar Algoritma Genetika Algoritma Evolusi Dasar-Dasar Algoritma Genetika Imam Cholissodin imam.cholissodin@gmail.com Pokok Bahasan 1. Pengantar 2. Struktur Algoritma Genetika 3. Studi Kasus: Maksimasi Fungsi Sederhana 4. Studi

Lebih terperinci

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika

Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6481 1 Pembobotan Fitur Ekstraksi Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika Zulkifli 1, Agung Toto

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM Pengukuran Kemiripan Dokumen dengan Menggunakan Tools Gensim (Sekarwati dkk.) PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM Kemal Ade Sekarwati 1*, Lintang Yuniar Banowosari 2, I Made Wiryana

Lebih terperinci

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun Vol. 1, No. 2, Tahun 2012 15 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : http://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Aplikasi Pendeteksi Plagiat dengan

Lebih terperinci