Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

Ukuran: px
Mulai penontonan dengan halaman:

Download "Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik"

Transkripsi

1 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Vol. 1, No. 11, November 2017, hlm Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik Rachmad Indrianto 1, Mochammad Ali Fauzi 2, Lailil Muflikhah 3 Program Studi Teknik Informatika, 1 rachmadif13@gmail.com, 2 moch.ali.fauzi@ub.ac.id, 3 lailil@ub.ac.id Abstrak Pada masa kini informasi tentang kesehatan sudah banyak bertebaran dan sangat mudah didapatkan melalui website online. Namun dengan banyaknya informasi yang terkandung dalam teks artikel tersebut membuat pembaca kurang dapat memahami tentang isi dari bacaan tersebut, sehingga diperlukan sistem yang dapat meringkas suatu bacaan guna mempermudah pembaca dalam memahami isi suatu bacaan. Peringkasan teks otomatis menggunakan k-nearest neighbor berbasis fitur statistik dapat menjadi solusi dari permasalahan tersebut. Fitur-fitur statistik seperti posisi kalimat dalam paragraf, posisi keseluruhan kalimat, data numerik, tanda koma terbalik, panjang kalimat dan kata kunci memiliki peran yang penting untuk dijadikan parameter peringkasan. Dari pengujian fitur statistik yang telah dilakukan dengan memakai nilai k=3, metode ini menghasilkan nilai rata-rata precision, recall dan f measure terbaik pada set fitur 9 dengan nilai masing-masing sebesar 0.75, 0.71 dan Dari pengujian tersebut disimpulkan bahwa fitur yang memiliki pengaruh signifikan terhadap naik dan turunnya nilai precision dan recall adalah fitur posisi kalimat dalam paragraf dan fitur posisi keseluruhan Kemudian dari hasil pengujian variasi k pada set fitur terbaik, didapatkan nilai set fitur yang maksimal ketika k=1 dengan nilai rata-rata precision, recall dan f-measure sebesar 0.89, 0.74 dan Kata Kunci: text mining, peringkasan teks, K-Nearest Neighbor, fitur statistik Abstract Now days, information about healthy has been widely scattered and very easily obtained through the online website. But, within largest information that contain in the text of article make the reader can t understand about contents of the text. So, we need a system that can summarize a text to make easy the reader in understanding the contents of the text. Automatic text summary using k-nearest neighbor based on statistical features can be solution about the problem. Statistical features such as position of a sentence in a paragraph, overall sentence position, numerical data, inverted commas, the length of the sentence and keyword has important influence become parameter in summarization. From testing of statistical features that have been done by using k = 3, this method get result the best value of precision, recall and f -measure on feature set 9 with values 0.75, 0.71 and From the test can concluded that the features that have a significant influence on the rise and fall of precision and recall values are position of a sentence in paragraph and sentence overall position. And then, from the test of k variation on the best feature set, we get maximum feature set value when k = 1 with the average value of precision, recall and f-measure of 0.89, 0.74 and Keywords: text mining, text summarization, K-Nearest Neighbor, statistical feature 1. PENDAHULUAN Berkembangnya internet dengan pesat berdampak terhadap bertambahnya jumlah informasi yang mengakibatkan sangat sulit untuk mendapatkan informasi secara efisien (Desai & Shah, 2016). Berita merupakan sebuah informasi yang berguna untuk menyampaikan fakta kepada seluruh orang. Dengan berkembangnya teknologi, kini semakin mudah untuk mendapatkan berita terupdate. Banyak situs yang menyediakan informasi berita yang terpercaya dan beragam topik, seperti kompas.com, detik.com, detikhealth.com dan masih banyak lagi situs lainnya. Masing-masing situs tersebut memiliki beraneka ragam topik berita antara lain olahraga, politik, kesehatan, Fakultas Ilmu Komputer Universitas Brawijaya 1198

2 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1199 dan lain sebagainya. Namun dalam penelitian ini topik yang digunakan adalah kesehatan. Alasan memilih topik kesehatan dikarenakan jumlah perbandingan orang Indonesia yang sakit lebih banyak dibandingkan dengan yang sehat, hal tersebut disampaikan oleh menteri kesehatan Nila juwita Moelek dalam Seminar Kupas Tuntas Dua Tahun Pelaksanaan JKN di Jakarta. Hal ini dibuktikan berdasarkan data BPJS Kesehatan, misalnya pada tahun 2014, terdapat 4,8 juta kasus penyakit jantung yang memakan dana Rp 8,189 triliun. Kemudian di tahun 2015 hingga triwulan III ada 3,9 juta kasus hingga memakan dana Rp5,462 triliun. Kemudian untuk gagal ginjal sebanyak 1,4 juta menyerap dana sebesar Rp2,2 triliun selama tahun 2014 (Pujiono, 2015). Sehingga dengan memberikan wawasan seputar kesehatan kepada pembaca, harapannya agar pembaca dapat memperoleh beragam informasi tentang kesehatan yang berguna untuk dirinya dan kemudian dapat disampaikan kepada sekitarnya, sehingga dapat mengurangi resiko terkena berbagai penyakit. Dengan memanfaatkan internet, untuk pencarian informasi seputar kesehatan tersebut bisa didapatkan dengan mudah. Meskipun demikian, untuk mendapatkan informasi berita online sangatlah mudah, pembaca hanya perlu mengakses berita tersebut dalam sebuah situs, sehingga pembaca tidak akan pernah ketinggalan informasi seputar kesehatan. Meskipun akses informasi sudah sangat mudah, untuk mendapatkan informasi yang diinginkan dengan waktu yang pendek menjadi masalah yang serius di era informasi sekarang ini (Bhole & Agrawal, 2014). Oleh karena itu diperlukan sebuah sistem yang dapat menyajikan informasi secara singkat namun mengandung informasi yang penting dari teks aslinya, hal itu disebut sebagai ringkasan (babar & patil, 2014). Dengan penyajian informasi berupa inti dokumen secara singkat tetapi mencakup semua informasi dokumen dapat mempermudah pembaca tanpa membaca dokumen secara keseluruhan (Ridok, 2014). Beberapa metode yang dapat digunakan untuk melakukan peringkasan teks secara umum terbagi menjadi dua, yaitu supervised dan unsupervised (Mani dalam Ridok, 2014). Metode supervised hasilnya berupa model peringkasan yang berasal dari data latih dari ringkasan buatan manusia, sehingga ringkasan sistem akan bergantung pada data latih (Ridok, 2014). Sedangkan, metode unsupervised tidak membutuhkan data latih ringkasan dari manusia untuk menghasilkan ringkasan sistem (Ridok, 2014). Berdasarkan penelitian-penelitian terdahulu, antara lain penelitian yang dilakukan oleh Ridok (2014) tentang peringkasan dokumen Bahasa Indonesia berbasis non-negative matrix factorization (NMF) yang memanfaatkan matrix fitur semantic non-negatif(w) dan matrik variabel semantik non-negative(h) menghasilkan rata-rata precision dan recall masing-masing dan Kemudian penelitian yang dilakukan oleh Foong (2014) dengan judul peringkasan teks dengan Latent Semantic Analisis pada platform android berbasis sentence selection menggunakan Singular Value Decomposition (SVD) menghasilkan rata-rata f-score 0,386. Dan Penelitian yang dilakukan oleh Luthfiarta dkk. (2014) dengan judul Integrasi peringkas dokumen teks otomatis dengan algoritma Latent Semantic Analysis pada dokumen peringkas teks otomatis untuk clustering dokumen, menggunakan fitur judul, panjang kalimat, bobot kata, posisi kalimat, kesamaan antar kata, kata tematik dan data numerik menghasilkan tingkat akurasi mencapai 71,04 %. Oleh karena itu, berdasarkan penelitianpenelitian sebelumnya, penulis mengajukan penelitian dengan judul Peringkasan Teks Otomatis pada Artikel Berita Kesehatan Menggunakan k-nearest Neighbor Berbasis Fitur Statistik. Penelitian ini diajukan dengan menambahkan beberapa fitur-fitur statistik yang lain sebab fitur-fitur lain seperti posisi kalimat dalam paragraf, posisi keseluruhan kalimat dalam dokumen, data numerik, tanda koma terbalik, panjang kalimat, dan kata kunci termasuk penting (Desai & Shah, 2016). Kemudian untuk melakukan perankingan bobot setiap fitur tersebut digunakan K-NN, dikarenakan K-NN berbasis teknik pembelajaran lebih cocok daripada naïve bayes dan termgraph untuk kasus teks mining atau dokumen, karena K-NN memiliki akurasi yang lebih tinggi dibanding naïve bayes dan term-graph (Bijalwan, 2014). Sehingga harapannya dengan adanya penambahan fitur-fitur statistik tersebut beserta perangkingan dengan K-NN dapat meningkatkan akurasi pada sistem peringkas teks. 2. DASAR TEORI 2.1 Data yang digunakan Pada penelitian ini, data yang digunakan

3 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1200 diambil dari website dengan kategori kesehatan, dataset berjumlah 40 artikel, 30 dijadikan sebagai data latih dan 10 dijadikan sebagai data uji. 2.2 Preprocessing Preprocessing merupakan langkah awal dilakukan pemrosesan teks guna membuat teks menjadi lebih terstruktur. Preprocessing dilakukan dengan beberapa tahap, yaitu segmentasi, case folding, tokenisasi, stopword removal dan stemming Segmentasi Pada proses segmentasi, dokumen dipecah berdasarkan tanda pemisah Setiap dokumen yang telah dipecah akan dimasukkan kedalam list Keluaran dari hasil segmentasi berupa kumpulan kalimat yang akan digunakan pada proses berikutnya (Desai & shah, 2016) Case folding Pada proses case folding dilakukan pengubahan semua kata kedalam huruf kecil dan penghapusan tanda baca selain a-z, angka, dan tanda baca yang dianggap tidak perlu Tokenisasi Pada bagian tokenisasi, kalimat hasil case folding di pecah kedalam kata. Pemecahan kalimat kedalam kata berdasarkan tanda spasi antar kalimat, sehingga dibuatlah list yang terdiri dari kumpulan kata yang disebut token (Desai & Shah, 2016) Stopword removal Stopword removal merupakan penghilangan kata yang tidak relevan dalam penentuan topik dalam sebuah dokumen, seperti kata dari, adalah, atau, sebuah, dan lain-lain dalam dokumen bahasa Indonesia.(Luthfiarta et al, 2014) Stemming Stemming merupakan suatu langkah yang dilakukan dengan tujuan mendapatkan kata dasar dengan cara menghapus imbuhan (Novitasari, 2016). 2.3 Ekstraksi fitur Ekstraksi fitur merupakan tahap processing. Processing adalah jantung dari peringkasan teks yang mana dilakukan analisis lebih dalam pada dokumen (Desai & Shah, 2016). Berikut ini merupakan fitur-fitur yang digunakan pada penelitian Posisi kalimat dalam paragraf Posisi kalimat merupakan bagian penting dalam dokumen. Kalimat awal dalam paragraf merupakan bagian penting hampir dalam semua kasus karena menyampaikan topik dokumen dan memiliki kemungkinan besar untuk diekstrak menjadi ringkasan (Desai & Shah, 2016). Berikut merupakan rumus perhitungan posisi kalimat dalam paragraf yang ditunjukkan pada persamaan 1. posisi_kalimat = n i n - n = total kalimat dalam paragraf - i = posisi kalimat ke i Posisi keseluruhan kalimat (1) Nilai dari posisi keseluruhan kalimat dihitung dalam konteks keseluruhan dokumen. Perhitungan posisi keseluruhan kalimat akan diberikan nilai terbesar pada awal kalimat, sedangkan nilai terkecil diberikan pada akhir kalimat dalam sebuah dokumen. Berikut merupakan rumus perhitungan posisi keseluruhan kalimat ditunjukkan pada persamaan 2. pos_keseluruhan = n i n - n = total kalimat dalam dokumen - i = posisi kalimat ke i Data numerik (2) Data numerik merepresentasikan beberapa informasi penting seperti tanggal, umur, rupiah, alamat, dan lain sebagainya (Desai & Shah, 2016). Data numerik dihitung menggunakan persamaan 3. data_numerik = total data panjang kalimat (3) - Total data = total data numerik dalam - Panjang kalimat = total kata dalam Tanda Koma terbalik Pada tanda koma terbalik biasanya mengindikasikan percakapan langsung, judul atau nama, dan juga terkandung informasi yang

4 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1201 penting (Desai & Shah, 2016). Tanda koma terbalik dihitung menggunakan persamaan 4. koma_terbalik = total kata panjang kalimat (4) - Total kata = total banyaknya kata dalam tanda koma terbalik. - Panjang kalimat = total kata dalam Panjang kalimat Kalimat yang pendek mungkin tidak merepresentasikan topik dokumen karena kata yang terkandung didalamnya sedikit, meskipun demikian, memilih kalimat yang panjang juga tidak baik untuk peringkasan (Desai & Shah, 2016). Sehingga, kalimat yang panjang dan pendek diberikan nilai yang rendah. Nilai panjang kalimat dihitung berdasarkan persamaan 5. panjang kalimat = total kata kalimat terpanjang (5) - Total kata = total kata dalam - kalimat terpanjang = total kata dalam kalimat terpanjang pada sebuah paragraf Kata kunci Kata kunci merupakan kata yang muncul dengan frekuensi tinggi dalam sebuah dokumen (Desai & Shah, 2016). Mengidentifikasi dan melakukan komputasi pada kata kunci berguna untuk menentukan kalimat yang penting. Kata kunci dalam kalimat dihitung berdasarkan persamaan 6. kata_kunci = total data panjang kalimat (6) - Total data = total banyaknya kata kunci dalam - Panjang kalimat = total kata dalam 2.4 K-Nearest Neighbor Ide dasar KNN adalah mengelompokkan kategori pada query yang diberikan bukan hanya berdasar kedekatan dokumen terdekat dalam ruang dokumen, namun pada kategori dari k dokumen yang terdekat (Bijalwan dkk., 2014). Berikut merupakan langkah-langkah algoritma k-nearest Neighbor antara lain: 1. Masukkan data latih dan data uji 2. Tentukan julah nilai k tetangga terdekat 3. Hitung jarak antara data uji dengan data latih menggunakan Euclidian distance 4. Urutkan hasil jarak berdasarkan nilai terkecil 5. Mengambil data latih sejumlah k tetangga terdekat 6. Menentukan kelas data baru berdasarkan mayoritas k tetangga terdekat. Pada tahap ini, kalimat akan dipilih menjadi suatu ringkasan berdasarkan kedekatan jarak antara data uji ke data latih dengan mengacu pada nilai hasil ekstraksi fitur. Posisi kalimat hasil ringkasan akan sama urutannya dengan kalimat asli dari dokumen (Desai & Shah, 2016) 3. IMPLEMENTASI Tahap-tahap yang dilakukan dalam implementasi sistem ditunjukkan pada Gambar 1 berikut. Gambar 1. Implementasi Sistem Berdasarkan alur fowchart tersebut, hal pertama yang dilakukan dalam penelitian yaitu menginputkan data uji dan data latiih, kemudian dilakukan preprocessing meliputi segmentasi, case folding, tokenisasi, stopword removal dan stemming, selanjutnya dilakukan ekstraksi fitur mulai dari fitur 1 sampai dengan fitur 6, dan langkah terakhir menghitung kedekatan antara

5 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1202 data uji dan data latih menggunakan k NN untuk klasifikasi kalimat ringkasan atau bukan. 4. PENGUJIAN DAN ANALISIS Dalam pengujian ini dibagi menjadi dua yaitu pengujian fitur statistik dan pengujian nilai k. Output dari hasil pengujian yaitu nilai ratarata precision, recall dan f-measure yang dapat dihitung dengan persamaan 7, 8 dan 9 sebagai berikut. precision = recall = correct correct+wrong correct correct+missed f-measure = 2 precision recall precision+recall (7) (8) (9) Pengertian correct merupakan jumlah kalimat yang tepat diekstrak sistem dengan kalimat hasil seorang pakar. Wrong merupakan jumlah kalimat yang diekstrak sistem namun tidak terdapat pada hasil seorang pakar dan missed merupakan jumlah kalimat yang diekstrak pakar tetapi sistem tidak mengekstraknya (Pal et al, 2013). 4.1 Pengujian Fitur Statistik Pengujian ini mengacu pada penelitian sebelumnya yang dilakukan oleh Desai & shah (2016) yang menggunakan variasi set fitur, dan dalam pengujian ini nilai k dibuat k=3. Berikut Merupakan hasil pengujian fitur statistik yang ditunjukkan pada Tabel 1. Set fitur Tabel 1. Hasil pengujian set fitur Fitur Yang diuji Rata- Rata preci sion Rata- Rata recall Ratarata f- meas ure Set 1 f Set 2 f1, f Set 3 f1, f2, f Set 4 f1, f2, f3, f Set 5 f1, f5, f Set 6 f3, f4, f5, f Set 7 Set 8 Set 9 Set 10 f2, f3, f4, f5, f6 f1, f3, f4, f5, f6 f1, f2, f3, f4, f5 f1, f2, f3, f4, f5, f Berdasarkan hasil pengujian diatas, set 1 yang hanya menggunakan fitur posisi kalimat dalam paragraf(f1), mendapatkan nilai precision, recall dan f-measure yang rendah, yaitu 0.51, 0.60 dan Kemudian pada set 2 ditambah menggunakan fitur posisi keseluruhan kalimat(f2), hasilnya meningkatkan precision, recall dan f-measure masing-masing sebesar 0.65, 0.64 dan Kemudian pada set 3, 4 dan 5 dengan penambahan fitur 3, fitur 4, fitur 5 dan fitur 6 hasilnya tidak meningkat signifikan. Dan dari set 6, 7, 8, 9 dan 10 dapat disimpulkan bahwa fitur yang memiliki dampak paling besar terhadap naik dan turunnya nilai precision dan recall merupakan fitur 1, fitur 2. Fitur 1 yaitu posisi kalimat dalam paragraf memiliki pengaruh besar terhadap naiknya recall namun membuat turun nilai precision, hal ini dikarenakan dengan penambahan fitur 1, kalimat ringkasan yang diambil semakin banyak sehingga membuat rendah nilai precisionnya. Kemudian fitur 2 yaitu posisi keseluruhan kalimat, memiliki pengaruh terhadap naiknya nilai precision namun menurunkan nilai recall, hal ini dikarenakan dengan penambahan fitur 2 kalimat ringkasan yang diambil semakin sedikit, sehingga precisionnya semakin tinggi. 4.2 Pengujian Nilai k Pengujian terhadap nilai k pada fitur set terbaik dilakukan dengan nilai yang bervariasi yaitu k=1, k=3, k=5 dan k=7, gunanya yaitu untuk mengetahui pengaruh nilai k terhadap precision, recall dan f-measure terhadap fitur set yang terbaik. Berikut merupakan hasil pengujian nilai k yang ditunjukkan pada Gambar 2. 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Hasil pengujian nilai k k = 1 k = 3 k = 5 k = 7 precision recall f-measure Gambar 2. Hasil pengujian nilai k Berdasarkan hasil pengujian tersebut dapat

6 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1203 dilihat bahwa ketika k bernilai 1, nilai precision, recall dan f-measure yang dihasilkan sangat tinggi. Kemudian ketika k bernilai 3, nilai precision, recall dan f-measure menurun, hal itu juga terjadi pada k ketika bernilai 5 dan k bernilai 7. Sehingga dapat dilihat bahwa semakin besar nilai k yang diujikan pada set fitur terbaik (set 9), maka nilai precision, recall dan f- measure rata-rata semakin menurun. Hal ini dikarenakan ketika nilai k semakin besar menyebabkan semakin banyak kelas yang tidak relevan masuk kedalam ringkasan sehingga menyebabkan nilai dari precision, recall dan f- measure pun menjadi turun. 5. KESIMPULAN Berdasarkan hasil pengujian dan analisis dari Peringkasan teks otomatis pada artikel berita kesehatan menggunakan k-nearest neighbor berbasis fitur statistik dapat disimpulkan bahwa Algoritma k-nearest neighbor dapat diterapkan dalam peringkasan teks otomatis pada artikel berita kesehatan dengan melakukan preprocessing, ekstraksi fitur dan menghitung jarak Euclid untuk kelas terdekat. Nilai rata-rata precision, recall dan f- measure terbaik didapatkan pada fitur set 9 dengan nilai masing-masing sebesar 0.75, 0.71 dan Kemudian, Semakin besar nilai k maka nilai precision, recall dan f-measure semakin menurun dikarenakan semakin banyak kelas yang tidak relevan masuk kedalam kelas ringkasan. Berdasarkan penelitian yang telah dilakukan, beberapa saran yang dapat diberikan yaitu, dalam proses pemecahan dokumen kedalam paragraf masih dilakukan pemberian tanda *# dengan manual, sehingga dimungkinakan untuk penelitian selanjutnya dapat ditambahkan proses pemecahan paragraf secara langsung, baik berupa deteksi adanya karakter \n dan lainnya sehingga dokumen dapat langsung dipecah. Kemudian dalam pemecahan kalimat sebaiknya diperhatikan delimiternya dikarenakan ada beberapa kalimat yang ambigu jika dipecah seperti gelar dan alamat. Clustering Approach Implementing for News Article. International Journal of Engineering Trends and Technology (IJETT). Volume 15, no.7, pp Bijalwan, V., Kumar, V., Kumari, P., & Pascual, J., KNN based Machine Learning Aproach for Text and Document Mining. International Journal of Database Theory and Application. Volume 7, no.1,pp Desai, N., & Shah, P., Automatic Text Summarization Using Supervised Machine Learning Technique for Hindi Langauge. International Journal of Research in Engineering and Technology. Volume 5, pp Luthfiarta, A., Zeniarja, J., Salam, A., Integrasi peringkas dokumen otomatis dengan algoritma latent semantic analysis (LSA) pada peringkas dokumen otomatis untuk proses clustering dokumen. Vol. 13, No. 1, pp Novitasari, D., Perbandingan Algoritma Stemming Porter dengan Arifin Setiono untuk Menentukan Tingkat Ketepatan. Jurnal String Vol.1,No.2. Pal, A. R., Maiti, P. K., & Saha, D., An approach to automatic text summarization using simplified lesk algorithm and wordnet. International Journal of Control Theory and Computer Modeling. Vol.3, No.4, pp Pujiono J, Orang Indonesia lebih banyak yang sakit daripada yang sehat.[online] Tersedia di: ang-indonesialebih-banyak-yang-sakitdaripada-yang-sehat [Diakses 30 Maret 2017] Ridok, A., Peringkasan Dokumen Bahasa Indonesia Berbasis Non-Negative Matrix Factorization (NMF). Jurnal Teknologi Informasi dan Ilmu Komputer. Vol. 1, No. 1, hlm DAFTAR PUSTAKA Babar, S. A., & Patil, P. D., Improving Performance of Text Summarization. Procedia Computer Science. pp Bhole, P., & Agrawal, A. J., Single Document Text Summarization Using

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU 111402008 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Informasi telah menjadi kebutuhan utama dalam kehidupan manusia. Informasi bisa dikatakan sebagai pengetahuan yang didapatkan dari pembelajaran, pengalaman, atau instruksi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang BAB 1 PENDAHULUAN 1.1. Latar belakang Dengan berkembangnya teknologi dewasa ini, segala sesuatu harus dilakukan secara cepat, begitu juga dengan pembaca yang ingin secara cepat mengetahui keseluruhan infomasi

Lebih terperinci

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan BAB I PENDAHULUAN 1.1 Latar Belakang Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan sebuah sistem penilaian atau evaluasi. Penilaian adalah suatu proses untuk mengambil keputusan dengan

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 306-312 http://j-ptiik.ub.ac.id Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Techno.COM, Vol. 13, No. 1, Februari 2014: 61-68 INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN Ardytha

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy). BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Membaca merupakan bagian kebutuhan manusia, baik membaca buku, surat kabar, dan majalah. Dengan kebutuhan tersebut melalui perkembangan teknologi informasi diantaranya

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini sudah banyak sistem klasifikasi yang diciptakan dalam rangka membantu pengguna dalam melakukan pengklasifikasian dokumen, baik dokumen yang berbentuk

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi informasi yang semakin berkembang dari masa ke masa telah membuktikan akan kebutuhan manusia pada informasi itu sendiri. Berbagai situs, portal berita, website,

Lebih terperinci

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) DAN K-MEAN CLUSTERING TUGAS AKHIR Diajukan Sebagai Salah

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

SISTEM PENILAIAN OTOMATIS JAWABAN ESAI PADA ELEARNING BELAJARDISINI.COM

SISTEM PENILAIAN OTOMATIS JAWABAN ESAI PADA ELEARNING BELAJARDISINI.COM Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) p-issn: 2355-7699 Vol. 3, No. 4, Desember 2016, hlm. 248-252 e-issn: 2528-6579 SISTEM PENILAIAN OTOMATIS JAWABAN ESAI PADA ELEARNING BELAJARDISINI.COM

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Weblog, atau yang sering disebut sebagai Blog, merupakan bagian tak terpisahkan dalam perkembangan dunia teknologi informasi berbasis Web. Berbagai jenis informasi

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA Fernando Winata 1, Ednawati Rainarli 2 1,2 Teknik Informatika, Teknik dan Ilmu Komputer, Universitas

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun

Lebih terperinci

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

Apa itu is K-Nearest Neighbor (KNN) Algorithm? K-Nearest Neighbor Pendahuluan K-Nearest Neighbour atau KNN adalah salah dari algoritma instance based learning atau case-based reasoning. Definisi case based reasoning: KNN digunakan dalam banyak aplikasi

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN Dokumen Penyimpanan yang Terorganisasi Database Mahasiswa Database Buku ID Nama Buku Pengarang 001 Information Retrieval Ricardo baeza

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL

APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL APLIKASI SEGMENTASI TEKS DALAM BAHASA MANDARIN DENGAN METODE RULE-BASED DAN STATISTICAL Rudy Adipranata 1), Meliana Ongkowinoto 2), Rolly Intan 3) Jurusan Teknik Informatika, Fakultas Teknologi Industri,

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance Santun Irawan 1, Hermawan 2 1,2 STMIK GI MDP 1,2 Magister Teknik Informatika Universitas

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs

Lebih terperinci