BAB 2 LANDASAN TEORI

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 LANDASAN TEORI"

Transkripsi

1 7 BAB 2 LANDASAN TEORI 2.1. Ekstraksi Kata Kunci Dalam bahasa Inggris, kata kunci sering disebut kedalam 2 istilah yaitu keyphrase dan keyword. Istilah keyphrase dan keyword mengandung satu pengertian sebagai sebuah kata kunci yang penting dalam menjelaskan dan memberi gambaran terhadap isi suatu dokumen. Keyphrase merujuk kepada kata kunci yang terdiri dari gabungan kata/multiword (contoh: Demam Berdarah, Bahasa Isyarat, Kotak Hitam Pesawat, dll), sedangkan untuk istilah keyword sering ditujukan untuk kata kunci yang terdiri dari satu kata saja (Contoh: Bahasa, Demam, Kotak, dll) (Siddiqi,et al. 2015). Ekstraksi kata kunci penting dilakukan terutama dalam pengolahan aplikasi text mining. Beberapa aplikasi text mining yang menerapkan tahapan ekstraksi kata kunci yaitu aplikasi peringkasan teks otomatis, pengelompokkan dokumen, clustering, dan lain sebagainya. Terdapat 2 pendekatan dalam ekstraksi kata kunci yang umum digunakan dalam pemodelan algoritma ekstraksi kata kunci yaitu unsupervised dan supervised. Perbedaan umum dari pendekatan supervised dan unsupervised adalah dari ada atau tidaknya data latihnya. Pendekatan unsupervised tidak membutuhkan data latih sedangkan pada pendekatan supervised untuk mendapatkan kata kuncinya dibutuhkan pemrosesan data latih. Berikut beberapa pendekatan yang biasa digunakan untuk pemrosesan ekstraksi kata kunci dalam pengolahan aplikasi text mining berdasarkan beberapa penelitian sebelumnya : a. Pendekatan Unsupervised Pendekatan unsupervised terbagi kedalam 4 kategori yaitu perankingan berbasis graf (graph-based ranking), topic-based, simultaneous learning, dan language modeling (Hasan, et al.2014). Beberapa metode yang termasuk dalam pendekatan unsupervised seperti TextRank, RAKE, ExpandRank dan lain sebagainya.

2 8 b. Pendekatan Supervised Beberapa metode yang menggunakan pemodelan algoritma berdasarkan pendekatan supervised ini seperti metode KEA(Keyprhase Extraction Algorithm), KEA++, N-Gram, CRF(Conditional Random Field), dan lain sebagainya. Pendekatan ini berfokuskan pada 2 hal yaitu perumusan tugas(task reformulation) dan pendesainan fitur (Hasan, et al.2014). c. Pendekatan pembelajaran mesin (machine learning) Pendekatan ini menggunakan konsep pembelajaran seperti metode Supervised (Siddiqi & Sharan, 2015). Beberapa metode yang termasuk kedalam bagian pendekatan ini seperti metode support vector machine(svm), Naive Bayes, linear logistic regression (LLR), dan lain sebagainya. d. Pendekatan Statistikal Pendekatan statistik didasarkan pada linguistic corpus dan fitur statistikal yang berasal dari korpus (Siddiqi & Sharan 2015). Salah satu metode yang termasuk kedalam pendekatan ini yaitu TF-IDF Part-Of-Speech Tagging Part-of-speech (POS) tagging merupakan salah satu tahapan awal pemrosesan pada aplikasi text mining. POS tagging digunakan untuk melabeli kata yang ada pada suatu kalimat dengan kelas katanya masing-masing. Label-label kata tersebut seperti kata benda (noun), kata kerja(verb), kata keterangan(adverb), kata sifat(adjective) dan lain sebagainya. POS tagging biasa digunakan untuk pemfilteran kata pada tahapan preprocessing dari text mining. Seperti pada tahapan ekstraksi kata kunci, POS tagging dapat digunakan untuk mengambil kata yang hanya merupakan kata benda atau hanya merupakan kata sifat ataupun mengambil dan memfilter semua jenis kata untuk perhitungan kata sebagai kata kunci begitupun fungsinya pada aplikasi text mining lainnya. Terdapat beberapa pendekatan pada POS tagging seperti pendekatan berbasis aturan (rule based), probabilistik, dan pendekatan transformasional (Wicaksono & Purwarianti 2010). Pada bahasa Indonesia ada beberapa kelas kata yang dapat digunakan seperti pada Tabel 2.1.

3 9 Tabel 2.1. Label Kata untuk Bahasa Indonesia (Wicaksono & Purwarianti 2010) No. POS POS Name Example 1 OP Open Parenthesis ({[ 2 CP Close Parenthesis )}] 3 GM Slash / 4 ; Semicolon ; 5 : Colon : 6 Quotation 7. Sentence Terminator.!? 8, Comma, 9 - Dash Ellipsis JJ Adjective Bagus, Baik, Pintar 12 RB Adverb Nanti, Sementara 13 NN Common Noun Buku, Komputer 14 NNP Proper Noun Indonesia, Medan 15 NNG Genitive Noun Mobilnya 16 VBI Intransitive Verb Pergi, Belajar 17 VBT Transitive Verb Meminum, Membuka 18 IN Preposition Di, Ke, Dari 19 MD Modal Bisa, Akan 20 CC Coor-Conjunction Dan, Atau, Tetapi 21 SC Subor-Conjuction Jika, Ketika 22 DT Determiner Para, Ini, Itu 23 UH Interjection Wah, Aduh, Oi 24 CDO Ordinal Numerals Pertama, Kedua 25 CDC Collective Numerals Bertiga, Berdua 26 CDP Primary Numerals Satu, Dua 27 CDI Irregular Numerals Beberapa 28 PRP Personal Pronouns Saya, Kamu, Engkau 29 WP WH-Pronouns Apa, Siapa 30 PRN Number Pronouns Kedua-duanya 31 PRL Locative Pronouns Sini, Situ, Sana 32 NEG Negation Bukan, Tidak 33 SYM 34 RP Particles Pun, Kah 35 FW Foreign Words Word, Book

4 Multiword Expression Multiword expression (MWEs) adalah gabungan kata yang antar kata penyusunnya saling terhubung dan membentuk susunan kata yang baru. Sebagai contoh gabungan beberapa kata seperti : Kecerdasan Buatan, Raja Hutan, Rumah Sakit, Kotak Hitam, Demam Berdarah, dan lain sebagainya. Konsep multiword expression untuk bahasa Inggris dan bahasa Indonesia tidaklah jauh berbeda. Menurut Sag et al.(2002) makna semantik dari Multiword tidak dapat berasal dari gabungan makna semantik kata-kata penyusunnya. Untuk melakukan proses ekstraksi Multiword expression (MWEs) ada beberapa teknik yang dapat diklasifikasikan kedalam 4 tipe (S.Agrawal, et al.2014) yaitu: Metode Statistikal (Cruys & Moiron, 2007) Metode Symbolic, semantic or linguistic (Vitar & Fiser, 2008) Metode Hybrid (Duan, et al ; Boulaknadel, et al. 2008) Metode Word alignment ( Moiron & Tiedemann, 2006). Untuk ekstraksi multiword expression (MWEs) pada dokumen berbahasa Indonesia dapat digunakan suatu aturan metode multiword expression candidate dimana metode ini memanfaatkan pemfilteran stopword dan tanda baca (Gunawan,et al. 2016) yang pada penelitian ini penulis gunakan untuk mendapatkan kandidat kata kunci multiword yang selanjutnya akan diolah dengan algoritma textrank. Tahapan utama metode ini yaitu setiap kata yang telah ditokenisasi selanjutnya dideteksi dan difilter kata mana saja yang merupakan stopword ataupun tanda baca. Kata-kata yang merupakan stopword atau tanda baca akan dihapus ataupun bisa juga diganti dengan tanda baca tertentu seperti tanda baca titik (.). Kata-kata yang didahului tanda baca ataupun stopword tersebut kemudian akan digabungkan menjadi satu kata baru sesuai dengan persamaan 2.1 berikut (Gunawan, et al. 2016): MWE Candidates = w1w2 w2w3 w3w4... w n w (n+1) (2.1) Alur kerja selengkapnya dari aturan ekstraksi multiword expression candidate ini dapat dilihat pada Gambar 2.1.

5 11 Gambar 2.1. Flowchart Metode Multiword Expression Candidates (Gunawan, et al. 2016) 2.4. Algoritma TextRank TextRank merupakan metode yang termasuk kedalam pendekatan unsupervised dan menggunakan pemodelan berbasis graf. Metode ini dikembangkan berdasarkan dari metode PageRank (Brin & Page,1998 ; Mihalcea & Tarau,2004). Dasar dari model berbasis perankingan graf yang diajukan oleh Mihalcea & Tarau(2004) ini yaitu dengan mengimplementasikan tahapan voting pada setiap kata(vertex) dalam graf. Suatu vertex akan dianggap penting jika vertex tersebut di vote lebih banyak dibandingkan dengan vertex lainnya. Nilai skor pada tiap vertex didalam graf ditentukan dari Persamaan 2.2 (Brin and Page,1994 ; Mihalcea, et al.2004) berikut : S(Vi) = (1 - d) + d S(Vj) (2.2) dimana nilai S(Vi) sebagai nilai score vertex Vi, dengan nilai d sebagai damping factor yang biasanya di set dengan nilai Menurut Mihalcea,et al.(2004) Persamaan 2.2 diatas dapat juga diterapkan untuk melakukan perankingan pada graf yang berbobot dengan menggunakan nilai bobot edge antar vertexnya sehingga dibuatlah perumusan baru seperti pada Persamaan 2.3 (Mihalcea, et al.2004).

6 12 WS(Vi) = (1 - d) + d WS(Vj) (2.3) dimana dalam rumus diatas terdapat w ji yaitu sebagai bobot edge dari vertex V j yang berelasi dengan vertex V i. w ji juga disebut sebagai bobot frekuensi kemunculan vertex V j dan V i yang saling co-occurrence di dalam ukuran window dengan maksimum L- kata. TextRank menggunakan hubungan kemunculan bersama satu kata dengan kata yang lainnya (co-occurrence relation) dalam window maksimum L kata tersebut dimana ukuran L bisa di set antara 2 10 kata. Pada metode textrank ini kandidat kata kunci didapat dengan filter kata menggunakan part-of-speech tagging. Setiap kata yang akan dijadikan vertex dalam graf akan difilter berdasarkan filter kelas katanya seperti kata benda, gabungan kata benda dan kata kerja, atau filter semua jenis kata. Dari hasil penelitian sebelumnya hasil terbaik didapatkan dari filter kata berupa kata benda dan kata sifat saja. Untuk metode TextRank oleh Mihalcea & Tarau (2004) ini frase atau kandidat kata kunci berbentuk multiword di proses pada tahapan post-processing untuk menghindari besarnya hubungan relasi didalam graf. Berdasarkan hal itu Li & Wang (2014) menyebutkan bahwasanya cara ini tidak bisa menjamin semua kata kunci yang dihasilkan merupakan kata-kata yang sudah benar dalam satuan leksikal bahasanya dan tidak semua kata-kata yang ada didalam kombinasi kata kunci bisa didapat dari k- ranking teratas. Untuk itu Li & Wang (2004) lalu menjalankan algoritma textrank didalam konsep jaringan frase(phrase network) yaitu dengan meranking langsung kandidat kata kunci berbentuk frase ataupun multiword. Biasanya vertex dalam graph pada algoritma textrank sebelumnya hanya berupa satu kata saja, tetapi dengan jaringan frase ini maka akan diperluas hubungan co-occurrence kata menjadi berupa kata dan frase. Kandidat kata kunci atau vertex yang digunakan pada penelitian tersebut didapat dengan memanfaatkan metode Document Frequency Accessor Variety (DF-AV) dikarenakan pada bahasa Cina pemfilteran menggunakan POStagging tidak menunjukkan hasil yang cukup baik. Umumnya algoritma perankingan berbasis graf memiliki beberapa tahapan (Mihalcea & Tarau, 2004) seperti berikut:

7 13 Identifikasi satuan unit teks yang akan digunakan dan tambahkan setiap katanya sebagai vertex dalam graf. Identifikasi hubungan yang terbentuk untuk setiap unit teks untuk menggambarkan edge dalam graf. Edge dapat berupa berarah atau tidak berarah (directed or undirected),berbobot atau tidak berbobot (weighted or unweighted). Iterasi algoritma perankingan berbasis graf tersebut hingga konvergen (Convergence). Konvergen didapatkan ketika rata-rata nilai error untuk setiap vertex di dalam graf berada dibawah nilai threshold yang diberikan. Urutkan vertex yang terbentuk berdasarkan skor bobot akhirnya. Gunakan nilai skor bobot tiap kata tersebut sebagai urutan ranking. Pada penelitiannya yang berkaitan dengan ekstraksi kata kunci, setiap vertex didalam graf hanya berupa satu kata dan penentuan jumlah kata dengan bobot textrank tertinggi yang akan menjadi kata kunci potensial tidak ditentukan secara statis sehingga jumlahnya bisa ditentukan secara bebas yang dalam penerapannya jumlah kata kunci potensial ditentukan sebanyak sepertiga dari jumlah teks didalam relasi graf. Pada tahapan post-processing dari algoritma textrank, kata kunci satu kata akan dibentuk menjadi multiword dengan melihat apakah kata-kata tersebut saling berdekatan atau ber-adjacent didalam teks yang diolah Penelitian Terdahulu Ekstraksi kata kunci selalu menjadi hal yang menarik untuk diteliti terutama dalam menyelesaikan persoalan mengenai kata kunci yang terdiri dari beberapa kata (multiword keyword). Banyak penelitian terdahulu telah mengembangkan beragam metode dan mengolah beragam sumber data untuk diteliti dan dicari kata kuncinya. Akurasi kata kunci yang dihasilkan oleh penelitian terdahulupun sudah mencapai tingkat akurasi yang sangat baik terutama untuk artikel berbahasa Inggris. Bhaskar et al.(2012) menggunakan pendekatan supervised seperti Conditional Random Fields (CRF) yang menghasilkan nilai performansi untuk precision sebesar 32.34%, recall sebesar 33.09% dan F-measure sebesar 32.71%. Data yang digunakan merupakan dokumen ilmiah berbahasa Inggris sejumlah 144 dokumen untuk data training dan 100 dokumen untuk data testing.

8 14 Ali et al.(2014) mencoba menggabungkan metode pembelajaran mesin (machine learning) seperti halnya linear logistic regression, linear discriminant analysis dan support vector machines serta metode statistikal hybrid untuk proses ekstraksi keyphrase dokumen berbahasa Arab. Pada penelitian ini, terdapat 4 tahapan penentuan kata kunci yaitu document preprocessing, noun phrase extraction, candidate feature extraction, dan klasifikasi. Pada tahapan dari penentuan kandidat frasa kunci hanya dikategorisasikan kedalam dua kategori yaitu kata benda dan frase kata benda saja. Penelitian ini mencapai akurasi sebesar 88.31% menggunakan algoritma SVM. Figueroa et al.(2014) yang menggunakan HybridRank yaitu metode gabungan TextRank dan KEA untuk ekstraksi frase kunci dari abstrak jurnal berbahasa Inggris. Pada penelitian ini menggunakan koleksi dokumen dari IEEE Xplore sebanyak 1606 dokumen dan koleksi dokumen Hulth 2003 sebanyak 2000 dokumen yang didalamnya mengandung bagian abstrak. Pada penelitiannya ini dapat menghasilkan daftar keyphrase dengan kualitas terbaik untuk artikel pendek berupa abstrak tersebut. Li et al.(2014) mencoba meningkatkan algoritma Textrank menggunakan domain pengetahuan untuk artikel ilmiah bahasa Cina. Pada penelitiannya ini, algoritma textrank dimodifikasi pada bagian preprocessingnya dimana pada penentuan kandidat kata kuncinya menggunakan metode Document Frequency Accessor Variety (DF-AV) karena menurutnya jika menggunakan POS tagging tidak cukup akurat untuk diaplikasikan pada jurnal ilmiah bahasa Cina. Kemudian pada penelitiannya ini digunakan pengetahuan terhadap kata kunci yang sudah dikenali pada beberapa domain pengetahuan dengan menghitung panjang kata kunci, komponen kata kuncinya, dan juga frekuensi tertinggi kata kunci untuk menggantikan fungsi thesaurus seperti pada domain pengetahuan beberapa penelitian sebelumnya. Akurasi yang didapatkan ternyata mampu lebih tinggi dari algoritma TF-IDF. Farizi (2015) membuat sistem rekomendasi tag pada berita online berbahasa Indonesia dengan menggunakan metode TF-IDF dan Collaborative Tagging yang menghasilkan persentase relevansi tag sekitar 79,97% dan 80,6%. Penggunaan metode TF-IDF dan collaborative tagging sangat bergantung pada berita-berita yang telah dipublikasikan sebelumnya. Hasil Pengujian sistem menggunakan 9 berita masukan dan 60 data berita yang terdiri dari 3 kategori berita yaitu ekonomi, nasional, dan olahraga. Pada penelitian ini untuk deteksi frase yaitu dengan melihat apakah setiap

9 15 kata yang menyusun frasa tersebut diawali dengan huruf kapital. Jika kata tersebut tidak diawali oleh huruf kapital, maka kata tersebut dianggap sebagai kata biasa dan bukan frase. Paymard(2015) menggunakan metode neural network untuk menyelesaikan masalah ekstraksi frasa kunci dari dokumen berbahasa Persia secara otomatis. Pada penelitian ini, Preprocessing yang dilakukan dengan menggunakan metode neural network mampu maningkatkan akurasi ekstraksi diatas 80%. Salah satu tahapan penting yang digunakan yaitu tahapan pembelajaran jaringan (network learning) dengan memperhatikan parameter jumlah waktu pada network training. Tahapan preprocessing yang ada pada penelitian ini menjadi tahapan yang harus lebih diperhatikan karena akan meningkatkan akurasi kata kunci yang dihasilkan oleh metode neural network. Horita et al.(2016) melakukan penelitian untuk ekstraksi kata kunci untuk proses wikifikasi dimana yang menjadi data sumbernya yaitu artikel di dalam web wikipedia untuk dokumen berbahasa asia seperti halnya dokumen bahasa Jepang dengan menggunakan metode Top Consecutive Nouns Cohesion (TCNC) untuk proses ekstraksi kandidat kata kuncinya dan menggunakan Dice Coefficient atau Keyphraseness untuk meranking kata kunci hasil ekstraksi. Wikifikasi merupakan metode untuk ekstraksi kata kunci secara otomatis dari sebuah dokumen dan melinknya kedalam artikel wikipedia yang sesuai. Pada penelitian ini digunakan artikel wikipedia bahasa Jepang dimana jumlah data ujinya yaitu 296 link teks. Penelitian terdahulu yang telah dijelaskan diatas akan diuraikan secara singkat pada Tabel 2.2 berikut: Tabel 2.2 Penelitian Terdahulu No. Peneliti Tahun Metode Keterangan 1. Pinaki Bhaskar, Kishorjit Nongmeikapam & Sivaji Bandyopadhyay 2012 Conditional Random Fields (CRF) Data yang digunakan merupakan dokumen ilmiah berbahasa Inggris Membutuhkan tahapan training data. Menerapkan ekstraksi berdasarkan fitur posisi kata

10 16 Tabel 2.2 Penelitian Terdahulu (Lanjutan) No Peneliti Tahun Metode Keterangan 2. Nidaa Ghalib Ali & Nazlia Omar 2014 Gabungan metode statistikal (unsupervised dan supervised) dan pendekatan pembelajaran mesin (machine learning) seperti linear logistic regression,linear discriminant analysis dan support vector machines. Data yang diolah adalah dokumen berbahasa Arab Kandidat frase/ kata kunci yang dibentuk hanya dikategorikan dalam 2 jenis kelas kata yaitu noun dan noun phrase 3 Gerardo Figueroa & Yi-Shin Chen 2014 Metode HybridRank yaitu gabungan metode TextRank dan KEA Data berupa abstrak jurnal berbahasa Inggris Menghasilkan daftar kata kunci kualitas tinggi untuk artikel pendek. 4 Guangyi Li & Houfeng Wang 2014 Metode Textrank menggunakan domain pengetahuan (pengetahuan terhadap panjang kata kunci,komponen kata kunci, frekuensi kata kunci) Data yang digunakan yaitu artikel ilmiah bahasa Cina online Menggunakan metode DF-AV untuk membentuk kandidat katanya. 5 Salman Al Farizi 2015 Metode TF-IDF untuk proses penghitungan bobot dan collaborative tagging untuk mengukur persentase kemiripan tag hasil ekstraksi TF-IDF dengan tag berita yang telah dipublikasikan. Hasil Pengujian sistem menggunakan data berita berbahasa Indonesia Frase dibentuk dengan melihat apakah kata tersebut diawali dengan huruf kapital atau tidak. Akurasi yang dihasilkan yaitu 79,9% untuk relevansi tag terhadap isi berita

11 17 dan 80,6% untuk relevansi rata-rata menggunakan collaborative tagging. Tabel 2.2 Penelitian Terdahulu (Lanjutan) No Peneliti Tahun Metode Keterangan 6 Seyyede Fateme Paymard 2015 Metode neural network Data yang digunakan yaitu artikel bahasa Persia Menggunakan tahapan training data 7 Kensuke Horita, Fuminori Kimura & Akira Maeda 2016 Metode Top Consecutive Nouns Cohesion(TCNC) untuk ekstraksi kandidat kata kunci dan untuk meranking kata kunci hasil ekstraksi menggunakan Dice coefficient atau Keyphraseness. Pada penelitian ini digunakan artikel wikipedia bahasa Jepang dimana jumlah data ujinya yaitu 296 link teks TCNC dan keyphraseness menghasilkan akurasi lebih tinggi dibandingkan TCNC dan Dice coefficient. Berdasarkan beberapa penelitian sebelumnya tersebut, maka pada penelitian ini penulis memanfaatan algoritma textrank untuk diuji pada teks berbahasa Indonesia dengan memodifikasi pada tahapan preprocessing-nya dimana pada tahapan ekstraksi kandidat kata kuncinya akan menggunakan aturan multiword expression candidate. Pada penelitian ini juga untuk setiap kata kunci yang diekstraksi kemudian akan diperhitungkan komponen katanya yang akan dijalankan pada tahapan postprocessing. Diharapkan dengan menggunakan metode ini dapat menghasilkan rekomendasi kata kunci untuk teks bahasa Indonesia dengan akurasi yang baik.

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB 1 PENDAHULUAN. Universitas Sumatera Utara 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan

Lebih terperinci

PART OF SPEECH TAGGER UNTUK BAHASA INDONESIA DENGAN MENGGUNAKAN MODIFIKASI BRILL

PART OF SPEECH TAGGER UNTUK BAHASA INDONESIA DENGAN MENGGUNAKAN MODIFIKASI BRILL PART OF SPEECH TAGGER UNTUK BAHASA INDONESIA DENGAN MENGGUNAKAN MODIFIKASI BRILL Eka Rahayu Setyaningsih Teknik Informatika, Sekolah Tinggi Teknik Surabaya (1) e-mail: eka@stts.edu ABSTRAK Dalam penelitian

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

PREDIKSI JEDA PADA UCAPAN BAHASA MELAYU PONTIANAK DENGAN MENGGUNAKAN METODE SHALLOW PARSING

PREDIKSI JEDA PADA UCAPAN BAHASA MELAYU PONTIANAK DENGAN MENGGUNAKAN METODE SHALLOW PARSING Jurnal Sistem dan Teknologi Informasi (JUSTIN) Vol. 5, No. 3, (2017) 128 PREDIKSI JEDA PADA UCAPAN BAHASA MELAYU PONTIANAK DENGAN MENGGUNAKAN METODE SHALLOW PARSING M Iqbal Kamiludin 1, Arif Bijaksana

Lebih terperinci

IMPLEMENTASI RULE-BASED DOCUMENT SUBJECTIVITY PADA SISTEM OPINION MINING

IMPLEMENTASI RULE-BASED DOCUMENT SUBJECTIVITY PADA SISTEM OPINION MINING IMPLEMENTASI RULE-BASED DOCUMENT SUBJECTIVITY PADA SISTEM OPINION MINING Imam Fahrur Rozi 3 Permasalahan yang pertama dihadapi dalam mengembangkan sistem opinion mining adalah menentukan apakah suatu teks

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Indonesian Part-of-Speech Tag

Indonesian Part-of-Speech Tag Indonesian Part-of-Speech Tag Fam Rashel, Andry Luthfi, Arawinda Dinakaramani, and Ruli Manurung Faculty of Computer Science, Universitas Indonesia Email: fam.rashel@ui.ac.id, andry.luthfi@ui.ac.id, ard51@ui.ac.id,

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BABI PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

ABSTRAK. vi Universitas Kristen Maranatha

ABSTRAK. vi Universitas Kristen Maranatha ABSTRAK Frasa kunci adalah gabungan kata yang mewakili konsep atau garis besar dari suatu dokumen. Frasa kunci digunakan untuk membantu pembaca dalam mengetahui pokok bahasan dari dokumen. Sayangnya terdapat

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665

ISSN : e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6665 Analisis Efektifitas Pengukuran Keterkaitan Antar Teks Menggunakan Metode Salient Semantic Analysis Dengan TextRank for

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Memasuki era big data, pertumbuhan data berbentuk dokumen teks semakin tinggi. Sehingga diperlukan text processing untuk pengolahan data yang sangat besar. Dokumen

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 1 PENDAHULUAN. Latar Belakang

BAB 1 PENDAHULUAN. Latar Belakang BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL BERBAHASA INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA) Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE

IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE IMPLEMENTASI PEREKOMENDASIAN KATA KUNCI DOKUMEN MENGGUNAKAN ALGORITMA GOOGLE LATENT SEMANTIC DISTANCE Novario Jaya Perdana 1, Diana Purwitasari 2 Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA

PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA PENERAPAN ALGORITMA TEXTRANK UNTUK AUTOMATIC SUMMARIZATION PADA DOKUMEN BERBAHASA INDONESIA Eris 1, Viny Christanti M 2, Jeanny Pragantha 3 Teknik Informatika, Fakultas Teknologi Informasi, Universitas

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

Analisis Sentimen pada Opini Mahasiswa Menggunakan Natural Language Processing

Analisis Sentimen pada Opini Mahasiswa Menggunakan Natural Language Processing Analisis Sentimen pada Opini Mahasiswa Menggunakan Natural Language Processing Aldi Nurzahputra 1, Much Aziz Muslim 2 1,2 Jurusan Ilmu Komputer, FMIPA, Universitas Negeri Semarang Email: 1 aldinurzah96@gmail.com,

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Natural Language Processing (NLP) adalah area penelitian dan pengaplikasan yang mengekplorasi bagaimana caranya sebuah komputer dapat digunakan dan memanipulasi berupa

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi

Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi 37 Implementasi Opinion Mining (Analisis Sentimen) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi Imam Fahrur Rozi, Sholeh Hadi Pramono dan Erfan Achmad Dahlan Abstrak Sentiment analysis atau

Lebih terperinci

1. PENDAHULUAN 1.1 Latar belakang Masalah

1. PENDAHULUAN 1.1 Latar belakang Masalah 1. PENDAHULUAN 1.1 Latar belakang Masalah Bahasa Indonesia adalah alat yang mampu menjembatani penduduk Indonesia yang terdiri dari berbagai suku dan bahasa untuk dapat berkomunikasi satu sama lainnya.

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Pemilihan dosen pembimbing Tugas Akhir pada jurusan Teknik Informatika Universitas Muhammadiyah Malang dilakukan mahasiswa secara mandiri, hal

Lebih terperinci

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR Persyaratan Guna Meraih Gelar Sarjana Strata I Teknik Informatika Universitas Muhammadiyah Malang Nama : Ayu

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer

Lebih terperinci

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU

SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU SISTEM PERINGKAS BERITA ONLINE OTOMATIS MENGGUNAKAN ALGORITMA TEXTTEASER SKRIPSI ANWAR PASARIBU 111402008 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. 1.1 Latar belakang BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010). BAB I PENDAHULUAN A. Latar Belakang SMS atau Short Message Service merupakan salah satu layanan teknologi yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile seperti telepon genggam.

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB I PENDAHULUAN. hadir dalam berbagai bentuk, seperti dokumen web, portal berita online, surat

BAB I PENDAHULUAN. hadir dalam berbagai bentuk, seperti dokumen web, portal berita online, surat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi internet menyebabkan semakin banyak sumber informasi dari seluruh bidang kehidupan yang dapat diakses. Informasi tersebut hadir dalam

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

POS Tagger Tweet Bahasa Indonesia

POS Tagger Tweet Bahasa Indonesia KINETIK, Vol. 2, No. 1, Februari 2017, Hal. 9-16 ISSN : 2503-2259, E-ISSN : 2503-2267 9 POS Tagger Tweet Bahasa Indonesia Yuda Munarko *1, Yufis Azhar 2, Maulina Balqis 3, Susi Ekawati 4 1,2,3,4 Universitas

Lebih terperinci

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM.

PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. PART-OF-SPEECH TAGGING UNTUK DOKUMEN BAHASA BALI MENGGUNAKAN ALGORITMA BRILL TAGGER KOMPETENSI KOMPUTASI SKRIPSI NI PUTU MERI SRIYATI NIM. 1208605026 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN ILMU KOMPUTER

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

yang diterapkan dalam proposal. Studi literatur dilakukan pada kajian seperti jurnal maupun buku terkait 2. Pengumpulan dan pengolahan data Bahan

yang diterapkan dalam proposal. Studi literatur dilakukan pada kajian seperti jurnal maupun buku terkait 2. Pengumpulan dan pengolahan data Bahan Daftar Istilah Dataset Fitur Polaritas Cluster Centroid Kumpulan data berisi informasi terkait Atribut dominan yang dimiliki produk karena memiliki kelebihan atau daya tarik yang diambil dari kalimat Orientasi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Musik memiliki peran yang penting bagi kehidupan manusia. Selain sebagai media hiburan, musik juga merupakan media bantu diri untuk menangani perasaan emosi

Lebih terperinci

PEMODELAN BERBASIS KONSEP UNTUK KATEGORISASI ARTIKEL BERITA BERBAHASA INDONESIA

PEMODELAN BERBASIS KONSEP UNTUK KATEGORISASI ARTIKEL BERITA BERBAHASA INDONESIA PEMODELAN BERBASIS KONSEP UNTUK KATEGORISASI ARTIKEL BERITA BERBAHASA INDONESIA Candra Triawati 1, M. Arif Bijaksana 2, Nur Indrawati 3, Widyanto Adi Saputro 4 1,2,3,4 Departemen Teknik Informatika, Institut

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA , Indonesia.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA , Indonesia. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan 1 BAB I PENDAHULUAN 1.1 Latar Belakang Pesatnya perkembangan media sosial menawarkan pengguna kesempatan untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan tidak lagi memiliki

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dari pekerjaan dan metode yang digunakan dalam tugas akhir untuk melakukan klasifiksi topik. Pembahasan ini dimulai dengan penjelasan klasifikasi

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238 ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1238 Penentuan Fitur Supervised Learning dalam Identifikasi Kalimat Sitasi pada Makalah Ilmiah Determining Supervised Learning

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca

Lebih terperinci