EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN

Ukuran: px
Mulai penontonan dengan halaman:

Download "EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN"

Transkripsi

1 EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI CLARA SRI MENDA BANGUN PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017

2 EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi CLARA SRI MENDA BANGUN PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2017

3 i PERSETUJUAN Judul : EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION Kategori : SKRIPSI Nama : CLARA SRI MENDA BANGUN Nomor Induk Mahasiswa : Program Studi : S1 TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI Komisi Pembimbing : Pembimbing 2 Pembimbing 1 Mohammad Fadly Syahputra B.Sc, M.Sc, IT Sajadin Sembiring,S.Si.,M.Comp.Sc NIP NIP Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua, Romi Fadillah Rahmat, B.Comp.Sc., M.Sc NIP

4 ii PERNYATAAN EKSTRAKSI TREN TOPIK PORTAL BERITA ONLINE MENGGUNAKAN NON-NEGATIVE MATRIX FACTORIZATION SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya. Medan, Clara Sri Menda

5 iii UCAPAN TERIMA KASIH Puji dan syukur penulis sampaikan kehadirat Tuhan Yang Maha Esa yang telah memberikan berkat yang melimpah kepada penulis, sehingga dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi. Pertama, penulis ingin mengucapkan terima kasih sebesarnya kepada orang tua penulis, Bapak tercinta Alm. Drs. Darwin Bangun dan Ibu terkasih dra. Rosida Sembiring, serta kepada Bulang Alm. Ahmad Bangun dan Biring Ngamet Pelawi. Penulis juga mengucapkan terima kasih kepada abang dan kakak penulis Hiskia Bangun, Yolanda Bangun, beserta seluruh keluarga besar Bangun dan Sembiring yang memberikan kasih sayang, motivasi, serta doa tiada henti kepada penulis. Kedua, penulis juga mengucapkan terima kasih kepada Bapak Sajadin Sembiring, S.Si., M.Comp., Sc selaku Dosen Pembimbing I, Bapak Mohammad Fadly Syahputra B.Sc, M.Sc, IT selaku Dosen Pembimbing II yang telah meluangkan waktunya untuk membimbing penulis sehingga dapat menyelesaikan skripsi ini. Terima kasih juga penulis ucapkan kepada Bapak Dani Gunawan, ST., MT., selaku Dosen Pembanding I dan Bapak Baihaqi Siregar, S.Si., MT., selaku Dosen Pembanding II yang memberikan kritik dan saran yang bermanfaat dalam penyelesaian skripsi ini. Penulis ucapkan terima kasih kepada Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Dekan dan Wakil Dekan FASILKOM-TI, dan seluruh dosen serta staff pegawai di lingkungan Program Studi S1 Teknologi Informasi, yang telah membimbing penulis selama masa perkuliahan. Ketiga, terima kasih penulis ucapkan kepada sahabat tercinta yang selalu hadir memberikan dukungan dan semangat, Yossi Naomi, Irester Sihombing, Octavia Yohana, Novira Ginting, Wina Octaviana, Mutiara Christy, Yana Trisha, B Family, PERMATA Bethesda, seluruh teman-teman angkatan 2012 dan junior serta senior Teknologi Informasi. Semoga Tuhan Yang Maha Esa selalu memberi berkat yang melimpah kepada sahabat tercinta. Penulis menyadari bahwa skripsi ini masih terdapat kekurangan. Oleh sebab itu, penulis mengharapkan kritik dan saran yang bersifat membangun. Akhir kata penulis ucapkan terima kasih.

6 iv ABSTRAK Perkembangan teknologi informasi dan komunikasi mengakibatkan jumlah situs berita online yang menyajikan informasi berita terus bertambah. Hal ini menyebabkan pencarian tren topik berita yang sedang dibicarakan semakin luas dan membutuhkan waktu cukup lama jika dilakukan secara manual. Web Crawler merupakan program pengumpul informasi yang berjalan menelusuri halaman web dan mengumpulkan dokumen-dokumen atau data-data di dalamnya. Web crawler pada penelitian ini mengekstraksi informasi portal berita online untuk diambil berita-beritanya dan dimanfaatkan untuk pencarian tren topik secara otomatis dengan bantuan mesin. Pada penelitian ini beberapa tahapan yang dilakukan yaitu text pre-processing yang terdiri dari case-folding, tokenizing, filtering, stemming, pembuatan kamus n-gram yang merupakan kandidat hasil keluaran topik, dan selanjutnya tahapan ekstraksi tren topik dengan cara menghitung pembobotan kata hasil pembuatan kamus n-gram menggunakan term frequency dan Non-Negative Matrix Factorization (NMF). Pada penelitian ini jenis artikel yang diproses adalah 3 jenis kelompok berita, yaitu berita nasional, entertaiment, dan berita teknologi sebanyak 842 artikel. Hasil dari penelitian ini adalah berupa topik-topik sesuai dengan kelompok beritanya yang divisualisasikan dalam bentuk grafik. Kata kunci: Text mining, Web Crawler, Kamus N-Gram, Non-Negative Matrix Factorization

7 v ABSTRACT The development of information technology and communication makes the number of online website that provides news continue to grow. This cause the search for news topics trends being discussed more widely and takes time if done manually. Web Crawler is an information gatherer program that runs through web pages and collects document or data in it. Web crawler in this study extracts information online news portal to capture its news and was used to search trens topic automatically with the help of machine. In this study, some of the steps are text pre-processing which consists of case-folding, tokenizing, filtering, stemming, making n-gram dictionary which is candidate of the topic output, and then the stage of topical trend extraction by counting the word weighting of the result n-gram dictionary using term frequency and Non-Negative Matrix Factorization (NMF). In this study the types of article processed are 3 types of news groups namely national news, entertaiment, and technology news as much as 842 articles. The result of this study is in the form of topics according to the news group visualized in graphical form. Keyword: Text mining, Web Crawler, N-Gram Dictionary, Non-Negative Matrix Factorization

8 vi DAFTAR ISI Hal. PERSETUJUAN 2 PERNYATAAN ii UCAPAN TERIMA KASIH iii ABSTRAK iv ABSTRACT v DAFTAR ISI vi DAFTAR TABEL ix DAFTAR GAMBAR x BAB 1 PENDAHULUAN Latar Belakang Rumusan Masalah Tujuan Penelitian Batasan Masalah Manfaat Penelitian Metodologi Penelitian Sistematika Penulisan 6 BAB 2 LANDASAN TEORI Machine Learning Web Crawler Text Mining Text Preprocessing Case folding 12

9 vii Tokenizing Filtering Stemming Algoritma Nazief & Andriani N-Gram Pembobotan Term Faktorisasi Matriks Non-Negative Matrix Factorization (NMF) Penelitian Terdahulu 23 BAB 3 ANALISIS DAN PERANCANGAN Data Acquisition (Pengumpulan Data) Analisis Sistem Input Data Text pre-processing Pembuatan kamus n-gram Pembuatan matriks kata dokumen Ekstraksi tren topik dengan NMF Perancangan Sistem Perancangan sistem bagian belakang (back-end) Peracangan sistem bagian depan (front-end) 38 BAB 4 IMPLEMENTASI DAN PENGUJIAN Implementasi Sistem Kebutuhan sistem Hasil preparasi data Hasil text preprocessing Hasil pembuatan kamus n-gram Hasil ekstraksi tren topik dengan NMF Pengujian Sistem 50

10 viii BAB 5 KESIMPULAN DAN SARAN Kesimpulan Saran 54 DAFTAR PUSTAKA 56

11 ix DAFTAR TABEL Tabel 2.1. Aturan Case Folding 12 Tabel 2.2. Aturan Tokenizing 13 Tabel 2.3. Aturan Filtering 14 Tabel 2.4. Kombinasi Awalan Akhiran Yang Tidak Diijinkan 17 Tabel 2.5. Tabel Aturan Peluruhan Kata Dasar 17 Tabel 2.5. Tabel Aturan Peluruhan Kata Dasar (Lanjutan) 18 Tabel 2.6. Contoh Pemotongan N-gram Berbasis Karakter 19 Tabel 2.7. Contoh Pemotongan N-gram Berbasis Kata 20 Tabel 2.8. Penelitian Terdahulu 25 Tabel 2.8. Penelitian Terdahulu (Lanjutan) 26 Tabel 3.1. Proses Penyiapan Data 34 Tabel 3.2. Hubungan Kata Dokumen 35 Tabel 4.1. Hasil Pembentukan Kamus N-Gram 46 Tabel 4.2. Contoh Data Uji Sistem 51 Tabel 4.3. Contoh Data Tren Topik pada Google Trend 52 Tabel 4.4. Hasil Pengujian 53 Tabel 4.5. Hasil Pengujian Tiap Kategori 53

12 x DAFTAR GAMBAR Gambar 2.1. Arsitektur Web Crawler 10 Gambar 2.2. Proses Case Folding 12 Gambar 2.3. Contoh Proses Tokenizing 13 Gambar 2.4. Contoh Proses Filtering 14 Gambar 2.5. Contoh Proses Stemming 15 Gambar 2.6. Ilustrasi Non Negative Matrix Factorization 22 Gambar 3.1. Arsitektur Umum 30 Gambar 3.2. Proses Crawling 31 Gambar 3.3. Rancangan Bagian Depan Sistem 38 Gambar 4.1. Grafik Artikel Hasil Web Crawler 41 Gambar 4.2. Grafik Jumlah Artikel Yang Akan Diproses Per Hari 42 Gambar 4.3. Contoh Artikel Awal Hasil Web Crawler 42 Gambar 4.4. Artikel Hasil Case Folding 43 Gambar 4.5. Artikel Hasil Tokenizing 44 Gambar 4.6. Artikel Hasil Filtering 44 Gambar 4.7. Artikel Hasil Stemming 45 Gambar 4.8. Grafik Jumlah Kata Berbeda Yang Dilibatkan Per Hari 45 Gambar 4.9. Hasil Ekstraksi Data Kategori Nasional Tanggal 06 Juni Gambar Hasil Ekstraksi Data Kategori Entertaiment Tanggal 08 Juni Gambar Hasil Ekstraksi Data Kategori Teknologi Tanggal 08 Juni Gambar Hasil Ekstraksi Data Kategori Teknologi Tanggal 09 Juni

13 xi

14 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Dunia teknologi informasi dan telekomunikasi semakin canggih dan pesat dengan adanya perkembangan internet. Dengan internet, setiap orang dapat mengakses dan mendapat informasi secara cepat tanpa mengenal batas wilayah dan batasan waktu. Perkembangan teknologi informasi diikuti juga dengan berkembangnya piranti bergerak yang digunakan, sehingga penyampaian informasi, komunikasi, dan aktifitas lainnya menjadi lebih cepat, hemat dan efisien. Salah satu perkembangan yang paling sering digunakan oleh pengguna teknologi informasi adalah mendapatkan informasi dari berita-berita nasional. Berita merupakan suatu hal yang memiliki peran penting dalam kehidupan manusia karena manusia hidup pasti membutuhkan sebuah informasi, baik itu tentang pendidikan, kesehatan, pariwisata, dan sebagainya. Perkembangan berita nasional ini ditandai dengan munculnya berbagai situs web portal berita, seperti Kompas, Detik, Tempo, Okezone, Liputan 6, dan lain sebagainya. Portal berita merupakan sebuah media yang memberikan layanan informasi berita secara online. Portal berita memberikan nilai dengan informasi yang lebih cepat dibanding layanan konvensional yang masih berupa kertas, serta berisi informasi dari lokal maupun mancanegara dengan berbagai macam topik yang dibahas. Melihat banyaknya topik yang dibahas, banyak pula pengguna internet yang ingin mengetahui topik berita yang paling sering muncul tanpa perlu membaca keseluruhan berita portal berita online. Topik dari kumpulan berita ini menjadi sangat penting untuk mengetahui trend yang terjadi dalam periode waktu tertentu. Namun, banyaknya berita yang dibahas tersebut menjadi kendala bagi pembaca sehingga muncul sebuah gagasan untuk melakukan pemrosesan terhadap artikel berita ke dalam sebuah mesin yang mengekstraksinya ke dalam topik-topik. Mesin ekstraksi ini diharapkan dapat memudahkan pengguna internet untuk mengetahui topik berita yang

15 2 sedang populer. Metode ini merupakan perkembangan dari text mining atau text analysis. Mesin ekstraksi ini mencakup pemodelan data tekstual yang bertujuan menemukan variabel tersembunyi yaitu topik. Fudolly (2011) memanfaatkan metode likelihood dan cosine similarity untuk menganalisis klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia. Uji coba dilakukan pada dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda beda. Aplikasi ini mempunyai fungsi utama mengklasifikasikan berita berita online yang ada menjadi hirarki dengan topik dan kategori yang lebih spesifik. Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. Nugraha (2011) memanfaatkan metode KEA++ untuk penyaringan frasa kunci secara otomatis pada pencarian artikel ilmiah berbahasa Indonesia. Pada penelitian ini data yang digunakan adalah 30 jurnal akuntansi berbahasa berbahasa Indonesia dan Tesaurus akuntansi berbahasa Indonesia. Berdasarkan pengujian yang dilakukan, semakin banyak jumlah data pelatihan yang digunakan maka semakin tinggi pula akurasi dari proses penyaringan frasa kunci artikel ilmiah berbahasa Indonesia. Penggunaan Tesaurus dapat meningkatkan akurasi dalam proses penyaringan frasa kata kunci ini. Berdasarkan evaluasi dan responden terhadap 10 dokumen yang disaring frasa kuncinya, persentase jumlah frasa kunci yang sesuai adalah sebanyak 51.75%. Banu (2016) melakukan penelitian terhadap analisis trending topic dengan menggunakan model pendeteksian topic sub-topik, peneliti menggunakan pendekatan Foreground Dynamic Topic Modelling (VF-DTM) untuk merangkum trending topic berdasarkan data tweet dalam struktur yang lebih baik. Basri (2016) melakukan penelitian dengan memanfaatkan metode SVM untuk mengidentifikasi topik informasi publik media sosial di kota Surabaya berdasarkan klasterisasi teks pada twitter dengan algoritma K-Means. Penelitian yang dilakukan dapat menemukan topik-topik yang sering dibahas pada sosial media kota Surabaya dengan menggunakan metode SVM, dengan hasil yang memiliki presentase paling tinggi adalah SVM kernel linear. Park (2011) memanfaatkan metode Non Negative Matrix Factorization dan Pseudo Relevance Feedback untuk peringkasan dokumen otomatis dengan mengekstraksi kalimat yang relevan dengan user dengan ringkasan yang berfokus kepada user. Metode tersebut mengekstrak kalimat yang bermakna karena

16 3 mencerminkan struktur dokumen yang berhubungan dengan fitur semantik dan variabel semantik dengan NMF. Kinerja metode yang diusulkan memperoleh nilai rata-rata F- Measure Hasil percobaan menunjukkan bahwa metode yang diusulkan mencapai kinerja yang lebih baik dari metode lainnya. Latent Semantic Analysis (LSA) adalah sebuah teori dan metode untuk ekstraksi dan representasi topik dari sekumpulan dokumen (Landauer & Dumais, 1997). LSA menggunakan beberapa metode untuk proses faktorisasi matriks, yaitu Singular Value Decomposition dan Non-Negative Matrix Decomposition (Lee dan Seung, 1999). Namun, matriks pada SVD cenderung bersifat padat dan berisi bilangan negatif dan non-negatif pada elemen-elemennya sehingga representasi bilangan-bilangan negatif terhadap topik sulit untuk diinterpretasi. Sedangkan matriks representasi dengan NMF memiliki entri non-negatif sehingga mudah untuk interpretasi matriks. Berdasarkan permasalahan yang dijelaskan di atas, maka pada penelitian ini peneliti mengajukan judul Ekstraksi Tren Topik Portal Berita Online Menggunakan Non-Negative Matrix Factorization Rumusan Masalah Seiring dengan kemajuan teknologi saat ini, kemudahan untuk memperoleh suatu berita dapat dengan cepat diakses dari berbagai web portal berita online sehingga minat untuk mengetahui berita yang sedang populer dibicarakan menjadi bertambah. Namun, banyaknya topik yang dibahas pada portal berita tersebut menjadi kendala bagi pembaca untuk mengetahui apa saja topik yang sedan tren pada berita. Berdasarkan permasalahan tersebut, muncullah sebuah gagasan untuk melakukan pemrosesan terhadap artikel berita ke dalam sebuah mesin yang mengekstraksinya ke dalam topik-topik sehingga mesin dapat menemukan topik-topik berita apa saja yang sedang menjadi trend dalam jangka waktu tertentu Tujuan Penelitian Adapun tujuan dari penelitian ini adalah sebagai berikut. 1. Mengekstraksi web portal berita online dengan teknik crawling untuk mengambil dokumen yang dibutuhkan.

17 4 2. Melakukan analisis ekstraksi topik dengan menerapkan metode Non-Negative Matrix Factorization untuk mengetahui topik-topik berita yang menjadi trend dari kumpulan artikel berita pada periode waktu tertentu Batasan Masalah Permasalahan yang akan diteliti memiliki ruang lingkup yang luas, oleh sebab itu penulis membatasi masalah tersebut sebagai berikut: 1. Data yang diambil adalah data dari web portal berita online berbahasa Indonesia. 2. Periode penentuan topik berita dibatasi yaitu pada tanggal 06 Juni 2017 s/d 09 Juni Hasil keluaran dari sistem ini berupa tren topik-topik yang muncul dari hasil crawling isi portal berita. 4. Hasil keluaran tren topik yang dihasilkan dibatasi hanya sebanyak 5 tren topik. 5. Ekstraksi tren topik dilakukan secara offline. 6. Pendekatan analisis yang digunakan adalah Objek Oriented Manfaat Penelitian Penelitian ini diharapkan dapat memudahkan pembaca untuk mengetahui tren topik berita apa yang sedang hangat dibicarakan dalam periode waktu tertentu sehingga pembaca tidak perlu membutuhkan waktu yang lama untuk membaca berita dari semua web portal berita online Metodologi Penelitian Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai berikut : 1. Studi Literatur Tahap studi literatur ini dilaksanakan untuk mengumpulkan dan mempelajari informasi yang diperoleh dari buku, jurnal, skripsi, dan berbagai sumber referensi lain yang berkaitan dan mendukung penelitian. Bahan referensi yang dikumpulkan adalah mengenai portal berita online, teknik ekstraksi topik, teknik crawling, dan Non-Negative Matrix Factorization.

18 5 2. Analisis Permasalahan Analisis permasalahan merupakan tahap untuk menganalisis seluruh bahan referensi yang telah dikumpulkan. Pada tahap ini dilakukan analisis terhadap berbagai informasi yang telah diperoleh dari berbagai sumber yang terkait dengan penelitian agar didapatkan metode yang tepat untuk menyelesaikan masalah dalam penelitian ini. Adapun metode yang digunakan untuk menyelesaikan permasalahan adalah Non-Negative Matrix Factorization, yakni sebagai algoritma ekstraksi tren topik dari sekumpulan dokumen. 3. Pengumpulan Data Pengumpulan data merupakan tahapan yang sangat penting dalam perancangan arsitektur. Sumber data yang digunakan pada penelitian ini adalah dengan menggunakan bantuan web crawler untuk mengambil artikel berita berkategori nasional, entertaiment, dan teknologi, pada tanggal 06 Juni 2017 s/d 09 Juni 2017 dengan memanfaatkan URL beberapa portal berita online berbahasa Indonesia, yaitu: a. Liputan6 b. Kompas.com c. Tribunnews.com d. Sindonews.com e. Viva.co.id 4. Implementasi Implementasi dilakukan dengan menguji metode Non-Negative Matrix Factorization dalam menyelesaikan masalah ekstraksi tren topik. Tidak ada penggunaan data latih dalam penelitian ini, tetapi penelitian ini menggunakan metode unsupervised learning. 5. Evaluasi dan Analisis Hasil Evaluasi dan analisis bertujuan untuk mengetahui apakah pengujian telah berjalan sesuai dengan yang diharapkan dalam penelitian ini. Tahap ini menggambarkan hasil yang didapat setelah mengimplementasikan teknik crawling, metode ekstraksi tren topik, Non-Negative Matrix Factorization, dalam menyelesaikan permasalahan ekstraksi tren topik portal berita online.

19 6 6. Dokumentasi dan Pelaporan Pada tahap ini, penulis melakukan dokumentasi berupa penyusunan laporan hasil evaluasi, analisis, dan implementasi Non-Negative Matrix Factorization dalam penyelesaian masalah ekstraksi tren topik portal berita online Sistematika Penulisan Sistematika penulisan dari skripsi ini terdiri dari lima bagian utama, yaitu sebagai berikut: Bab 1: Pendahuluan Bab ini berisi latar belakang dari peneltian yang dilakukan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, dan sistematika penulisan. Bab 2: Landasan Teori Bab ini menjabarkan teori-teori yang mendukung dan dibutuhkan dalam memahami permasalahan. Selain itu, pada bagian ini diuraikan juga mengenai penelitian terdahulu, kerangka pikir dan hipotesis yang diperoleh dari acuan yang mendasari untuk melakukan kegiatan penelitian tugas akhir ini. Bab 3: Analisis dan Perancangan Bab ini berisi pembahasan tentang analisis dan penerapan metode Non-Negative Matrix Factorization untuk mengimplementasikan ekstraksi tren topik portal berita online. Selain itu, dijabarkan pula arsitektur umum dan tahap pre-processing yang digunakan untuk proses cleaning data. Bab 4: Implementasi dan Pengujian Bab ini berisi pembahasan tentang implementasi dari perancangan sistem dari hasil analisis dan perancangan yang telah dijabarkan pada bab 3. Selain itu, dijabarkan pula hasil yang didapatkan dari pengujian.

20 7 Bab 5: Kesimpulan dan Saran Bab ini berisi ringkasan serta kesimpulan dari hasil penelitian yang telah dilakukan. Bagian akhir dari bab ini akan berisi saran-saran yang diajukan untuk pengembangan lebih lanjut terkait topik penelitian yang telah dibahas.

21 8 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan implementasi algoritma Non-Negative Matrix Factorization untuk ekstraksi tren topik portal berita online Machine Learning Machine learning (pembelajaran mesin) adalah bidang ilmu yang berfokus pada algoritma komputer (mesin) untuk belajar dari sejumlah data yang disebut data training. Algoritma tersebut digunakan untuk menyimpulkan informasi tentang sifatsifat dan pola data (Segaran, 2007). Selanjutnya, informasi tersebut dapat digunakan untuk memprediksi data lain pada masa selanjutnya. Hal ini dimungkinkan karena hampir semua data yang tertentu memiliki pola, sehingga memungkinkan mesin untuk menggeneralisasi pola tersebut. Menurut Ghahramani (2014), machine learning dapat dibagi ke dalam 4 kelompok berdasarkan perlakuan terhadap data yang diberikan. 1. Supervised Learning Pada teknik supervised learning, barisan data training yang diberikan memiliki barisan harapan keluaran atau label. Harapan keluaran ini dapat berupa kelas label atau bilangan riil. Contoh dari pembelajaran supervised adalah classification, regression, ordinal regression, ranking, dan lain sebagainya, Beberapa metode untuk mendapatkan label di antaranya neural network, desicion trees, supportvector machine dan Bayesian filtering. Tujuan teknik ini adalah menjadikan mesin dapat belajar untuk memberikan keluaran terbaik untuk data training baru berdasarkan label. 2. Reinforcement Learning Dalam reinforcement learning, mesin berinteraksi dengan lingkungan yang memberikan barisan aksi. Aksi ini dipengaruhi kondisi awal lingkungan dan

22 9 memberikan hasil kepada mesin berupa barisan skalar reward atau punishment. Tujuan metode ini menjadikan mesin dapat belajar untuk mengoptimalkan reward dan meminimalkan punishment selama mesin tersebut bekerja. Reinforcement learning berdekatan dengan bidang teori keputusan (decision theory) dan teori kontrol (control theory). 3. Generalized Reinforcement Learning Jenis ketiga ini erat kaitannya dengan game theory dan merupakan generalisasi dari teknik reinforcement learning. Seperti metode reinforce learning, mesin membutuhkan masukan, menghasilkan aksi dan mendapatkan reward atau punishment dan belajar. Tujuan teknik ini adalah agar mesin dapat memaksimalkan reward dan meminimalkan punishment pada setiap aksi yang dilakukan saat ini hingga masa depan. 4. Unsupervised Learning Berbeda dengan teknik lainnya, unsupervised learning tidak membutuhkan label untuk mempelajari dan membuat prediksi dari kumpulan training data serta tidak melakukan interaksi dengan lingkungan. Teknik ini bertujuan untuk mendapatkan representasi dari data training yang dapat digunakan untuk menemukan pola struktur yang bebas dari noise. Metode yang menggunakan teknik unsupervised learning di antaranya non-negative matrix factorization, self-organizing map, dan latent semantic analysis Web Crawler Web Crawler merupakan program pengumpul informasi yang hasilnya akan disimpan pada sebuah database. Sebuah web crawler akan berjalan menelusuri halaman web dan mengumpulkan dokumen-dokumen atau data-data di dalamnya. Selanjutnya web crawler akan membangun sebuah daftar indeks untuk memudahkan proses pencarian. Arsitektur dari web crawler dapat dilihat pada Gambar 2.1.

23 10 Gambar 2.1. Arsitektur Web Crawler (Wikipedia, 2016) Gambar 2.1. merupakan arsitektur dari sistem crawler. Crawler diawali dengan adanya daftar URL yang akan dikunjungi, disebut dengan seeds. Setelah crawler mengunjugi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds. Hal ini dinamakan crawl frontier. Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage. Proses crawling merupakan proses dimana web crawler mengumpulkan datadata dari halaman web. Web crawler dimulai dengan sekumpulan URL, kemudian mendownload setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010). Text mining sebenarnya tidak jauh berbeda dengan data mining, yang membedakan hanyalah sumber data yang digunakan. Pada data mining data yang digunakan adalah data yang terstruktur, sedangkan pada text mining data yang digunakan adalah data yang tidak terstruktur berupa teks. Tujuan dari text mining secara keseluruhan adalah pada dasarnya untuk mengubah suatu teks menjadi data yang dapat dianalisis. Text mining

24 11 dapat menganalisis dokumen, mengelompokkan dokumen berdasarkan kata-kata yang terkandung di dalamnya, serta menentukan tingkat kemiripan di antara dokumen untuk mengetahui bagaimana mereka berhubungan dengan variabel lainnya (Statsoft, 2015). Menurut Miner et al (2012), cakupan dari text mining dikelompokkan menjadi tujuh daerah praktek, yaitu : a. Pencarian dan perolehan informasi (search and information retrieval), yaitu menerapkan proses penggalian dokumen teks dalam membangun mesin pencarian (search engine) atau pencarian kata kunci (keywords). b. Pengelompokan dokumen, yaitu mengelompokkan dan mengkategorikan kata, istilah, paragraf, serta dokumen dengan menggunakan metode klaster (clustering). c. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata, istilah, paragraf, serta dokumen dengan menggunakan metode klasifikasi (classification) berdasarkan model terlatih yang sudah memiliki label atau kelas. d. Web mining, yaitu penggalian informasi dari internet dengan skala fokus yang spesifik. e. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak terstruktur dan mengubahnya menjadi data yang memiliki struktur. f. Natural Language Processing (NLP), yaitu suatu teknik yang memberikan kemampuan pada mesin untuk dapat memahami bahasa manusia (bahasa natural). g. Ekstraksi konsep, yaitu pengelompokan kata atau frasa ke dalam kelompok yang mirip secara semantic Text Preprocessing Text preprocessing merupakan tahapan awal dari text mining. Text mining adalah proses menambang data berupa teks di mana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata - kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen (Harlian, 2006). Text preprocessing bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahapan berikutnya. Text preprocessing mengubah bentuk data yang

25 12 belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan yang dilakukan untuk proses mining yang lebih lanjut. Tahap-tahap pada text pre-processing secara umum adalah case-folding, tokenizing, filtering, dan stemming. Penjelasan dari tahap-tahap tersebut adalah sebagai berikut: Case folding Case folding adalah tahap mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Pada tahapan ini, ada beberapa aturan proses agar hasil case folding dapat sesuai dengan yang diharapkan. Adapun aturan-aturan tersebut dapat dilihat pada Tabel 2.1. Tabel 2.1. Aturan Case Folding Kondisi Aksi Input-an data memiliki huruf kapital [A...Z] Mengubah semua inputan tersebut menjadi huruf kecil [a...z] semua Input-an data memiliki karakter Menghapus karakter simbol dari input-an. simbol Input-an data memiliki huruf kecil Tidak ada aksi Input-an data memiliki spasi Tidak ada aksi Contoh dari proses case folding dapat dilihat pada Gambar 2.2. Presiden Joko Widodo berpidato bahwa tidak ada perombakan kabinet dalam waktu dekat. presiden joko widodo berpidato bahwa tidak ada perombakan kabinet dalam waktu dekat Gambar 2.2. Proses Case Folding

26 Tokenizing Dokumen dapat dipecah menjadi bab-bab, bagian, paragraf, kalimat, kata, dan bahkan suku kata. Pendekatan yang paling sering ditemukan dalam sistem text mining melibatkan teks menjadi kalimat dan kata-kata, yang disebut tokenization. Tokenizing merupakan proses pemotongan string input berdasarkan tiap kata yang menyusunnya serta membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Beberapa aturan dalam proses tokenizing dapat dilihat pada Tabel 2.2. Tabel 2.2. Aturan Tokenizing Kondisi Aksi Jika input-an data bertemu spasi Akan memecah dari deskripsi data menjadi bab-bab per bagian kata atau string Jika input-an data memiliki huruf Tidak ada aksi Contoh dari proses tokenizing dapat dilihat pada Gambar 2.3. presiden joko widodo berpidato bahwa tidak ada perombakan kabinet dalam waktu dekat presiden joko widodo berpidato bahwa tidak ada perombakan kabinet dalam waktu dekat Gambar 2.3. Contoh Proses Tokenizing

27 Filtering Filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh kata yang termasuk stopwords adalah yang, dan, di, dari, dan seterusnya (Tala, 2003). Pada tahapan ini, beberapa aturan dalam proses filtering dapat dilihat pada Tabel 2.3. Kondisi Jika input-an data mengandung kata pada database stopword Jika input-an data tidak mengandung kata pada database stopword Tabel 2.3 Aturan Filtering Aksi Akan menghapus kata atau string dalam data Tidak akan dihapus kata atau string data Contoh dari proses filtering dapat dilihat pada Gambar 2.4. presiden joko widodo berpidato bahwa tidak ada perombakan kabinet dalam waktu dekat presiden joko widodo berpidato perombakan kabinet waktu dekat Gambar 2.4. Contoh Proses Filtering

28 Stemming Proses stemming adalah proses untuk mencari root dari kata hasil dari proses filtering. Stemming merupakan salah satu proses yang terdapat dalam sistem Information Retrieval (IR) untuk mengolah kata-kata yang terdapat dalam suatu dokumen dengan menggunakan aturan-aturan tertentu sehingga didapatkan kata dasarnya (root word). Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Teknik stemming terdiri dari beberapa macam metode. Metode pertama yaitu stemming dengan acuan tabel pemenggalan imbuhan. Proses stemming suatu term dengan metode ini dapat dilakukan dengan cara menghilangkan imbuhan dari term tersebut sesuai dengan tabel acuan pemenggalan imbuhan yang akan digunakan. Metode kedua adalah pengembangan dari metode pertama. Metode kedua ini selain menggunakan tabel acuan pemenggalan imbuhan, juga menggunakan suatu kamus kata dasar. Kamus kata dasar ini digunakan sebagai acuan hasil stemming saat proses pemenggalan imbuhan telah selesai dilakukan. Hasil dari proses stemming dengan metode ini harus ada pada kamus kata dasar, jika tidak ada pada kamus kata dasar maka term yang telah dimasukkan akan dianggap sudah sebagai bentuk dasar. Term yang sudah melewati proses pembuangan stopword yang akan menjadi input dalam proses ini. Contoh dari proses stemming dapat dilihat pada Gambar 2.5. berikut. mengungkapkan diberikan bertanya menangkap ungkap beri tanya tangkap Gambar 2.5. Contoh Proses Stemming

29 Algoritma Nazief & Andriani Algoritma Nazief & Adriani merupakan algoritma stemming untuk teks berbahasa Indonesia yang memiliki kemampuan presentase keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma ini menggunakan beberapa aturan morfologi untuk menghilangkan affiks (awalan, imbuhan, dll) dari sebuah kata dan kemudian mencocokannya dalam kamus akar kata (kata dasar). Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut (Nazief & Adriani, 1996): 1. Cari kata yang akan di-stem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah atau -pun ) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns ( -ku, -mu, atau -nya ), jika ada. 3. Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an atau -kan ) dikembalikan, lanjut langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recording. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

30 17 Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: di-, ke-, atau se- maka tipe awalannya secara berturut-turut adalah di-, ke-, atau se-. 2. Jika awalannya adalah te-, me-, be-, atau pe- maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya. 3. Jika dua karakter pertama bukan di-, ke-, se-, te-, be-, me-, atau pe- maka berhenti. 4. Jika tipe awalan adalah none maka berhenti. Hapus awalan jika ditemukan. Tabel 2.4. Kombinasi Awalan Akhiran Yang Tidak Diijinkan (Nazief & Adriani, 1996) Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Tabel 2.5. Tabel Aturan Peluruhan Kata Dasar (Nazief & Adriani, 1996) Aturan Awalan Peluruhan 1 berv ber-v.. be-rv.. 2 Belajar bel-ajar 3 berclerc2 be-clerc2.. dimana Cl!= { r l } 4 terv ter-v.. te-rv.. 5 tercer ter-cer dimana C!= r 6 teclerc2 te-clec2 dimana Cl!= r 7 me{i r w y}v me-{i r w y}v 8 mem{b f v} mem-{b f v} 9 mempe m-pe.. 10 mem{r V V} me-m{r V V} me-p{r V V}

31 18 Tabel 2.5. Tabel Aturan Peluruhan Kata Dasar (Lanjutan) Aturan Awalan Peluruhan 11 men{c d j z} men-{c d j z} 12 menv me-nv me-tv 13 meng{g h q k} meng-{g h q k} 14 mengv meng-v meng-kv 15 mengec meng-c 16 menyv me-ny men-sv 17 memv mem-pv 18 pe{w y}v pe-{w y}v 19 perv per-v pe-rv 20 pem{b f v} pem-{b f v} 21 pem{rv V} pe-m{rv V} pe-p{rv V} 22 pen{c d j z} pen-{c d j z} 23 penv pe-nv pe-tv 24 peng{g h q} peng-{g h q} 25 pengv peng-v peng-kv 26 penyv pe-nya peny-sv 27 pelv pe-iv...; kecuali untuk kata pelajar 28 pecp pe-cp...dimana C!={r w y I m n} dan P!= er 29 percerv per-cerv... dimana C!={r w y I m n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini: 1. Aturan untuk reduplikasi. a. Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : buku-buku root word-nya adalah buku. b. Kata lain, misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang

32 19 sama yaitu balas, maka root word berbalas-balasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik. 2. Tambahan bentuk awalan dan akhiran serta aturannya. a. Untuk tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng N-Gram Model n-gram adalah sebuah tipe model probabilistik untuk memperkirakan elemen selanjutnya pada sebuah urutan. N-gram digunakan untuk berbagai area statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan. Elemen dapat berupa fonem, huruf, kata, tergantung dari kebutuhan aplikasi. N-gram adalah potongan n karakter dalam suatu string tertentu atau potongan n kata dalam suatu kalimat tertentu (Cavnar & Trenkle, 1994). Metode N-gram digunakan untuk mengambil potongan-potongan karakter huruf/kata sejumlah n dalam sebuah kata/kalimat yang secara kontinu dibaca dari kata sumber hingga akhir dari dokumen. Jika n=1 maka disebut bigram, n=2 disebut bigram dan n=3 disebut trigram. Misalnya dalam kata Teknik akan didapatkan n-gram seperti pada Tabel 2.6 berikut. Tabel 2.6. Contoh Pemotogan N-gram Berbasis Karakter Nama n-gram karakter Uni-gram T, E, K, N, I, K Bi-gram _T, TE, EK, KN, NI, IK, K_ Tri-gram _TE, TEK, EKN, KNI, NIK, IK_, K Quad-gram _TEK, TEKN, EKNI, KNIK, NIK_, IK, K _

33 20 Karakter blank _ digunakan untuk merepresentasikan spasi di depan dan di akhir kata. Dan untuk word-based n-gram contohnya dapat dilihat pada Tabel 2.7. Kalimat : N-gram adalah potongan n karakter dalam suatu string tertentu Nama Uni-gram Bi-gram Tri-gram Dst... Tabel 2.7. Contoh Pemotongan N-gram Berbasis Kata n-gram karakter n-gram, adalah, potongan, n, karakter, dalam, suatu, sring, tertentu n-gram adalah, adalah potongan, potongan n, n karakter, karakter dalam, dalam suatu, suatu string, string tertentu n-gram adalah potongan, adalah potongan n, potongan n karakter, n karakter dalam, karakter dalam suatu, dalam suatu string, suatu string tertentu 2.7. Pembobotan Term Pembobotan Term Frequency (TF) merupakan pembobotan yang sering digunakan dalam pencarian informasi dari text mining (Jones, 2004). Bobot ini adalah ukuran statistik yang digunakan untuk mengevaluasi seberapa penting sebuah kata yang muncul dalam sebuah dokumen dari keseluruhan dokumen. Term Frequency akan meningkat berdasarkan jumlah kemunculan kata pada dokumen tertentu. Variasi skema pembobotan Term Frequency yang sering digunakan oleh mesin pencari merupakan alat utama dalam menilai dan merangking dokumen. Term Frequency (TF) merupakan metode yang paling sederhana dalam pembobotan setiap term. Setiap term diasumsikan memiliki kepentingan yang sebanding terhadap jumlah kemunculan term tersebut pada dokumen. Bobot dari term pada dokumen yaitu: TF d,t = f d,t (2.1) Dimana: d = dokumen ke-d t = token (kata) ke-t f d,t = frekuensi kemunculan term t pada dokumen d.

34 21 Term Frequency (TF) digunakan untuk memberi bobot pada kata-kata yang sering muncul dalam dokumen. Bobot tersebut mewakili jumlah kemunculan kata pada suatu dokumen tertentu. Semakin tinggi nilai bobot tersebut berarti semakin sering kata-kata tersebut muncul pada dokumen Faktorisasi Matriks Faktorisasi matriks merupakan proses pemecahan atau penguraian suatu matriks menjadi beberapa matriks. Matriks-matriks hasil faktorisasi biasanya memiliki struktur tertentu dimana membuat beberapa operasi akan menjadi lebih sederhana (efisien dari segi komputasi), jumlah komponen yang lebih sedikit (efisien dari segi memori). Beberapa contoh matriks hasil faktorisasi adalah matriks triangular (segitiga atas, segitiga bawah, diagonal), matriks ortogonal atau matriks yang memiliki rank yang lebih kecil. Secara umum, metode faktorisasi matriks dibagi menjadi dua kelompok, yaitu direct method dan approximation method. Direct method merupakan teknik yang secara teori memberikan nilai eksak dengan jumlah langkah terbatas. Contohnya adalah faktorisasi LU, faktorisasi Cholesky, dan faktorisasi QR. Sedangkan approximation method menggunakan suatu perkiraan solusi awal dan dilanjutkan dengan iterasi yang memberikan solusi hasil lebih baik. Tujuan metode ini adalah untuk mendapatkan cara meminimalkan perbedaan antara solusi perkiraan (approximation) dan solusi eksak. Contoh faktorisasi matriks dengan approximation method adalah single value decomposition (SVD), matrix factorization (MF), dan nonnegative matrix factorization (NMF) Non-Negative Matrix Factorization (NMF) Non-Negative Matrix Factorization diusulkan oleh Lee dan Seung (2001) sebagai metode untuk dekomposisi sebuah data matriks (Buciu & Nafornita, 2009). NMF merupakan matriks representasi kata dengan topik yang bernilai non-negatif sehingga matriks ini lebih mudah untuk diinterpretasikan.

35 22 NMF merupakan metode faktorisasi matriks V yang berukuran m x n menjadi matriks W mxk dan H kxn yang bernilai non-negatif. Lee & Seung (2001) mengusulkan metode dekomposisi dengan NMF secara umum dapat dinyatakan dalam bentuk persamaan 2.2. V = WH (2.2) Matriks V merupakan matriks kata dokumen yang merepresentasikan teks dokumen dimana setiap entri dari vektor kolomnya merepresentasikan banyaknya kata di sebuah dokumen. W adalah matriks bobot yang setiap vektor barisnya merepresentasikan vektor dari masing-masing kata terhadap topik dan H adalah matriks fitur yang setiap vektor kolomnya merepresentasikan vektor dari masing-masing dokumen terhadap topik seperti yang diilustrasikan pada Gambar 2.6 berikut. k 1 k 2 [ k m d 1 d 2 d n t 1 t 2 t k d 1 d 2 d n e 11 e 12 e 1n k 1 x 11 x 12 x 1k t 1 y 11 y 12 e 21 x k 21 2 t y 21 2 e m1 e 22 e m2 e 2n e mn ] k m [ x m1 x 22 x m2 x 2k x mk ] x t k [ y k1 y 22 y k2 y 1n y 2n y kn ] Gambar 2.6. Ilustrasi Non Negative Matrix Factorization Keterangan : k i = kata ke-i, d i = dokumen ke-i, t i = topik ke-i, e ij = jumlah kata ke-i dalam dokumen ke-j x ij = nilai hubungan antara kata ke-i dengan topik ke-j y ij = nilai hubungan antara topik ke-i dengan dokumen ke-j Dengan matriks aproksimasi, dicapai kondisi dimana perkalian matriks ini sama dengan matriks V.

36 23 Untuk mencapai kondisi ini dibutuhkan sebuah kriteria untuk mengetahui perkalian matriks W dan H yang didapat mendekati nilai V yang disebut sebagai Cost Function. Model Cost Function dibangun dengan pengukuran jarak antara dua matriks non-negatif A dan B, seperti yang dijelaskan dalam persamaan 2.3 (Paatero, 1997). A B 2 = (a ij b ij ) 2 ij (2.3) Untuk menyelesaikan masalah NMF ada beberapa algoritma yang sering digunakan, di antaranya additive update algorithm, multiplicative update algorithm, alternating least square algorithm, dan sebagainya. Multiplicative update rule adalah aturan yang populer dipakai untuk menyelesaikan masalah NMF. Aturan ini diklaim oleh Lee & Seung (2001) bahwa nilai dari cost function yang didapat dari pembaharuan matriks W dan H adalah nonincreasing dan limit point dari barisan W, H adalah titik stationary yang merupakan syarat penting untuk local minimum. Dari multiplicative rule tersebut, dibentuk algoritma untuk menyelesaikan masalah NMF (Berry et al, 2007). Rumus dari algoritma tersebut dapat dilihat pada persamaan 2.4 dan 2.5. H = H.*(V T V). / (W T WH+10 9 ) (2.4) W = W.*(VH T ). / (WHH T ) (2.5) Penambahan 10 9 pada persamaan tersebut untuk menghindari pembagian dengan nol Penelitian Terdahulu Fudolly (2011) memanfaatkan metode likelihood dan cosine similarity untuk menganalisis klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia. Uji coba dilakukan pada dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda beda. Aplikasi ini mempunyai fungsi utama

37 24 mengklasifikasikan berita berita online yang ada menjadi hirarki dengan topik dan kategori yang lebih spesifik. Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. Nugraha (2011) memanfaatkan metode KEA++ untuk penyaringan frasa kunci secara otomatis pada pencarian artikel ilmiah berbahasa Indonesia. Pada penelitian ini data yang digunakan adalah 30 jurnal akuntansi berbahasa berbahasa Indonesia dan Tesaurus akuntansi berbahasa Indonesia. Berdasarkan pengujian yang dilakukan, semakin banyak jumlah data pelatihan yang digunakan maka semakin tinggi pula akurasi dari proses penyaringan frasa kunci artikel ilmiah berbahasa Indonesia. Penggunaan Tesaurus dapat meningkatkan akurasi dalam proses penyaringan frasa kata kunci ini. Berdasarkan evaluasi dan responden terhadap 10 dokumen yang disaring frasa kuncinya, persentase jumlah frasa kunci yang sesuai adalah sebanyak 51.75%. Pada penelitian selanjutnya, analisis trending topic dengan menggunakan model pendeteksian topik sub-topik, peneliti menggunakan pendekatan Foreground Dynamic Topic Modelling (VF-DTM) untuk merangkum trending topic berdasarkan data tweet dalam struktur yang lebih baik (Banu S. Halima., 2016). Basri (2016) melakukan penelitian dengan memanfaatkan metode SVM untuk mengidentifikasi topik informasi publik media sosial di kota Surabaya berdasarkan klasterisasi teks pada twitter dengan algoritma K-Means. Penelitian yang dilakukan dapat menemukan topik-topik yang sering dibahas pada sosial media kota Surabaya dengan menggunakan metode SVM, dengan hasil yang memiliki persentase paling tinggi adalah SVM kernel linear. Park (2011) memanfaatkan metode Non Negative Matrix Factorization dan Pseudo Relevance Feedback untuk peringkasan dokumen otomatis dengan mengekstraksi kalimat yang relevan dengan user dengan ringkasan yang berfokus kepada user. Metode tersebut mengekstrak kalimat yang bermakna karena mencerminkan struktur dokumen yang berhubungan dengan fitur semantik dan variabel semantik dengan NMF. Kinerja metode yang diusulkan memperoleh nilai rata-rata F- Measure Hasil percobaan menunjukkan bahwa metode yang diusulkan mencapai kinerja yang lebih baik dari metode lainnya.

38 25 Penelitian terdahulu yang telah dijelaskan di atas akan diuraikan secara singkat pada Tabel 2.8 berikut: Tabel 2.8. Penelitian Terdahulu No. Peneliti Tahun Metode Keterangan 1. Fudolly 2011 Likelihood dan Klasifikasi kategori dan Cosine Similarity identifikasi topik dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda beda Algoritma yang diusulkan oleh terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. 2. Nugraha 2011 KEA++ Penyaringan frasa kunci secara otomatis pada pencarian artikel ilmiah berbahasa Indonesia Data yang digunakan adalah 30 jurnal akuntansi berbahasa berbahasa Indonesia dan Tesaurus akuntansi berbahasa Indonesia. Berdasarkan evaluasi dan responden terhadap 10 dokumen

39 26 yang disaring frasa kuncinya, persentase jumlah frasa kunci yang sesuai adalah sebanyak 51.75%. Tabel 2.8. Penelitian Terdahulu (Lanjutan) 3. Banu S. Halima 2016 Foreground Merangkum trending topic Dynamic Topic berdasarkan data tweet dalam Modelling (VF- struktur yang lebih baik DTM) 4. Basri 2016 K-Means Mengidentifikasi topik informasi Clustering & publik media sosial di kota Support Vector Surabaya berdasarkan Machine klasterisasi teks pada twitter Penelitian yang dilakukan dapat menemukan topik-topik yang sering dibahas pada sosial media kota Surabaya dengan menggunakan metode SVM, dengan hasil yang memiliki persentase paling tinggi adalah SVM kernel linear. 5. Park 2016 Non Negative Peringkasan dokumen otomatis Matrix dengan mengekstraksi kalimat Factorization yang relevan dengan user (NMF) dan Pseudo Relevance Feedback dengan ringkasan yang berfokus kepada user Metode tersebut mengekstrak kalimat yang bermakna karena mencerminkan struktur

40 27 dokumen yang berhubungan dengan fitur semantik dan variabel semantik dengan NMF Kinerja metode yang diusulkan memperoleh nilai rata-rata F- Measure 46.8 yang menunjukkan bahwa metode ini mencapai kinerja yang lebih baik dari metode lainnya.

41 28 BAB 3 ANALISIS DAN PERANCANGAN Bab ini membahas mengenai data yang digunakan, penerapan algoritma dan analisis perancangan sistem terhadap implementasi algoritma Non Negative Matrix Decomposition dalam melakukan proses ekstraksi tren topik artikel berita online. Ada dua tahapan yang akan dibahas pada bab ini yaitu tahap analisis dan tahap perancangan sistem. Tahap analisis akan membahas mengenai analisis terhadap data dan metode yang digunakan, sedangkan tahap perancangan sistem akan membahas mengenai perancangan tampilan antarmuka. 3.1 Data Acquisition (Pengumpulan data) Data yang digunakan untuk proses ekstraksi topik merupakan kumpulan artikel (korpus) yang disimpan dalam database sebanyak 842 artikel dengan kategori berita nasional, berita entertaiment, dan berita teknologi. Kumpulan artikel (korpus) ini merupakan hasil dari web crawler situs website berbahasa Indonesia yang didapatkan dari portal berita online. Situs website yang diambil adalah situs berita pada tanggal 06 Juni 2017 s/d 09 Juni 2017 dengan memanfaatkan URL dari beberapa portal berita online berbahasa Indonesia, yaitu: a. Liputan6.com b. Kompas.com c. Tribunnews.com d. Sindonews.com e. Viva.co.id 3.2. Analisis Sistem Ekstraksi topik artikel berita online menggunakan metode Non-Negative Matrix Factorization merupakan sistem yang berfungsi untuk mengetahui berita apa yang sedang trend dibahas pada periode waktu tertentu. Arsitektur umum terdiri dari 3 bagian

42 29 utama, yaitu input, proses, dan output. Tahapan yang dilakukan pada proses input adalah artikel berita hasil crawling yang dapat dilihat pada gambar 3.1. Tahapan proses merupakan bagian pre-processing, pembuatan kamus n-gram, term frequency, serta ekstraksi tren topik menggunakan perhitungan Non-Negative Matrix Decomposition. Tahapan post processing adalah proses yang berada di luar program. Sedangkan untuk tahapan output adalah berupa tren topik-topik berdasarkan tanggal per harinya dengan kategori nasional, entertaiment, dan teknologi, yang berbentuk visualisasi grafik. Arsitektur umum yang mendeskripsikan setiap metodologi pada penelitian ini ditunjukkan pada Gambar 3.1.

43 30 Input Seeds URL Crawling Artikel Berita Proses Text Preprocessing Case Folding Tokenizing Stopword Removal (Filtering) Stemming Pembuatan kamus n-gram Term Frequency Ekstraksi Tren Topik Output Visualisasi Tren Topik Non-Negative Matrix Factorization List of topic Gambar 3.1. Arsitektur Umum

44 Input Data Tahapan paling awal dimulai dari input data berupa artikel-artikel berbahasa Indonesia. Gambar 3.2 berikut ini merupakan proses input data hingga menghasilkan artikel berita menggunakan teknik crawling. Seeds URL Fetch Parse Content Extraction Artikel Berita Gambar 3.2. Proses Crawling Dalam langkah pertama, sebuah web crawler mengambil URL dan mengunduh halaman (fetch) dari internet berdasarkan URL yang diberikan. Artikel yang di-input berasal dari url-url portal berita online yang ditentukan oleh penulis. Halaman yang diunduh ditempatkan di database. Selanjutnya, web crawler mem-parsing keseluruhan webpage yang diunduh dan mengambil link-link ke halaman lain. Pada penelitian ini, web crawler selain mengambil link-link juga akan mengambil konten berita pada webpage. Setelah crawler mengambil link dari webpage, tiap link ditambahkan ke sebuah daftar untuk di-crawl. Pada tahap ini dilakukan content extraction menggunakan boilerpipe. Boilerpipe merupakan salah satu algoritma ekstraksi konten pada halaman HTML yang menyediakan algoritma untuk mendeteksi dan menghapus konten-konten selain main content seperti boilerplate ataupun template. Teknik extraction yang digunakan dalam boilerpipe ini merupakan ArticleExtractor, dimana crawler hanya meng-extract konten artikel berita saja. Selanjutnya, web crawler akan mengulangi proses. Semua crawler bekerja dengan rekursif atau bentuk perulangan sehingga tahap

45 32 terakhir menghasilkan artikel berita dengan informasi tanggal terbit berita. Semua artikel yang dihasilkan akan masuk ke dalam database yang nantinya akan dikelompokkan berdasarkan tanggal terbit dan kategori beritanya Text pre-processing Tahapan text-preprocessing adalah tahapan awal dalam proses text mining. Tahap ini bertujuan untuk memproses artikel mentah menjadi artikel yang siap untuk diproses lebih lanjut. Artikel yang akan diproses adalah artikel hasil crawling yang telah diproses sebelumnya dan telah dikelompokkan berdasarkan kategori dan tanggal terbit beritanya. Terdapat beberapa tahapan dalam text pre-processing, yaitu case-folding, tokenizing, filtering, dan stemming. a. Case folding Proses case folding adalah proses untuk mengubah semua huruf kapital menjadi huruf biasa. b. Tokenizing Proses tokenizing merupakan tahap pengolahan dokumen untuk menghilangkan gambar, tanda baca, spasi, dan karakter selain huruf (non-alpha character). Tahap ini memecah dokumen menjadi struktur terkecil yang dapat diproses, yaitu kata (term). Setelah melewati proses ini, dokumen berubah menjadi barisan kata dengan huruf kecil. c. Filtering Proses filtering adalah proses pemilihan kata-kata yang akan digunakan untuk merepresentasikan dokumen sehingga dapat digunakan untuk: - Mendeskripsikan isi dokumen - Membedakan dokumen dengan dokumen lain dalam kumpulan dokumen. Kata-kata yang mungkin tidak memiliki makna yang berarti ketika berdiri sendiri, seperti kata hubung, kata depan, dan negasi dihilangkan dari setiap dokumen

46 33 Kumpulan kata ini disebut dengan stop-word. Pada penelitian ini, penulis menggunakan stop-word yang diperoleh dari penelitian Tala. d. Stemming Stemming adalah proses pengubahan suatu kata menjadi morfem atau kata dasar yang membangunnya. Algoritma stemming yang digunakan adalah algoritma stemming Nazief Adriani yang telah dijelaskan pada bagian Pembuatan kamus n-gram Setelah dilakukan proses pre-processing, tahapan selanjutnya yang dilakukan adalah pembuatan kamus kata kandidat topik yang akan diekstraksi menggunakan konsep pembentukan kamus n-gram. N-gram merupakan rangkaian dari n huruf atau n kata. Data n-gram terdiri dari kumpulan kata-kata 1 kata, 2 kata, dan 3 kata yang memiliki nilai yang disebut dengan frekuensi. Pada kamus 1 kata, kalimat dipisahkan per 1 kata dan dihitung frekuensi kemunculan kata tersebut pada semua data dokumen yang telah diproses pada tahap pre-processing. Pada kamus 2 kata, kalimat dipisahkan per 2 kata dan dihitung frekuensi kemunculan katanya pada semua artikel. Pada kamus 3 kata, kalimat dipisahkan per 3 kata dan dihitung frekuensi kemunculan katanya pada semua artikel yang tersedia. Setelah menghitung frekuensi dari masing-masing daftar kata, maka kemudian lakukan pembuangan kata yang frekuensi kemunculannya terlalu sedikit, sehingga proses perhitungan frekuensi berikutnya hanya akan dilakukan untuk kata-kata yang frekuensinya cukup banyak Pembentukan matriks kata dokumen Setelah mendapatkan kamus 1 kata, 2 kata, dan 3 kata hasil ekstraksi kamus n-gram, selanjutnya akan dibentuk sebuah matriks kata A, yaitu sesuai dengan frekuensi kata yang telah dihitung pada proses sebelumnya. Kolom-kolom dari matriks V merepresentasikan artikel sedangkan baris-baris dari matriks V merepresentasikan kata.

47 34 Pada proses pembentukan matriks kata dokumen, pertama dimulai dengan menghitung kemunculan semua kata-kata pada kamus kata pada suatu artikel sehingga terbentuk sebuah vektor. Berikut merupakan data yang akan dibentuk matriks kata dokumennya yang ditampilkan pada Tabel 3.1. Tabel 3.1. Proses Penyiapan Data No. Tokenization Filtering Term Frequency 1. Bk, dpr, aturan, senpi, di, kode, etik, anggota, dewan [dpr, aturan, senpi, anggota] { dpr : 1, aturan : 1. senpi : 1, anggota : 1 } 2. Keributan, pecah, [keributan, eleven, { keributan : 1, eleven : 1, dinihari, eleven, salemba, polisi] salemba : 1, polisi : 1 } salemba, beri, garis, polisi 3. Keributan, di, eleven, [keributan, eleven, { keributan : 1 : eleven : 1, salemba, menyisakan, salemba] salemba : 1 } bercak, darah 4. Pelaku, keributan, di, eleven, salemba, duga, [pelaku, keributan, eleven, salemba] { pelaku : 1, keributan : 1, eleven : 1, salemba : 1 } orang 5. Keributam, di, eleven, salemba, orang, luka [keributan, eleven, salemba, luka] { keributan : 1, eleven : 1, salemba : 1, luka : 1 } Dengan menggunakan kumpulan kata yang digunakan dalam proses NMF, dibangun sebuah dictionary atau kamus berisikan kata-kata yang berbeda. Dengan bantuan kamus tersebut, dapat dibangun hubungan kata dan dokumen yang dijelaskan pada Tabel berikut.

48 35 K a t a Tabel 3.2. Hubungan Kata Dokumen Dokumen d1 d2 d3 d4 d5 dpr aturan senpi Anggota keributan Eleven Salemba Polisi Pelaku Luka Dari Tabel 3.2. di atas kemudian dibentuk sebuah matriks kata-dokumen A berukuran 10x5 dengan setiap anggotanya menunjukkan frekuensi kata dalam dokumen A = [ ] Ekstraksi tren topik dengan NMF Proses selanjutnya adalah memasuki proses utama dalam algoritma NMF (Non Negative Matrix Factorization), yaitu melakukan dekomposisi matriks A menjadi matriks W dan matriks H sehingga memenuhi rumus A = WH. Dalam kasus contoh

49 36 pada tabel 3.2, matriks A memiliki ukuran matriks sebesar 10 x 5, sehingga matriks W akan memiliki ukuran sebesar 10 x 10 dan matriks H akan memiliki ukuran sebesar 10 x 5. Langkah-langkah yang dilakukan adalah: 1. Langkah pertama adalah melakukan inisialisasi nilai acak antara 0 sampai dengan 1 untuk masing-masing nilai pada matriks W dan H, sehingga akan dibutuhkan nilai acak untuk matriks W sebanyak 10 x 10 dan nilai acak untuk matriks H sebanyak 10 x Langkah kedua adalah menghitung perkalian matriks W * H dan kemudian menghitung jarak Euclidean antara matriks A dengan matriks tersebut. Jarak Euclidean dihitung dengan rumus A B 2 = (a ij b ij ) 2 ij Simpan nilai perkalian matriks W*H sebagai matriks V, dan nilai jarak Euclidean sebagai nilai cost. 3. Langkah ketiga adalah melakukan update matriks W dan H menggunakan rumus H = H.*(V T V). / (W T WH+10 9 ) W = W.*(VH T ). / (WHH T ) 4. Ulangi perhitungan langkah kedua dan langkah ketiga sampai ditemukan nilai cost yang mendekati 0, dengan kata lain sudah tidak ditemukan perbedaan yang signifikan antara matriks A dan V. 5. Dapatkan nilai bobot sementara dari masing-masing kata, yaitu sesuai dengan nilai pada matriks H.

50 37 6. Lakukan perhitungan nilai bobot per kata, yaitu dengan cara membagi nilai matriks H dengan total semua nilai pada matriks H. 7. Untuk pasangan 2 kata dan pasangan 3 kata, maka bobot kata dihitung dengan penjumlahan bobot dari setiap kemungkinan kata yang terdapat pada pasangan kata tersebut, sehingga: Bobot untuk pasangan 2 kata dihitung dengan rumus Bobot = bobot pasangan 2 kata + bobot kata pertama + bobot kata kedua Bobot untuk pasangan 3 kata dihitung dengan rumus Bobot + bobot pasangan 3 kata + bobot pasangan 2 kata kombinasi pertama + bobot pasangan 2 kata kombinasi kedua + bobot kata pertama + bobot kata kedua + bobot kata ketiga 8. Lakukan pengurutan bobot kata dari bobot kata tertinggi sampai ke bobot kata terendah, dan kemudian dapatkan 5 bobot kata tertinggi sebagai jawaban topik Perancangan Sistem Perancangan pada sistem pada penelitian ini dibagi menjadi dua bagian yakni perancangan sistem bagian belakang (back-end) dan perancangan sistem bagian depan (front-end) Perancangan sistem bagian belakang (back-end) Perancangan sistem bagian belakang (back end) lebih fokus terhadap program, fungsi, script, serta alur data yang diterapkan pada sistem. Back-end dari sebuah sistem terdiri dari server, aplikasi, dan database. Pada penelitian ini perancangan back end meliputi proses web extraction dengan teknik crawling untuk mendapatkan dataset berupa artikel dari portal berita online, lalu melakukan pre-processing untuk menyamakan struktur data, pembuatan kamus, pembentukan matriks kata. Setelah itu dilakukan pengujian algoritma Non Negative Matrix Factorization untuk menghasilkan tren-tren

51 38 topik yang sedang hangat dibicarakan pada periode waktu tertentu sesuai dengan kategori berita yang diinginkan Perancangan sistem bagian depan (front-end) Perancangan sistem bagian depan (front-end) pada penelitian ini menggunakan Graphical User Interface (GUI). Perancangan front-end ditujukan untuk membantu pengguna dalam menggunakan sistem. Sistem bagian depan dirancang untuk menjalankan setiap proses pada penelitian ini dan memvisualisasikan hasil dari proses ekstraksi. Gambaran rancangan sistem bagian depan (front-end) dapat dilihat pada Gambar 3.3. Gambar 3.3. Rancangan Bagian Depan Sistem Sistem bagian depan (front-end) pada penelitian ini mempresentasikan setiap proses yang ada untuk melakukan ekstraksi tren topik dari artikel berita online hasil crawler. User meng-input tanggal berita dan memilih kategori berita apa yang ingin dicari

52 39 trending topic-nya. Periode tanggal berita dipilih berdasarkan tanggal harian dan kategori berita yang diplih yaitu kategori nasional, entertaiment, atau teknologi. Proses perhitungan dilakukan untuk proses ekstraksi artikel-artikel sehingga hasil dari proses ekstraksi yang dilakukan akan divisualisasikan ke dalam bentuk grafik beserta keterangan bobot dan list tren topik berita yang sedang hangat dibicarakan.

53 40 BAB 4 IMPLEMENTASI DAN PENGUJIAN Pada bab ini, akan membahas hasil yang didapatkan dari proses implementasi dan pengujian sistem dengan menggunakan metode Non Negative Matrix Decomposition untuk ekstraksi tren topik artikel berita online Implementasi Sistem Kebutuhan sistem Dalam perancangan ekstraksi tren topik artikel berita online menggunakan metode Non Negative Matrix Decomposition memerlukan perangkat keras dan perangkat lunak pendukung, antara lain : a. Perangkat keras Spesifikasi perangkat keras yang digunakan dalam pembuatan sistem ini adalah : 1. Processor : Inter Core i3 CPU 2.53GHz 2.53 GHz 2. RAM : 2.00 GB 3. Hardisk : 500 GB b. Perangkat lunak Spesifikasi perangkat lunak yang digunakan dalam pembuatan sistem ini adalah : 1. Sistem operasi yang digunakan Windows 8.1 Pro 64 bit 2. XAMPP Windows version NetBeans IDE 8.2

54 Hasil preparasi data Proses pertama dari implementasi sistem ini adalah persiapan data yang akan digunakan. Persiapan data ini terdiri dari penentuan sumber data. Data merupakan hasil dari web crawler situs website berbahasa Indonesia yang didapatkan dari portal berita online dengan kategori nasional, entertaiment, dan teknologi. Situs website yang diambil adalah situs berita pada tanggal 06 Juni 2017 s/d 09 Juni 2017 dengan memanfaatkan URL dari beberapa portal berita online berbahasa Indonesia, yaitu: a. Liputan6.com b. Kompas.com c. Tribunnews.com d. Sindonews.com e. Viva.co.id Detail dari kumpulan artikel yang didapat dari hasil web crawler dapat dilihat pada Gambar Jumlah Artikel Portal Berita Liputan 6 Kompas Tribunnews Sindones Viva Gambar 4.1. Grafik Artikel Hasil Web Crawler

55 42 Kemudian artikel hasil crawling dari portal berita online ini dikelompokkan berdasarkan tanggal terbitnya sehingga didapatkan statistik jumlah artikel berita yang ditampilkan pada Gambar 4.2. berikut. J u m l a h Jumlah Artikel Berita Perhari Tanggal Gambar 4.2. Grafik Jumlah Artikel Yang Akan Diproses Per Hari Hasil text preprocessing Contoh artikel awal hasil dari web crawler yang akan diproses dapat dilihat pada Gambar 4.3. Wiranto: Penindakan Hukum adalah Tugas Aparat, Bukan Ormas 06 Jun 2017, 15:41 WIB Liputan6.com, Jakarta - Menteri Koordinator Politik Hukum dan HAM Wiranto mengecam keras aksi persekusi yang akhir-akhir ini marak terjadi. Wiranto mengingatkan agar semua masyarakat menyadari hukum yang berlaku di Indonesia. "Masalah penindakan dari masalah tertentu terhadap kelompok tertentu, itu yang menindak adalah aparat penegak hukum, bukan (organisasi) masyarakat," tegas Wiranto, di Jakarta, Selasa (6/6/2017). Wiranto menambahkan, setiap negara memiliki kesepakatan hukum yang harus diikuti seluruh elemen masyarakat. "Satu negara punya satu hukum yang merupakan kesepakatan kolektif yang semua warga negara Indonesia harus mematuhinya," ujar Wiranto di kantornya, Jakarta, Selasa (6/6/2017). Baru-baru ini remaja berinisial PMA di Cipinang Muara, Jakarta Timur menjadi korban persekusi, lantaran diduga menghina

56 43 pimpinan dan ormas di media sosial. Bocah berumur 15 tahun itu dipaksa menandatangani surat perjanjian, agar tidak mengulangi perbuatannya. Selain mendapat intimidasi, PMA juga mendapat kekerasan fisik dari sejumlah orang yang diduga anggota ormas tersebut. Bahkan, dalam video yang sempat beredar di media sosial, dia mendapat ancaman pembunuhan. Gambar 4.3. Contoh Artikel Awal Hasil Web Crawler Selanjutnya akan dijabarkan hasil yang diperoleh dari setiap proses yang ada pada tahap text pre-processing yang terdiri dari case-folding, tokenizing, filetering, dan stemming. Artikel memasuki proses case-folding. Case Folding adalah proses untuk mengubah semua huruf kapital menjadi huruf biasa. Hasil dari proses case folding dapat dilihat pada Gambar 4.4. wiranto: penindakan hukum adalah tugas aparat, bukan ormas 06 jun 2017, 15:41 wib liputan6.com, jakarta - menteri koordinator politik hukum dan ham wiranto mengecam keras aksi persekusi yang akhir-akhir ini marak terjadi. wiranto mengingatkan agar semua masyarakat menyadari hukum yang berlaku di indonesia. "masalah penindakan dari masalah tertentu terhadap kelompok tertentu, itu yang menindak adalah aparat penegak hukum, bukan (organisasi) masyarakat," tegas wiranto, di jakarta, selasa (6/6/2017). wiranto menambahkan, setiap negara memiliki kesepakatan hukum yang harus diikuti seluruh elemen masyarakat. "satu negara punya satu hukum yang merupakan kesepakatan kolektif yang semua warga negara indonesia harus mematuhinya," ujar wiranto di kantornya, jakarta, selasa (6/6/2017). baru-baru ini remaja berinisial pma di cipinang muara, jakarta timur menjadi korban persekusi, lantaran diduga menghina pimpinan dan ormas di media sosial. bocah berumur 15 tahun itu dipaksa menandatangani surat perjanjian, agar tidak mengulangi perbuatannya. selain mendapat intimidasi, pma juga mendapat kekerasan fisik dari sejumlah orang yang diduga anggota ormas tersebut. bahkan, dalam video yang sempat beredar di media sosial, dia mendapat ancaman pembunuhan. Gambar 4.4. Artikel Hasil Case Folding Setelah melewati proses case folding, selanjutnya artikel memasuki proses tokenizing. Tokenizing adalah proses untuk membuang semua angka dan karakter spesial yang terdapat dalam artikel. Hasil dari proses tokenizing dapat dilihat pada Gambar 4.5.

57 44 wiranto penindakan hukum adalah tugas aparat bukan ormas jun wib liputancom jakarta menteri koordinator politik hukum dan ham wiranto mengecam keras aksi persekusi yang akhirakhir ini marak terjadi wiranto mengingatkan agar semua masyarakat menyadari hukum yang berlaku di indonesia masalah penindakan dari masalah tertentu terhadap kelompok tertentu itu yang menindak adalah aparat penegak hukum bukan organisasi masyarakat tegas wiranto di jakarta selasa wiranto menambahkan setiap negara memiliki kesepakatan hukum yang harus diikuti seluruh elemen masyarakat satu negara punya satu hukum yang merupakan kesepakatan kolektif yang semua warga negara indonesia harus mematuhinya ujar wiranto di kantornya jakarta selasa barubaru ini remaja berinisial pma di cipinang muara jakarta timur menjadi korban persekusi lantaran diduga menghina pimpinan dan ormas di media sosial bocah berumur tahun itu dipaksa menandatangani surat perjanjian agar tidak mengulangi perbuatannya selain mendapat intimidasi pma juga mendapat kekerasan fisik dari sejumlah orang yang diduga anggota ormas tersebut bahkan dalam video yang sempat beredar di media sosial dia mendapat ancaman pembunuhan Gambar 4.5. Artikel Hasil Tokenizing Setelah melewati proses tokenizing, selanjutnya dilakukan proses filtering yaitu membuang kata-kata yang dianggap tidak terlalu memberi makna pada topik seperti kata penghubung, kata ganti orang, identitas portal, dan sebagainya. Contoh proses dari filtering/stopword removal dapat dilihat pada Gambar 4.6. wiranto penindakan hukum tugas aparat ormas jakarta menteri koordinator politik hukum ham wiranto mengecam keras aksi persekusi marak wiranto mengingatkan masyarakat menyadari hukum berlaku indonesia masalah penindakan masalah kelompok menindak aparat penegak hukum organisasi masyarakat tegas wiranto jakarta selasa wiranto menambahkan negara memiliki kesepakatan hukum diikuti seluruh elemen masyarakat negara hukum kesepakatan kolektif warga negara indonesia mematuhinya wiranto kantornya jakarta selasa remaja berinisial pma cipinang muara jakarta timur korban persekusi lantaran diduga menghina pimpinan ormas media sosial bocah berumur tahun dipaksa menandatangani surat perjanjian mengulangi perbuatannya intimidasi pma mendapat kekerasan fisik sejumlah orang diduga anggota ormas video beredar media sosial mendapat ancaman pembunuhan Gambar 4.6. Artikel Hasil Filtering

58 45 Proses selanjutnya adalah proses stemming untuk mencari kata dasar dari masingmasing daftar kata yang telah didapatkan pada proses filtering. Artikel hasil crawling ini merupakan hasil akhir dari proses pre-processing. Contoh dari proses stemming dapat dilihat pada Gambar 4.7. wiranto tindak hukum tugas aparat ormas jakarta menteri koordinator politik hukum ham wiranto kecam keras aksi persekusi marak wiranto ingat masyarakat sadar hukum berlaku indonesia masalah tindak masalah kelompok tindak aparat tegak hukum organisasi masyarakat tegas wiranto jakarta selasa wiranto tambah negara milik sepakat hukum ikut seluruh elemen masyarakat negara hukum sepakat kolektif warga negara indonesia patuh wiranto kantor jakarta selasa remaja inisial pma cipinang muara jakarta timur korban persekusi lantaran duga hina pimpinan ormas media sosial bocah umur tahun paksa tandatangan surat perjanjian ulang perbuatan intimidasi pma dapat keras fisik jumlah orang duga anggota ormas dalam video edar media sosial dapat ancaman bunuh Gambar 4.7. Artikel Hasil Stemming Setelah dilakukan proses filtering dan stemming, didapatkan kamus satu kata yang akan diekstraksi selanjutnya. Pada Gambar 4.8. dapat dilihat bahwa jumlah kata dari artikel hasil crawling yang telah melewati proses pre-processing yang dikumpulkan setiap harinya berbeda Jumlah Kata Per Hari J u m l a h Tanggal Gambar 4.8. Grafik Jumlah Kata Berbeda Yang Dilibatkan Per Hari

59 Hasil pembuatan kamus n-gram Setelah dilakukan proses pre-processing dan didapatkan kamus kata yang terdiri dari 1 kata, tahapan selanjutnya yang dilakukan adalah pembuatan kamus kata kandidat topik yang akan diekstraksi menggunakan konsep pembentukan kamus n-gram. N-gram merupakan rangkaian dari n huruf atau n kata. Data n-gram pada penelitian ini diambil dari kamus kata yang diproses sebelumnya dan dilakukan pembuatan kamus 2 kata dan 3 kata. Contoh dari pembuatan kamus n-gram dapat dilihat pada Tabel 4.1. Tabel 4.1. Hasil Pembentukan Kamus N-Gram 1 Kata 2 Kata 3 Kata Wiranto wiranto tindak wiranto tindak hukum Tindak tindak hukum tindak hukum tugas Hukum hukum tugas hukum tugas aparat Tugas tugas aparat tugas aparat ormas Aparat aparat ormas aparat ormas jakarta Ormas ormas jakarta ormas jakarta menteri Jakarta jakarta menteri jakarta menteri politik Menteri menteri politik menteri politik hukum Politik politik hukum politik hukum ham Hukum hukum ham Ham dst Hasil ekstraksi tren topik dengan NMF Tahap terakhir dari proses ini adalah dilakukan ekstraksi tren topik dengan NMF, dimana dilakukan pembobotan kata dari bobot kata tertinggi sampai ke bobot kata terendah, dan kemudian didapatkan keluaran berupa 5 bobot kata tertinggi sebagai

60 47 jawaban tren topik yang divisualisasikan dalam bentuk grafik disertakan dengan log perhitungan menggunakan Non-Negative Matrix Factorization. Gambar 4.9 sampai Gambar 4.12 menunjukkan hasil dari ekstraksi tren topik harian portal berita online berbahasa Indonesia menggunakan metode Non-Negative Matrix Factorization berdasarkan tanggal dan kategori berita. Gambar 4.9. Hasil Ekstraksi Data Kategori Nasional Tanggal 06 Juni 2017 Pada Gambar 4.9. dapat dilihat bahwa topik majelis ulama indonesia merupakan tren topik yang sedang dibicarakan di media online. Kemudian diikuti dengan topik presiden joko widodo, selanjutnya topik dprd jawa timur, kemudian diikuti oleh topik firza husein, dan terakhir diikuti topik presidential threshold.

61 48 Gambar Hasil Ekstraksi Data Kategori Entertaiment Tanggal 08 Juni 2017 Pada Gambar dapat dilihat bahwa topik mendiang julia perez merupakan tren topik yang sedang dibicarakan di media. Kemudian diikuti dengan topik film filosofi kopi, selanjutnya topik ketiga julia perez, kemudian diikuti oleh topik luna maya, dan topik kelima diikuti oleh ovi sovianti.

62 49 Gambar Hasil Ekstraksi Data Kategori Teknologi Tanggal 08 Juni 2017 Pada Gambar dapat dilihat bahwa topik youtube preview thumbnail merupakan tren topik yang sedang dibicarakan di media. Kemudian diikuti dengan topik drone alap alap, selanjutnya topik ketiga blokir situs telegram, kemudian diikuti oleh topik produk polytron smartphone, dan topik kelima diikuti oleh gelar the nextdev.

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN 071402054 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan BAB I PENDAHULUAN 1.1 Latar Belakang Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan sebuah sistem penilaian atau evaluasi. Penilaian adalah suatu proses untuk mengambil keputusan dengan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB 1 PENDAHULUAN. Universitas Sumatera Utara 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

1. Pendahuluan 2. Kajian Pustaka

1. Pendahuluan 2. Kajian Pustaka 1. Pendahuluan Evaluasi hasil belajar menjadi komponen yang sangat penting dalam proses pembelajaran, karena hasil evaluasi merupakan indikator dari pemahaman siswa terhadap materi ajar yang diberikan.

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah 3.1.1 Analisis Kebutuhan Ada banyak hal yang berhubungan dengan sastra atau ilmu bahasa yang dapat diterapkan di dalam teknologi, seperti penerjemahan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI

PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI PENDETEKSIAN KESAMAAN PADA DOKUMEN TEKS MENGGUNAKAN KOMBINASI ALGORITMA ENHANCED CONFIX STRIPPING DAN ALGORITMA WINNOWING SKRIPSI ADE CHANIA SION SAGALA 091402044 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI

PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI PREDIKSI PRODUKSI PANEN KELAPA SAWIT MENGGUNAKAN JARINGAN SARAF RADIAL BASIS FUNCTION (RBF) SKRIPSI RINI JANNATI 101402072 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

ABSTRAK. Kata kunci: algoritma Smith-Waterman, algoritma Nazief-Adriani, cosine similarity, data mining, dokumen tugas akhir, nilai kemiripan

ABSTRAK. Kata kunci: algoritma Smith-Waterman, algoritma Nazief-Adriani, cosine similarity, data mining, dokumen tugas akhir, nilai kemiripan ABSTRAK Sistem pengecekan kemiripan dokumen tugas akhir pada Fakultas Teknologi Informasi Universitas Kristen Maranatha masih dilakukan secara manual sehingga mahasiswa dapat meniru dokumen tugas akhir

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER

FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER FOCUSED CRAWLER UNTUK MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER SKRIPSI CYNTHIA ARILLA SEMBIRING 091402124 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

PENENTUAN LOKASI PARKIR KOSONG MENGGUNAKAN ALGORITMA PROBABILISTIC NEURAL NETWORK (PNN) SKRIPSI JOKO KURNIANTO

PENENTUAN LOKASI PARKIR KOSONG MENGGUNAKAN ALGORITMA PROBABILISTIC NEURAL NETWORK (PNN) SKRIPSI JOKO KURNIANTO PENENTUAN LOKASI PARKIR KOSONG MENGGUNAKAN ALGORITMA PROBABILISTIC NEURAL NETWORK (PNN) SKRIPSI JOKO KURNIANTO 121402102 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

1. Introduction. tertentu memegang peran penting dalam. Abstract

1. Introduction. tertentu memegang peran penting dalam. Abstract Perbandingan Metode Latent Semantic Analysis, Syntactically Enhanced Latent Semantic Analysis, dan Generalized Latent Semantic Analysis dalam Klasifikasi Dokumen Berbahasa Inggris Gilbert Wonowidjojo Bina

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Informasi telah menjadi kebutuhan utama dalam kehidupan manusia. Informasi bisa dikatakan sebagai pengetahuan yang didapatkan dari pembelajaran, pengalaman, atau instruksi.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Natural Language Processing Natural language processing (NLP), merupakan salah satu pendekatan terkomputerisasi untuk menganalisa teks berdasarkan aspek teori dan teknologi. Menurut

Lebih terperinci

KLASIFIKASI PENDARAHAN OTAK MENGGUNAKAN METODE EXTREME LEARNING MACHINE SKRIPSI AULIYA DOLI RIZKI S

KLASIFIKASI PENDARAHAN OTAK MENGGUNAKAN METODE EXTREME LEARNING MACHINE SKRIPSI AULIYA DOLI RIZKI S KLASIFIKASI PENDARAHAN OTAK MENGGUNAKAN METODE EXTREME LEARNING MACHINE SKRIPSI AULIYA DOLI RIZKI S 121402081 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PENGENALAN KATA MENGGUNAKAN SELF-ORGANIZING MAP SEBAGAI INPUT KAMUS BERBASIS ANDROID FAJAR MATIUS GINTING

PENGENALAN KATA MENGGUNAKAN SELF-ORGANIZING MAP SEBAGAI INPUT KAMUS BERBASIS ANDROID FAJAR MATIUS GINTING PENGENALAN KATA MENGGUNAKAN SELF-ORGANIZING MAP SEBAGAI INPUT KAMUS BERBASIS ANDROID FAJAR MATIUS GINTING 101402055 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI

PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI UNIVERSITAS INDONESIA PENGELOMPOKAN DOKUMEN BAHASA INDONESIA DENGAN TEKNIK REDUKSI DIMENSI NONNEGATIVE MATRIX FACTORIZATION DAN RANDOM PROJECTION SKRIPSI Suryanto Ang 1205000886 FAKULTAS ILMU KOMPUTER

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan volume dan keragaman informasi yang tersedia di internet saat ini sangat pesat sehingga mendorong tumbuhnya media pemberitaan online.

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER SKRIPSI IQBAL MAULANA DJAFAR

DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER SKRIPSI IQBAL MAULANA DJAFAR DETEKSI KEMIRIPAN DOKUMEN TEKS MENGGUNAKAN ALGORITMA MANBER SKRIPSI IQBAL MAULANA DJAFAR 091402012 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

Matrix Factorization. Machine Learning

Matrix Factorization. Machine Learning MMA10991 Topik Khusus - Machine Learning Matrix Factorization Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 05.11.13 1 Telp.

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci