BAB 3 LANDASAN TEORI

dokumen-dokumen yang mirip
BAB 3 LANDASAN TEORI

BAB II LANDASAN TEORI

BAB IV ANALISA DAN PERANCANGAN

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

BAB III METODOLOGI PENELITIAN

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODELOGI PENELITIAN

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB II TINJAUAN PUSTAKA

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

BAB 3 LANDASAN TEORI

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB II STUDI PUSTAKA. dilakukan sebelumnya oleh DwijaWisnu dan Hetami. (2015) dengan judul

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN UKDW

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB III METODOLOGI PENELITIAN

BERKENALAN DENGAN MODEL CODEIGNITER

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB I PENDAHULUAN Latar Belakang

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV IMPLEMENTASI DAN PENGUJIAN

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

JURNAL SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS POLITICAL LEADERS IN TWITTER

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

commit to user BAB II TINJAUAN PUSTAKA

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB III LANDASAN TEORI

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Pembangunan Aplikasi Mobile Rekomendasi Informasi Berdasarkan Status Twitter Menggunakan Algoritma Latent Semantic Analysis SKRIPSI

BAB I PENDAHULUAN Latar Belakang

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

BAB II LANDASAN TEORI

FRAMEWORK CODEIGNITER

BAB 2 TINJAUAN PUSTAKA

Text Pre-Processing. M. Ali Fauzi

Jurnal Ilmiah Teknologi dan Informasi ASIA Vol. 7 No. 1, Februari 2013

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB III LANDASAN TEORI

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

BAB II ANALISIS DAN PERANCANGAN. pendekatan perancangan sistem berorientasi objek. Perancangan sistem

BAB III ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN

BAB III LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

PERANCANGAN LibraryUMS-CMS MENGGUNAKAN CODEIGNITER

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

Bab 1 Pendahuluan 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN Latar Belakang

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

dimana P(A B) artinya peluang A jika diketahui keadaan B. Kemudian dari persamaan 2.1 didapatkan persamaan 2.2.

1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

1.5 Metode Penelitian

BAB I PENDAHULUAN. 1.1 Latar Belakang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB II LANDASAN TEORI. Pada bab ini akan diuraikan tentang teori-teori yang melandasi penulisan Laporan Penelitian ini.

BAB 3 ANALISIS DAN PERANCANGAN

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB I PENDAHULUAN Latar Belakang Latar Belakang

Transkripsi:

BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih terstruktur dan mudah dimengerti oleh programmer. Fungsi yang dibuat dengan menggunakan API tersebut kemudian akan memanggil system calls sesuai dengan sistem operasinya. Tidak tertutup kemungkinan nama dari system calls sama dengan nama di API. Pada awalnya perusahaan Summize yang menyediakan fasilitas mencari data di Twitter. Kemudian perusahaan Summize ini diakuisisi dan diganti merek menjadi Twitter Search sehingga Search API terpisah sebagai entitas sendiri. Twitter API terdiri dari 3 (tiga) bagian yaitu: a. Search API. Search API dirancang untuk memudahkan user dalam mengelola query search di konten Twitter. User dapat menggunakannya untuk mencari tweet berdasarkan keyword khusus atau mencari tweet lebih spesifik berdasarkan username Twitter. Search API juga menyediakan akses pada data Trending Topic. b. Representational State Transfer (REST) API. REST API memperbolehkan developer untuk mengakses inti dari Twitter seperti timeline, status update dan informasi user. REST API digunakan dalam membangun sebuah aplikasi Twitter yang kompleks yang memerlukan inti dari Twitter. 12

c. Streaming API. Streaming API digunakan developer untuk kebutuhan yang lebih intensif seperti melakukan penelitian dan analisis data. Streaming API dapat menghasilkan aplikasi yang dapat mengetahui statistik status update, follower dan lain sebagainya. Dalam penelitian ini, bagian Twitter API yang digunakan adalah REST API. 3.2 Text Mining Text mining merupakan penambangan teks atau secara luas didefinisikan sebagai proses pengetahuan intensif dimana pengguna berinteraksi dengan koleksi dokumen dari waktu ke waktu dengan menggunakan seperangkat alat analisis (All Farizi, 2015). Menurut (Zulianto, 2013) text mining merupakan penambangan data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Dengan text mining tugas-tugas yang berhubungan dengan penganalisaan teks dengan jumlah yang besar, penemuan pola serta penggalian informasi yang mungkin berguna dari suatu teks dapat dilakukan. Dalam text mining untuk mendapatkan pola dari suatu teks, sumbersumber data yang akan diolah adalah dari koleksi dokumen. Dan pola-pola menarik tersebut tidak ditemukan diantara catatan database yang sudah diformalisasi melainkan dalam data tekstual yang tidak terstruktur di dalam 13

koleksi dokumen-dokumen tersebut (Feldman & Sanger, 2007). Secara garis besar dalam melakukan implementasi text mining terdiri dari dua tahap besar yaitu preprocessing dan processing) (Anggaradana, 2013). 3.2.1 Text Prepocessing Text preprocessing adalah tahapan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahapan berikutnya. Inputan awal pada proses ini adalah berupa dokumen utuh (Mustaqhfiri, 2011). Text preprocessing pada penelitian ini terdiri dari beberapa tahapan, yaitu: proses case folding, proses pemecahan kalimat menjadi kata (tokenizing), proses filtering kata dengan menghilangkan kata stopword, dan proses stemming. a. Case Folding Case folding adalah tahapan proses mengubah semua huruf dalam teks dokumen menjadi huruf kecil semua, serta menghilangkan karakter selain a-z dan dianggap sebagai delimiter. b. Pemecahan Kalimat Pemecahan kalimat yaitu proses memecah string teks dokumen yang panjang menjadi kumpulan kalimat-kalimat. Dalam memecah dokumen menjadi kalimat-kalimat menggunakan fungsi explode(), dengan tanda spasi sebagai delimiter untuk memotong string dokumen. Dengan menghilangkan tanda-tanda 14

tersebut dokumen akan terpotong menjadi kata. c. Filtering kata / stopword Filtering merupakan proses penghilangan stopword. Stopword adalah kata-kata yang sering kali muncul dalam dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu. Didalam bahasa Indonesia stopword adalah kata penghubung dan dapat disebut sebagai kata tidak penting, misalnya di, oleh, pada, sebuah, karena dan lain sebagianya. d. Stemming Stemming adalah proses mencari akar (root) kata dari tiap token kata yaitu dengan pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem). Beberapa algoritma yang telah dikembangkan untuk proses stemming diantaranya Algoritma Porter (Bahasa Indonesia dan Inggris) dan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia. Dalam hal ini, penelitian yang dilakukan (Agusta, 2009) menunjukkan algoritma Nazief & Adriani memiliki tingkat akurasi yang lebih tinggi dalam proses stemming untuk Bahasa Indonesia dibandingkan algoritma Porter. Dalam penelitian ini penulis menggunakan algoritma Nazief & Adriani untuk proses 15

stemming. Flow chart algoritma Nazief & Adriani dapat dilihat pada gambar 3.1. Gambar 3.1 Flow Chart Algoritma Nazief & Adriani (All Farizi, 2015). 16

3.2.2 Processing Tahap processing adalah tahap terpenting dari seluruh proses text mining. Tahap ini berusaha menemukan pola atau pengetahuan dari keseluruhan teks. Teknik yang di gunakan pada tahap ini adalah dengan melakukan pembobotan (weighting) terhadap term dari hasil tahap prepocessing. Setiap term di berikan bobot sesuai dengan skema pembobotan yang di pilih, baik itu pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global inverse document frequency yang ditulis dengan TFIDF. 3.3 TF-IDF TF-IDF (Term Frequency Inverse Document Frequency) merupakan metode yang digunakan untuk menentukan nilai frekuensi sebuah kata di dalam sebuah dokumen atau artikel dan juga frekuensi di dalam banyak dokumen. Perhitungan ini menentukan seberapa relevan sebuah kata di dalam sebuah dokumen (Evan, 2014). TFIDF adalah sebuah algoritma yang umumnya digunakan untuk pengolahan data besar (Kamath, 2014). Algoritma TF-IDF melakukan pemberian bobot pada setiap kata kunci disetiap kategori untuk mencari kemiripan kata kunci dengan kategori yang tersedia. Sebelum melakukan pembobotan maka akan dilakukan lima tahap pencarian text preprocessing yaitu pemecahan kalimat, case folding, tokenizing, filtering, dan stemming, lalu selanjutnya dilakukan proses menghitung 17

bobot TF-IDF, bobot query relevance dan bobot similarity (Marlinda & Rianto, 2013). Berdasarkan penelitian-penelitian sebelumnya, yang membahas tentang penerapan metode TF-IDF. Penulis menemukan banyak terdapat variasi formula dalam mengimplementasikan metode TF-IDF pada pembobotan kata. Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotan TF-IDF sering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user. TF-IDF pada dasarnya merupakan hasil dari perhitungan antara TF (Term Frequency) dan IDF (Inverse Document Frequency). Banyak cara untuk menentukan nilai yang tepat dari kedua statistik yang ada. Dalam kasus term frequency tf (t, d), cara yang paling sederhana adalah dengan menggunakan raw frequency di dalam dokumen, yaitu berapa kali term t muncul di dokumen d. Jika menyatakan raw frequency t sebagai f (t,d), maka skema tf yang sederhana adalah tf (t, d) = f (t,d). Nilai idf sebuah term (kata) dapat dihitung menggunakan persamaan sebagai berikut: IDF = log10( D dfi ) D adalah jumlah dokumen yang berisi term (t) dan dfi adalah jumlah kemunculan (frekuensi) kata terhadap D. Adapun algoritma yang digunakan untuk menghitung bobot (W) masingmasing dokumen terhadap kata kunci (query), yaitu : 18

Wd, t = tf d, t IDFt Keterangan : d = dokumen ke d t = kata ke t dari kata kunci W = bobot dokumen ke d terhadap kata ke t tf = term frekuensi/frekuensi kata Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan (sorting) dimana semakin besar nilai W, semakin besar tingkat kesamaan (similarity) dokumen tersebut terhadap kata yang dicari, demikian pula sebaliknya. 3.4 Framework CodeIgniter Framework adalah sekumpulan perintah atau fungsi dasar yang dapat membantu menyelesaikan proses-proses yang lebih kompleks. Sedangkan CodeIgniter merupakan salah satu open source framework yang digunakan oleh script pemrograman web PHP (PHP Hypertext Preprocessor) dalam mengembangkan aplikasi web dinamis dengan dasar kerja CRUD ( Create, Read, Update, Delete ). Metode yang digunakan oleh framework CodeIgniter disebut Model View - Controller atau yang disingkat dengan sebutan MVC. MVC memisahkan antara logika pemrograman dengan presentasi. Hal ini dapat terlihat dari adanya minimalisir script presentasi ( HTML, CSS, JavaScript, dan sebagainya ) yang dipisahkan dari PHP script. Didalam folder CodeIgniter, MVC dapat kita temukan dalam folder application. CodeIgniter juga menjadi salah satu framework pilihan yang memungkinkan developer untuk 19

membuat sebuah aplikasi web dengan karakter pengembangan RAD ( Rapid Application Development ), yang memungkinkan untuk digunakan dan dikembangkan menjadi aplikasi lain yang lebih kompleks. CodeIgniter terdiri dari file-file pustaka (library), kelas-kelas, dan infrastruktur run-time yang terinspirasi oleh framework Ruby on Rails. CodeIgniter juga banyak digunakan oleh para programmer yang memilih untuk bekerja dengan struktur yang rapi dan padat tanpa kehilangan fleksibilitas pengembangan framework (Fajriyah, 2011). 20