BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

dokumen-dokumen yang mirip
BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

TEXT MINING PADA MEDIA SOSIAL TWITTER STUDI KASUS: MASA TENANG PILKADA DKI 2017 PUTARAN 2

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. negara-negara berkembang seperti Indonesia. Teknologi elektronik digunakan

BAB I PENDAHULUAN. dengan lingkungan sosialnya pengguna social media seringkali menceritakan

1. BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

UNTUK TOPIC DETECTION AND TRACKING PADA MICROBLOG TWITTER

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

Gambar 1.1 Tahapan Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAH ULU AN 1.1. Latar Belakang

1 Pendahuluan. Jalan Telekomunikasi No. 1, Dayeuh Kolot, Bandung

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

ADLN- PERPUSTAKAAN UNIVERSITAS AIRLANGGA BAB 1 PENDAHULUAN. metode yang bisaanya digunakan dalam estimasi parameter yakni Ordinary Least

ESTIMASI PARAMETER MODEL REGRESI ZERO-INFLATED POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN

ESTIMASI PARAMETER DALAM MODEL RETURN STOKASTIK DENGAN LOMPATAN MENGGUNAKAN METODE MARKOV CHAIN MONTE CARLO

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

ESTIMASI MODEL PERSAMAAN STRUKTURAL MELALUI PENDEKATAN BAYESIAN (Studi Kasus: Data Kinerja Pegawai Universitas Bina Darma Palembang)

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang

SIMULASI PENAKSIRAN PARAMETER DISTRIBUSI WEIBULL CAMPURAN UNTUK DATA SURVIVAL HETEROGEN DENGAN PENDEKATAN BAYESIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

ESTIMASI VOLATILITY (σ) DARI MODEL AR(p) MENGGUNAKAN METODE MARKOV CHAIN MONTE CARLO (MCMC)

BAB I PENDAHULUAN. perkembangan User Generate Content (UGC) menjadi salah satu faktor

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Ekspektasi variabel random Variansi variabel random Skewness dan kurtosis variabel random

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang

BAB 2 TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

1. Introduction. tertentu memegang peran penting dalam. Abstract

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

oleh YUANITA KUSUMA WARDANI M

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

ESTIMASI MODEL PERSAMAAN STRUKTURAL MELALUI PENDEKATAN BAYESIAN (Studi Kasus: Data Kinerja Pegawai Universitas Bina Darma Palembang)

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN. Pada bagian awal penelitian ini dipaparkan secara lengkap latar belakang,

OPTIMALISASI PORTOFOLIO SAHAM MENGGUNAKAN MODEL MIXTURE OF MIXTURE

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Untuk mengukur keberhasilan suatu proses pembelajaran dibutuhkan

Analisis Sentimen Terhadap ISP Pada Twitter Dengan Klasifikasi Naive Bayes

BAB I PENDAHULUAN Latar Belakang

ANALISIS REGRESI LOGISTIK DENGAN METODE PENDUGA BAYES UNTUK MENENTUKAN FAKTOR-FAKTOR YANG MEMPENGARUHI KEJADIAN BAYI BERAT BADAN LAHIR RENDAH

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

OPTIMALISASI PORTOFOLIO OBLIGASI BANK DENGAN METODE BAYESIAN MARKOV CHAIN MONTE CARLO MELALUI MODEL GAUSSIAN MIXTURE

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Hampir

BAB IV PREPROCESSING DATA MINING

UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

PENGEMBANGAN SISTEM TEMU KEMBALI CITRA DENGAN MULTIMODAL DATA MENGGUNAKAN MICROSTRUCTURE DESCRIPTOR DAN PLSA

1. PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

BAB V PEMBAHASAN DAN UJI COBA HASIL PENELITIAN

Penerapan Metode Bayes dalam Menentukan Model Estimasi Reliabilitas Pompa Submersible pada Rumah Pompa Wendit I PDAM Kota Malang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN. Dengan kemajuan teknologi informasi dewasa ini, kebutuhan akan

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 2 LANDASAN TEORI

BAB 1 PENDAHULUAN UKDW

negeri namun tetap menuntut kinerja politisi yang bersih.

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era banjir informasi ini, masyarakat mulai meninggalkan media tradisional seperti televisi dan koran. Mobilitas aktivitas yang tinggi mengakibatkan masyarakat lebih senang mengakses informasi melalui internet dengan smartphone mereka. Banyaknya situs web, blog, dan platform dari media sosial membuat semakin tak terkendalinya informasi yang dihasilkan. Informasi yang tersedia bukan hanya yang bermanfaat namun juga banyak yang tidak bermanfaat. Hal ini mengakibatkan masyarakat semakin sulit memilah informasi mana yang penting dan dibutuhkan untuknya. Media sosial adalah media informasi yang paling diminati masyarakat saat ini. Salah satu platform yang semakin popular dari media sosial sebagai sumber dari segala informasi adalah Twitter. Twitter merupakan sebuah microblog penyebar informasi yang sangat cepat dan berbasis real-time. Setelah dikeluarkan oleh Jack Dorsey pada tahun 2006 hingga pada awal tahun 2014 pengguna Twitter di dunia semakin bertambah begitu pula jumlah teks yang dikeluarkan (tweet) perharinya. Dengan adanya Twitter tersebut kebutuhan informasi masyarakat semakin dimudahkan. Pengguna dapat memilih informasi yang dibutuhkan melalui sumber yang terpercaya sesuai keinginannya tanpa harus terganggu dengan informasi yang tidak begitu penting. Sebab Twitter adalah sebuah microblog maka pengguna bebas membicarakan apapun dan berargumen positif atau negatif kepada siapapun. Mereka secara bebas dapat berkomentar atau beropini kepada presiden, kebijakan politik negara, tokoh politik, merk suatu produk, selebritis, acara televisi, berita nasional/internasional, suatu kejadian disekitarnya dan masih banyak lagi. Opiniopini di Twitter yang begitu bebas dan beragam ini tidak sebatas hanya untuk konsumsi bacaan saja namun dapat dimanfaatkan menjadi suatu bahan analisis. 1

2 Dari opini-opini tersebut dapat dicari topik utama yang sedang dibicarakan, sudut pandang yang dominan, dan tren apa yang sedang terjadi dalam media sosial saat itu terhadap sesuatu hal yang ingin dianalisis. Dengan begitu kita dapat menyimpulkan informasi yang tersembunyi didalamnya yang kemudian dapat dimanfaatkan sebagai bahan evaluasi untuk menentukan strategi yang harus diambil kedepan. Begitu banyaknya opini yang ada pada Twitter sangat tidak memungkinkan untuk menyimpulkannya dengan cara membaca satu persatu maka dibutuhkan suatu metode yang cepat dan efisien. Metode komputasi yang dapat memberikan solusi dari permasalahan diatas adalah pemodelan topik. Metode ini merupakan perkembangan dari text mining atau text analysis yang cukup baru dan begitu popular. Tergambar dari namanya, pemodelan topik mencakup pemodelan data tekstual yang bertujuan menemukan variabel tersembunyi yaitu sebuah topik. Data tekstual berupa kumpulan dokumen yang begitu besar kemudian diolah menggunakan pemodelan topik. Hasil dari olahan tersebut adalah topik utama yang dapat menggambarkan isi keseluruhan data. Dalam skripsi ini akan dibahas salah satu model dari pemodelan topik yaitu Latent Dirichlet Allocation (LDA). LDA adalah model umum probabilitas untuk sekumpulan data diskret seperti kumpulan dokumen. Dalam model probabilitas tersebut variabel laten (tersembunyi) dapat menjelaskan variabel observasi (teramati). Variabel observasi adalah dokumen, sementara topik yang ditentukan dari tiap kata pada dokumen adalah variabel laten. Variabel laten tersebut adalah parameter yang harus diestimasi dari model LDA yang didapatkan. Salah satu metode estimasi yang dapat diaplikasikan dalam model tersebut adalah metode Bayesian. Metode Bayesian merupakan metode analisis berdasar informasi sampel dan informasi prior. Gabungan dari informasi sampel dengan informasi prior tersebut dinamakan distribusi posterior. Dalam menghitung estimasi dari distribusi posterior untuk model LDA sangat sulit dilakukan secara manual karena distribusinya sangat kompleks. Oleh karena itu dalam skripsi ini akan digunakan algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling untuk estimasi parameter dari model LDA.

3 1.2 Pembatasan Masalah Pemodelan topik dengan Latent Dirichlet Allocation (LDA) merupakan metode yang banyak mengalami perkembangan dan modifikasi. Dalam skripsi ini hanya fokus membahas pemodelan topik menggunakan basic LDA yang diaplikasikan pada data Twitter untuk menyimpulkan sebuah opini didalamnya. Estimasi yang digunakan dalam model LDA merupakan salah satu metode dari MCMC yaitu Gibbs sampling. Data yang digunakan dalam skripsi ini juga mempunyai batasan yaitu data tekstual berbahasa Inggris. 1.3 Tujuan Penulisan Tujuan yang ingin dicapai dalam penulisan skripsi ini adalah : 1. Sebagai salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM. 2. Mempelajari salah satu jenis model dari pemodelan topik yaitu Latent Dirichlet Allocation. 3. Menerapkan model Latent Dirichlet Allocation dalam pemodelan topik untuk mencari topik utama dalam data tekstual yang besar. 4. Menerapkan metode Bayesian dalam estimasi parameter model Latent Dirichlet Allocation. 5. Mengaplikasikan model Latent Dirichlet Allocation dalam pemodelan topik untuk mendapatkan tren berita yang paling dibicarakan masyarakat di Twitter. 1.4 Tinjauan Pustaka Pembahasan mengenai pemodelan topik dengan Latent Dirichlet Allocation sudah pernah dilakukan oleh beberapa peneliti sebelumnya, seperti Blei dkk. (2003), Griffiths dan Steyvers (2004), Weng dkk. (2010), Grün dan Hornik (2011), dan Ponweiser (2012). Blei dkk. (2003) memperkenalkan secara dasar tentang Latent Dirichlet Allocation (LDA). Model tersebut dibandingkan dengan beberapa metode sebelumnya yaitu unigram, mixture of unigram, LSI (Latent Semantic Index),

4 probabilistic LSI dalam hal mengolah data tekstual. LDA lebih tepat digunakan daripada metode lainnya karena dapat menjelaskan kemiripan antar kata dan dapat mengestimasi variabel laten (topik) secara probabilistik. Dalam bahasan tersebut estimasi model parameter LDA yang digunakan adalah algoritma Variational Expectation Maximization (VEM) yang kemudian diaplikasikan dalam document modeling dan document classification. Griffiths dan Steyvers (2004) membahas lebih lanjut tentang model LDA dan estimasi parameternya. LDA merupakan model statistik yang digunakan dalam analisis pemodelan topik. Model tersebut adalah model umum untuk memudahkan pemrosesan dokumen yang sangat kompleks. Model probabilitas LDA dapat menemukan variabel laten didalam sebuah dokumen tersebut. Algoritma yang digunakan dalam inferensinya adalah algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling. Algoritma MCMC lebih membutuhkan sedikit kapasitas memori dan performanya lebih cepat bila dibandingkan dengan algoritma VEM. Dalam pembahasan tersebut diberikan contoh aplikasi dari model LDA dengan estimasi Gibbs sampling. Model tersebut diaplikasikan terhadap kumpulan abstrak jurnal yang diterbitkan oleh PNAS (Proceedings of the National Academy of Sciences) dari tahun 1991 sampai 2001. Hasil dari analisis tersebut berupa topik-topik yang dihasilkan oleh beberapa kata yang memiliki kemiripan. Topik tersebut memberikan informasi tentang tren topik jurnal yang dihasilkan PNAS dalam tahun tersebut. Weng dkk. (2010) membahas tentang cara mengidentifikasikan sebuah ketertarikan individu terhadap sebuah topik. Identifikasi tersebut dilakukan melalui analisis tweet yang dikeluarkan oleh beberapa pengguna Twitter. Dari begitu banyak tweet yang dihasilkan akan dirangkum menjadi beberapa topik utama. Topik utama menggambarkan suatu hal yang paling sering dibahas. Metode yang digunakan adalah LDA sebagai metode unsupervised machine learning yang berguna dalam mengidentifikasikan informasi tersembunyi dalam suatu kumpulan dokumen yang sangat besar. Dalam pembahasan tersebut dijelaskan bahwa topik yang ingin diselidiki bukan berasal dari tiap tweet namun

5 tiap pengguna Twitter yang dianggap sebagai tiap dokumen. Estimasi yang digunakan dari metode MCMC yaitu Gibbs sampling. Grün dan Hornik (2011) membahas tentang teknik analisis pemodelan topik menggunakan software R. Pada pembahasan ini diperkenalkan paket program dari R untuk memodelkan probabilitas kemunculan kata dalam dokumen yaitu paket program topicmodels. Paket program ini merupakan perkembangan dari paket program tm. Paket program tm merupakan paket yang mendasari dalam analisis teks. Dalam pembahasan tersebut juga dijelaskan bagaimana langkah menyiapkan data menjadi suatu data yang lebih pantas diolah (data preprocessing). Dalam estimasi model LDA dibahas dua alternatif algoritma yaitu VEM dan Gibbs sampling yang sudah terdapat pada paket program topicmodels. Kemudian model LDA diaplikasikan ke dalam kumpulan Journal of Statistics Software dan data AssociatedPress yang sudah tersedia dalam paket program untuk mengetahui topik utama dalam kumpulan jurnal tersebut. Ponweiser (2012) membahas beberapa aplikasi yang mempengaruhi dan diterapkan oleh pemodelan topik yaitu information retrieval, natural language processing dan text mining. Selanjutnya dibahas tentang pemodelan topik secara umum dan dijelaskan pula model dari LDA. Estimasi parameter model yang digunakan adalah algoritma Gibss sampling. Dalam pembahasan tersebut diberikan contoh aplikasi dari model LDA dalam mengolah kumpulan abstrak jurnal dari PNAS. Proses yang dilakukan menggunakan software R. Pada contoh pengolahannya dijelaskan dari data pre-processing sampai didapatkan topik dari data tersebut. 1.5 Metode Penulisan Metode penulisan yang digunakan penulis adalah studi literatur yang diperoleh dari perpustakaan, jurnal-jurnal ilmiah dan sumber-sumber lain yang diperoleh dari internet. Penulis dalam menyelesaikan studi kasus dalam skripsi ini menggunakan bantuan software R 3.0.2. Data yang diambil merupakan data sekunder dari situs Twitter yang dapat dipertanggungjawabkan.

6 1.6 Sistematika Penulisan Adapun sistematika penulisan dalam skripsi ini adalah berikut: BAB I PENDAHULUAN Bab ini menjelaskan tentang latar belakang masalah, pembatasan masalah, tujuan penulisan, tinjauan pustaka, metode penulisan dan sistematika penulisan skripsi ini. BAB II DASAR TEORI Bab ini membahas tentang dasar teori yang mendukung pembahasan pemodelan topik menggunakan LDA (Latent Dirichlet Allocation). BAB III PEMODELAN TOPIK UNTUK MEDIA SOSIAL MENGGUNAKAN LATENT DIRICHLET ALLOCATION Bab ini menjelaskan model LDA (Latent Dirichlet Allocation) untuk pemodelan topik dan estimasi parameter model dengan metode Bayesian. BAB IV STUDI KASUS Bab ini membahas aplikasi LDA dengan estimasi Gibbs sampling terhadap data Twitter dengan tujuan mencari topik utama didalamnya. BAB V KESIMPULAN Bab ini berisi kesimpulan dari pembahasan pada bab sebelumnya dan saran atas kekurangan dari hasil penelitian yang telah dilakukan.