BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era banjir informasi ini, masyarakat mulai meninggalkan media tradisional seperti televisi dan koran. Mobilitas aktivitas yang tinggi mengakibatkan masyarakat lebih senang mengakses informasi melalui internet dengan smartphone mereka. Banyaknya situs web, blog, dan platform dari media sosial membuat semakin tak terkendalinya informasi yang dihasilkan. Informasi yang tersedia bukan hanya yang bermanfaat namun juga banyak yang tidak bermanfaat. Hal ini mengakibatkan masyarakat semakin sulit memilah informasi mana yang penting dan dibutuhkan untuknya. Media sosial adalah media informasi yang paling diminati masyarakat saat ini. Salah satu platform yang semakin popular dari media sosial sebagai sumber dari segala informasi adalah Twitter. Twitter merupakan sebuah microblog penyebar informasi yang sangat cepat dan berbasis real-time. Setelah dikeluarkan oleh Jack Dorsey pada tahun 2006 hingga pada awal tahun 2014 pengguna Twitter di dunia semakin bertambah begitu pula jumlah teks yang dikeluarkan (tweet) perharinya. Dengan adanya Twitter tersebut kebutuhan informasi masyarakat semakin dimudahkan. Pengguna dapat memilih informasi yang dibutuhkan melalui sumber yang terpercaya sesuai keinginannya tanpa harus terganggu dengan informasi yang tidak begitu penting. Sebab Twitter adalah sebuah microblog maka pengguna bebas membicarakan apapun dan berargumen positif atau negatif kepada siapapun. Mereka secara bebas dapat berkomentar atau beropini kepada presiden, kebijakan politik negara, tokoh politik, merk suatu produk, selebritis, acara televisi, berita nasional/internasional, suatu kejadian disekitarnya dan masih banyak lagi. Opiniopini di Twitter yang begitu bebas dan beragam ini tidak sebatas hanya untuk konsumsi bacaan saja namun dapat dimanfaatkan menjadi suatu bahan analisis. 1
2 Dari opini-opini tersebut dapat dicari topik utama yang sedang dibicarakan, sudut pandang yang dominan, dan tren apa yang sedang terjadi dalam media sosial saat itu terhadap sesuatu hal yang ingin dianalisis. Dengan begitu kita dapat menyimpulkan informasi yang tersembunyi didalamnya yang kemudian dapat dimanfaatkan sebagai bahan evaluasi untuk menentukan strategi yang harus diambil kedepan. Begitu banyaknya opini yang ada pada Twitter sangat tidak memungkinkan untuk menyimpulkannya dengan cara membaca satu persatu maka dibutuhkan suatu metode yang cepat dan efisien. Metode komputasi yang dapat memberikan solusi dari permasalahan diatas adalah pemodelan topik. Metode ini merupakan perkembangan dari text mining atau text analysis yang cukup baru dan begitu popular. Tergambar dari namanya, pemodelan topik mencakup pemodelan data tekstual yang bertujuan menemukan variabel tersembunyi yaitu sebuah topik. Data tekstual berupa kumpulan dokumen yang begitu besar kemudian diolah menggunakan pemodelan topik. Hasil dari olahan tersebut adalah topik utama yang dapat menggambarkan isi keseluruhan data. Dalam skripsi ini akan dibahas salah satu model dari pemodelan topik yaitu Latent Dirichlet Allocation (LDA). LDA adalah model umum probabilitas untuk sekumpulan data diskret seperti kumpulan dokumen. Dalam model probabilitas tersebut variabel laten (tersembunyi) dapat menjelaskan variabel observasi (teramati). Variabel observasi adalah dokumen, sementara topik yang ditentukan dari tiap kata pada dokumen adalah variabel laten. Variabel laten tersebut adalah parameter yang harus diestimasi dari model LDA yang didapatkan. Salah satu metode estimasi yang dapat diaplikasikan dalam model tersebut adalah metode Bayesian. Metode Bayesian merupakan metode analisis berdasar informasi sampel dan informasi prior. Gabungan dari informasi sampel dengan informasi prior tersebut dinamakan distribusi posterior. Dalam menghitung estimasi dari distribusi posterior untuk model LDA sangat sulit dilakukan secara manual karena distribusinya sangat kompleks. Oleh karena itu dalam skripsi ini akan digunakan algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling untuk estimasi parameter dari model LDA.
3 1.2 Pembatasan Masalah Pemodelan topik dengan Latent Dirichlet Allocation (LDA) merupakan metode yang banyak mengalami perkembangan dan modifikasi. Dalam skripsi ini hanya fokus membahas pemodelan topik menggunakan basic LDA yang diaplikasikan pada data Twitter untuk menyimpulkan sebuah opini didalamnya. Estimasi yang digunakan dalam model LDA merupakan salah satu metode dari MCMC yaitu Gibbs sampling. Data yang digunakan dalam skripsi ini juga mempunyai batasan yaitu data tekstual berbahasa Inggris. 1.3 Tujuan Penulisan Tujuan yang ingin dicapai dalam penulisan skripsi ini adalah : 1. Sebagai salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM. 2. Mempelajari salah satu jenis model dari pemodelan topik yaitu Latent Dirichlet Allocation. 3. Menerapkan model Latent Dirichlet Allocation dalam pemodelan topik untuk mencari topik utama dalam data tekstual yang besar. 4. Menerapkan metode Bayesian dalam estimasi parameter model Latent Dirichlet Allocation. 5. Mengaplikasikan model Latent Dirichlet Allocation dalam pemodelan topik untuk mendapatkan tren berita yang paling dibicarakan masyarakat di Twitter. 1.4 Tinjauan Pustaka Pembahasan mengenai pemodelan topik dengan Latent Dirichlet Allocation sudah pernah dilakukan oleh beberapa peneliti sebelumnya, seperti Blei dkk. (2003), Griffiths dan Steyvers (2004), Weng dkk. (2010), Grün dan Hornik (2011), dan Ponweiser (2012). Blei dkk. (2003) memperkenalkan secara dasar tentang Latent Dirichlet Allocation (LDA). Model tersebut dibandingkan dengan beberapa metode sebelumnya yaitu unigram, mixture of unigram, LSI (Latent Semantic Index),
4 probabilistic LSI dalam hal mengolah data tekstual. LDA lebih tepat digunakan daripada metode lainnya karena dapat menjelaskan kemiripan antar kata dan dapat mengestimasi variabel laten (topik) secara probabilistik. Dalam bahasan tersebut estimasi model parameter LDA yang digunakan adalah algoritma Variational Expectation Maximization (VEM) yang kemudian diaplikasikan dalam document modeling dan document classification. Griffiths dan Steyvers (2004) membahas lebih lanjut tentang model LDA dan estimasi parameternya. LDA merupakan model statistik yang digunakan dalam analisis pemodelan topik. Model tersebut adalah model umum untuk memudahkan pemrosesan dokumen yang sangat kompleks. Model probabilitas LDA dapat menemukan variabel laten didalam sebuah dokumen tersebut. Algoritma yang digunakan dalam inferensinya adalah algoritma dari MCMC (Markov Chain Monte Carlo) yaitu Gibbs sampling. Algoritma MCMC lebih membutuhkan sedikit kapasitas memori dan performanya lebih cepat bila dibandingkan dengan algoritma VEM. Dalam pembahasan tersebut diberikan contoh aplikasi dari model LDA dengan estimasi Gibbs sampling. Model tersebut diaplikasikan terhadap kumpulan abstrak jurnal yang diterbitkan oleh PNAS (Proceedings of the National Academy of Sciences) dari tahun 1991 sampai 2001. Hasil dari analisis tersebut berupa topik-topik yang dihasilkan oleh beberapa kata yang memiliki kemiripan. Topik tersebut memberikan informasi tentang tren topik jurnal yang dihasilkan PNAS dalam tahun tersebut. Weng dkk. (2010) membahas tentang cara mengidentifikasikan sebuah ketertarikan individu terhadap sebuah topik. Identifikasi tersebut dilakukan melalui analisis tweet yang dikeluarkan oleh beberapa pengguna Twitter. Dari begitu banyak tweet yang dihasilkan akan dirangkum menjadi beberapa topik utama. Topik utama menggambarkan suatu hal yang paling sering dibahas. Metode yang digunakan adalah LDA sebagai metode unsupervised machine learning yang berguna dalam mengidentifikasikan informasi tersembunyi dalam suatu kumpulan dokumen yang sangat besar. Dalam pembahasan tersebut dijelaskan bahwa topik yang ingin diselidiki bukan berasal dari tiap tweet namun
5 tiap pengguna Twitter yang dianggap sebagai tiap dokumen. Estimasi yang digunakan dari metode MCMC yaitu Gibbs sampling. Grün dan Hornik (2011) membahas tentang teknik analisis pemodelan topik menggunakan software R. Pada pembahasan ini diperkenalkan paket program dari R untuk memodelkan probabilitas kemunculan kata dalam dokumen yaitu paket program topicmodels. Paket program ini merupakan perkembangan dari paket program tm. Paket program tm merupakan paket yang mendasari dalam analisis teks. Dalam pembahasan tersebut juga dijelaskan bagaimana langkah menyiapkan data menjadi suatu data yang lebih pantas diolah (data preprocessing). Dalam estimasi model LDA dibahas dua alternatif algoritma yaitu VEM dan Gibbs sampling yang sudah terdapat pada paket program topicmodels. Kemudian model LDA diaplikasikan ke dalam kumpulan Journal of Statistics Software dan data AssociatedPress yang sudah tersedia dalam paket program untuk mengetahui topik utama dalam kumpulan jurnal tersebut. Ponweiser (2012) membahas beberapa aplikasi yang mempengaruhi dan diterapkan oleh pemodelan topik yaitu information retrieval, natural language processing dan text mining. Selanjutnya dibahas tentang pemodelan topik secara umum dan dijelaskan pula model dari LDA. Estimasi parameter model yang digunakan adalah algoritma Gibss sampling. Dalam pembahasan tersebut diberikan contoh aplikasi dari model LDA dalam mengolah kumpulan abstrak jurnal dari PNAS. Proses yang dilakukan menggunakan software R. Pada contoh pengolahannya dijelaskan dari data pre-processing sampai didapatkan topik dari data tersebut. 1.5 Metode Penulisan Metode penulisan yang digunakan penulis adalah studi literatur yang diperoleh dari perpustakaan, jurnal-jurnal ilmiah dan sumber-sumber lain yang diperoleh dari internet. Penulis dalam menyelesaikan studi kasus dalam skripsi ini menggunakan bantuan software R 3.0.2. Data yang diambil merupakan data sekunder dari situs Twitter yang dapat dipertanggungjawabkan.
6 1.6 Sistematika Penulisan Adapun sistematika penulisan dalam skripsi ini adalah berikut: BAB I PENDAHULUAN Bab ini menjelaskan tentang latar belakang masalah, pembatasan masalah, tujuan penulisan, tinjauan pustaka, metode penulisan dan sistematika penulisan skripsi ini. BAB II DASAR TEORI Bab ini membahas tentang dasar teori yang mendukung pembahasan pemodelan topik menggunakan LDA (Latent Dirichlet Allocation). BAB III PEMODELAN TOPIK UNTUK MEDIA SOSIAL MENGGUNAKAN LATENT DIRICHLET ALLOCATION Bab ini menjelaskan model LDA (Latent Dirichlet Allocation) untuk pemodelan topik dan estimasi parameter model dengan metode Bayesian. BAB IV STUDI KASUS Bab ini membahas aplikasi LDA dengan estimasi Gibbs sampling terhadap data Twitter dengan tujuan mencari topik utama didalamnya. BAB V KESIMPULAN Bab ini berisi kesimpulan dari pembahasan pada bab sebelumnya dan saran atas kekurangan dari hasil penelitian yang telah dilakukan.