BAB I PENDAHULUAN 1.1 Latar Belakang

dokumen-dokumen yang mirip
Implementasi Algoritma Suffix Tree Clustering dan Nearesrt Neighbor untuk Mengelompokkan Berita pada Timeline Twitter

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. internet yang kini menjadi peranan penting. Kebutuhan user yang semakin

BAB I PENDAHULUAN. informasi yang berbeda-beda. Berita yang dipublikasi di internet dari hari ke hari

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV IMPLEMENTASI DAN PENGUJIAN

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

PENGGUNAAN KNN (K-NEARST NEIGHBOR) UNTUK KLASIFIKASI TEKS BERITA YANG TAK-TERKELOMPOKKAN PADA SAAT PENGKLASTERAN OLEH STC (SUFFIX TREE CLUSTERING)

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN UKDW

BAB 3 LANDASAN TEORI

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

UNTUK TOPIC DETECTION AND TRACKING PADA MICROBLOG TWITTER

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Artikel Jurnal penelitian tugas akhir di suatu institusi perguruan tinggi

ANALISIS KLASTERING LIRIK LAGU INDONESIA

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

BAB 3 ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB 1 PENDAHULUAN Pengantar

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

Analisis Tema Skripsi Mahasiswa Menggunakan Document Clustering Dengan Algoritma LINGO

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB 1 PENDAHULUAN. Universitas Kristen Maranatha

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. Bab 1 PENDAHULUAN

UKDW BAB I PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

1. Pendahuluan. 1.1 Latar belakang

BAB 1 PENDAHULUAN Latar Belakang

Twitter APA ITU TWITTER?

BAB 1 PENDAHULUAN UKDW

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

BAB II LANDASDAN TEORI

BAB I PENDAHULUAN. menggunakan teknologi yang disebut dengan internet. Hal ini, secara tidak

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN 1.1. Latar Belakang

ANALISIS CLUSTER PADA DOKUMEN TEKS

Pengklasifikasian Pengaduan Masyarakat pada Laman Kantor Pertanahan Kota Surabaya I dengan Metode Pohon Keputusan

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

BAB I PENDAHULUAN. Dari tahun ke tahun sudah tidak dapat dipungkiri bahwa teknologi informasi

KLASIFIKASI ONLINE DOKUMEN BERITA DENGAN MENGGUNAKAN ALGORITMA SUFFIX TREE CLUSTERING

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB I PENDAHULUAN. Gambaran Umum Objek Penelitian

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

Text Mining Classification Sebagai Rekomendasi Dosen Pembimbing Tugas Akhir Program Studi Sistem Informasi

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

BAB II LANDASAN TEORI

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

1.5 Metode Penelitian

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet bagi organisasi penyedia berita mempunyai dampak positif, yaitu munculnya situs-situs microbloging yang dimanfaatkan secara optimal pada kegiatan jurnalisme.pemanfaatan Twitter oleh organisasi penyedia berita dalam penyampaian penggalan-penggalan global berita terbarunya melalui media jejaring sosial sepertitwitter, dirasakan mampu menyebarkan informasi secara cepat kepada khalayak umum dibandingkan melalui media cetak dan website standar yang telah dimilikinya bahkan media elektronik seperti televisi. Keuntungan lain pemanfaatan Twitter bagi organisasi penyedia berita, adalah semakin banyak follower pada akun Twitter yang dimilikinya, maka organisasi ini diyakini akan memainkan peran sentral dalam menyebarkan informasi. Karakteristik utama Twitter sebagai situs microbloging dapat diketahui pada jumlah huruf yang terbatas maksimal 140 karakter pada setiap konten status, mengindikasikan frekuensi penambahan konten pada situs ini tinggi karena mampu dilakukan dalam hitungan detik. Keterbatasan jumlah karakter yang ada, mampu disiasati oleh organisasi penyedia berita dalam menyebarkan informasi terbarunya ke khalayak umum dengan cara memilih kata-kata global terbaiknya sebagai penggalan berita terbaru, bahkan konten berisi tambahan link penunjuk halaman web pemuat berita secara lengkap. Banyaknya jumlah tweet perhari pada akun Twitter milik organisasi penyedia berita, dapat menambah panjang halaman web. Salah satu pemecahan permasalahan ini adalah dengan cara melakukan pengelompokkan terhadap konten tweet yang ada. Kedinamisan konten tweet berita yang disebarkan di Twitter dikaitkan dengan proses pengelompokkan, maka mengharuskan penggunaan sistem pengelompokkan yang tepat, yaitu pengklasteran (Clustering). 1

2 Berdasarkan penelitian yang dilakukan oleh Zamir dan Etzioni (1998), algoritma yang digunakan untuk melakukan pengklastran dokumenweb kali pertama adalah Suffix Tree Clustering (STC),algoritma klasterisasi ini memiliki waktu linear dalam mengelompokkan dokumen hasil pencarian ke dalam bentuk group-group atau klaster berdasarkan kata atau frase yang terdapat di dalam dokumen yang ada. Kemudian Osiński dan Weiss (2004), mengembangkan Open Source Framework dengan nama Carrot 2. Kesuksesan dan popularitas aplikasi Carrot2 adalah mengorganisir hasil dari pencaraian di internet agar lebih mudah dalam menjelajah dalam bentuk pengelompokkan secara tematik hasil pencarian pada saat menggunakan browser internet, yang dikenal dengan proses klasterisasi. Algoritma yang digunakan dalam proses pengelompokkan ini, diantaranya adalah menggunakan algoritma Suffix Tree Clustering. Selanjutnya, penelitian yang telah dilakukan oleh Arifin dkk. (2008), dengan menggunakan Algoritma Suffix Tree Clustering dalam pengelompokkan berita dalam Bahasa Indonesia, memiliki tingkat precision yang sangat tinggi, yaitu 80%. Hal ini dikarenakan dalam Algoritma ini, menggunkaan phrase sebagai dasar pembentukan cluster. Tetapi, kinerja algoritma STC yang dikembangkan oleh Carrot 2 masih memiliki kekurangan. Hasil proses pengklasteran dengan algoritma ini, sering dijumpai hasil pengklasteran dengan dokumen anggota klaster other topics dalam jumlah banyak dibandingkan dengan klaster yang ada. Dengan memperhatikan kata-kata yang membentuk dokumen teks anggota klaster Other Topics, terdapat kemiripan dengan kata-kata teks pada klaster-klaster yang ada.sehingga memungkinkan dokumen teks anggota klaster Other Topics untuk dipindahkan ke salah satu dari klaster-klaster yang ada berdasarkan kemiripan yang dimiliki oleh dokumen teks tersebut. Mengacu pada konsep yang dibahas oleh Liao (2002), untuk mengatasi permasalahan ini perlu adanya proses klasifikasi dokumen teks Twitter, yang berada di klaster Other Topics. Hal utama yang dilakukan adalah menghitung kemiripan dokumen anggota klaster Other Topics dengan dokumen anggota klaster yang ada, sehingga dokumen tersebut dapat diklasifikasikan ke dalam klaster tertentu. Perhitungan kemiripan antar dokumen dengan fungsi cosine similarity berdasarkan frekuensi term dan frekuensi dokumen yang ada, sesuai dengan konsep algoritma Vector Space 2

3 Model(VSM). Hasil dari perhitungan ini, kemudian digunakan oleh metode Nearest Neighbor untuk menentukan klaster dengan jumlah anggota terbanyak yang memiliki kemiripan. Klaster tersebut merupakan klaster baru bagi dokumen teks anggota Other Topics yang akan dipindahkan. Dengan demikian anggota klaster Other Topics akan berkurang bahkan habis sehingga klaster ini pun dapat dihilangkan. 1.2 Perumusan Masalah Berdasarkan pada uraian latar belakang, maka rumusan masalah pada penelitian ini adalah bagaimana memindahkan dokumen teks anggota klaster Other Topics yang terbentuk oleh algoritma Suffix Tree Clustering (STC) dengan memperhatikan kemiripan dokumen yang ada, menggunakan metode Nearest Neighbor (NN). 1.3 Tujuan Penelitian Tujuan dari penelitian ini adalah 1. Mengelompokkan teks berita yang terdapat pada Twitter. 2. Melakukan proses stemming pada teks Twitter berita berbahasa Indonesia dengan menggunakan algoritma Porter Stemmer. 3. Melakukan pengklasteran konten tweet berita dengan menggunakan algoritma Suffix Tree Clustering (STC) 4. Melakukan pengklasifikasian konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC pada Carrot 2 framework, dengan menggunakan metode Nearest Neigbor (NN). 1.4 Batasan Masalah Batasan masalah dalam penelitian ini, antara lain: 1. Dokumen teks berasal dari kumpulan tweet informasi berita yang terdapat pada akun Twitter dalam format data Java Script Object Notation (JSON) 2. Pengambilan teks tweet informasi berita pada Twitter dengan menggunakan pustaka LinqToTwitter 3. Proses clustering dengan menggunakan metode Suffix Tree Clustering (STC) dengan memanfaatkan pustaka milik Carrot 2 3

4 4. Proses klasifikasi konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC, dengan menggunakan metode Nearest Neighbor (NN) 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah 1. Pengelompokkan teks tweet pada Twitter sebagai media penyebar berita, untuk memudahkan pembaca dalam membaca konten teks tweet berita yang saling berkaitan secara tematik. 2. Penggunaan metode Nearest Neighbor pada proses klasifikasi anggota klaster Other Topics hasil algoritma STC, berdasarkan pada kemiripan dokumen. Sehingga dapat megoptimalkan jumlah anggota klaster yang ada. 1.6 Metode Penelitian Metode yang digunakan pada penelitian ini meliputi: 1. Objek penelitian Pengelompokkan teks secara tematik pada status tweet atau retweet berita pada twitter yang didapat dari akun atau dengan kata kunci tertentu, menggunakan algoritma suffix tree clustering (STC) dalam proses klasterisasi, sedangkan klasifikasi anggota klaster other topics hasil dari algoritma STC agar terklasifikasi ke klaster lainnya menggunakan algoritma Nearest Neighbor. 2. Data yang diperlukan a. Data primer Praproses mendapatkan inputan data berupa teks yang berasal dari teks tweet dan retweet penggalan berita pada status di Twitter. Proses pengambilan data ini menggunakan pustaka LinqtoTwitter. Data status ini berisi konten teks, waktu penebitan teks, screen name dan image profile pengguna. b. Data sekunder Algoritma Suffix Tree Clustering memproses masukan teks tweet dari Twitter dan menghasilkan nama-nama klaster beserta nama-nama dokumen yang menjadi anggotanya. Salah satu klaster berlabel Other Topics, dengan 4

5 metode Nearest Neighbor anggota klaster ini akan diubah ke klaster yang ada. 3. Teknik pengumpulan data a. Observasi Penelitian ini menitikberatkan pada proses pengubahan status keanggotaan anggota Other Topics yang dihasilkan oleh algoritma Suffix Tree Clustering menggunakan metode Nearest Neighbor. Dokumen teks berita ini berasal dari teks tweet pada Twitter. b. Studi Pustaka Mempelajari hasil penelitian sebelumnya yang melibatkan algoritma Suffix Tree Clustering dan Nearest Neighbor dalam pengelompokkan teks. c. Metode pengembangan sistem 1) Pengambilan dokumen teks tweet atau retweet menggunakan pustaka LinqtoTwitter untuk mendapatkan teks, image profile url, dan waktu serta user screen name. 2) Pra-proses, meliputi penghapusan stopword, tokenizing dan stemming pada Bahasa Indonesia 3) Pembentukan klaster menggunakan pustaka Carrot 2 dengan algortima Suffix Tree Clustering (STC). 4) Pengklasifikasian anggota klaster Other Topics hasil dari proses algoritma STC, menggunakan metode Nearest Neighbor (NN) 5) Proses perhitungan kemiripan antar dokumen teks, menggunakan fungsi cosine similarity 6) Visualisasi hasil pengklasteran dan klasifikasi, ditampilkan dalam aplikasi bebasis web dan konsul (console) 1.7 Sistematika Penulisan BAB I PENDAHULUAN Paparan mengenai hal yang menjadi motivasi utama dalam melakukan penelitian pada Algoritma Suffix Tree Clustering (STC) dan Nearest Neighbor. Penelitian ini bermaksud untuk melakukan proses klasifikasi 5

6 pada dokumen teks hasil proses dari algoritma Suffix Tree Clustering (STC). Ruang lingkup penelitian ini, dibatasi pada pengolahan data teks berita yang diambil dari Twitter berdasarkan pada nama akun atau kata kunci dalam pencarian teks tweet maupun retweet. BAB II TINJAUAN PUSTAKA Tinjauan pustaka membahas keterkaitan penelitian-penelitian yang berhubungan dengan proses pengelompokkan hasil pencarian dokumen dan konstribusi yang ada dalam peningkatan kinerja algoritma pengelompokkan dokumen teks. Tinjauan pustaka ini memuat uraian sistematis tentang informasi hasil penelitian yang berkaitan dengan algoritma pengelompokkan dokumen teks yang disajikan dalam pustaka dan menghubungkannya dengan masalah penelitian yang sedang diteliti, yaitu proses pengklasteran pada dokumen teks dengan algoritma Suffix Tree Clustering (STC) dan pengklasifikasian teks dengan metode Nearest Neighbor. BAB III LANDASAN TEORI Memuat teori dasar yang diperlukan untuk pembahasan pada tahap analisis, perancangan, implementasi, dan pengujian sistem. Teori dasar yang ada meliputi; teori tentang praproses dokumen teks Bahasa Indonesia, metode pengklasteran dengan algoritma Suffix Tree Clustering (STC) dan metode klasifikasi dengan menggunakan algoritma Nearest Neighbor. BAB IV ANALISIS DAN RANCANGAN SISTEM Memaparkan data, alat, kebutuhan sistem, deskripsi, ruang lingkup, pemodelan proses dan data, arsitektur sistem, alur kerja sistem, perancangan antar muka sistem, perancangan algoritma pada modulmodul, dan perancangan basisdata. 6

7 BAB V IMPLEMENTASI Memuat implementasi arsitektur sistem dan modul-modul, algoritma Suffix Tree Clustering (STC) dan algoritma Nearest Neighbor. BAB VI HASIL PENELITIAN DAN PEMBAHASAN Memberikan informasi tentang hasil pengolahan dokumen teks berita pada Twitter. Proses pengolahan dokumen teks meliputi praposes yang terdiri dari proses penghapusan stopword dan stoplist serta proses stemming pada Bahasa Indonesia. Proses pengklasteran dokumen teks dengan menggunakan algoritma Suffix Tree Clustering dan proses klasifikasi dengan menggunakan algoritma Nearest Neighbor. Sedangkan pengujian hasil klasifikasi dilakukan dengan cara mencocokkan hasil klasifikasi yang dihasilkan oleh sistem dengan hasil klasifikasi yang dilakukan secara manual. BAB VII KESIMPULAN DAN SARAN Memberikan kesimpulan penelitian yang dilakukan oleh peneliti dan memberikan saran untuk mendukung keberlanjutan penelitian di bidang pengelompokkan dokumen teks, yang terdiri dari proses pengklasteran dan klasifikasi hasil pencarian. 7