Event Detection Banjir pada Microblogging Twitter dengan Algoritma DBSCAN
|
|
|
- Yanti Tan
- 8 tahun lalu
- Tontonan:
Transkripsi
1 Event Detection Banjir pada Microblogging Twitter dengan Algoritma DBSCAN (Flood Event Detection in Twitter Microblogging with DBSCAN Algorithm) 1 Rendy, 2 Yudi Wibisono, 3 Rosa Ariani Sukamto Program Studi Ilmu Komputer, Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam, Universitas Pendidikan Indonesia Jl. Dr. Setiabudhi No. 229 Bandung Jawa Barat Indonesia 1 [email protected], 2 [email protected], 3 [email protected] Abstrak- Twitter merupakan sebuah situs microblogging yang populer dibandingkan dengan situs microblogging lainnya. Twitter mampu mengirimkan pesan pendek 140 karakter. Isi dari pesan yang dikirim atau dinamakan tweet umumnya berisi laporan mengenai kejadian sehari-hari. Pada paper ini, penulis memfokuskan penelitian untuk mendeteksi adanya banjir melalui Twitter. Teknik yang dapat digunakan untuk memanfaatkan hal tersebut salah satunya dengan teknik clustering. Metode clustering yang digunakan yaitu metode Density-based Clustering dengan Algoritma DBSCAN. Metode Density-based Clustering melakukan pengelompokkan berdasarkan tingkat kepadatan dari suatu tweet. Cluster akan dipisahkan berdasarkan area yang memiliki kepadatan tinggi dengan area yang memiliki kepadatan rendah. Setiap cluster merepresentasikan satu event. Dari setiap event yang terdeteksi diambil informasi mengenai lokasi banjir dan deskripsi banjir tersebut menggunakan Named Entity Recognition (NER). Deteksi event menggunakan algoritma DBSCAN memberikan hasil yang baik, terbukti dengan nilai evaluasi cluster yang besar (0.86) dari data sebanyak 5354 tweet dengan jumlah event yang terdeteksi sebanyak 24 event. Kata Kunci : Event Detection, Clustering, DBSCAN, Twitter, Named Entitiy Recognition Abstract Twitter is the popular microblogging site's than others. Twitter allows user to send short messages contains 140 characters. The Twitter post, called tweets, typically contains about real-life events. In this paper, the authors focus on the study to detect flooding through Twitter. The technique can be used is clustering. The authors uses Density-based Clustering with DBSCAN algorithm to group tweets. Density-based clustering methods perform clustering based on the density of a tweet. Clusters are separated by areas that have a high density area with a low density. Each cluster represents a single event. Each of detected event, extract information about the location and description of the flood using Named Entity Recognition (NER). Event detection using DBSCAN gives good results as evidenced by the large cluster evaluation value (0.86) of 5354 tweets with 24 number of events detected. Keywords: Event Detection, Clustering, DBSCAN, Twitter, Named Entitiy Recognition 1.1 Latar Belakang I. PENDAHULUAN Twitter merupakan sebuah situs microblogging yang paling populer dibandingkan dengan situs microblogging lainnya. Hal ini terlihat dari jumlah pengguna Twitter yang mencapai 105 juta pada April 2010 dengan jumlah posting 55 juta tweet per hari [1]. Twitter merupakan media sosial yang digunakan oleh banyak orang untuk dapat terhubung dengan orang-orang disekelilingnya dan seluruh dunia melalui komputer dan perangkat mobile. Twitter sebagai salah satu situs microblogging mampu mengirimkan sebuah pesan pendek (140 karakter) tentang apa yang mereka lakukan, apa yang ada di sekeliling mereka, kejadian yang sedang terjadi, dan hal lainnya yang dapat dilihat oleh semua orang. Pesan tersebut biasa disebut dengan tweet. Oleh karena itu, Twitter dikategorikan sebagai microblogging service. Microblogging merupakan sebuah bentuk blog dimana penggunanya dapat mengirimkan sebuah pesan teks (status update) yang singkat. Indonesia merupakan negara ketiga penghasil tweet terbesar dengan jumlah enam juta tweet per hari [2]. Ini bisa menjadi potensi informasi yang sangat besar untuk dimanfaatkan. Misalnya, untuk mendeteksi adanya bencana banjir. Twitter menyediakan sumber informasi yang begitu besar yang tidak mudah didapatkan di tempat lain. Ada banyak informasi dalam Twiiter yang sifatnya up-to-date dan tentu sangat bermanfaat untuk sebagian orang. Namun, ada juga tweet yang sama sekali tidak menarik bagi sebagian orang. Dibutuhkan sebuah cara untuk menentukan informasi yang reliable dengan adanya kejadian di Twitter. Dalam hal ini, informasi atau kejadian yang terdapat pada Twitter dapat diidentifikasi, sehingga nantinya informasi tersebut akan bermanfaat untuk dikonsumsi. Dengan adanya cara tersebut dapat membantu menemukan kejadian yang sudah terjadi, sedang terjadi, atau mungkin yang akan terjadi.
2 Maka dari itu, penelitian ini melakukan analisis tweet dengan keyword banjir" untuk diproses lebih lanjut sehingga menghasilkan informasi yang dapat bermanfaat dan digunakan sebaik-baiknya, misalkan mengetahui kejadian banjir yang umum terjadi pada rentang waktu tertentu. Banjir ini dijadikan sebagai objek penelitian karena merupakan salah satu bencana alam terbesar di Indonesia selain gempa bumi. 1.2 Identifikasi Masalah Merujuk dari latar belakang di atas, ada beberapa permasalahan yang timbul dalam melakukan identifikasi adanya bencana: 1. Bagaimana algoritma DBSCAN dapat membantu mendeteksi adanya event melalui Twitter? 2. Bagaimana melakukan pengambilan informasi dari setiap event berdasarkan kumpulan tweet yang terbentuk sehingga dapat menyimpulkan dimana lokasi adanya event? 1.3 Tujuan Tujuan yang ingin dicapai dalam paper ini: 1. Dapat mendeteksi adanya banjir berdasarkan tweet dengan metode density-based clustering menggunakan algoritma DBSCAN. 2. Dapat mengambil informasi penting dari setiap event berdasarkan kumpulan tweet yang terbentuk dengan menggunakan teknik Named Entity Recognition. II. LANDASAN TEORI 2.1 Twitter dan Twitter API Twitter merupakan sebuah jejaring sosial yang muncul pada tahun Twitter didirikan oleh Jack Dorsey. Dari tahun ke tahun, pengguna Twitter terus bertambah, bahkan dalam sebuah jurnal [3] dikatakan bahwa pertumbuhan pengguna Twitter mencapai 1382% setiap tahunnya. Twitter menyediakan informasi yang bersifat real-time terhadap segala sesuatu hal, baik itu tentang fakta, pendapat, bencana alam, dan lain-lain. Kini Twitter tidak hanya dapat diakses di web browser saja, banyak aplikasi third-party yang mampu mengakses Twitter kapanpun dan dimanapun. Twitter merupakan situs microblogging terbesar di dunia dengan jumlah pengguna sekitar 105 juta pada April 2010 [1]. Twitter mampu mengirimkan sebuah pesan (kemudian disebut tweet) yang hanya terbatas 140 karakter. Twitter dapat diakses melalui website resmi Twitter dan juga aplikasi third-party berbasis web, mobile, dan desktop. Third-party adalah instansi lain atau pihak ketiga selain Twitter yang membuat Twitter client dengan memanfaatkan API Twitter. Contoh third-party seperti TweetDeck, MetroTwit, dan Seesmic. Kemudahan akses Twitter seperti inilah yang menjadikan Twitter memiliki jumlah data yang besar. Popularitas Twitter bertambah seiring dengan pertambahan jumlah pengguna yang saling follow. Ada sekitar 55 juta tweet per hari [1], besarnya angka tersebut menjadikan Twitter sebagai sumber informasi yang ideal untuk mencari informasi menarik mengenai suatu kejadian (event detection). Terdapat dua alasan mengapa Twitter menjadi sumber informasi yang ideal. Pertama, karena sifatnya yang real-time dan pembatasan jumlah karakter dalam setiap tweet (140 karakter). Kedua, karena Twitter telah melakukan penyaringan tweet terhadap data spam yang akan dikonsumsi oleh publik. Twitter menyediakan sejumlah API berisi kumpulan fungsi untuk melakukan pencarian tweet berdasarkan lokasi, maupun berdasarkan keyword yang ingin dicari. Twitter API inilah yang dimanfaatkan penulis untuk mengumpulkan data. Ada tiga jenis Twitter API: 1. REST API 2. Search API. 3. Streaming API 2.2 Text Mining Text Mining adalah suatu proses pengambilan informasi berkualitas tinggi dari sejumlah teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui pembelajaran statistik. Tahapan yang diperlukan dalam text mining, yaitu (Even, Y. dan Zohar., 2002) [4]: 1. Pengumpulan data 2. Text Preprocessing 3. Transformasi Teks 4. Feature Selection 5. Penemuan Pola 6. Interpretasi 2.3 Event Detection Event dapat diartikan sebagai kejadian yang terjadi secara signifikan diluar kebiasaan sistem. Sistem itu sendiri didefinisikan oleh International Council on Systems Engineering (INCOSE) sebagai kombinasi dari interaksi komponen-komponen yang terorganisasi untuk mencapai satu atau lebih tujuan (INCOSE, 2006). Dalam sistem yang sesungguhnya kebanyakan sesuatu terjadi secara normal, namun dalam waktu yang singkat, sesuatu diluar kebiasaan normal dapat terjadi dan bisa membahayakan kehidupan itu sendiri. Oleh karena itu, event dapat diidentifikasi melalui proses yang disebut dengan event detection. Event detection merupakan proses untuk menemukan adanya kejadian menarik yang sedang, sudah, atau akan terjadi. Banyak hal yang bisa dimanfaatkan oleh event detection ini misalnya mengamati adanya suatu gejala alam atau penyakit tertentu, penemuan ilmiah, bencana alam, serangan teroris. Event detection dapat diamati secara langsung maupun tidak langsung. Contoh event detection yang dapat diamati secara langsung misalnya untuk mengetahui apakah akan terjadi hujan atau tidak, maka dapat diamati dengan melihat kondisi cuaca di luar ruangan. Sedangkan, event detection yang tidak dapat diamati secara langsung misalnya untuk mengetahui suhu tubuh manusia apakah berada dalam rentang yang normal atau tidak, maka dibutuhkan termometer. Pada contoh
3 yang kedua, termometer dianggap sebagai sensor pendeteksi adanya event. Event detection seperti itu dinamakan sensorbased event detection. Sensor-based event detection memiliki dua kesulitan [5]: 1. Membutuhkan komputasi yang tinggi 2. Membutuhkan media penyimpanan yang besar Event Detection pada Twitter Untuk mendeteksi event pada Twitter dibutuhkan data-data berkualitas yang diambil dari Twitter. Artinya data yang diambil setidaknya mengandung target event yang ingin dideteksi. Misalnya, target event yang akan dideteksi adalah banjir, maka setidaknya tweet yang diambil mengandung kata banjir sebagai kata kunci. Tweet bisa didapatkan ketika pengguna Twitter membuat tweet yang menyebutkan target event. Dalam hal ini, pengguna Twitter dikatakan sebagai social sensor. Social sensor ini bertugas sebagai pengamat akan adanya suatu event yang terjadi. Social sensor memiliki beberapa karakteristik, yaitu sebagian sensor secara aktif melakukan pengamatan (membuat tweet) spesifik terhadap event tertentu dan sebagian sensor lainnya secara aktif melakukan pengamatan (membuat tweet) terhadap event yang lebih global. Ketika pengguna Twitter membuat tweet dengan menyebutkan banjir, maka pengguna Twitter tersebut dianggap sebagai sensor yang mendeteksi adanya banjir. Tweet tersebut bisa didapatkan dengan memanfaatkan Search API pada Twitter [3]. Berikut ilustrasi event detection melalui Twitter. Gambar 1. Ilustrasi event detection Hambatan Umum pada Event Detection Kompleksitas dari event detection menimbulkan beberapa tantangan. Terdapat beberapa tantangan umum dalam pengembangan dan penerapan metode event detection. Berikut adalah beberapa tantangan umum tersebut [5]. 1) Domain-dependence Permasalahan event detection sangat bergantung pada kondisi. Beberapa kasus dapat dikatakan serupa, tapi tak ada satupun yang persis sama. Baik parameter, variabel, dan keluaran yang dipilih untuk menyelesaikan satu permasalahan event detection mungkin tidak akan bisa diimplementasikan pada kasus lain yang serupa. Namun, pendekatan untuk memecahkan masalah event detection antara satu dan yang lainnya bisa diterapkan. Contohnya event detection bencana alam gempa bumi dan event detection bencana alam angin topan adalah dua kasus serupa yakni event detection namun dalam penyelesaiannya tentu banyak karakteristik yang tidak bisa disamakan. 2) Critically of Application Permasalahan event detection pada umumnya dipakai untuk aplikasi yang bersifat kritis. Contoh dari aplikasi bersifat kritis misalnya mendeteksi gejala penyakit yang berbahaya atau mendeteksi potensi bencana alam yang akan terjadi dalam waktu dekat. Hal tersebut tentu membutuhkan hasil presisi yang tinggi agar hasilnya akurat Algoritma Event Detection Tweet dijadikan sebagai sumber pengamatan terhadap terjadinya event. Maka dari itu, tweet dianggap sebagai sensor. Tujuan dari event detection melalui Twitter adalah mengelompokkan tweet ke dalam event. Berikut langkahlangkahnya [6]. 1) Tweet yang sudah terkumpul disimpan dalam database atau file teks. 2) Kelompokkan tweet yang memiliki kemiripan isi ke dalam satu cluster. 3) Dari hasil setiap cluster akan mewakili 1 event dan masing-masing event memiliki atribut seperti lokasi, waktu, deskripsi event. 4) Ekstrak informasi dari satu tweet yang paling representatif. 2.4 Clustering Clustering adalah proses pengelompokkan objek berdasarkan ciri atau atribut tertentu ke dalam sejumlah cluster. Pengelompokkan dilakukan dengan prinsip tersebut memaksimalkan kedekatan antar objek dalam satu cluster dan meminimumkan kesamaan antar cluster. Dengan prinsip dan algoritma clustering, sejumlah objek dapat dikelompokkan secara mudah berdasarkan ciri atau atribut tertentu. Clustering bersifat unsupervised learning, yang berarti analisis cluster menemukan pola dari data dengan tidak memanfaatkan label yang sudah ada sebelumnya. Clustering dalam data mining berguna untuk menemukan pola distribusi dalam sebuah data set yang berguna untuk proses analisis data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objekobjek data direpresentasikan sebagai sebuah titik dalam ruang multidimensi [7].
4 2.4.1 Text Clustering Text Clustering merupakan salah satu fungsi penting dari Text Mining. Text Clustering bertujuan untuk membagi kumpulan teks ke dalam beberapa kelompok. Kumpulan teks yang memiliki kesamaan topik akan dikelompokkan dalam satu kelompok [8]. Dalam text clustering, data teks tersedia dalam berbagai macam format (plain text, DOC, PDF, XML). Data tersebut harus dikonversi menjadi model representasi yang umum agar bisa diproses, misalnya pemodelan dengan Vector Space Model (VSM). Dalam VSM, teks direpresentasikan dalam bentuk vektor <t 1, t 2,..., t i,..., t n>. Setiap term t i mewakili sebuah kata. Kumpulan teks akan direpresentasikan dalam satu set vektor yang dapat ditulis sebagai matriks. Data Teks x 11 x 1i x 1m x j1 x ji x jm [ x n1 x ni x nm ] Setiap baris pada matriks merepresentasikan kumpulan teks dan setiap kolom merepresentasikan kata di dalam teks j. Setiap elemen X ji, merepresentasikan bobot TFIDF. D tfidf(d j, t i ) = tf(d j, t i ) log df(t i ) Nilai tf(d j, t i ) merupakan frekuensi kemunculan term ti dalam dokumen d j, D merupakan jumlah dokumen, dan df(t i ) merupakan jumlah dokumen yang memiliki term t i Density-based Clustering Density-based Clustering membagi sejumlah data berdasarkan daerah kepadatannya (density). Metode ini menganggap cluster sebagai suatu area yang berisi objekobjek yang padat, yang dipisahkan oleh area yang memiliki kepadatan rendah [9]. Salah satu algoritma dalam densitybased clustering, yaitu DBSCAN. DBSCAN (Density-Based Spatial Clustering of Applicatoin with Noise) mendefinisikan cluster sebagai himpunan maksimum dari kumpulan titik-titik yang terkoneksi (density-connected). Semua objek yang tidak masuk ke dalam cluster dianggap noise. Pengelempokkan dilakukan terhadap titik-titik yang berada dalam radius (Ɛ) tertentu yang harus memenuhi jumlah titik minimum (MinPts). Pembentukan ketetanggaan antar titik dapat ditentukan melalui fungsi jarak antara dua buah titik, yaitu Euclidean Distance. d(p1, P2) = (x 2 x 1 ) 2 + (y 2 y 1 ) 2 DBSCAN menggunakan konsep titik pusat (core point), titik batas (border point), dan noise. Titik yang memiliki sejumlah titik tetangga dan memenuhi jumlah titik minimum, serta berada dalam jarak tertentu disebut sebagai titik pusat. Sedangkan titik batas memiliki jumlah titik tetangga namun tidak memenuhi jumlah titik minimum. Kriteria suatu titik dikatakan sebagai noise yaitu pada saat titik tersebut tidak termasuk titik pusat ataupun titik batas. Berikut dijelaskan beberapa konsep yang memiliki peranan penting dalam DBSCAN. 1) Directly-density reachable Titik p dikatakan directly density-reachable dari titik q, jika titik p berada di dalam ketetanggaan titik q dengan jarak tertentu (Ɛ) dan titik q merupakan titik pusat, serta jumlah ketetanggan dari titik pusat q memenuhi MinPts. Konsep ini berlaku untuk sepasang titik pusat. 2) Density-reachable Titik p dikatakan density-reachable dari titik q (memenuhi syarat Ɛ dan MinPts) jika terdapat rantai yang menghubungkan titik p1,..., pn dengan p1 = q, pn = p dan pi+1 directly density-reachable dari pi. 3) Density-connectivity Titik p density-connectivity terhadap titik q (memenuhi syarat Ɛ dan MinPts) jika titik p dan q density-reachable dari titik r. Density-connectivity bersifat simetris terhadap suatu objek dengan objek lainnya. Untuk lebih jelasnya, gambar 2 mengilustrasikan penjelasan ketiga konsep di atas. Gambar 2. Konsep Algoritma DBSCAN Lingkaran pada gambar di atas mengilustrasikan sebuah objek dengan radius (Ɛ) dan nilai MinPts=3. Dari gambar di atas terdapat empat core object yang diberi label m, p, o, dan r. Disebut core object karena jumlah ketetanggan (Ɛneighborhood) objek tersebut berisi setidaknya nilai MinPts, 3 titik. Titik q directly density-reachable dari titik m. Titik m directly density-reachable dari titik p. Begitu juga sebaliknya. Titik q (indirectly) density-reachable dari titik p karena titik q directly density-reachable dari titik m directly densityreachable dari titik p. Tetapi titik p tidaklah density-reachable dari titik q karena titik q bukan core object. Begitupun dengan titik r dan s, keduanya density-reachable dari titik o, dan titik o density-reachable dari titk r. Titik o, r, dan s adalah densityconnected [7]. 2.5 Named Entity Recognition Named Entity Recognition (NER) merupakan salah satu bagian penting dalam ekstraksi informasi dan berhubungan dengan NLP (Natural Language Processing) yang bertujuan untuk mengidentifikasi entitas pada suatu teks dan mengklasifikasikannya ke dalam beberapa entitas tersebut. Entitas dalam NER meliputi entitas nama (nama orang, lokasi,
5 organisasi), ekspresi waktu (tanggal, waktu, durasi), dan ekspresi bilangan (uang, persen, numerik, kardinal) pada kumpulan teks. Ekstraksi Informasi itu sendiri merupakan proses penemuan informasi dari kumpulan kumpulan dokumen atau teks berbahasa alami sebagai masukannya dan menghasilkan informasi yang berguna berupa informasi yang terstruktur dengan format tertentu [10]. Teks: 17:35 Kopo banjir setinggi 50 cm. Cari jalan alternatif! Hasil dari pengenalan Entitas: <Waktu>17:55</Waktu><Lokasi>Kopo</Lokasi> banjir setinggi <Ukuran>50cm</Ukuran>. III. HASIL PENELITIAN 3.1 Pembahasan Penelitian Pada penelitian ini digunakan metode Density-based Clustering dengan algoritma DBSCAN dalam melakukan analisis cluster. Dalam penelitian ini dilakukan tahapan-tahapan untuk melakukan analisis cluster terhadap data tweet, yaitu sebagai berikut: 1. Pengumpulan data 2. Preprocessing 3. Clustering 4. Evaluasi Cluster 5. Ekstraksi Event 1. Pengumpulan data Data yang digunakan diambil dari situs microblogging Twitter. Tweet yang penulis gunakan untuk eksperimen ini sebanyak 5354 tweet. 2. Preprocessing Pada tahap ini dilakukan dilakukan pemrosesan awal teks untuk menghilangkan tanda baca, penghilangan user dan hashtag (#hashtag), tokenisasi, penghilangan stopwords, penggantian kata dengan sinonim, mengubah teks menjadi lowercase, dan mengurangi data duplikasi. Penghilangan sebagian kata akan digantikan dengan karakter spasi untuk mempermudah pemenggalan kata pada tahap berikutnya. Data yang digunakan pada tahap ini hanya data yang diambil pada bulan Januari Jadi, semua event yang terdeteksi merupakan event yang terdapat pada Twitter pada bulan Januari Tabel 1. Hasil Preprocessing Teks buncit - mampang mulai di siram hujan 11:03am tiati macet dan banjir, #jktcuaca 13.25: BANJIR CILEGON - dekat Kawasan Krakatau Steel arah Anyer. Hasil Preprocessing buncit mampang mulai di siram hujan 11 03am tiati macet dan banjir banjir cilegon dekat kawasan krakatau steel arah anyer Setelah tahap preprocessing, langkah selanjutnya adalah melakukan pembobotan dengan menggunakan vector space model. Vector space model (VSM) merupakan teknik pembobotan yang merepresentasikan teks sebagai kumpulan titik di dalam suatu ruang vektor. Pembobotan dihitung dengan menggunakan TF-IDF (Term Frequency Inverse Document Frequency). Contoh pembobotan untuk kata bandung, jika kata tersebut muncul sebanyak 8 kali pada 100 tweet dan kata tersebut muncul sebanyak 2 kali pada tweet yang akan dilakukan pemodelan, maka bobot kata untuk kata bandung : tfidf = 2 log = 2,193 Pembobotan kata dilakukan untuk setiap kata di dalam tweet. Hasil pembobotan pada VSM ini selanjutnya akan digunakan pada algoritma clustering. Teks buncit - mampang mulai di siram hujan 11:03am tiati macet dan banjir, #jktcuaca 13.25: BANJIR CILEGON - dekat Kawasan Krakatau Steel arah Anyer. Tabel 2. Hasil Pembobotan Hasil Preprocessing banjir= ;sir am= ;mampa ng= ;tiati= ;macet= ;11= ;hujan= ;03am= ; buncit= ; banjir= ;kr akatau= ;cileg on= ;anyer= ;25= ;steel= ;13= ;kawasan= ;arah= ; 3. Clustering Hasil proses pada tahap preprocessing sangatlah penting sebagai inputan pada tahap clustering. Semakin baik kualitas data semakin baik pula hasil clustering. Algoritma clustering yang diimplementasikan pada tahap ini adalah DBSCAN.
6 DBSCAN akan melakukan cluster sesuai dengan parameter masukkannya, yaitu eps (Ɛ) dan MinPts. Jumlah cluster yang dihasilkan oleh DBSCAN sangat bergantung pada kedua parameter tersebut. Pada tahap awal, DBSCAN akan mengelompokkan semua titik sebagai kelompok UNCLASSIFIED. Lalu, secara iteratif setiap titik diuji kedekatannya dengan titik lain. DBSCAN akan membuat suatu region dengan radius senilai eps sehingga region tersebut akan berisi titik-titik yang berjarak eps (Ɛ) dari titik uji. Jika di dalam region tersebut terdapat sejumlah titik yang banyaknya lebih dari nilai MinPts, maka semua titik di dalam region tersebut dimasukkan ke dalam cluster yang sama. Jika jumlah titik di dalam suatu region lebih kecil dari nilai MinPts, maka titik uji dianggap sebagai noise. Sebelum pergantian iterasi, setiap titik yang berada dalam region yang memiliki jumlah titik lebih dari nilai MinPts, diuji kembali kedekatannya terhadap titik lain karena proses cluster dalam DBSCAN ini adalah untuk mencari titik density-reachable. Dalam hal ini, pemilihan parameter eps (Ɛ) dan MinPts sangat berperan terhadap hasil cluster. 4. Evaluasi Cluster Kumpulan cluster yang dihasilkan oleh algoritma clustering dijadikan input untuk melakukan evaluasi. Pada eksperimen ini, evaluasi dilakukan dengan menggunakan overall similarity. Nilai overall similarity pada eksperimen ini sangat bergantung pada parameter eps dan MinPts. Hasil dari overall similarity ini berkisar dari 0 1. Semakin mendekati 1 artinya kualitas cluster semakin baik atau kemiripan antar anggota cluster sangat dekat. Nilai overall similarity dari hasil cluster dapat dilihat pada Tabel Ekstraksi Event Kumpulan cluster yang dihasilkan oleh algoritma DBSCAN memiliki sejumlah tweet didalamnya. Dengan menggunakan teknik Named Entity Recognition (NER), dapat diambil informasi dari tweet yang representatif di dalam setiap cluster misalnya mengambil nama tempat atau lokasi banjir. Implementasi yang digunakan untuk melakukan tugas NER pada eksperimen ini adalah menggunakan regular expression atau regex. 3.2 Hasil Eksperimen Hasil dari eksperimen yang didapatkan dijelaskan sebagai berikut. Jumlah Tweet Uji Jumlah Tweet Preprocessing Tabel 3. Hasil Eksperimen Jumlah Noise Eps MinPts Jumlah Cluster Overall Similarity Berikut merupakan contoh dari hasil event yang dideteksi dari setiap cluster. Gambar 3. Hasil Ekstraksi Event Dari hasil eksperimen yang telah dilakukan (lihat Tabel 3), pemilihan variabel Eps dan MinPts sangat berpengaruh terhadap hasil cluster dan nilai overall similarity. Semakin besar nilai Eps, mengakibatkan jumlah cluster yang terbentuk semakin sedikit. Akan tetapi, parameter dari Eps ini tidak berdiri sendiri dalam menentukan hasil cluster. Dalam tabel 3 terlihat bahwa meskipun nilai Eps diperkecil tetapi nilai dari MinPts diperbesar akan menghasilkan jumlah cluster yang berbeda dengan nilai Eps yang sama. Artinya, kedua parameter Eps dan MinPts merupakan pasangan paramater yang harus dikombinasikan dengan baik sehingga menghasilkan suatu cluster yang baik pula. Baik atau tidaknya kualitas cluster dapat dilihat dari nilai overall similarity yang terbentuk. Pada tabel 3 terlihat bahwa nilai eps 0.5 dan MinPts 15 menghasilkan kualitas cluster yang paling baik, yakni Pada eksperimen ini, hasil dari sebuah cluster merepresentasikan sebuah event banjir. Misalnya, jika hasil dari clustering ditemukan 24 cluster maka terdeteksi sebanyak 24 cluster terkait dengan banjir. Pada kenyataannya dari setiap cluster yang terbentuk tidak selalu tweet dalam satu cluster tersebut berisikan event yang sama. Misalnya, suatu cluster merepresentasikan banjir di daerah Jakarta, namun ada beberapa tweet dalam cluster tersebut yang tidak membicarakan banjir di daerah Jakarta melainkan daerah lainnya. Hasil dari algoritma DBSCAN ini bergantung pada dua parameter, yakni Eps dan MinPts. Pemilihan parameter ini pun bergantung pada tujuan yang ingin dicapai dari proses clustering. Jika menginginkan jumlah cluster yang banyak maka nilai dari MinPts perlu diperkecil. Sebaliknya, jika menginginkan jumlah cluster yang sedikit namun berukuran besar maka nilai MinPts perlu diperbesar. Perlu diingat bahwa DBSCAN ini menggunakan fungsi jarak dalam perhitungannya sehingga dalam pemilihan nilai Eps pun tidak bisa sembarangan. Untuk mendapatkan informasi dari setiap cluster yang telah terbentuk digunakan regular expression (regex) untuk mengambil lokasi dari event yang terbentuk. Dari setiap cluster, diambil satu data yang paling representatif, kemudian dari data tersebut didapatkan informasi mengenai lokasi banjir dengan memanfaatkan regular expression (regex). IV. PENUTUP 4.1 Kesimpulan 1. Algoritma DBSCAN membantu mendeteksi adanya event dengan cara mengelompokkan sebuah data berdasarkan tingkat kepadatannya sehingga cluster akan dipisahkan dengan data-data dengan tingkat kepadatan
7 yang rendah. DBSCAN membutuhkan dua parameter input untuk melakukan clustering, yaitu eps dan MinPts. Kedua parameter tersebut sangat berpengaruh terhadap hasil cluster. Sebuah cluster hasil dari DBSCAN ini merepresentasikan sebuah event yang ingin dideteksi sehingga satu cluster berarti satu event. 2. Pengambilan informasi event dapat dilakukan dengan teknik Named Entity Recognition (NER). Implementasi NER yang digunakan yaitu pemanfaatan regular expression (regex). Regex akan mengambil informasi dengan mencocokan pola string tertentu dengan data hasil cluster. Jika terdapat kecocokan, maka dapat diambil informasi mengenai lokasi dan deskripsi dari event yang terdeteksi. 4.2 Saran Untuk pengembangan lebih lanjut, saran-saran yang diberikan pada penelitian ini yaitu sebagai berikut: 1. Perlu dilakukan adanya klasifikasi terlebih dahulu terhadap data tweet yang akan diproses pada tahap clustering. Klasifikasi bertujuan untuk memisahkan data yang memiliki makna banjir sebagai bencana dan makna banjir sebagai kiasan. 2. Perlu dilakukan penelitian lebih lanjut dengan menggunakan algoritma lain dari metode density-based clustering dan membandingkan hasilnya dengan algoritma DBSCAN. 3. Perlu dilakukan penelitian lebih lanjut untuk mengambil informasi dari setiap cluster (ekstraksi informasi) sehingga data nama dan lokasi kejadian suatu event lebih presisi, misalnya dengan menggunakan teknik NER berdasarkan pembelajaran mesin (machine learning). 4. Perlu dilakukan penelitian lebih lanjut dalam penghitungan pembobotan TFIDF dan fungsi jarak selain menggunakan Euclidean Distance. Hal ini untuk mengantisipasi kelemahan DBSCAN yang tidak mampu melakukan clustering terhadap variasi perbedaan jarak yang besar antar objek data. UCAPAN TERIMA KASIH Penulis menyadari bahwa terselesaikannya penelitian ini tidak lepas dari peranan, dukungan, dan bantuan dari berbagai pihak: Allah SWT, pembimbing dan keluarga. DAFTAR PUSTAKA [1] Jackoway A., Samet H., dan Jagan S., Identification of Life Events using Twitter, Journal of ACM [2] Wibisono Y., Sistem Analisis Opini Microblogging Berbahasa Indonesia, Jurnal FPMIPA UPI, 2011 [3] Sakaki T., Okazaki M., dan Matsuo Y., Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors, [Online]. Tersedia di [3 Februari 2012], 2010 [4] Even Y. dan Zohar, Introduction To Text Mining, [Online], Tersedia: [16 Februari 2012], 2002 [5] Kerman M.C., Jiang W., Blumberg A.F., dan Buttrey S.E., Event Detection Challenges, Methods, and Applications in Natural and Artificial Systems, 14th International Command and Control Research and Technology Symposium, 2009 [6] Sun Y. Event Detection Tutorial for Twitter Project, [Online], Tersedia di: l+on+event+detection+for+twitter+project.pptx [4 Januari 2013], 2012 [7] Han J. dan Kamber M., Data Mining Concepts and Techniques, San Francisco: Morgan Kaufmann Publishers, 2006 [8] Huang J. Z., Michael Ng., dan Jing L., Text Clustering: Algorithms, Semantics, and Systems, PAKDD Tutorial, 2006 [9] S. Michael, K. George, dan K. Vipin, A Comparison of Document Clustering Techniques, Journal of Citerseerx, 2000 [10] Chincor N., MUC-7 Named Entity Task Definition, Version 3.5, 1997
BAB I PENDAHULUAN 1.1. Latar Belakang Rendy, 2013
BAB I PENDAHULUAN 1.1. Latar Belakang Twitter merupakan sebuah situs microblogging yang populer dibandingkan dengan situs microblogging lainnya. Hal ini terlihat dari jumlah pengguna Twitter yang mencapai
BAB I PENDAHULUAN. diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Malang merupakan kota metropolitan ke dua dari kota surabaya yang ada diwilayah jawa timur. Dengan jumlah penduduk pada tahun 2010 sebanyak 820.243 jiwa, dengan
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN 3.1. Desain Penelitian Desain penelitian merupakan tahapan yang akan dilakukan oleh penulis untuk memberikan gambaran serta kemudahan dalam melakukan penelitian. Berikut tahapan
BAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
PENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan
Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan Ni Made Anindya Santika Devi, I Ketut Gede Darma Putra, I Made Sukarsa Jurusan Teknologi Informasi, Universitas Udayana Bukit Jimbaran,
BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang
BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang
BAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
ANALISIS TEXT-MINING DENGAN METODE DENSITY-BASED CLUSTERING PADA PESAN MEDIA SOSIAL UNTUK PEMETAAN LOKASI KECELAKAAN
ANALISIS TEXT-MINING DENGAN METODE DENSITY-BASED CLUSTERING PADA PESAN MEDIA SOSIAL UNTUK PEMETAAN LOKASI KECELAKAAN Abstrak Salah satu fungsi media sosial adalah untuk berbagi pesan atau kabar berita
BAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
2 TINJAUAN PUSTAKA. Ruang Lingkup Penelitian
3 Ruang Lingkup Penelitian 1. Teknik yang digunakan dalam membentuk clustering titik panas adalah DBSCAN. 2. Data yang digunakan pada penelitian ini adalah data titik panas kebakaran hutan di Indonesia
(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M
(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M 1Toza Sathia Utiayarsih, 2 Yadi Suprijadi, 3 Bernik Maskun 1Mahasiswa Magister Statistika
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Twitter adalah sebuah situs jejaring sosial yang sedang berkembang pesat saat ini karena pengguna dapat berinteraksi dengan pengguna lainnya dari komputer ataupun perangkat
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya
BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun
ANALISIS CLUSTER PADA DOKUMEN TEKS
Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma
BAB IV PREPROCESSING DATA MINING
BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan
commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
IMPLEMENTASI PENJADWALAN TWEET INFORMASI JURUSAN PADA TWITTER TEKNIK INFORMATIKA UNIVERSITAS MUHAMMADIYAH MALANG
IMPLEMENTASI PENJADWALAN TWEET INFORMASI JURUSAN PADA TWITTER TEKNIK INFORMATIKA UNIVERSITAS MUHAMMADIYAH MALANG TUGAS AKHIR Persyaratan Guna Meraih Gelar Sarjana Strata I Teknik Informatika Universitas
BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen
BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi
BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES
1 BAB I PENDAHULUAN Dalam bab ini akan dibahas latar belakang dilaksanakannya penelitian, identifikasi masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan. Latar
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011
STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
BAB III ANALISIS DAN PENYELESAIAN MASALAH
BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan
IMPLEMENTASI METODE DENSITY BASED SPATIAL CLUSTERING OF APPLICATIONS WITH NOISE UNTUK MENCARI ARAH PENYEBARAN WABAH DEMAM BERDARAH
IMPLEMENTASI METODE DENSITY BASED SPATIAL CLUSTERING OF APPLICATIONS WITH NOISE UNTUK MENCARI ARAH PENYEBARAN WABAH DEMAM BERDARAH Studi Kasus: Data Dinas Kesehatan Kodya Jogjakarta Yetli Oslan, S.Kom.,
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA
PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA 1 Yulison Herry Chrisnanto, 2 Gunawan Abdillah 1,2 Jurusan Informatika Fakultas
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA Hal-hal yang dipaparkan pada Bab Tinjauan Pustaka adalah penelaahan kepustakaan yang mendasari proses perancangan dan pembuatan aplikasi meliputi data mining, Customer Relationship
BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai
BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di
BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,
Kata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,
K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: [email protected] Abstrak Pembentukan cluster merupakan
Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means
Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK [email protected]
TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL
TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom
BAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,
Tipe Clustering. Partitional Clustering. Hirerarchical Clustering
Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan
BAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang
BAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG
IMPLEMENTASI DENSITY BASED SPATIAL CLUSTERING APPLICATION WITH NOISE (DBSCAN) DALAM PERKIRAAN TERJADI BANJIR DI BANDUNG Bima Aryo Putro¹, Kemas Rahmat Saleh Wiharja², Shaufiah³ ¹Teknik Informatika,, Universitas
Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas
1 Pembuatan Aplikasi Pendeteksi Anomali Pada Pola Konsumsi Listrik Pelanggan Kota Surabaya Menggunakan Algoritma Klasterisasi Berbasis Densitas Achmad Zainuddin Zakariya, Arif Djunaidy, Renny Pradina Kusumawardani
BAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia
Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Praditya Kurniawan 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 STMIK AMIKOM Yogyakarta e-mail: * 1 [email protected], 2
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
3 METODOLOGI PENELITIAN
19 3 METODOLOGI PENELITIAN 3.1. Kerangka Berpikir Kebakaran hutan yang sering terjadi di Indonesia berkaitan erat dengan dua faktor utama yaitu faktor alam dan faktor manusia. Kemungkinan terdapat karakteristik
ANALISIS CLUSTER PADA DOKUMEN TEKS
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
BAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media
KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE
KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas
Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi
Jurnal Komputer Terapan Vol. 3, No. 1, Mei 2017, 41-52 41 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Modifikasi DBSCAN (Density-Based Spatial Clustering With Noise) pada Objek 3 Dimensi Ibnu
SISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai
BAB I PENDAHULUAN. 1.1 Latar Belakang
1 BAB I PENDAHULUAN 1.1 Latar Belakang Human Resource Management merupakan prosedur sistematis untuk mengumpulkan, menyimpan, mempertahankan, menarik dan memvalidasi data yang di butuhkan oleh suatu organisasi
KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI
KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI Wiranto 1), Edi Winarko 2) 1) Jurusan Teknik Informatika, Universitas Sebelas Maret E-mail : [email protected] 2) Program Studi Ilmu
Student Clustering Based on Academic Using K-Means Algoritms
Student Clustering Based on Academic Using K-Means Algoritms Hironimus Leong, Shinta Estri Wahyuningrum Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata [email protected]
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan
BAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI
KONSEP MULTICRITERIA COLLABORATIVE FILTERING UNTUK PERBAIKAN REKOMENDASI Wiranto 1, Edi Winarko 2 1 Jurusan Teknik Informatika, Universitas Sebelas Maret 2 Program Studi Ilmu Komputer, Universitas Gajah
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
BAB I PENDAHULUAN. 1.1 Latar Belakang. Mikroblog adalah salah satu bentuk blog yang memungkinkan
1.1 Latar Belakang BAB I PENDAHULUAN Mikroblog adalah salah satu bentuk blog yang memungkinkan penggunanya untuk berbagi konten digital. 1 Perbedaan mikroblog dengan blog biasa terletak pada ukuran posting.
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
UNTUK TOPIC DETECTION AND TRACKING PADA MICROBLOG TWITTER
BAB I PENDAHULUAN Dalam bab ini akan dibahas latar belakang dilaksanakannya penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan. 1.1 Latar Belakang
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Salah satu cara untuk mengetahui faktor nilai cumlaude mahasiswa Fakultas Teknik Universitas Muhammadiyah Yogyakarta adalah dengan menerapkan
BAB III ANALISA DAN PERANCANGAN SISTEM
BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.
CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE
CLUSTERING DATA KATEGORIK MENGGUNAKAN K-MODES DENGAN WEIGHTED DISSIMILARITY MEASURE Lutfi Hidayat Ramdhani¹, Hetti Hidayati², Mahmud Dwi Suliiyo³ ¹Teknik Informatika,, Universitas Telkom Abstrak K-Modes
BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Apa yang orang lain pikirkan telah menjadi sesuatu yang penting untuk menjadi pertimbangan dalam pengambilan keputusan (Pang and Lee, 2006). Sesuatu yang orang lain
BAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)
SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER
SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER Anindya Apriliyanti P. Departemen Statistika FMIPA Universitas Padjadjaran [email protected]
BAB 1 PENDAHULUAN 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Twitter bagian dari Social Networking website yang memperbolehkan pengguna untuk mengirim dan membaca 140 karakter, atau sering disebut tweets[1]. Berdasarkan survey
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: [email protected]
Abidah Elcholiqi, Beta Noranita, Indra Waspada
Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah
Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer
Proses Data Mining dalam Sistem Pembelajaran Berbantuan Komputer Mewati Ayub Jurusan Teknik Informatika, Fakultas Teknologi Informasi Universitas Kristen Maranatha, Bandung Email : [email protected]
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,
5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat
BAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang
Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena
DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA
DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas
BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Pengenalan ucapan (speech recognition) merupakan sistem yang dirancang untuk dapat mengenali sinyal suara, sehingga menghasilkan keluaran berupa tulisan. Input dari
UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity
Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha
