commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

Ukuran: px
Mulai penontonan dengan halaman:

Download "commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining"

Transkripsi

1 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari sumber data yang tidak terstruktur mencakup dokumen bisnis, komentar customer, halaman web dan file XML (Delen, 2008). Text mining hampir sama dengan data mining dalam hal tujuan dan proses, tapi pada text mining inputnya adalah file data tidak terstruktur seperti dokumen dalam bentuk word, PDF, text, XML dan sebagainya (Turban, 2010). Text mining dapat digunakan dalam beberapa hal yaitu ekstraksi informasi, topic tracking, summarization, kategorisasi dan clustering. Penelitian ini memanfaatkan text mining dalam hal clustering. Proses text mining pada penelitian ini terdiri dari text preprocessing, term weighting, feature selection, dan clustering Text Preprocessing Text preprocessing merupakan salah satu komponen dari text mining. Komponen text preprocessing berfungsi mengubah data tekstual yang tidak terstruktur ke dalam data terstruktur dan disimpan dalam basis data (Langgeni, 2010). Pada tahap ini terdapat beberapa langkah yaitu : - Case folding Proses case folding menghilangkan karakter selain huruf abjad dan mengubah semua huruf menjadi lowercase (huruf kecil, bukan huruf kapital). - Tokenisasi Proses tokenisasi memotong data awal yang berupa kalimat berdasarkan tiap kata penyusunnya. Proses tokenisasi ditunjukkan dalam Gambar

2 6 Gambar 2.1 Proses Tokenisasi - Filtering Proses filtering disebut juga stopword removal. Proses ini mengambil kata-kata penting dari hasil proses tokenisasi. Langkah proses ini bisa dilakukan dengan dua teknik yaitu stop list (membuang kata yang kurang penting) dan word list (menyimpan kata yang penting). Gambaran proses stopword removal ditunjukkan oleh Gambar 2.2. Gambar 2.2 Proses Filtering - Stemming Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Abstrak yang akan dianalisis adalah data berbahasa Indonesia, sehingga algoritma stemming yang digunakan dipilih algoritma stemming untuk bahasa Indonesia. Gambaran stemming ditunjukkan oleh Gambar 2.3. Gambar 2.3 Proses Stemming

3 7 Algoritma stemming bahasa Indonesia ada berbagai macam diantaranya algoritma Nazief & Adriani, algoritma Arifin & Setiono dan algoritma Vega. Pada penelitian ini algoritma stemming yang digunakan adalah algoritma Nazief & Adriani. Algoritma Nazief Adriani dalam (Agusta, 2009) memiliki tahap-tahap sebagai berikut : 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti. 2. Inflection Suffixes dibuang. Jika berupa particles maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns Hapus Derivation Suffixes ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b. b lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b. b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Recoding.

4 8 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai. Hasil dari text preprocessing adalah bag-of-word yaitu data terstruktur dalam database yang berisi kata-kata. Bag-of-word inilah yang akan diproses dalam tahap text mining selanjutnya yaitu term-weighting Term Weighting dengan Term Frequency (tf) Inverse document frequency (idf) Tahap term weighting diperoleh setelah bag-of-word diperoleh. Term weighting (pembobotan term) bertujuan untuk menentukan bobot setiap term / kata. Perhitungan bobot term memerlukan dua hal yaitu term frequency (tf) dan inverse document frequency (idf). Term frequency (tf) merupakan frekuensi kemunculan suatu kata (term) dalam suatu dokumen. Nilai tf bervariasi di tiap dokumen bergantung pada kemunculan kata di suatu dokumen. Besar nilai tf sebanding dengan tingkat kemunculan term di dokumen. Semakin sering term muncul pada suatu dokumen, semakin besar pula nilai tf pada dokumen tersebut dan semakin jarang term muncul semakin kecil pula nilai tf. Selain term frequency pada pembobotan term diperlukan pula inverse document frequency (idf). Inverse document frequency (idf) merupakan frekuensi kemunculan term pada keseluruhan dokumen. Nilai idf berkaitan dengan distribusi term di berbagai dokumen. Nilai idf berbanding terbalik dengan jumlah term yang mengandung term yang dimaksud. Term yang jarang muncul pada keseluruhan dokumen memiliki nilai idf lebih besar dibanding dengan term yang sering muncul. Jika setiap dokumen dalam koleksi mengandung term yang bersangkutan, maka nilai idf dari term tersebut adalah nol (0). Hal ini menunjukkan bahwa setiap term yang muncul pada dokumen dalam koleksi tidak berguna untuk membedakan dokumen berdasarkan topik tertentu. Ilustrasi algoritma tf-idf (Harlian, 2006) ditunjukkan pada Gambar 2.4.

5 9 Gambar 2.4 Ilustrasi algoritma tf-idf (Harlian, 2006) Keterangan : = dokumen tf = banyaknya term yang dicari pada setiap dokumen N = total dokumen df = banyaknya dokumen yang mengandung term yang dicari Nilai tf-idf diperoleh dengan menggunakan rumus berikut: (Lee et al., 1997)., = =, log... (1) Dengan :, = bobot term ke-j terhadap dokumen ke-i = jumlah kemunculan term j ke dalam dokumen i = jumlah dokumen secara keseluruhan = jumlah dokumen yang mengandung term j Perhitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan tf x idf menunjukkan bahwa deskripsi terbaik dari dokumen adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen lain (Lee et al., 1997). Proses term-weighting menghasilkan nilai tf, nilai df, nilai idf dan nilai tf-idf. Nilai tf-idf dianggap

6 10 sebagai matriks bobot term, yaitu matriks yang berisi bobot dari term-term pada setiap dokumen DF Feature Selection Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut (Langgeni, 2010). Feature selection (pemilihan fitur) merupakan langkah memilih beberapa fitur (misalnya katakata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering (Garnes, 2009). Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Feature selection dengan df merupakan salah satu metode feature selection yang banyak digunakan (Garnes, 2009). Proses term-weighting salah satunya menghasilkan nilai df. Nilai df dapat digunakan sebagai acuan feature selection. Df (document frequency) adalah jumlah dokumen yang mengandung suatu term tertentu (Garnes, 2009). Tiap term akan dihitung nilai df-nya, lalu term tersebut diseleksi berdasarkan jumlah nilai df. Jika nilai df berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang (Langgeni, 2010). Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term database kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database Clustering Clustering adalah proses mengelompokkan atau penggolongan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas /cluster. (Andayani,2007)

7 11 Clustering membagi data ke dalam grup-grup yang mempunyai obyek yang karakteristiknya sama. Metode clustering dibedakan menjadi dua, yaitu Hierarchical clustering dan Partitioned clustering. Hierarchical clustering mengelompokkan data secara bertahap, sedangkan partitioned clustering langsung mengelompokkan data dengan menentukan jumlah cluster di awal proses clustering. Salah satu metode partitioned clustering adalah k-means clustering. Penelitian ini menggunakan kombinasi antara hierarchical clustering dan k-means clustering Hierarchical clustering Hierarchical clustering adalah salah satu algoritma clustering yang dapat digunakan untuk meng-cluster dokumen (document clustering). Pengelompokan hierarki (Hierarchical clustering) adalah metode analisis kelompok yang berusaha untuk membangun sebuah hierarki kelompok (Prasetyo, 2012). Hierarchical clustering dibagi menjadi dua yaitu Agglomeratif Clustering dan Difisive Clustering. Agglomeratif Clustering mengelompokkan data dengan pendekatan bawah atas (bottom up), sedangkan Difisive Clustering menggunakan pendekatan atas bawah (top-bottom). Dari teknik Hierarchical clustering, dapat dihasilkan suatu kumpulan partisi yang berurutan, dimana dalam kumpulan tersebut terdapat (Budhi, 2008): - Cluster-cluster yang mempunyai poin-poin individu. Cluster-cluster ini berada di level yang paling bawah. - Sebuah cluster yang didalamnya terdapat poin-poin yang dipunyai semua cluster di dalamnya. Single cluster ini berada di level yang paling atas. Penelitian ini menggunakan agglomeratif clustering. Pada metode hierarchical agglomeratif clustering, sebelum dilakukan pengelompokan, setiap data yang ada diasumsikan sebagai cluster. Jika terdapat jumlah data sebanyak n, dan k dianggap sebagai jumlah cluster, maka besarnya n = k. Kemudian, dihitung jarak antar cluster-nya dengan menggunakan Euclidean

8 12 distance berdasarkan jarak rata-rata antar objek. Selanjutnya, dari hasil perhitungan tadi dipilih jarak yang paling minimal dan digabungkan sehingga besarnya n = n -1. Ketika dua cluster digabungkan jarak antara dua cluster yang digabungkan dengan cluster yang lain di-update. Penelitian ini menggunakan metode ward sebagain metode update jarak. Metode Ward dapat membentuk cluster berdasarkan jumlah total kuadrat deviasi tiap pengamatan dari rata-rata cluster yang menjadi anggotanya (Oktavia, 2013). Metode Ward berusaha untuk meminimalkan variasi antar objek yang ada dalam satu cluster dan memaksimalkan variasi dengan objek yang ada di cluster lainnya. Jarak antara dua cluster yang terbentuk pada metode Ward adalah sum of squares diantara dua cluster tersebut. Metode Ward didasarkan pada kriteria sum square error (SSE) dengan ukuran kehomogenan antara dua objek berdasarkan jumlah kuadrat kesalahan yang paling minimal. Perhitungan pada metode ward menggunakan rumus berikut ini : = (2) Dengan u dan v cluster yang digabung, w cluster lain yang dicari jaraknya dengan cluster gabungan uv, jarak antara cluster uv dan cluster w, jarak antara cluster u dan cluster w, jarak antara cluster v dan cluster w, jarak antara cluster u dan cluster v,,, dan adalah banyaknya objek pada cluster ke-u, ke-v dan ke-w. Penggabungan cluster akan terus dilakukan dan akan berhenti jika memenuhi kondisi jumlah k = 1. Pada akhir tahap hierarchical clustering ini akan diperoleh sebuah gambar dendrogram yang menunjukkan urutan pengelompokan masing-masing anggota dalam cluster. Hasil keseluruhan dari algoritma Hierarchical clustering secara grafik dapat digambarkan sebagai tree, yang disebut dengan dendogram. Tree ini secara grafik menggambarkan proses penggabungan dari cluster-cluster yang ada, sehingga menghasilkan cluster dengan level yang lebih tinggi. Gambar 2.5

9 13 adalah contoh dendogram yang menggambarkan hasil pengelompokan kinerja dosen yang terdiri dari dosen A, B, C... O pada penelitian Oktavia, Gambar 2.5 Contoh Dendrogram (Oktavia, 2013) K-means Clustering K-means adalah suatu metode penganalisaan data atau metode data mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode K-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya. (Agusta, 2011).

10 14 Menurut Sarwono (2011), Berikut adalah langkah-langkah dari algoritma K-means: 1. Menentukan banyak k-cluster yang ingin dibentuk. 2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak k-cluster. 3. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Euclidean Distance:, = ( ) 2... (3) dengan, adalah jarak antara cluster dengan pusat cluster pada kata ke i, adalah bobot kata ke i pada cluster yang ingin dicari jaraknya, bobot kata ke i pada pusat cluster. 4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil). 5. Mengupdate nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus: = 1... (4) dimana: = jumlah data dalam cluster = jumlah dari nilai jarak yang masuk dalam masing-masing cluster 6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah. 7. Jika langkah 6 telah terpenuhi, maka nilai rata-rata pusat cluster iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.

11 15 Diagram alir dari Metode K-means ditunjukan pada Gambar 2.6. Start Banyaknya Cluster k Tentukan Pusat Hitung jarak objek ke pusat Ya Kelompokkan objek berdasarkan jarak minimum Ada objek yang harus dipindah? tidak End Gambar 2.6 Diagram alir metode K-means (Sarwono, 2011) Kombinasi Metode Hierarchical Clustering dan K-means Clustering Penggabungan metode Hierarchical clustering dengan K-means clustering dimaksudkan agar hasil clustering lebih baik. Hasil dari metode Hierarchical clustering digunakan untuk menentukan pusat cluster. Pusat cluster yang dihasilkan Hierarchical clustering selanjutnya digunakan sebagai pusat cluster awal pada perhitungan K-means clustering. Gambar 2.7 menggambarkan proses clustering menggunakan kombinasi antara metode Hierarchical clustering dengan K-means clustering.

12 16 Gambar 2.7 Kombinasi Metode Hierarchical Clustering dan K-means Clustering (Alfina, 2010)

13 Penelitian Terkait Penelitian yang dilakukan oleh penulis ini mengacu pada penelitian sejenis yang sudah dilakukan sebelumnya. Beberapa penelitian tersebut akan diuraikan berikut ini. a. Seeding the Survey and Analysis of Research Literature with Text Mining. (Delen, 2008) Penelitian tersebut menjelaskan mengenai clustering document berupa jurnal yang di-publish oleh tiga publisher yaitu MIS Quarterly (MISQ), Information System Research (ISR) dan Journal of Management Information System (JMIS) dalam kurun waktu 12 tahun. Text mining dalam penelitian tersebut digunakan untuk mengidentifikasi cluster dan tren dari topik research yang diamati. Topik jurnal yang diambil adalah mengenai manajemen sistem informasi. Bagian dari jurnal yang diolah pada proses clustering pada penelitian ini adalah bagian abstrak. Data jurnal dalam kurun waktu 12 tahun dibagi ke menjadi 4 kelompok data 3 tahun-an. Setiap jurnal diteliti dan disimpan term terbanyak yang muncul dan dibuat dalam bentuk term-by-documentmatrix. Singular Value Decomposition digunakan untuk mengurangi term-by-document-matrix. Clustering data pada penelitian digunakan expectation-maximization algorithm. Hasil dari clustering diteliti dan dianalisa keterkaitannya dengan tipe jurnal dan waktu publish. Konsep clustering dokumen dengan menggunakan bagian abstrak dari dokumen akan dicoba diterapkan pada penelitian ini. b. Analisa Perbandingan Metode Hierarchical clustering, K-means dan Gabungan Keduanya dalam Cluster Data (Studi Kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS). (Alfina, 2012) Jurnal ini mengulas tentang penggabungan dua metode clustering yaitu metode Hierarchical clustering dan K-means Clustering. Penggabungan kedua metode clustering ini disebabkan oleh kelemahan dari metode k-means yang hasilnya sangat tergantung pada penentuan

14 18 awal pusat cluster. Untuk itu, K-means dikolaborasikan oleh metode hierarki untuk penentuan pusat awal cluster. Metode hierarki yang diterapkan dalam penelitian ini adalah complete linkage clustering, single linkage clustering, average linkage clustering dan centroid linkage clustering. Data kasus yang diambil adalah mengenai problem kerja prakter Jurusan Teknik Industri ITS yang ditemukan di jejaring sosial facebook. Keyword yang diamati berjumlah 40 yang dipilih secara manual yaitu dengan interview dan kuisioner. Adapun pihak yang diinterview adalah admin Kerja Praktek tahun 2011, Koordinator Kerja Praktek Jurusan Teknik Industri dan beberapa mahasiswa yang mengambil Kerja Praktek pada tahun Hasil dari penelitian menunjukkan bahwa kombinasi antara metode Hierarchical clustering dengan metode K-means Clustering menghasilkan pengelompokan data yang lebih baik dibanding dengan yang hanya menggunakan metode K-means. Metode dari penelitian Alfina, 2012 ini digunakan dalam proses clustering dokumen pada penelitian ini. c. Hierarchical K-means: an algorithm for centroids initialization for K- means. (Arai, 2007) Jurnal ini menjelaskan bahwa pada K-means inisiasi awal pusat cluster yang ditentukan secara random sering membuat hasil clustering bersifat local optima. Untuk itu diteliti penggunaan metode hierarki dalam membantu penentuan pusat cluster untuk metode K-means. Metode kombinasi antara metode hierarchical dengan K-means disebut Hierarchical K-means. Pada penelitian ini ada dua macam data yang digunakan yaitu data distribusi normal random, dataset sesungguhnya dan pada clustering data gambar. Hasil dari penelitian menunjukkan bahwa metode Hierarchical K- means yang telah diuji pada beberapa tipe data menunjukkan hasil yang lebih akurat dibanding dengan beberapa metode clustering lain. Hal

15 19 inilah yang menjadi dasar dipilihnya metode hierarchical k-means dalam penelitian ini. d. Pengelompokan Kinerja Dosen Jurusan Matematika Fmipa Untan Berdasarkan Penilaian Mahasiswa Menggunakan Metode Ward (Oktavia, 2013) Jurnal ini menjelaskan mengenai pengelompokan kinerja dosen menggunakan metode ward. Metode Ward adalah metode yang berdasarkan pada sum square error (SSE) dengan ukuran kehomogenan antara dua objek berdasarkan pada jumlah kuadrat kesalahan yang paling minimal. Ukuran kemiripan yang digunakan adalah jarak Euclidean kuadrat. Metode Ward digunakan untuk meminimalkan variasi antar objek yang ada dalam satu cluster dan memaksimalkan variasi dengan objek yang ada dalam cluster lain. Pada penelitian ini, pengelompokan 15 dosen jurusan Matematika FMIPA Universitas Tanjungpura yang mengajar pada semester ganjil 2011/2012 diperoleh 5 cluster. Variabel penilaian dibagi menjadi 7 kategori dari 13 variabel. Cluster pertama terdiri dari 4 dosen. Mahasiswa menilai kinerja dosen sangat baik untuk semua variabel. Cluster kedua terdiri dari 6 dosen. Mahasiswa menilai kinerja dosen sangat baik untuk 5 variabel dan 8 variabel dinilai baik. Cluster ketiga terdiri dari 3 dosen dengan penilaian mahasiswa terhadap kinerja dosen baik untuk semua variabel. Cluster keempat terdiri dari 1 dosen. Mahasiswa menilai kinerja dosen sangat baik untuk 1 variabel, 7 variabel dinilai baik dan 5 variabel dinilai cukup baik. Cluster kelima terdiri dari 1 dosen dengan penilaian mahasiswa terhadap kinerja dosen baik untuk 1 variabel dan 12 variabel dinilai kurang baik. Metode ward merupakan salah satu metode update jarak pada hierarchical clustering. Penelitian ini menggunakan metode ward untuk bagian hierarchical clustering.

16 Rencana Penelitian Berdasarkan tinjauan pustaka, dilakukan clustering dokumen skripsi. Metode clustering yang digunakan adalah kombinasi antara metode hierarchical clustering dengan metode ward sebagai metode update jarak dan k-means clustering. Bagian dari dokumen yang diolah adalah bagian abstrak. Data diolah terlebih dahulu dengan text preprocessing. Setelah itu, dilakukan term-weighting dengan term tf-idf. Hasil dari tf-idf digunakan dalam proses clustering. Proses clustering terdiri dari dua proses. Proses pertama adalah proses hierarchical clustering. Proses hierarchical clustering menghasilkan dendrogram. Dendrogram kemudian dipotong dengan threshold yang ditentukan. Hasil pemotongan dendrogram menghasilkan beberapa cluster, tiap cluster terdiri dari beberapa dokumen. Dokumen-dokumen di suatu cluster diambil bobot term-nya dan diratarata. Hasil dari rata-rata bobot digunakan sebagai pusat cluster pada perhitungan k-means clustering. Hasil k-means clustering berupa cluster-cluster yang terdiri dari dokumen-dokumen. Hasil clustering kemudian dianalisa. Analisa dilakukan dengan berdasarkan pada keterkaitan dokumen pada satu cluster dan tema di tiap cluster. Analisa dilanjutkan dengan meneliti jumlah dokumen di tiap cluster di tiap tahun.

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING ANALISA CLUSTERING MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING (STUDI KASUS : DOKUMEN SKRIPSI JURUSAN KIMIA, FMIPA, UNIVERSITAS SEBELAS MARET) Lynda Rahmawati Jurusan Informatika Universitas

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 ANALISA PERBANDINGAN METODE HIERARCHICAL CLUSTERING, K-MEANS DAN GABUNGAN KEDUANYA DALAM MEMBENTUK CLUSTER DATA (STUDI KASUS : PROBLEM KERJA PRAKTEK JURUSAN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521 JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: 2301-9271 A-521 Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.

Lebih terperinci

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku BAB I PENDAHULUAN 1.1 Latar Belakang Revolusi teknologi informasi ikut mengubah perilaku masyarakat modern dengan mencoba masuk dan menghirup atmosfer kebudayaan baru, menjadikan masyarakat tanpa kertas

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami METODE CLUSTERING DENGAN ALGORITMA K-MEANS Oleh : Nengah Widya Utami 1629101002 PROGRAM STUDI S2 ILMU KOMPUTER PROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN GANESHA SINGARAJA 2017 1. Definisi Clustering

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam

BAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri

Lebih terperinci

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi komputer khususnya di jaringan Internet telah berkembang dengan sangat cepat. Semua orang dapat saling bertukar dan mendapatkan informasi

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini perkembangan ilmu pengetahuan dan teknologi informasi semakin berkembang pesat, banyak teknologi baru yang telah diciptakan dan digunakan oleh masyarakat

Lebih terperinci

Pengenalan Pola. K-Means Clustering

Pengenalan Pola. K-Means Clustering Pengenalan Pola K-Means Clustering PTIIK - 2014 Course Contents 1 Definisi k-means 2 Algoritma k-means 3 Studi Kasus 4 Latihan dan Diskusi K-Means Clustering K-Means merupakan salah satu metode pengelompokan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430 JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: 2337-3539 (2301-9271 Print) A-430 VISUALISASI SIMILARITAS TOPIK PENELITIAN DENGAN PENDEKATAN KARTOGRAFI MENGGUNAKAN SELF- ORGANIZING MAPS (SOM) Budi Pangestu,

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Forum Diskusi Objek dalam penelitian ini difokuskan pada beberapa forum diskusi online ataupun website yang menyediakan fitur diskusi bagi partisipan. Lebih khususnya penelitian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN Bab ini membahas tentang hal-hal yang menjadi latar belakang pembuatan tugas akhir, rumusan masalah, tujuan, batasan masalah, manfaat, metodologi penelitian serta sistematika penulisan

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL

IMPLEMENTASI METODE PROBABILISTIC LATENT SEMANTIC ANALYSIS UNTUK OPINION RETRIEVAL MPLEMENTAS METODE PROBABLSTC LATENT SEMANTC ANALYSS UNTUK OPNON RETREVAL Yusup Miftahuddin,asman Pardede 2, Afdhalul Zikri 3 urusan Teknik nformatika, Fakultas Teknik ndustri, tenas Bandung ln. PHH. Mustopha

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi informasi yang semakin berkembang dari masa ke masa telah membuktikan akan kebutuhan manusia pada informasi itu sendiri. Berbagai situs, portal berita, website,

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Clustering Analysis Clustering analysis merupakan metode pengelompokkan setiap objek ke dalam satu atau lebih dari satu kelompok,sehingga tiap objek yang berada dalam satu kelompok

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize PERANCANGAN DAN ANALISIS CLUSTERING DATA MENGGUNAKAN METODE SINGLE LINKAGE UNTUK BERITA BERBAHASA INGGRIS DESIGN AND ANALYSIS OF DATA CLUSTERING USING SINGLE LINKAGE METHOD FOR ENGLISH NEWS Fachri Nugraha

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering

Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016 Analisa Anggaran Pendapatan dan Belanja Daerah (APBD) dengan Metode Hierarchical Clustering Viga Apriliana Sari, Nur Insani Jurusan Pendidikan

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182

ISSN : e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182 PERANCANGAN DAN ANALISIS CLUSTERING DATA MENGGUNAKAN METODE K-MEDOIDS UNTUK BERITA BERBAHASA INGGRIS DESIGN AND ANALYSIS

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun Vol. 4, No. 1, Tahun 2015 28 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Visualisasi Pengembangan Judul

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN IMPLEMENTATION OF COMPLETE AND AVERAGE LINKAGE TO THE FORMATION FACULTY RESEARCH GROUP Oleh: DEVY SURYANINGTYAS 12.1.03.02.0366

Lebih terperinci

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl.

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo

Lebih terperinci

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA Afri Yosela Putri 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik Negeri Malang,

Lebih terperinci