PENGELOMPOKAN DOKUMEN WEB MELALUI PEMBANGKITAN METAFILE PENYUSUN STRUKTUR DIGRAF MENGGUNAKAN ALGORITME DOCUMENT INDEX GRAPH BUDI

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENGELOMPOKAN DOKUMEN WEB MELALUI PEMBANGKITAN METAFILE PENYUSUN STRUKTUR DIGRAF MENGGUNAKAN ALGORITME DOCUMENT INDEX GRAPH BUDI"

Transkripsi

1 PENGELOMPOKAN DOKUMEN WEB MELALUI PEMBANGKITAN METAFILE PENYUSUN STRUKTUR DIGRAF MENGGUNAKAN ALGORITME DOCUMENT INDEX GRAPH BUDI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014

2

3 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa tesis berjudul Pengelompokan Dokumen Web Melalui Pembangkitan Metafile Penyusun Digraf Menggunakan Algoritme Document Index Graph adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Februari 2014 Budi NIM G

4 RINGKASAN BUDI. Pengelompokan Dokumen Web Melalui Pembangkitan Metafile Penyusun Digraf Menggunakan Algoritme Document Index Graph. Dibimbing oleh SRI NURDIATI dan BIB PARUHUM SILALAHI. Saat ini, peningkatan volume data khususnya pada dokumen teks dan implikasinya terhadap isu tentang akurasi hasil pencarian dan temu kembali informasi telah memicu berkembangnya penggunaan teknik pengelolaan dan analisis data. Teknik tersebut digunakan untuk membagi kumpulan dokumen ke dalam kelompok-kelompok yang berbeda sehingga dokumen yang terdapat pada suatu kelompok akan mengandung informasi yang sama dan terkait satu sama lain. Oleh karena itu diperlukan sebuah metode pengelompokan dokumen agar memudahkan dalam pengambilan informasi sesuai kebutuhan pengguna. Clustering merupakan salah satu teknik yang dapat digunakan untuk menemukan keterkaitan antar dokumen. Teknik ini memisahkan sekumpulan dokumen ke dalam beberapa cluster dengan menghitung kemiripan antar dokumen. Dokumen-dokumen yang telah dikelompokkan akan membantu pengguna untuk dapat menemukan informasi yang dibutuhkan dan akan meningkatkan kecepatan akses terhadap informasi tersebut. Adapun ruang lingkup penelitian ini adalah : 1) Dokumen uji dan dokumen latih menggunakan newswire REUTERS ) Algoritme menghasilkan output berupa sebuah metafile yang akan digunakan sebagai input untuk merepresentasikan struktur digraf. Metode penelitian yang digunakan antara lain studi literatur; praproses data; implementasi algoritme document index graph (DIG); pembangkitan metafile untuk penyusunan struktur digraf; representasi digraf; serta analisis hasil pengelompokan. Selain ketiga proses inti yakni tokenisasi, stop-word removal dan stemming, pada tahap praproses data ditekankan kepada mekanisme dimentional reduction. Mekanisme dimentional reduction dilakukan dengan penentuan nilai term frequent threshold sebelum proses pengelompokan. Hasil praproses data dilanjutkan dengan implementasi algoritme DIG. Algoritme DIG menghitung bobot kata yang sering muncul dalam dokumen yang diproses. Hasil implementasi algoritme DIG menghasilkan kelompok kata dengan frekuensi kemunculan lebih dari 20 kali. Output implementasi algoritme ditulis ke dalam sebuah metafile yang akan digunakan sebagai input untuk pembangunan struktur digraf dan representasi digraf. Analisis hasil penelitian dilakukan dengan menghitung prosentase precision, recall dan accuracy terhadap cluster yang dihasilkan. Implementasi algoritme DIG dengan mekanisme dimentional reduction dalam tahap praproses data mampu menghasilkan akurasi di atas 70%. Kata kunci: Document Index Graph, Clustering, REUTERS dataset, metafile, digraf

5 SUMMARY BUDI. Web Document Clustering Through Metafile Generation for Digraph Structuring Using Document Index Graph Algorithm. Supervised by SRI NURDIATI and BIB PARUHUM SILALAHI. Nowaday, the increased volume of data, especially on text documents and their implications for the issue of the accuracy of the search results and information retrieval has led to the development and the use of data management and analysis techniques. The technique is used to split the document into different groups so that the documents contained in a group will contain the same topic and related to each other. Therefore we need a method of grouping documents in order to facilitate the retrieval of information according to user needs. Clustering is a technique that can be used to discover linkages between documents. This technique separates a set of documents into several groups or clusters by calculating the similarity between documents. Documents that have been clustered, will help users finding the information needed and will increase the speed of access to that information. The scope of this research consists of : 1) the test and training documents using REUTERS newswire-21578; 2) algorithm generates output in metafile form that will be used as input to represent the structure of digraphs. Research methods perform literature studies, data preprocessing, implementation of Document Index Graph (DIG) algorithm, generating the metafile for digraphs construction, digraphs representation, and analysis of clustering result. Instead of three core processes tokenization, stop-word removal and stemming, data preprocessing stage is concerned with dimentional reduction mechanism. Dimentional reduction will determine the document frequency threshold values before clustering process. The results of data preprocessing will be followed by the implementation of the DIG algorithm. The algorithm calculates the weight of words that often appears in the document being processed. The results bring a bag of words that frequently appear more than 20 times. The output of this result is written into a metafile that will be used as input for the digraph structuring and representation. This research analyzes the results by calculating precision, recall and accuracy percentage on clustering result. DIG algorithm implementations using dimentional reduction mechanism through data preprocessing stage is able to produce an accuracy above 70 %. Key words : Document Index Graph, Clustering, REUTERS dataset, metafile, digraph

6 Hak Cipta Milik IPB, Tahun 2014 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB

7 PENGELOMPOKAN DOKUMEN WEB MELALUI PEMBANGKITAN METAFILE PENYUSUN STRUKTUR DIGRAF MENGGUNAKAN ALGORITME DOCUMENT INDEX GRAPH BUDI Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Ilmu Komputer SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2014

8 Penguji pada Ujian Tesis : Dr Eng Wisnu Ananta Kusuma, ST MT.

9 Judul Tesis Nama NIM : Pengelompokan Dokumen Web Melalui Pembangkitan Metafile Penyusun Struktur Digraf Menggunakan Algoritme Document Index Graph : Budi : G Program Studi : Ilmu Komputer Disetujui oleh Komisi Pembimbing Dr Ir Sri Nurdiati, MSc. Ketua Dr Ir Bib Paruhum Silalahi, MKom Anggota Diketahui oleh Ketua Program Studi Ilmu Komputer Dekan Sekolah Pascasarjana Dr Eng Wisnu Ananta Kusuma, SSi, MT Dr Ir Dahrul Syah, MSc,Agr Tanggal Ujian: Tanggal Lulus:

10

11 PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wata ala atas segala karunia-nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Desember 2012 ini ialah text clustering, dengan judul Pengelompokan Dokumen Web Melalui Pembangkitan Metafile Penyusun Struktur Digraf Menggunakan Algoritme Document Index Graph. Terima kasih penulis ucapkan kepada Ibu Dr Ir Sri Nurdiati, MSc dan Bapak Dr Ir Bib Paruhum Silalahi, ST, MT selaku pembimbing yang telah banyak memberi saran. Selain itu, penghargaan penulis sampaikan kepada pimpinan Program Diploma IPB, semua dosen dan staf Departemen Ilmu Komputer IPB, dosen dan staf Program Diploma IPB yang telah membantu selama proses penelitian. Ungkapan terima kasih juga disampaikan kepada istri Sumarlina Syahara Fona, ananda Ajji Tana Arifainy dan Jiilaan Rana Hanniyah, Ayah, Ibu, serta seluruh keluarga, atas segala doa dan kasih sayangnya. Semoga karya ilmiah ini bermanfaat. Bogor, Januari 2014 Budi

12

13 DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN Halaman 1 PENDAHULUAN 1 Latar Belakang 1 Tujuan Penelitian 3 Ruang Lingkup 4 2 TINJAUAN PUSTAKA 5 Text mining 5 Text Clustering 5 The Reuters dataset 5 Text Preprocessing 6 Document Index Graph 6 Metafile Penyusun Graf 7 Precision, Recall dan Accuracy 8 3 METODE 9 Analisis Masalah dan Studi Pustaka 10 Tahap Praproses Data 10 Implementasi Algoritme Document Index Graph (DIG) 11 Pembangkitan metafile penyusun struktur digraf 13 Representasi digraf menggunakan metafile penyusun digraf 13 Analisis hasil pengelompokan berdasarkan pengujian 13 4 HASIL DAN PEMBAHASAN 15 5 SIMPULAN DAN SARAN 21 Simpulan 21 Saran 21 DAFTAR PUSTAKA 22 RIWAYAT HIDUP 30 ix ix ix

14

15 DAFTAR TABEL Halaman 1 Faktor dan level penelitian 9 2 Hasil pengelompokan 20 dokumen dengan nilai document frequency threshold Hasil pengelompokan 20 dokumen dengan nilai document frequency threshold Hasil pengelompokan 25 dokumen dengan nilai document frequency threshold Hasil pengelompokan 25 dokumen dengan nilai document frequency threshold Perhitungan precision, recall dan accuracy pada 20 dokumen 19 DAFTAR GAMBAR Halaman 1 Posisi penelitian 3 2 Representasi dokumen dengan DIG (Hammouda, 2004) 7 3 Perbedaan accuracy dan precision (Raharjo, 2011) 8 4 Rumus perhitungan precision, recall dan accuracy (Raharjo, 2011) 8 5 Metode penelitian 9 6 Ilustrasi Document Index Graph (Hammouda 2004) 12 7 Komposisi kategorisasi teks berdasarkan Lewis (1997) 12 8 Tampilan praproses data 15 9 Representasi digraf dari input metafile penyusun struktur digraf Grafik nilai precision, recall dan accuracy pada dokumen uji 20 DAFTAR LAMPIRAN Halaman 1. Hasil implementasi algoritme DIG pada 50 dokumen latih dengan beberapa variasi nilai Term Frequency threshold dan minimal bobot kemunculan kata dalam dokumen atau bobot TF lebih dari 20 kali Hasil implementasi algoritme DIG pada 100 dokumen latih dengan beberapa variasi nilai Term Frequency threshold dan minimal bobot kemunculan kata dalam dokumen atau bobot TF lebih dari 20 kali Hasil perhitungan precision, recall dan accuracy pada 25 dokumen REUTERS Hasil perhitungan precision, recall dan accuracy pada 50 dokumen REUTERS 27

16

17 1 1 PENDAHULUAN Latar Belakang Dokumen web adalah salah satu sumber daya pada sebuah sistem berbasis web yang banyak ditemukan dalam bentuk tekstual misalnya dokumen teks, dokumen web, artikel dan paper dan lain sebagainya (Hammouda, et al., 2004). Peningkatan volume data khususnya pada dokumen teks saat ini memberikan implikasi terhadap isu yang berkaitan dengan akurasi temu kembali informasi dan kecepatan akses terhadap informasi yang ditelusuri. Implikasi tersebut menjadi pemicu penggunaan teknik pengelolaan dan analisis data. Teknik yang dimaksud adalah membagi kumpulan dokumen ke dalam kelompok-kelompok yang berbeda sehingga dokumen yang terdapat pada suatu kelompok akan mengandung informasi yang sama dan terkait satu sama lain. Oleh karena itu diperlukan sebuah metode pengelompokan dokumen agar memudahkan dalam pengambilan informasi sesuai kebutuhan user. Clustering merupakan salah satu teknik yang dapat digunakan untuk menemukan keterkaitan antar dokumen. Tujuan pengelompokan adalah untuk memisahkan sekumpulan dokumen ke dalam beberapa kelompok atau cluster dengan menilai kemiripan antar dokumen dari segi isi. Pada umumnya teknik pengelompokan dilandasi oleh 4 (empat) konsep tahapan yakni: (1) Praproses data, (2) Penghitungan kemiripan (similarity measure), (3) Pemilihan metode pengelompokan (cluster method), dan (4) Algoritme pengelompokan yang digunakan. Banyak metode yang dapat dipakai dalam pengelompokan dokumen seperti dengan Suffix Tree, Single Pass Clustering maupun K-Nearest Neighbour. Kebanyakan metode pengelompokan dokumen berbasis pemodelan ruang vektor yang merepresentasikan dokumen sebagai fitur vektor dari term yang muncul pada semua dokumen (Hammouda 2004). Pengelompokan dengan metode seperti ini hanya memperhatikan analisis single term, tanpa memperhatikan analisis berbasis frasa. Idealnya proses pengelompokan sebaiknya tidak hanya memperhatikan analisis single term saja, akan tetapi perlu diperhatikan juga analisis frasa dari suatu dokumen. Dengan analisis frasa, kesamaan antar dokumen akan dihitung berdasarkan pencocokan frasa. Penelitian Oren Zamir (1998), melakukan analisis pengelompokan dokumen berbasis analisis frasa dengan pendekatan Suffix Tree Clustering (STC). Metode tersebut pada dasarnya melibatkan penggunaan struktur trie (tree sederhana) untuk merepresentasikan suffix yang digunakan bersama antar dokumen. Berdasarkan suffix dilakukan identifikasi cluster dasar dari dokumen, dan akan digabungkan ke dalam cluster akhir berdasarkan algoritme connected-component graph. Metode ini diklaim memiliki nilai kompleksitas n log(n) dan menghasilkan cluster yang baik, akan tetapi model tree yang terbentuk dapat dikatakan memiliki nilai redundansi yang tinggi pada kasus term dari suffix yang disimpan pada tree. Penelitian Hammouda (2004) yang berjudul Efficient Phrase-Based Document Indexing for Web Document Clustering, mengusulkan struktur baru dalam merepresentasikan sebuah dokumen yakni Document Index Graph (DIG). DIG adalah sebuah graf berarah yang dibangun oleh gugus vertex dan edge. Setiap vertex mewakili sebuah kata unik dalam keseluruhan gugus dokumen yang ada. Dua kata berurut dalam sebuah kalimat akan saling terhubung dengan edge berarah dalam graf. Sebuah kalimat digambarkan sebagai sebuah jalur dari vertex-vertex yang berurut sesuai dengan kata-

18 2 kata dalam kalimat tersebut. DIG memungkinkan untuk mengenali pencocokan frasa antar dokumen. Ketika sebuah dokumen baru diproses, maka algoritme akan membentuk atau membangun sebuah daftar kesamaan antar dokumen tersebut dengan semua dokumen sebelumnya telah disimpan. Penelitian tersebut dapat menangkap struktur dari kalimat pada sebuah set dokumen dibanding hanya kata tunggal saja. Dokumen yang dianalisis pada penelitian adalah dokumen HTML. Hasil pemodelannya adalah bentuk XML yang terstruktur dengan baik sesuai dengan dokumen HTML yang asli namun dengan tingkat signifikansi yang ditugaskan kebagian yang berbeda di dokumen asli. Hasil penelitian menyimpulkan bahwa kualitas cluster yang terbentuk dari pemodelan DIG lebih baik hasilnya dibanding dengan pemodelan berbasis ruang vektor. Di samping itu, penelitian ini menyimpulkan bahwa ukuran kemiripan berbasis frasa memiliki tingkat akurasi yang tinggi dengan syarat telah memperhatikan pengujian terhadap faktor-faktor yang mempengaruhi derajat overlap antar dokumen. Penelitian Ernawati (2009) yang berjudul Klusterisasi Dokumen Berita Berbahasa Indonesia Menggunakan Document Index Graph, menunjukkan bahwa algoritme DIG dapat diimplementasikan untuk mendeteksi kesamaan berbasis frasa dan menangani overlap clustering. Walaupun tidak selalu terjadi, kesamaan berbasis frasa dapat memperbaiki performansi cluster berdasarkan pengukuran f-measure dan entropy. Ada beberapa titik kesamaan berbasis frasa justru dapat mengurangi nilai performansi, oleh karena itu perlu dicari titik optimal similarity blend factor dan similarity threshold. Berdasarkan perkembangan peningkatan volume data pada dokumen web saat ini dan mencermati implikasi dari perkembangan tersebut serta mempelajari hasil penelitian yang telah dilakukan sebelumnya, maka usulan pemodelan representasi dokumen pada penelitian ini adalah melakukan pengelompokan dokumen menggunakan algoritme Document Index Graph (DIG). Model ini melakukan proses indeks terhadap dokumen dengan tetap menjaga struktur kalimat dalam dokumen asli. Hal ini memungkinkan kita untuk menggunakan pencocokan frasa lebih informatif daripada pencocokan kata-kata individu. Selain itu, DIG juga menangkap berbagai tingkat signifikansi dari kalimat asli, sehingga memungkinkan kita untuk menggunakan kalimat secara signifikan. Suffix tree adalah struktur yang paling dekat dengan model DIG, tetapi suffix tree memiliki kendala ketika terjadi redundansi yang besar (Huang 2011). Model DIG yang diusulkan bukan hanya perpanjangan atau perangkat tambahan suffix tree, tetapi DIG memiliki perspektif yang berbeda tentang bagaimana pencocokan frasa dapat lebih efisien, tanpa perlu menyimpan informasi yang berlebihan. Penelitian terkait yang telah dijelaskan sebelumnya mengarahkan penulis kepada fokus dan posisi penelitian yang akan dilakukan berdasarkan pada pekerjaan yang belum dilakukan pada penelitian sebelumnya. Posisi penelitian dapat ditampilkan pada Gambar 1.

19 3 Gambar 1 Posisi penelitian Pekerjaan yang dilakukan pada penelitian Pengelompokan Dokumen Web melalui Pembangkitan Metafile Penyusun Struktur Digraf menggunakan Algoritme Document Index Graph (DIG) adalah menerapkan teknik text clustering menggunakan REUTER dataset dengan menggunakan pemodelan berbasis graf dan menggunakan algoritme DIG. Untuk tahapan pekerjaan akan dilakukan kolaborasi antara perancangan pada system document clustering secara umum dengan tahapan document clustering menggunakan representasi DIG. Adapun tahapan perancangan sistem document clustering secara umum meliputi : (1) Tahap preprocessing data; (2) Analisis semantik/sintaksis; (3) Representasi dokumen; (4) Pengelompokan dokumen ; (5) Evaluasi pengelompokan. Tahapan document clustering menggunakan representasi DIG meliputi : (1) Identifikasi struktur dokumen atau tahapan praproses data; (2) Representasi dokumen menggunakan DIG; (3) Penghitungan ukuran kesamaan dokumen; (4) Proses pengelompokan dengan algoritme DIG. Tujuan Penelitian Penelitian ini mempunyai tujuan mengimplementasikan algoritme Document Index Graph (DIG) untuk proses pengelompokan dokumen dan menggunakan metafile untuk menyusun struktur digraf sebagai representasi hasil implementasi algoritme DIG tersebut.

20 4 Ruang Lingkup Adapun ruang lingkup penelitian ini adalah : 1 Dokumen web yang digunakan adalah dokumen SGML yang telah terstruktur dalam hal ini artikel berita REUTER-21578, 2 Implementasi praproses data dilakukan dengan melakukan perhitungan nilai Term Frequency (TF) dengan menentukan nilai intra-cluster threshold dan nilai inter-cluster threshold 3 Output algoritme berupa metafile yang akan digunakan sebagai input lanjutan untuk representasi struktur digraf 4 Menganalisis implikasi hasil penelitian dari sisi akurasi data dengan pengukuran nilai prosentase Precision, Recall dan Accuracy.

21 5 2 TINJAUAN PUSTAKA Text mining Text mining adalah teknik penambangan data yang berupa teks dengan sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisis keterhubungan antar dokumen (Langgeni 2010). Metode pada text mining terdiri atas komponen text pre-processing, feature selection, dan komponen data mining. Komponen text pre-processing berfungsi untuk mengubah data tekstual yang tidak terstruktur seperti dokumen ke dalam data terstruktur dan disimpan ke dalam database. Feature selection akan memilih kata yang tepat dan berpengaruh pada proses klasifikasi atau proses pengelompokan. Komponen terakhir akan menjalankan teknik data mining pada output dari komponen sebelumnya. Text Clustering Dalam penyusunannya, penggalian teks mempunyai beberapa tahapan yaitu pemrosesan awal, penyusunan data model, clustering, proses lanjutan, visualisasi dan ontologi. Text clustering merupakan salah satu fungsi fundamental dalam penggalian teks. Text clustering didefinisikan sebagai proses untuk memecah suatu kumpulan teks dokumen ke dalam klasifikasi yang berbeda-beda, sehingga beberapa dokumen dalam satu grup kategori dapat menunjukkan kesamaan topik (Fang 2005). Text clustering sangat berpengaruh dalam penggalian teks karena menunjukkan topik yang terdapat dalam dokumen dan mengidentifikasikan kata kunci dari setiap topik. Teknik pengelompokan (Clustering) adalah sebuah teknik pembelajaran tanpa pengawasan (unsupervised learning) yang bertujuan untuk mengelompokkan seperangkat objek abstrak atau objek fisik ke dalam kelas-kelas objek yang sama (Wang 2006). Pengelompokan pada dokumen membagi gugus dokumen ke dalam kelompok yang belum terdefinisi berdasarkan kesamaan dokumennya. Jumlah kelompok yang dihasilkan bersifat tetap atau acak tergantung dari algoritme yang digunakan. Teknik pengelompokan dokumen adalah cabang ilmu yang melibatkan temu kembali informasi, kecerdasan buatan, data mining, dan pemrosesan natural language. Secara umum, pengelompokan dokumen adalah metode pengelolaan dokumen yang efisien untuk temu kembali informasi dan data mining khususnya untuk data teks (Wang 2006). Otomatisasi proses klasifikasi pada teks berkaitan dengan proses distribusi berdasarkan kategori atau kelas dari seperangkat dokumen-dokumen yang didasari pada karakteristik tertentu. Unsupervised classification atau clustering adalah metode yang digunakan untuk melakukan proses penemuan dan otomatisasi pengelompokan dari kelas-kelas tersembunyi dan belum teridentifikasi (Amine 2009). The Reuters dataset Koleksi dokumen Reuters terdapat pada berita online REUTERS tahun Dokumen-dokumen tersebut disusun dan dilakukan pengindeksan berdasarkan

22 6 beberapa kategori oleh beberapa personel di REUTERS antara lain : Sam Dobbins, Mike Topliss, Steve Weinstein, Peggy Andersen, Monica Cellio, Phil Hayes, Laura Knecht, Irene Nirenburg. Menurut Hotho (2009), koleksi teks Reuters terdiri atas dokumen. Koleksi ini sangat menarik untuk evaluasi, sebagai bagian dari kehadiran klasifikasi. Koleksi berisi 135 topik. Agar lebih umum, topik merujuk kepada istilah 'kelas' di sekuel. Untuk memungkinkan evaluasi, topik dibatasi menjadi dokumen yang telah diklasifikasikan secara manual oleh Reuters. Beberapa dari dokumen tersebut tidak dapat diberikan oleh para ahli untuk salah satu kelas yang telah ditetapkan, oleh karena itu kelas tersebut dikumpulkan dalam sebuah kelas tambahan atau defnoclass. Karakteristik dataset ini adalah menggunakan bahasa markup yakni menggunakan tag SGML dan menghasilkan DTD dari bentukan SGML tersebut sehingga batasan dari bagian penting sebuah dokumen tidak ambigu atau tidak rancu. Selain itu dataset ini memiliki seperangkat kategori yang baku untuk setiap definisi dari 5 (lima) field pengendali kosakata. Karakteristik lainnya adalah dokumen-dokumen diberikan nomor ID baru berdasarkan urutan kronologis dan dikumpulkan per 1000 dokumen dalam sebuah file yang diurutkan berdasarkan ID. Text Preprocessing Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik di antaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks, adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur-fitur yang mewakili, diperlukan tahap preprocessing yang dilakukan secara umum dalam text mining pada dokumen, yaitu case folding, tokenizing, filtering, stemming, tagging dan analyzing. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritme stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang, dan, di, dari dan seterusnya. Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Document Index Graph Document Index Graph (DIG) adalah sebuah graf berarah G=(V, E). Notasi V adalah node yang tiap node mewakili kata unik di dalam sebuah dokumen. Edge menggambarkan pasangan dari node. Setiap dokumen berisi beberapa kalimat dengan

23 7 kata yang mungkin berulang di antara dokumen tersebut. Jika sebuah frasa tampil lebih dari sekali maka frekuensi dari kata individual pembentuk frasa akan bertambah (Hammouda 2004). Pencocokan frasa antar dokumen bertugas untuk mencari shared-paths pada graf antar dokumen-dokumen tersebut. Hal ini dilakukan dengan membuat struktur graf dan membangun graf untuk melakukan phrase matching. Representasi graf untuk data sangat cocok mengingat setiap dokumen berisi sejumlah kalimat yang mungkin akan saling overlap dalam dokumen lain. Jika sebuah frasa tampil di lebih dari satu dokumen, maka frekuensi dari kata unik yang membangun frasa tersebut akan bertambah. Pencocokan frasa antara dokumen sama artinya dengan menemukan shared paths dalam graf di dokumen yang berbeda. Representasi dokumen menggunakan Document Index Graph ditampilkan pada Gambar 2. Gambar 2 Representasi dokumen dengan DIG (Hammouda 2004) Metafile Penyusun Graf Metafile penyusun graf dikenal dengan bahasa DOT. Bahasa DOT menggambarkan graf-graf berarah secara hirarki. Bahasa DOT dieksekusi sebagai sebuah program berbasis baris perintah (command line), memiliki layanan visualisasi berbasis web atau dengan aplikasi atau interface berbasis grafik. Bahasa DOT memiliki fitur merepresentasi algoritme untuk penempatan dan penggambaran hubungan node dan edge; pemberian label dari setiap edge; penggambaran struktur data; representasi cluster (Gansner 2006).

24 8 Precision, Recall dan Accuracy Precision, recall dan accuracy digunakan pada pengukuran kinerja pada sebagian besar kajian pengenalan pola (pattern recognition) dan temu kembali informasi (information retrieval). Precision dan recall adalah dua perhitungan yang banyak digunakan untuk mengukur kinerja dari sistem/metode yang digunakan. Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna dengan jawaban yang diberikan oleh sistem. Recall adalah tingkat keberhasilan sistem dalam menemukan kembali sebuah informasi. Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai aktual. Ilustrasi pada Gambar 3 memberikan gambaran perbedaan antara precision, recall dan accuracy. Gambar 3 Perbedaan accuracy dan precision (Raharjo, 2011) Pengukuran nilai precision, recall dan accuracy secara umum mengacu pada rumus pada Gambar 4 : Gambar 4 Rumus perhitungan precision, recall dan accuracy (Raharjo 2011)

25 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian terkait, tahap praproses data, tahap implementasi algoritme, tahap pembangkitan metafile, tahap representasi digraf dan tahap analisis output hasil pengelompokan. Metode penelitian dapat dilihat pada Gambar 5. Mulai Praproses data Implementasi Document Index Graph Pembangkitan Metafile Analisa Analisis Masalah Studi Literatur Penelitian Terkait terkait Tokenisasi Stop-word removal Penetapan nilai jarak intercluster Penetapan nilai jarak intracluster Identifikasi klusterisasi yang dihasilkan Stemming Penetapan jumlah dokumen Konfigurasi Verteks Vertex dan Edge Representasi Digraf Selesai Analisis hasil klusterisasi Clustering Struktur digraf untuk dokumen tunggal Struktur digraf untuk dokumen gabungan Gambar 5 Metode penelitian Perlakuan pada penelitian ini adalah: jumlah dokumen yang digunakan untuk dokumen latih dan dokumen uji, term frequency threshold sebagai batas frekuensi kemunculan kata yang akan digunakan untuk pengelompokan dan output metafile yang dihasilkan. Faktor dan level penelitian ini ditampilkan pada Tabel 1. Tabel 1 Faktor dan level penelitian Faktor Level Jumlah Dokumen Pengujian algoritme dilakukan pada 20 dokumen uji dan dokumen latih

26 10 Pengukuran nilai precision, recall dan accuracy dilakukan pengujian terhadap 20, 25, 50 dan 100 dokumen latih Term Frequent Threshold Batas kemunculan kata pada dokumen minimal 20 kali Output metafile Menggunakan format bahasa DOT untuk penyusunan struktur digraf untuk dokumen tunggal dan dokumen gabungan Analisis Masalah dan Studi Pustaka Pada tahap ini dilakukan analisis dan studi pustaka terhadap permasalahan yang dihadapi. Permasalahan tersebut yaitu mengenai peningkatan volume data pada dokumen web yang berkembang saat ini meskipun format dokumen yang ditemukan telah terstruktur dengan baik. Fenomena tersebut dapat diatasi dengan melakukan teknik text mining dengan melakukan proses pengelompokan terhadap dokumen-dokumen web dengan merujuk pada pola-pola dan keterkaitan isi dalam dokumen-dokumen tersebut. Pengelolaan informasi dengan text mining memberikan gambaran dari topik dalam satu set besar dokumen tanpa harus membaca isi dokumen satu per satu. Hal ini dapat dilakukan dengan pengelompokan. Pencarian dan pembelajaran mengenai literatur yang berkaitan dengan penelitian, yang dilakukan yaitu menerapkan algoritme pengelompokan yang mudah difahami baik secara input, proses maupun output. Salah satu algoritme yang telah dikembangkan dari penelitian sebelumnya adalah algoritme Document Index Graph (DIG). Literatur tersebut dapat berupa buku, jurnal, dan media yang dapat dibuktikan kebenarannya. Tahap Praproses Data Tahap praproses data mengubah bentuk asli data tekstual ke dalam struktur dokumen yang siap untuk proses data mining, dan telah dapat mengidentifikasi fitur teks yang paling signifikan yang dapat menentukan perbedaan di antara kategorikategori tertentu (Srividhya 2010). Dengan kata lain, tahap ini adalah proses penggabungan sebuah dokumen baru ke dalam sistem temu kembali informasi dan menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Data penelitian yang digunakan untuk pengujian pengelompokan menggunakan data REUTERS Data tersebut merupakan koleksi dari dokumen-dokumen yang pernah ditulis di REUTERS newswire (format SGML) pada tahun Dokumendokumen tersebut memiliki karakteristik data kategorikal dan disusun kembali dan dilakukan pengindeksan dalam beberapa kategori oleh para staf di Reuters (UCI KDDI Archive, 1999). Data berisi dokumen berita yang terbagi dalam 9603 data training, 3299 dokumen uji, dan 8676 dokumen yang tidak digunakan. Dokumen terdiri

27 11 atas 5 atribut yakni TOPICS, LEWISSPLIT, CGISPLIT, OLDID, NEWID. Pada kasus kategorisasi teks, data REUTERS terdiri atas 5 kategori berdasarkan isi dokumen yakni Exchange, Orgs, People, Places, Topics. Tahapan praproses data dalam konteks text mining adalah sebagai berikut (Srividhya 2010) : Stop-word removal. Menghilangkan kata-kata yang sering digunakan tapi tidak memuat informasi yang signifikan (the, of, and, to) Stemming. Proses ini akan mencari kata dasar dari sebuah kata (user, used, users -> USE) Document index. Teknik pencarian keyword yang tepat dari setiap dokumen (pemodelan graf). Salah satu metode document index adalah term weighting. Term weighting adalah pembobotan kata pada setiap kemunculannya di setiap dokumen dan menunjukkan pentingnya kata tersebut (menghitung bobot node di setiap edge). Dimentional reduction. Menentukan jumlah dokumen yang di dalamnya terdapat kata yang sering muncul dan menghilangkan kata yang jarang muncul. Jika kata yang muncul tidak melebihi n dokumen yang ditetapkan sebagai nilai threshold maka kata tersebut dapat dihilangkan. Implementasi Algoritme Document Index Graph (DIG) DIG merupakan algoritme pembangun digraf. Digraf yang dibangun merupakan graf berarah. Arah digraf menunjukkan struktur kalimat. Digraf yang dibangun merupakan komponen dari : 1. Node. Node berisi kata unik dari setiap kalimat dalam dokumen. 2. Edge. Merupakan penghubung antarnode. Pada edge terdapat informasi berupa nomor edge, posisi kata tersebut dalam kalimat dan dalam dokumen. 3. Path. Node pada digraf berisi informasi tentang kata unik dalam sebuah dokumen. Jalur atau path yang dibentuk oleh node dan edge merupakan representasi dari sebuah kalimat tertentu. Algoritme Document Index Graph sebagai berikut (Hammouda 2004) : 1. Proses satu per satu kalimat pada setiap dokumen. 2. Setiap kata yang belum ada di dalam kumpulan digraf, maka akan ditambahkan sebagai node. 3. Jika kata sudah ada dalam kumpulan digraf, maka buat edge baru. 4. Untuk setiap kata yang bertetangga,hubungkan dengan edge. 5. Untuk mendapatkan matching phrase, buat daftar data dokumen-dokumen yang mempunyai edge yang serupa ke dalam sebuah tabel. 6. Jika matching phrase berikutnya mempunyai edge yang merupakan kelanjutan dari edge sebelumnya, maka gabungkan pada matching phrase sebelumnya. 7. Jika kata yang muncul tidak melebihi n dokumen yang ditetapkan sebagai nilai threshold maka kata tersebut dapat dihilangkan 8. Ulangi langkah 6 hingga semua dokumen selesai diproses.

28 12 Ilustrasi pembentukan digraf menggunakan algoritme DIG pada dokumen di bawah ini dapat dijelaskan dengan contoh isi dokumen dan gambar berikut : Dokumen a : river rafting, mild river rafting, river rafting trips Dokumen b : wild river adventures, river rafting vacation plan Dokumen c : fishing trips, fishing vacation plan, booking fishing trips, river rafting Struktur digraf yang terbentuk dari ketiga dokumen di atas ditampilkan pada Gambar 6. Gambar 6 Ilustrasi Document Index Graph (Hammouda 2004) Proses dimentional reduction dilakukan dengan melakukan penetapan nilai document frequency threshold (relevant and irrelevant threshold) yang ditambahkan pada implementasi algoritme DIG tersebut sehingga mempengaruhi hasil pengelompokan yang terbentuk nantinya. Cluster yang terbentuk dari implementasi algoritme DIG akan dicocokkan dengan hasil penelitian Lewis (1997). Pengujian pengelompokan dokumen dilakukan pada jumlah dokumen tertentu. Pengujian dilakukan dengan mencari kata-kata yang memiliki frekuensi kemunculan dokumen lebih dari 20 kali. Pengujian menghasilkan komposisi kategori yang muncul untuk selanjutnya ditentukan kelompok atau kategorinya (Lewis 1997). Komposisi kategorisasi teks ditampilkan pada Gambar 7. Gambar 7 Komposisi kategorisasi teks berdasarkan Lewis (1997)

29 13 Pembangkitan metafile penyusun struktur digraf Metafile penyusun struktur digraf adalah sebuah bentukan output dari hasil implementasi algoritme DIG dengan penerapan dimentional reduction dan menghasilkan bentukan cluster dari dokumen yang diproses. Metafile berisi informasi tentang struktur node dan edge yang saling terhubung dalam sebuah path. Penentuan struktur digraf dibedakan dengan pewarnaan sesuai dengan jalur path yang terbentuk dari hasil implementasi algoritme tersebut. Adapun beberapa informasi yang terkandung di dalam metafile tersebut sebagai berikut : digraph { graph[fontname,fontsize,style,nodesep=3] node [style=filled fillcolor="gray80"] "vertex =>Term Frequency"... ; } Representasi digraf menggunakan metafile penyusun digraf Representasi digraf divisualisasikan dengan menggunakan aplikasi Graphviz menggunakan lingkungan pemrograman PHP sehingga input untuk representasi digraf tersebut yakni metafile menggunakan bahasa pemrograman PHP. Output penelitian adalah bentukan digraf yang berisi hasil pengelompokan dokumen dengan batasan nilai document frequency threshold dan jumlah dokumen yang akan diuji. Analisis hasil pengelompokan berdasarkan pengujian Penelitian ini melakukan pengujian untuk pengelompokan hasil implementasi algoritme DIG dengan menentukan nilai-nilai batasan sebagai berikut : 1. Batasan jumlah dokumen. Jumlah dokumen yang diuji mencakup 10 dan 20 dokumen newswire REUTERS berkategori LEWISSPLIT yakni PUBLISHED-TEST. 2. Batasan nilai document frequency threshold. Membatasi kata-kata yang memiliki nilai Term Frequency (TF) yang tinggi akan tetapi tidak relevan terhadap isi dokumen. 3. Batasan nilai relevant words. Membatasi kata-kata yang memiliki nilai TF relatif kecil sehingga proses pengelompokan kata menjadi lebih sederhana. 4. Pembangkitan struktur digraf. Memberikan pilihan untuk pembangkitan struktur digraf secara keseluruhan atau masing-masing dokumen. Penentuan tersebut akan mempengaruhi kompleksnya penggambaran digraf pada aplikasi. Berdasarkan pengujian yang dilakukan dilakukan analisis hasil pengelompokan dengan menghitung nilai persentase precision, recall dan accuracy untuk memberikan penjelasan seberapa efektif kinerja/kualitas dari metode DIG yang digunakan dengan menggunakan data newswire REUTERS.

30

31 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi digraf menggunakan software Graphviz Tampilan halaman praproses data dapat dilihat Gambar 8. Gambar 8 Tampilan praproses data Berdasarkan Gambar 8 untuk tahapan praproses data selain dilakukan proses tokenisasi, penghapusan kata hubung yang terdapat pada daftar stop-word dan pengambilan kata dasar (stemming), dilakukan juga proses dimentional reduction. Proses dimentional reduction akan melakukan pembacaan isi dokumen dan akan melakukan pembatasan oleh dua nilai yang menjadi threshold untuk mendapatkan hasil pengelompokan yang terbaik. Nilai pertama adalah banyaknya kata yang memiliki nilai Term Frequency (TF) tinggi akan tetapi tidak mewakili topik dalam dokumen (document frequency threshold). Hal ini ditemukan di sebagian besar dokumen REUTERS Dalam pengujian ditemukan setidaknya 3 kata yang selalu memiliki nilai TF tinggi akan tetapi tidak relevan terhadap topik dalam dokumen. Kata tersebut adalah : pct, mln dan dlrs. Oleh karena itu untuk mendapatkan hasil pengelompokan dan representasi digraf yang lebih baik, maka beberapa kata tersebut sebaiknya dihilangkan dalam proses pengelompokan sehingga perlu ditentukan nilai document frequency threshold yang ingin dihilangkan yakni 2-3 kata berdasarkan pengujian praproses data. Nilai kedua adalah banyaknya kata yang memiliki nilai TF tinggi dan mewakili topik dalam dokumen (relevant words), dan jumlah kemunculannya minimal lebih dari (jumlah dokumen n) kali atau maksimal lebih dari jumlah dokumen yang diproses. Nilai n didefinisikan minimal 0 sampai dengan jumlah dokumen yang diproses.

32 16 Praproses data pada 20 dokumen uji dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 20 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 2 dan Tabel 3. Tabel 2 Hasil pengelompokan 20 dokumen dengan document frequency threshold=0 Kata pct 50 mln 40 year 30 billion 28 stock 26 bankamerica 26 quarter 25 company 25 sales 23 Kemunculan Tabel 3 Hasil pengelompokan 20 dokumen dengan document frequency threshold=2 Kata year 30 billion 28 stock 26 bankamerica 26 quarter 25 company 25 sales 23 Kemunculan Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 0 (nol) akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali tanpa melakukan pembatasan kata-kata yang tidak relevan. Kata yang tidak relevan yang dimaksud adalah kata pct dan mln. Dua kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut. Berdasarkan hal itu maka mekanisme algoritme dikembangkan untuk membatasi kemunculan kata yang sering muncul tapi tidak relevan dengan menghilangkan kata yang bobot kemunculannya terbesar sebanyak nilai input document frequency threshold. Oleh karena itu ketika nilai document frequency threshold diubah menjadi 2, maka dapat diartikan bahwa algoritme akan menghilangkan dua kata dengan nilai frekuensi kemunculannya paling besar yakni kata pct dan mln. Penentuan nilai bobot Term Frequency (TF) digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni lebih dari 20 kali (Lewis 1997). Pada pemrosesan 20 dokumen di atas, maka penetapan nilai TF

33 17 adalah sebesar 0. Nilai tersebut dipakai agar menghasilkan minimal kemunculan yang didapat sejumlah (jumlah dokumen n) kali. Praproses data pada 25 dokumen latih dilakukan dengan membandingkan hasil pengelompokan yang didapat dengan dan tanpa penyertaan nilai document frequency threshold dan penetapan nilai bobot Term Frequency (TF) agar hasil pengelompokan hanya akan menampilkan kemunculan kata lebih dari 20 kali. Hasil pengelompokan 25 dokumen dengan variasi nilai document frequency threshold dan nilai bobot Term Frequency = 0 ditampilkan pada Tabel 4 dan Tabel 5. Tabel 4 Hasil pengelompokan 25 dokumen dengan document frequency threshold=0 Kata pct 54 mln 47 year 35 billion 32 company 29 quarter 28 bankamerica 26 sales 23 debt 22 Kemunculan Tabel 5 Hasil pengelompokan 25 dokumen dengan document frequency threshold=3 Kata billion 32 company 29 quarter 28 bankamerica 26 sales 23 debt 22 Kemunculan Berdasarkan hasil pengelompokan di atas dapat dijelaskan bahwa penetapan nilai document frequency threshold sebesar 3 akan menampilkan kata-kata yang frekuensi kemunculan dokumennya lebih dari 20 kali dan melakukan pembatasan kata-kata yang tidak relevan sebanyak 3 kata yakni pct, mln dan year. Tiga kata tersebut selalu ditemukan di setiap dokumen dan muncul lebih dari satu kali. Hal tersebut ditandai dengan jumlah kemunculan terbesar di antara kata-kata lain di dokumen tersebut. Penentuan nilai bobot Term Frequency (TF) pada percobaan dengan 25 dokumen didasarkan pada rumus (jumlah dokumen n) agar dapat menampilkan hasil pengelompokan dokumen dengan kemunculan lebih dari 20 kali. Oleh karena itu nilai n=5 pada input nilai TF digunakan untuk melakukan pembatasan jumlah kata yang akan ditampilkan sebagai hasil pengelompokan berdasarkan minimal kemunculan kata di sejumlah dokumen yang diuji yakni tetap lebih dari 20 kali (Lewis 1997). Implementasi algoritme pada 50 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=30 menghasilkan sebanyak 23 kata dengan kemunculan lebih dari 20 kali. Hasil pengelompokan dapat dilihat pada Lampiran 1.

34 18 Implementasi pada 100 dokumen latih menggunakan nilai document frequency threshold=3 dan nilai bobot TF=80 menghasilkan sebanyak 95 kata dengan kemunculan lebih dari 20 kali. Hasil percobaan dapat dilihat pada Lampiran 2. Hasil implementasi untuk 20, 25, 50 dan 100 dokumen dengan perubahan nilai document frequency threshold dan nilai bobot Term Frequency (TF) sangat penting dilakukan untuk mendapatkan hasil pengelompokan yang lebih baik dan mendapatkan representasi digraf yang lebih baik pula. Hasil implementasi algoritme dilanjutkan dengan pembangkitan metafile yang merupakan bahasa terstruktur penyusun struktur digraf yang akan mendefinisikan komponen digraf seperti node, edge dan path. Format bahasa yang digunakan adalah DOT language dengan unsur node yakni kata-kata yang terpilih dari hasil implementasi algoritme DIG pada praproses data; unsur edge adalah keterhubungan kata-kata dalam dokumen; dan unsur path adalah pengelompokan kata berdasarkan warna pada graf. Berikut adalah format metafile penyusun digraf untuk representasi dokumen tunggal dari hasil pengelompokan 20 dokumen uji dengan nilai document frequency threshold=2 dan nilai TF=0. digraph { graph [fontname = "Arial", fontsize = 36, style = "bold", nodesep=3] node [style=filled fillcolor="gray80"] "year=>30" "billion=>28" "stock=>26" "bankamerica=>26" "quarter=>25" bankamerica=> 26" -> "billion=>28" [color=red,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=green,penwidth=3.0]; "bankamerica=> 26" -> "stock=>26" [color=orange,penwidth=3.0]; "stock=>26" -> "bankamerica=>26" -> "stock=>26" [color=darkslateblue,penwidth=3.0]; "bankamerica=>26" -> "billion=>28" -> "year=>30" [color=darkseagreen,penwidth=3.0]; } Metafile di atas sebagai bentukan output antara dari proses pengelompokan. Output hasil pengelompokan (metafile) akan menjadi input awal penyusunan struktur digraf untuk representasi digraf pada interface aplikasi. Tampilan digraf dari input metafile dapat dilihat pada Gambar 9. Gambar 9 Representasi digraf dari input metafile penyusun struktur digraf

35 19 Representasi digraf yang disajikan pada Gambar 9 dapat dilihat hasil pengelompokan dokumen dengan melihat nilai Term Frequency (TF) dari kata-kata yang sering muncul pada dokumen uji. Dari implementasi 20 dokumen REUTER dengan nilai document frequency threshold = 2 dan nilai bobot TF relevant words = 0 atau sejumlah dokumen yang diproses, maka didapat 4 kata yang sering ditemukan pada pembandingan dokumen pertama dan kedua yakni : year, billion, bankamerica dan stock. Di sisi lain, kata quarter ditemukan pada pembandingan dokumen lainnya. Warna pada digraf mewakili kelompok yang terbentuk dari implementasi algoritme DIG. Jalur asiklik pada digraf menunjukkan keterkaitan kata yang sering muncul di beberapa dokumen, dan jalur siklik menunjukkan ada beberapa kata yang sama yang muncul pada sebuah dokumen. Langkah selanjutnya adalah menganalisis tingkat akurasi dari pencarian dan temu kembali informasi dengan menghitung nilai precision, recall dan accuracy hasil pengelompokan pada 20 dokumen uji. Hasil perhitungan ditampilkan pada Tabel 6. Node Tabel 6 Perhitungan precision, recall dan accuracy pada 20 dokumen Cluster result Search result TP FP FN TN Precision Recall Accuracy Year % 67% 92% billion % 71% 97% Stock % 77% 95% bankamerica % 77% 97% quarter % 80% 96% company % 80% 97% Sales % 87% 99% sumofcluster 183 meanofprecision 87,73% sumofsearch 205 meanofrecall 76,99% numofdocs 20 meanofaccuracy 96,00% Dari tabel di atas dapat dikatakan bahwa implementasi algoritme DIG pada pengelompokan sebanyak 20 dokumen menghasilkan nilai precision sebesar 87,73%, nilai recall sebesar 76,99% dan memiliki tingkat akurasi yang sangat baik yakni 96%. Hasil perhitungan untuk 25, 50 dan 100 dokumen lainnnya menunjukkan kecenderungan penurunan untuk nilai precision dan recall akan tetapi kecenderungan peningkatan untuk nilai accuracy (dapat dilihat pada Lampiran 3, Lampiran 4, Lampiran 5). Gambar 10 menunjukkan grafik perbandingan ukuran precision, recall dan accuracy terhadap 20, 25, 50 dan 100 dokumen.

36 20 Gambar 10 Grafik nilai precision, recall dan accuracy pada dokumen uji Gambar 10 menunjukkan metode DIG memiliki nilai precision, recall dan accuracy lebih dari 70% sehingga dapat dikatakan metode DIG memberikan hasil yang baik dalam pengelompokan dokumen REUTERS.

37 5 SIMPULAN DAN SARAN Simpulan Implementasi algoritme Document Index Graph (DIG) pada dokumen REUTERS telah dapat menghasilkan pengelompokan dengan nilai rataan precision sebesar 81%, rataan recall sebesar 73%, dan rataan accuracy sebesar 90%. Selain itu, penelitian ini telah menunjukkan bahwa pembangkitan metafile telah dapat merepresentasikan hasil pengelompokan berbasis digraf. Saran Penelitian yang dilakukan hanya berfokus pada implementasi algoritme DIG dan pemanfaatan output antara hasil implementasi algoritme tersebut yang berupa metafile sederhana sebagai input untuk representasi digraf secara visual. Penelitian selanjutnya diharapkan dapat dilakukan analisis pengelompokan yang terbentuk baik secara internal atau eksternal. Hal ini diharapkan mempunyai dampak terhadap akurasi yang lebih tinggi.

38 DAFTAR PUSTAKA Salton, G. et al A Vector Space Model for Automatic Indexing. Journal of Information Retrieval dan Language Processing. Yang, Y. Jan O P A Comparative Study on Feature Selection in Text Categorization. O. Zamir and O. Etzioni Web document clustering: A feasibility demonstration. In Proceedings of the 21st Annual International ACM SIGIR Conference, pages 46 54, Melbourne, Australia. Wang,Y. J Hodges Incorporating Semantic and Syntactic. Department of Computer Science & Engineering, Mississippi State University. Hammouda K M, Mohamed S. Kamel Efficient phrase-based document indexing for web document clustering. P.-J. Cheng, L.-F.Chien Effective image annotation for searches using multilevel semantics. International Journal Digital Library.4: Jing, L. et al Ontology-based Distance Measure for Text Clustering. Torres, G. J. et al A Similarity Measure for Clustering and its Applications. International Journal of Electrical and Electronics Engineering 3:3. Ernawati S dan Arie A, Erwin B S Klusterisasi Dokumen Berita Berbahasa Indonesia Menggunakan Document Index Graph. Seminar Nasional Aplikasi Teknologi Informasi 2007 (SNATI 2007) Yogyakarta. 20 Juni ISSN : Gupta, V A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, Liu, Y. et al Understanding of Internal Clustering Validation Measures. IEEE International Conference on Data Mining. Amine, A. et al Evaluation of Text Clustering Methods Using WordNet. The International Arab Journal of Information Technology, Vol. 7, No. 4. Huang, C. J Yin Text Clustering Using a Suffix Tree Similarity Measure. Journal of Computers. vol. 6, no. 10. Academy Publisher. Srividhya V, R. Anitha Evaluating Preprocessing Techniques in Text Categorization. International Journal of Computer Science and Application Issue. Rendon, E. et al Internal Versus External Cluster Validation Indexes. International Journal of Computers And Communications. Gansner E. et al Drawing Graph with dot. Dot s user manual. [Online]. Available: [Accessed: 1- Nov-2013] B. Raharjo Presisi Dan Akurasi, Beni Raharjo Nature, Environment, Remote Sensing, GIS, IT and Myself, 17-Mar [Online]. Available: [Accessed: 16-Jun-2013]

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

KLUSTERISASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN DOCUMENT INDEX GRAPH

KLUSTERISASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN DOCUMENT INDEX GRAPH KLUSTERISASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN DOCUMENT INDEX GRAPH Sari Ernawati 1, Arie Ardiyanti, ST., MT. 1, Erwin Budi Setiawan 2 1 Jurusan Teknik Informatika, Fakultas Teknik Informatika,

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER

PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER PERBANDINGAN HASIL PENGGEROMBOLAN METODE K-MEANS, FUZZY K-MEANS, DAN TWO STEP CLUSTER LATHIFATURRAHMAH SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2010 PERNYATAAN MENGENAI TUGAS AKHIR DAN SUMBER

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

SKRIPSI RANTI RAMADHIANA

SKRIPSI RANTI RAMADHIANA EKSTRAKSI KATA KUNCI OTOMATIS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE TEXTRANK SKRIPSI RANTI RAMADHIANA 121402056 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

Implementasi Generalized Vector Space Model Menggunakan WordNet

Implementasi Generalized Vector Space Model Menggunakan WordNet Implementasi Generalized Vector Space Model Menggunakan WordNet Adi Wibowo*, Andreas Handojo**, Charistian Widjaja*** Jurusan Teknik Informatika Fakultas Teknologi Industri, Universitas Kristen Petra E-Mail:

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PERANCANGAN  CLIENT DENGAN PENGKLASIFIKASIAN  MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN PERANCANGAN EMAIL CLIENT DENGAN PENGKLASIFIKASIAN EMAIL MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN 081402050 PROGRAM STUDI TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

@UKDW BAB 1 PENDAHULUAN Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Pada saat ini, sangatlah mudah untuk mendapatkan informasi, baik melalui media cetak maupun media elektronik. Akan tetapi, banyaknya informasi yang ada belum tentu

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT

ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT ANALISIS PEMBENTUKAN WORD GRAPH KATA SIFAT MENGGUNAKAN METODE KNOWLEDGE GRAPH USEP RAHMAT SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2009 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Praditya Kurniawan 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 STMIK AMIKOM Yogyakarta e-mail: * 1 pradityakurniawan@gmail.com, 2

Lebih terperinci

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang

Fatkhul Amin Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang 45 Dinamika Teknik Januari IMPLEMENTASI SEARCH ENGINE (MESIN PENCARI) MENGGUNAKAN METODE VECTOR SPACE MODEL Dosen Fakultas Teknologi Informasi Universitas Stikubank Semarang Abstract Growth of Machine

Lebih terperinci

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga

Lebih terperinci

1. Pendahuluan. 1.1 Latar belakang

1. Pendahuluan. 1.1 Latar belakang 1. Pendahuluan 1.1 Latar belakang Pada saat ini, kebutuhan setiap individu terhadap Internet semakin meningkat. Hal ini terlihat dari semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan komputer di dalam lingkungan kehidupan masyarakat di seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad terakhir ini. Hal

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No., Oktober 28, hlm. 3939-3947 http://j-ptiik.ub.ac.id Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci