KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA"

Transkripsi

1 KLASIFIKASI KATEGORI DAN IDENTIFIKASI TOPIK PADA ARTIKEL BERITA BERBAHASA INDONESIA Aini Rachmania Kusumaagama Fuddoly Agus Zainal Arifin Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya, 60111, Indonesia Abstrak Berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Tugas Akhir ini memperkenalkan metode klasifikasi kategori, identifikasi topik dan ekstraksi kata kunci dokumen berita berbahasa Indonesia. Dalam tugas akhir ini digunakan perhitungan Likelihood untuk mengklasifikasikan kategori dan Cosine Similarity untuk mengidentifikasikan topik dokumen. Diharapkan metode ini dapat mengatasi permasalahan klasifikasi dokumen berita dan memudahkan pengguna menemukan berita yang sesuai dengan kebutuhannya. Uji coba dilakukan pada dokumen berita berbahasa Indonesia untuk setiap kategori dengan topik yang berbeda beda. Hasil uji coba menunjukkan bahwa klasifikasi secara online dapat menghasilkan hasil yang lebih baik dibandingkan klasifikasi offline. Selain itu, hasil uji coba juga menunjukkan nilai rata rata akurasi yang cukup tinggi yaitu 9,84% Kata Kunci : klasifikasi kategori, identifikasi topik, likelihood, cosine similarity 1. Pendahuluan Sejak tahun 1990-an, internet menjadi media vital penyebaran berita kepada khayalak ramai [1]. Pada dasarnya, berita yang disebarkan melalui internet merupakan artikel berita tekstual yang dikemas dengan bahasa tulis yang lugas dan informatif. Selain itu, berita mempunyai perbedaan yang begitu mendasar dengan koleksi dokumen dokumen lainnya, yaitu pada model aliran informasi. Aliran informasi sebuah berita merupakan sebuah stream yang dinamis dan terus diperbarui. Dokumen berita baru terus menerus datang, sehingga koleksi data selalu bertambah dan menjadi sebuah kumpulan data dengan jumlah yang sangat besar [2]. Dengan variasi data yang sangat besar, permasalahan mulai muncul ketika pembaca ingin meramba berita berita yang berbeda namun mempunyai tema yang sama. Maka untuk memudahkan navigasi, berita berita tersebut harus dipecah menjadi topik dan kategori yang berbeda beda. Pada laman internet misalnya, biasanya dipisah menjadi halaman olahraga, bisnis, dan teknologi sendiri. Semakin besar arus dokumen berita yang masuk, makan semakin luas pula range topik dan kategori berita yang ada, misalnya: kategori Olahraga dibagi menjadi beberapa topik yang lebih spesifik seperti balap motor atau sepak bola. Kemudian dalam topik yang spesifik tersebut terdapat beberapa kategori merupakan one-to-many yang berarti sebuah topik dapat berada pada banyak kategori, misalnya sebuah topik mengenai teknologi hybrid dapat saja berada pada kategori Teknologi, Sains dan Ilmu Pengetahuan atau Lingkungan. Permasalahan lain yang muncul adalah saat berita menjadi suatu raw material yang krusial bagi profesi tertentu seperti presenter ataupun pembawa acara, terutama acara yang membutuhkan pengetahuan umum yang luas mengenai berita yang sedang hangat terjadi. Seperti yang telah dijelaskan sebelumnya, berita mempunyai karakteristik yang berbeda dengan koleksi dokumen lainnya yaitu aliran dinamis berupa dokumen dokumen baru yang mungkin saja memiliki informasi yang tidak pernah ada pada dokumen sebelumnya, tak lupa data training yang terdistribusi secara luas. Maka untuk melakukan klasifikasi topik dan kategori dibutuhkan sebuah algoritma khusus yang mampu menangani klasifikasi online, penemuan topik, dan klasifikasi menggunakan sparse data training. Oleh karena itu, penulis mengusulkan sebuah aplikasi yang dapat menunjang penglasifikasian berita sesuai topik dan kategoriny dan menampilkan snippet dari setiap berita tersebut. Aplikasi ini mempunyai fungsi utama menglasifikasikan berita berita online yang ada menjadi hirarki dengan topik dan kategori yang lebih spesifik. Dengan begitu, diharapkan pemahaman pembaca mengenai sebuah kejadian 1

2 yang terliput dalam banyak berita akan menjadi lebih mudah. 2. Text Processing 2.1 Representasi Dokumen Teks Untuk mengimplementasikan metode-metode klasifikasi dokumen teks, diperlukan suatu transformasi yang dapat mengubah teks-teks digital menjadi suatu model yang lebih efisien dan dapat dimengerti sehingga proses analisa dapat dilakukan [1]. Vector space model adalah salah satu pendekatan yang paling banyak digunakan dalam merepresentasikan dokumen teks. Dalam model ini, setiap dokumen dj ditransformasikan menjadi suatu vektor [4]: d j = (w 1j, w 2j,..., w ij ), (1) dimana w ij adalah bobot term ke-i pada dokumen j bersangkutan. Bobot setiap term dapat direpresentasikan secara binari (true atau false), frekuensi, atau dengan frekuensi dan frekuensi inversdokumennya (TF-IDF). Metode TF-IDF klasik telah menunjukkan performa yang lebih baik jika dibandingkan dengan metode binari dan frekuensi [6], yang dinyatakan sebagai berikut:. N log 2 w ij = tfij, (2) dfi dimana w ij adalah bobot term i pada dokumen j, tf ij adalah frekuensi term i pada dokumen j, N adalah jumlah dokumen yang diproses dan df j adalah jumlah dokumen yang memiliki term i di dalamnya. 2.2 Klasifikasi Langkah pertama sebelum melakukan klasifikasi kategori adalah penentuan kategori primitif. primitif merupakan kategori yang telah ditentukan sebelumnya. Dalam penulisan Tugas Akhir ini, kategori yang digunakan merupakan hasil pengamatan terhadap kategori kategori yang terdapat pada situs berita seperti dan Dalam hal ini, terdapat sembilan kategori yang digunakan, yaitu: Nasional, Regional, Internasional, Metropolitan, Bisnis dan Ekonomi, Olahraga, Sains dan Teknologi, Edukasi dan Pariwisata. Klasifikasi kategori dibagi menjadi dua proses besar: proses training dan proses klasifikasi. Pada proses training, model kategori untuk setiap kategori dibangun. Model ini berisi nama kategori, jumlah dokumen dan daftar keywords (kata kunci). Untuk melatih sebuah classifier untuk kategori, diperlukan sekumpulan dokumen training. Dari setiap dokumen tersebut, kata kunci diekstraksi menggunakan teknik pembobotan TF-IDF seperti yang telah dijelaskan sebelumnya. Setiap dokumen training diekstraksi termsnya dan diboboti, kemudian terms tersebut ditetapkan sebagai kata kunci kata kunci untuk setiap kategori dan disimpan beserta jumlah dokumen training tempat kata kunci tersebut muncul. Gambar 2.1 menjelaskan alur kerja proses training. Berbeda dengan algoritma training pada umumnya, proses training hanya berfungsi untuk mengambil kata kunci, tanpa mengambil parameter parameter tertentu. Pseudocode algoritma training dijelaskan selanjutnya. Dokumen Training Untuk Setiap Dokumen D Ekstraksi Kata Kunci Perbarui total dokumen Perbarui jumlah frekuensi kata kunci Gambar 2.4 Proses Training Proses berikutnya adalah klasifikasi, yaitu penetapan kategori untuk dokumen uji yang diujikan pada aplikasi. Oroses klasifikasi meliputi empat tahap besar: 1. Ekstraksi kata kunci dokumen uji 2. Perhitungan likelihood. Perhitungan rata rata dan standard deviasi 4. Seleksi kategori Ekstraksi kata kunci untuk dokumen uji menggunakan algoritma yang sama dengan dokumen training. Perhitungan likelihood untuk sebuah kategori dijelaskan pada rumus 2.1. Dalam persamaan tersebut, cj adalah kategori, A adalah artikel dokumen uji, dan P(k i c j ) dihitung menggunakan In- Document dan perhitungan jumlah total dokumen. Likelihood (c j A={k 1, k 2,, k n})= - P(k i c j) log (P(k i c j)) 2.1 Setelah seluruh likelihood untuk semua kategori telah dihitung, nilai ambang batas bisa didapatkan. Nilai ambang (threshold), seperti yang ditunjukkan pada rumus 2.2, berguna untuk menentukan apakah sebuah kategori bisa ditetapkan untuk artikel uji atau tidak. Nilai ini didapatkan dari standar deviasi dan rata rata. L adalah jumlah banyaknya likelihood, sementara l i adalah likelihood untuk kategori ke i. Asumsinya adalah kategori kategori yang tepat akan memiliki nilai yang besarnya jauh berbeda dibandingkan kategori kategori lainnya. Secara n i=1 2

3 formal, klasifikasi kategori dijelaskan pada Gambar 2.2. Threshold= L 1 li + (li- L 2 li 1 ) L L L 2.2 Gambar 2.2 Klasifikasi 2. Identifikasi Topik Algoritma identifikasi topik tidak memerlukan corpus training khusus untuk melatih aplikasi terlebih dahulu. Topik baru muncul setiap hari, oleh karena itu, diperlukan sebuah algoritma yang dapat mengetahui apakah topik baru harus ditentukan untuk artikel tersebut. Algoritma identifikasi topik dibagi menjadi dua proses besar, yaitu klasifikasi dan dynamic thresholding. Konsep dasar identifikasi topik dijelaskan pada Gambar 2. Algoritma ini menghitung similarity antara kata kunci topik yang sebelumnya telah diketahui dengan kata kunci artikel uji. Setelah itu, nilai yang memiliki similarity paling tinggi ditetapkan untuk artikel sebagai conditionally assigned topic. Sebagaimana yang telah dijelaskan mengenai vector-space model, kata kunci dokumen dan topik juga direpresentasikan dalam bentuk vektor. Nilai isi vektor merupakan skor kata kunci. Untuk membandingkan antara vektor kata kunci dengan vektor topik, keduanya ditransformasikan ke dalam vector-space yang sama. Bila sebuah kata kunci terdapat dalam vektor artikel saja, maka vektor topik juga ditambahkan tempat untuk kata kunci tersebut namun dengan nilai kata kunci 0, karena kata kunci tersebut tidak ditemukan di dalam topik. Begitu juga sebaliknya apabila kata kunci ditemukan hanya pada vektor topik, maka disediakan tempat untuk kata kunci pada vektor artikel dengan nilai sebesar 0. Contoh transformasi vektor dapat dilihat pada Gambar 2.4 Topi k Arti kel. Kurs 5 Valu ta 2 Gambar 2. Identifikasi Topik Doll ar 10 Kurs Saha m Doll ar 7 Ku rs 5 Ku rs Doll ar 10 Doll ar 7 Saha m Saha m 0 Valu ta 0 Valu ta 2 Gambar 2.4 Transformasi Vektor Setelah kedua vektor dinormalisasi, maka CosSim untuk keduanya dihitung menggunakan rumus 2.2. Pada rumus tersebut, t i adalah vektor topik ke i, dan A adalah artikel uji A. t i dan A beruturut turut merupakan panjang vektor topik ke i dan panjang vektor Artikel A. CosSim tertinggi dipilih sebagai conditionally assigned topic, atau topik awal yang ditentukan. Topik ini nantinya akan diuji kembali menggunakan nilai ambang batas dinamis (dynamic thresholding). CosSim ( t i, A)= t i A t i A 2.2 Dengan perkembangan berita yang ada di dunia, tidaklah mungkin topik topik yang sebelumnya pernah muncul dapat mencakup seluruh topik yang diprediksi akan muncul di masa depan. Oleh karena itu, algoritma identifikasi topik juga harus dapat mendeteksi, apakah topik awal yang ditentukan sudah merupakan topik yang tepat atau topik baru harus diberikan. Hal ini dapat dilakukan dengan perhitungan nilai ambang yang dinamis. Nilai ambang atau threshold akan membandingkan antara nilai topik awal yang ditentukan dengan nilai topik baru yang mungkin terbentuk NewTSim menggunakan rumus 2.

4 (0.05 x tc ) x Mean(A)- StdDev.(A) x Mean(tc) NewTSim(tc, A) = A x Mean(A) 2 x ( tc x Mean(tc) 2 ) 2. NewTSim menghitung topik baru secara hipotetis. Pada rumus t c merupakan topik awal yang telah ditentukan, yaitu hasil perhitungan CosSim terbesar, Mean(A) merupakan rata rata vektor dokumen A, StdDev.(A) adalah standar deviasi vektor dokumen A, dan Mean(t c ) adalah rata rata topik awal yang telah ditentukan. A adalah panjang vektor dokumen A, dan t c adalah panjang vektor topik. Bila nilai NewTSim telah ditemukan, maka langkah berikutnya adalah menggunakan nilai tersebut sebagai salah satu komponen dalam dynamic thresholding untuk dibandingkan dengan nilai topik awal yang telah ditentukan. Terdapat dua nilai ambang batas yang harus dipenuhi agar sebuah topik awal dapat ditetapkan untuk artikel. Nilai ambang pertama dijelaskan pada persamaan 2.4a dan nilai ambang kedua dijelaskan pada persamaan ke 2.4b. CosSim(t c,a) > 0.1 CosSim(t c,a) > NewTSim(t c,a) 2.4a NumTopics > 10 CosSim(tc,A) > (2 StdDev(AllTopicSims) + Mean(AllTopicSims)) 2.4b CosSim(t c,a) adalah hasil perhitungan Cosine Similarity terbesar yang didapatkan melalui rumus 2.7 dan selanjutnya dianggap sebagai topik awal yang ditentukan, sementara NumTopics merupakan jumlah keseluruhan topik yang telah diketahui sebelumnya, StdDev(AllTopicSims) dan Mean(AllTopicSims) adalah berturut turut standard deviasi dan rata rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training.. Metode Evaluasi Hasil Klasifikasi Pelaksanaan evaluasi uji coba menggunakan rumus precision, recall, F-Measure dan Accuration dengan pendekatan dokumen yang diretrieve dan relevan seperti pada Tabel.. Tabel tersebut menunjukkan beberapa item yang diperlukan untk mengukur performa classifier. Item - item tersebut akan digunakan untuk menghitung Precision, Recall, F-Measure dan Accuration dengan rumus sebagai berikut: 4. Uji Coba Precision (P) = TP / (TP + FP) Recall (R) = TP / (TP + FN) F-Measure (F) = 2 * P * R / (P + R) Accuration (A) = (TP + TN) / (TP + FP + FN + TN) Tabel. Retrieve dan Relevant Relevant Not Relevant Retrieved TP FP Not Retrieved FN TN Data yang digunakan untuk menguji aplikasi ini terbagi sesuai dengan skenario dan tujuan uji coba. Karakteristik dan jumlah data dijelaskan sebagai berikut: Data uji coba untuk skenario I dan II Karakteristik : Data berupa corpus berita online berbahasa Indonesia yang didapatkan dari Berita diunduh berdasar kategori yang telah ditetapkan. primitif dalam uji coba berguna untuk mengevaluasi hasil klasifikasi. Jumlah : Antara sebuah kategori dengan kategori lainnya memiliki jumlah dokumen uji yang berbeda. Spesifikasi jumlah dokumen untuk setiap kategori dapat dilihat pada Tabel 4.1 Selain data yang digunakan untuk uji coba aplikasi, terdapat data yang digunakan sebagai data pelatihan aplikasi. Data tersebut disebut data training dan memiliki karakter yang sama dengan data uji, hanya saja dalam pembuatan corpus, data tersebut telah dilabeli kategori sesuai dengan kategori yang diberikan oleh situs berita tersebut. Rincian mengenai data training dapat dilihat pada Tabel

5 Tabel 4.1 Dokumen Testing Jumlah Dokumen Nasional 10 Regional 11 Internasional 11 Metropolitan 10 Bisnis dan Ekonomi 11 Olahraga 11 Sains dan Teknologi 11 Edukasi 10 Pariwisata 10 Total 95 Tabel 4.2 Dokumen Training Jumlah Dokumen Nasional 105 Regional 106 Internasional 104 Metropolitan 106 Bisnis dan Ekonomi 101 Olahraga 110 Sains dan Teknologi 90 Edukasi 109 Pariwisata 101 Total 92 Dari hasil uji coba, didapatkan hasil rata rata nilai akurasi masing masing 91,2%, 92,22%, 92,9% dan 9,82% untuk 5, 10, 15 dan 20 pengambilan kata kunci. Dari hasil percobaan tersebut dibuktikan bahwa jumlah kata kunci yang sebaiknya diekstraksi untuk mendapatkan akurasi optimal adalah 20. Tabel 4. Hasil Uji Coba Offline Accurat ion Accurat ion Accurat ion Accurat ion Bisnis & Ekonomi 92,59% 9,1% 95,8% 96,15% Edukasi 94,12% 9,1% 94,62% 96,15% Internasi onal 92,19% 94,66% 9,85% 94,62% Metropol itan 88,89% 89,1% 90,00% 90,91% Nasional 98,52% 98,47% 98,46% 99,24% Olahraga 98,52% 98,52% Pariwisat a Regional Sains & Teknolo gi Rata - rata 100,00 % 100,00 % 84,44% 99,29% 86,6% 88,89% 77,78 % 82,58% 80,77% 80,77% 94,81% 80,92% 96,92% 97,69% 91,2% 92,22% 92,9% 9,82% Bisnis & Ekonomi Uji coba berikutnya adalah uji coba klasifikasi kategori yang dijalankan menggunakan data yang langsung diunduh online. Corpus langsung dibentuk menggunakan parser dan hasilnya diklasifikasikan seperti yang telah dijelaskandan Mean(AllTopicSims) adalah berturut turut standard deviasi dan rata rata seluruh similarity topik yang telah dihitung pada tahap klasifikasi topik. Hasil perhitungan akurasi skenario ini dapat dilihat pada Tabel 4.4. Masing masing nilai yang didapatkan untuk setiap klasifikasi adalah 92,6%, 92,61%, 9,5% dan 9,84%. Tabel 4.4 Hasil Uji Coba Online Accuratio n Accuration Accuration Accuration 100,00% 98,58% 99,29% 100,00% Edukasi 9,66% 94,% 95,77% 96,48% Internasional 92,25% 92,96% 92,20% 94,% Metropolitan 90,85% 91,49% 92,20% 92,91% Nasional 96,45% 96,4% 98,46% 97,87% Olahraga 98,52% 98,58% 100,00% 100,00% Pariwisata 84,51% 8,80% 86,6% 85,00% Regional 81,69% 81,56% 81,56% 81,56% Sains & Teknologi 95,77% 95,74% 94,% 96,4% Rata - rata 92,6% 92,61% 9,5% 9,84% 4.1 Uji Identifikasi Topik dan Parser Persamaan 2.9a membandingkan antara similarity topik yang telah ditentukan dengan konstanta dam dengan nilai topik hipotetis baru yang didapatkan melalui rumus 2.8. Persamaan 2.9b berguna jika jumlah topik yang telah diketahui sebelumnya telah mencukupi. Berdasarkan hasil eksperimen, jumlah topik yang harus dipenuhi adalah sepuluh. Selain itu, persamaan 2.9b juga memeriksa apakah CosSim topik awal tersebut mempunyai beda besar yang jauh dibandingkan dengan topik topik lainnya. Apabila nilai similarity topik memenuhi kedua nilai ambang, maka topik yang telah ditentukan sebelumnya ditetapkan sebagai topik untuk dokumen. Sebaliknya, apabila nilai tersebut tidak memenuhi kedua nilai ambang, berarti topik baru harus diberikan dan topik baru tersebut kemudian menjadi sumber pertama untuk data training. Hasil uji coba identifikasi topik yang dilakukan pada kondisi offline ditunjukkan pada gambar

6 A K U R A S I NILAI THRESHOLD Gambar 4.1 Akurasi Identifikasi Topik Offline Hasil pengujian pada skenario II yang dilakukan pada kondisi offline menunjukkan menghasilkan performa optimal adalah 0.. Hal ini ditunjukkan oleh rata rata akurasi pada Gambar 4.1 yang menunjukkan bahwa aplikasi mampu meraih nilai akurasi sebesar 95.26%, sedangkan pada nilai threshold 0.1, 0.2, dan 0.4 nilai yang diraih adalah 9.76%, 94.1%, dan 94.78%. Hasil pengujian tersebut menunjukkan sedikit perbedaan dengan hasil uji coba yang dilakukan pada kondisi online yang ditunjukkan pada Gambar 4.2. Gambar 4.2 menunjukkan bahwa nilai threshold yang mampu menghasilkan performa optimal adalah 0.4. Secara keseluruhan, nilai akurasi hasil percobaan pada skenario online memang lebih kecil. A K U R A S I Akurasi Identifikasi Topik 95.50% 95.00% 94.50% 94.00% 9.50% 9.00% Akurasi Identifikasi Topik 96.00% 94.00% 92.00% 90.00% 88.00% 86.00% NILAI THRESHOLD Gambar 4.2 Akurasi Identifikasi Topik Online Nilai threshold 0.1 menghasilkan akurasi sebesar 90.2%, nilai 0.2 menghasilkan akurasi sebesar 91,27% dan nilai 0. menghasilkan akurasi sebesar 95.22%. Pengujian tambahan berikutnya adalah web parser untuk mengetahui hasil pengunduhan berita yang diunduh langsung dari situs berita online dan hanya dapat digunakan pada situs tersebut karena perbedaan struktur halaman web yang terdapat pada situs tersebut. Hasil uji coba menunjukkan bahwa parser telah dapat menghapus tag tag HTML pada halaman unduhan, namun terdapat beberapa kesalahan yang terjadi saat proses pembuatan corpus. Kesalahan kesalahan tersebut dijelaskan pada Tabel 4.5. Tabel 4.5 Klasifikasi Kesalahan Grabber dan Parser Tipe Contoh Kasus Kesalahan Kesalahan Seharusnya > > Pembacaan karakter " HTML 2.0 ldquo; Dokumen tidak terunduh sempurna Dokumen hanya terunduh hingga pertengahan berita 5. Evaluasi Hasil Uji Coba Dokumen terunduh secara lengkap hingga akhir berita Dari uji coba yang telah dilakukan terhadap data uji, terlihat bahwa classifier mampu mengklasifikasikan dokumen berita berbahasa Indonesia dengan kategori dan topik yang beragam denagn nilai akurasi sebesar 9,82% untuk klasifikasi offline dan 9,84% untuk klasifikasi online. Hasil optimal tersebut dapat diperoleh apabila jumlah kata kunci yang diekstraksi adalah 20. Hasil uji coba pada skenario pertama baik offline maupun online juga menunjukkan bahwa akurasi hasil berbanding lurus dengan jumlah kata kunci. Semakin banyak kata kunci yang diekstraksi, maka semakin tinggi nilai akurasinya. Hal ini disebabkan karena semakin banyak kata kunci yang diambil, semakin besar kemungkinan kata tersebut juga muncul dalam kata kunci dokumen. Pada skenario I, terlihat bahwa kategori tertentu dapat mencapai tingkat akurasi hingga 100%. Tingkat akurasi yang tinggi tersebut dikarenakan kategori tersebut memilki kata kunci kata kunci yang spesifik, sehingga kata kunci tersebut hanya muncul pada kategori tersebut. Hal ini pula yang menyebabkan beberapa kategori memiliki nilai akurasi yang terus menerus rendah untuk beberapa kategori lainnya, seperti Internasional. Internasional seringkali tertukar dengan kategori Pariwisata karena kata kunci yang terdapat pada kategori Internasional sebagian besar hanya berhubungan dengan tempat yang terdapat di luar negeri, tanpa adanya tema tertentu. Itulah yang menyebabkan kategori ini seringkali tertukar dengan kategori Pariwisata. Pengujian skenario I di lakukan pada dua kondisi, yaitu online dan offline. Hasil uji coba tidak menunjukkan beda yang signifikan, kecuali kemampuan klasifikasi yang lebih baik pada kondisi online. Ini dibuktikan dengan hasil yang menunjukkan bahwa pada kondisi online, pengujian dengan 5 kata kunci saja telah dapat menghasilkan nilai yang lebih tinggi 6

7 dibandingkan kondisi offline untuk kata kunci 5. Selain itu, nilai akurasi yang dapat dicapai pun lebih tinggi. Pada dasarnya, tidak terdapat perbedaan dalam implementasi kedua kondisi, sehingga hal yang memungkinkan terjadinya perbedaan tersebut adalah koneksi internet dan penggunaan memori. Pada kondisi online, tidak diperlukan lagi proses training data. Dokumen yang masuk langsung diklasifikasi, sehingga menghemat penggunaan memori program dan mengakibatkan peningkatan performa. Kesalahan dalam proses grabber dan parser yang berhubungan dengan pembacaan karakter sebenarnya berhubungan erat dengan versi bahasa HTML yang digunakan. Versi HTML terbaru yang dapat dibaca oleh Java adalah versi 2.0, sementara HTML yang telah umum digunakan pada situs situs adalah HTML versi 4.0. Setelah dilakukan beberapa kali pengujian pada kondisi online, ternyata dapat dibuktikan bahwa kesalahan kesalahan yang terjadi pada grabber dan parser tidak membawa dampak perubahan nilai akurasi yang signifikan. Pengujian pada skenario II membantu menentukan parameter thersholding yang baik. Parameter thersholding yang dianggap baik oleh [2] adalah 0,1. Namun setelah dilakukan percobaan pada kondisi offline, ditemukan bahwa parameter tersebut tidak dapat membawa hasil identifikasi topik yang baik. Hal ini dikarenakan nilai CosSim untuk Conditionally Assigned Topic tinggi dan rata rata berada di atas nilai 0,2, sehingga dengan nilai parameter 0,1 seluruh topik (bahkan yang tidak relevan) dianggap relevan oleh aplikasi.dari hasil percobaan didapatkan bahwa parameter optimal untuk thresholding adalah 0, dengan tingkat akurasi sebesar 95,26%. Nilai tersebut dapat menghasilkan topik yang optimal karena topik yang benar selalu memiliki nilai CosSim yang pada umumnya berada di atas nilai 0,. Sehingga apabila parameter di-set 0,4 nilai tersebut terlalu tinggi hingga topik yang benar akhirnya dianggap salah, dan bila diset 0,2 nilai tersebut terlalu rendah sehingga banyak topik yang sebenarnya tidak relevan dianggap benar oleh aplikasi. Pengujian pada skenario II de ngan kondisi online menunjukkan hasil yang berbeda. Nilai threshold pada identifikasi topik secara online harus diset lebih strict, yaitu pada 0.4. Nilai ini pun masih menghasilkan nilai akurasi yang lebih rendah dibandingkan hasil percobaan pada skenario II offline karena perhitungan nilai CosSim pada kondisi online memang terlihat mampu menghasilkan nilai nilai yang lebih tinggi. 6. Kesimpulan dan Saran 6.1 Kesimpulan 1. Algoritma yang diusulkan oleh [2] terbukti mampu melakukan klasifikasi kategori dan identifikasi topik dokumen berita berbahasa Indonesia 2. Performa algoritma berkaitan erat dengan jumlah kata kunci yang diambil pada saat ekstraksi kata kunci. Parameter optimal dalam klasifikasi dan identfikasi adalh 20 untuk kata kunci, dan 0, untuk threshold 4. Nilai akurasi yang dapat dicapai algoritma klasifikasi kategori adalah 9,84% dan 97,26% untuk identifikasi topik 6.2 Saran 1. Perlunya eksperimen lebih jauh untuk menemukan jumlah kata kunci yang tepat untuk menghasilkan performa yang lebih baik 2. Pemilihan kategori yang dianggap sebagai ground truth sebaiknya lebih spesifik, sehingga berbeda antara satu sama lain. Misalnya antara kategori internasional dengan pariwisata, dokumen yang berada pada kedua kategori seringkali sama memiliki kata kunci yang berhubungan dengan tempat, sehingga mengurangi performa klasifikasi. Perlunya riset untuk mempercepat running time yang diperlukan untuk identifikasi topik, karena butuh running time cukup lama apabila topik dokumen training banyak. 7. Daftar Pustaka [1] Arifin, A. Z., Roby Darwanto, Dini Adni Navastara, Henning Titi Ciptaningtyas Klasifikasi Online Dokumen Berita Dengan Menggunakan Algoritma Suffix Tree Clustering. Seminar Sistem Informasi Indonesia (SESINDO2008). ITS, Surabaya 17 Desember. [2] Bracewell D., Jiajun Yan, Fuji Ren dan Shingo Kuroiwa Category Classification and Topic Discovery of Japanese and English News Articles. Electronic Notes in Theoretical Computer Science 225 (2009) [] Mahendra, I Putu Adhi Kerta Enhanced Confix Stripping Stemmer And Ants Algorithm For Classifying News Document In Indonesian Language. The 5th International Conference on Information & Communication Technology and Systems ISSN [4] DR. E. Garcia, The Classic Vector Space Model, <URL: [5] Yates, Ricardo B. dan Bertiher R. Neto. Modern Information Retrieval. 7

8 [6] Husni. IR dan Klasifikasi. Diktat kuliah, Universitas Trunojoyo. [7] Skiba, Michael Jan Text Preprocessing in Programmable Logic. Canada: University of Waterloo. [8] Salton G., Automatic Text Processing. Cornell University. [9] Salton G. dan C. Buckley Term- Weighting Approaches in Automatic Text Retrieval. Department of Computer Science, Cornell University. [10] Li, Y. H. Dan A. K. Jain Classification of Text Documents. The Computer Journal, Vol. 41, No. 8. [11] J.E.N.I. Pengenalan Bahasa JAVA. Diktat kuliah, IPB 8

Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia

Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia Klasifikasi Kategori dan Identifikasi Topik pada Artikel Berita Berbahasa Indonesia Tugas Akhir KI91391 Dosen Pembimbing: Dr. Agus Zainal Arifin, S. Kom, M. Kom 1 Penyusun: Aini Rachmania 5107100077 2

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik

Lebih terperinci

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi

Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Penerapan Model OKAPI BM25 Pada Sistem Temu Kembali Informasi Rizqa Raaiqa Bintana 1, Surya Agustian 2 1,2 Teknik Informatika, FST UIN Suska Riau Jl. HR Soeberantas km 11,5 Panam, Pekanbaru, Riau e-mail:

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering

Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering Abstrak Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering Agus Zainal Arifin dan Ari Novan Setiono Jurusan Teknik Informatika, Fakultas Teknologi Informasi

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE

EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi Proses Temu-Kembali KULIAH #5 Evaluasi IR query : sby query: flu burung Evaluasi IR Indikator yang dapat diukur: Seberapa cepat dia meng-indeks Banyaknya dokumen/jam Terkait

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi 3. METODOLOGI A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input

Lebih terperinci

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh

PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA. Oleh PENGEMBANGAN APLIKASI WEB BASED DOCUMENTS SIMILARITY MEASURE MENGGUNAKAN MODEL RUANG VEKTOR PADA DOKUMEN BERBAHASA INDONESIA Oleh Made Satria Wibawa, 0815051003 Jurusan Pendidikan Teknik Informatika Fakultas

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris

Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris Pendeteksi Redundansi Kata pada Pasangan Kalimat dalam Bahasa Indonesia dan Bahasa Inggris Irmawati 1, Sari Ningsih 2 1,2 Jurusan Sistem Informasi, FTKI, Universitas Nasional Email: 1 irmawati@civitas.unas.ac.id,

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada era ini perkembangan teknologi informasi sangat pesat. Hal ini ditandai dengan semakin populernya penggunaan internet dan perangkat lunak komputer sebagai

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Bagi perusahaan yang bergerak dalam industri manufaktur, sistem informasi produksi yang efektif merupakan suatu keharusan dan tidak lepas dari persoalan persediaan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 306-312 http://j-ptiik.ub.ac.id Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF

Lebih terperinci

SISTEM PENILAIAN OTOMATIS JAWABAN ESSAY MENGGUNAKAN METODE COSINE MEASURE PADA SISTEM E-LEARNING ABSTRAK

SISTEM PENILAIAN OTOMATIS JAWABAN ESSAY MENGGUNAKAN METODE COSINE MEASURE PADA SISTEM E-LEARNING ABSTRAK Judul : Sistem Penilaian Otomatis Jawaban Essay Menggunakan Metode Cosine Measure Pada Sistem E-Learning Oleh : Lukman Hakim NIM : 1010651098 Fakultas : Teknik Jurusan : Teknik Informatika SISTEM PENILAIAN

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin - 5108100132 Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang BAB I PENDAHULUAN 1.1.Latar Belakang Masalah Tugas Akhir (TA) atau Skripsi merupakan suatu karya tulis ilmiah, berupa paparan tulisan hasil penelitian yang membahas suatu masalah dalam bidang ilmu tertentu

Lebih terperinci

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering Naive Bayes Riri Intan Aprilia 1 Teknik Informatika Fakultas Ilmu Komputer

Lebih terperinci

PENERAPAN FOCUSED CRAWLING PADA SITUS BERITA ONLINE

PENERAPAN FOCUSED CRAWLING PADA SITUS BERITA ONLINE PENERAPAN FOCUSED CRAWLING PADA SITUS BERITA ONLINE Aad Miqdad Muadz Muzad 1, Faisal Rahutomo 2, Imam Fahrur Rozi 3 1,2,3 Teknik Informatika, Teknologi Informasi, Politeknik Negeri Malang 1 aadmiqdad@gmail.com,

Lebih terperinci

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA

SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA SISTEM INFORMATION RETRIEVAL PENCARIAN KESAMAAN AYAT TERJEMAHAN AL QURAN BERBAHASA INDONESIA DENGAN QUERY EXPANSION DARI TAFSIRNYA Broto Poernomo T.P. 1 dan Ir. Gunawan 2 1 Teknik Informtika Sekolah Tinggi

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY Arif Munandar *), Achmad Hidayatno, and Teguh Prakoso Departemen Teknik

Lebih terperinci

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo Abstract Too many type of natural disaster that came and went over

Lebih terperinci

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA

PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA PENGARUH TEXT PREPROCESSING PADA CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA Milatina, Abdul Syukur, Catur Supriyanto Pascasarjana Teknik Informatika Universitas Dian Nuswantoro ABSTRACT Document clustering

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci