Sentiment Analysis Peringkasan Review Film Menggunakan Metode Information Gain dan K-Nearest Neighbor

Ukuran: px
Mulai penontonan dengan halaman:

Download "Sentiment Analysis Peringkasan Review Film Menggunakan Metode Information Gain dan K-Nearest Neighbor"

Transkripsi

1 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Vol. 2, No. 3, Maret 2018, hlm Sentiment Analysis Peringkasan Review Film Menggunakan Metode Information Gain dan K-Nearest Neighbor Ria Ine Pristiyanti 1, Mochammad Ali Fauzi 2, Lailil Muflikhah 3 Program Studi Teknik Informatika, 1 riaine38@gmail.com, 2 moch.ali.fauzi@ub.ac.id, 3 lailil@ub.ac.id Abstrak Review film berisi tentang sebuah opini dari seorang reviewer untuk mendeskripsikan sebuah film. Penilaian mengenai isi dari review film dapat disebut dengan sentiment analysis. Sentiment analysis pada review film terbagi menjadi 2 yaitu berupa review positif dan review negatif. Pengelompokan hasil sentiment analysis dapat dipermudah dengan metode klasifikasi k-nearest neighbor dimana metode ini akan mencari dokumen yang memiliki kedekatan antara dokumen satu dengan yang lainnya. Pada umumnya, data review film memuat isi yang sangat panjang sehingga diperlukan feature selection atau pemangkasan fitur yang berguna untuk mengurangi dimensi pada saat proses klasifikasi. Pada penelitian ini menggunakan metode information gain untuk mengurangi banyak fitur yang digunakan pada saat proses klasifikasi. Metode ini akan memprediksi ada atau tidak adanya term dalam sebuah dokumen sehingga term yang sering muncul memiliki nilai information gain yang rendah sedangkan term yang jarang muncul atau hanya muncul pada salah satu kategori memiliki nilai information gain yang tinggi. Term dengan nilai information gain yang tinggi akan dapat digunakan untuk proses klasifikasi. Hasilnya penggunaan seluruh term untuk klasifikasi menghasilkan akurasi sebesar 92% dimana nilai akurasinya lebih baik dibandingkan dengan adanya feature selection karena adanya penghapusan term yang memiliki nilai information gain yang rendah. Kata kunci: sentiment analysis, feature selection, k-nearest neighbor, information gain Abstract The film reviews contain an opinion from a reviewer to describe a movie. Assessment of the content from the film review can be called by sentiment analysis. Sentiment analysis on movie review is divided into 2 parts, which are positive review and negative review. Grouping of sentiment analysis results can be simplified by the k-nearest neighbor classification method where this method will look for documents that have similarity between one to another document. In general, the movie review data contains very long content required by feature selection or pruning feature to reduce dimensions during classification process. In this case, the method of information gain is used to reduce many features during the classification process. This method will predict the presence or absence of term in a document so the term that frequently appear has low information gain value, however for the term that rarely appear or only appear in one category has high information gain value. The term with high information gain value will be able to be used for classification process. The result for using all of term for classification is 92% accuracy where the accuracy value is better than the feature selection due to the elimination of term having low information gain value. Keywords: sentiment analysis, feature selection, k-nearest neighbor, information gain 1. PENDAHULUAN Review tentang film merupakan kebutuhan bagi semua orang untuk mendapatkan informasi mengenai sebuah film sehingga dapat digunakan untuk membantu mendapatkan informasi tentang isi film yang akan ditonton. Informasi yang bisa didapat melalui sebuah review film adalah mengenai jalan cerita, aktor sampai dengan konflik yang terjadi di dalamnnya serta kelebihan dan kekurangan sebuah film. Informasi-informasi hasil review yang dibuat kemudian digunakan sebagai bahan pertimbangan dalam menentukan kualitas dari sebuah film sehingga pecinta film dapat Fakultas Ilmu Komputer Universitas Brawijaya 1179

2 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1180 mengetahui sejauh mana film tersebut layak atau tidak layak di tonton. Penilaian mengenai isi dari review film dapat disebut dengan sentiment analysis. Sentiment analysis adalah proses penerapan natural language processing (NLP) dan analisis teks untuk mengidentifikasi dan melakukan ektrak informasi subjektif dari sebuah teks (Hussein, 2016). Sentiment analysis dapat diaplikasikan menggunakan sebuah metode klasifikasi untuk mempermudah dalam pengelompokan data berupa data positif atau data negatif yaitu dengan menggunakan metode k-nearest neighbor. Metode k-nearest neighbor digunakan pada proses klasifikasi dalam sebuah penelitian karena memiliki kesederhanaan dimana prosesnya berdasarkan pada pendekatan pembobotan yang sederhana dan kemudahan dalam implementasi, adaptasi dan proses learning serta memiliki nilai akurasi yang tinggi. Penerapan klasifikasi sentiment analysis menjadi kalimat positif maupun negatif dapat dilakukan setelah pemangkasan pada data subjek yang digunakan untuk mengurangi fitur sehingga menghindari banyaknya dimensi yang digunakan pada saat proses klasifikasi (Khan., dkk, 2016). Review film dapat mempunyai ukuran dataset yang cukup besar baik itu pada data training maupun data testing. Dimensi dan fitur yang berlebihan akan meningkatkan ruang pencarian semakin tinggi sehingga akan menyebabkan kesulitan dalam memproses data dan akan menurunkan kinerja serta membuat data tidak konsisten. Analisis dan mining dalam data juga membutuhkan waktu yang lama dalam pemrosesan data. Pengurangan dimensi dapat diterapkan untuk mengurangi dimensi dari data, dimana nantinya akan meningkatkan kinerja dari tehnik machine learning dengan menghilangkan fitur yang tidak perlu digunakan. Penyelesaian dalam permasalahan penelitian ini menggunakan metode Information Gain yang akan mengukur banyaknya bit yang dibutuhkan untuk memprediksi kategori dengan mengetahui ada atau tidak adanya term dalam suatu dokumen (Singh., dkk, 2010). Information Gain digunakan untuk mencari kriteria term yang baik dalam machine learning, dimana pada penelitian sebelumnya penerapan information gain dalam feature selection pada dataset reuters sebanyak data dan menghasilkan nilai f-measure sebesar 0.86 (Uguz, 2011). 2. DASAR TEORI 2.1 Review Film Film merupakan suatu selaput tipis yang dibuat dari seluloid dimana digunakan sebagai tempat gambar negatif yaitu tempat yang dibuat menjadi potret atau digunakan sebagai tempat gambar positif yaitu tempat untuk dimainkan di bioskop, film juga berarti sebagai lakon dalam cerita yaitu gambar hidup (KBBI, 1990). Review merupakan sebuah teks yang digunakan untuk meninjau suatu karya baik film, buku dan karya lainnya yang memiliki tujuan untuk mengetahui kualitas, kelebihan dan kekurangan yang ada pada karya tersebut serta untuk melakukan kritik terhadap suatu peristiwa atau karya seni bagi khalayak. 2.2 Text Mining Text mining lebih luas dapat diartikan sebagai proses mencari tahu secara intensif dimana pengguna berinteraksi dengan kumpulan dokumen sepanjang waktu dengan menggunakan serangkaian analisis. Kumpulan dokumen merupakan sumber data pada text mining dan pola yang menarik tidak ditemukan pada record database yang terbentuk melainkan pada data kata per kata yang tidak terstruktur pada kumpulan dokumen (Feldman., dkk, 2007). 2.3 Text Preprocessing Proses preprocessing berfungsi untuk proses awal sebelum dokumen teks diolah pada tahap selanjutnya dimana akan dilakukan proses seleksi data yang akan di proses pada setiap dokumen. Proses ini terdiri dari beberapa proses pembersihan dokumen, yaitu case folding, tokenizing, filtering/stopword removal dan stemming (Nugroho, 2011). Dokumen terdiri dari beberapa teks namun tidak semua teks di dalam dokumen konsisten dalam penggunaan huruf kapital sehingga diperlukan case folding untuk mengubah teks dokumen menjadi suatu bentuk standar dimana pada tahap ini akan dirubah menjadi huruf kecil (lowercase). Tokenizing adalah tahap yang dilakukan setelah case folding, dimana pada tahap ini merupakan proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Tokenizing akan memecah sekumpulan karakter dalam suatu teks ke dalam suatu kata. Pada karakter lain selain alfabet akan dihilangkan sehingga dianggap sebagai delimiter seperti.,,,, -, /, [, }, +, dan lain

3 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1181 sebagainya. Karakter lain yang akan dihapus adalah karakter whitespace yang dapat dianggap sebagai pemisah kata, dimana karakter ini seperti enter, tabulasi, spasi. Karakter ( ), (.), (;), (:) dapat memiliki peran yang cukup banyak sebagai pemisah kata. Filtering adalah proses mengambil katakata penting dari hasil tokenizing. Algoritme stoplist (membuang kata yang dianggap kurang penting) atau wordlist ( menyimpan kata penting) dalam sebuah dokumen digunakan pada tahap ini. Stemming adalah proses normalisasi dari kata hasil tokenizing dan telah dilakukan proses filtering diubah ke dalam bentuk kata dasar. 2.4 Algoritme Stemming Nazief Adriani Algoritme stemming Nazief Adriani merupakan morphologi yang luas dimana akan menggabungkan maupun melakukan atau tidak melakukan rangkuman affixed yang terdiri dari prefixes, suffixes, infixes dan confixes (kombinasi prefixes dan suffixes). 2.5 Sastrawi Stemmer Sastrawi stemmer merupakan library sederhana yang memiliki desain mudah untuk digunakan. Library ini menerapkan algoritme Nazief dan Adriani yang kemudian ditingkatkan menjadi algoritme CS (Confix Stripping), ECS (Enhanced Confix Stripping) dan Modified ECS. Algoritme pada library ini dapat menyelesaikan persoalan stemming seperti mencegah overstemming dengan kamus, mencegah understemming dengan aturan tambahan dan mengurangi kata yang berbentuk jamak. 2.6 Sentiment Analysis Sentiment analysis adalah bagian dari opinion mining, yaitu sebuah proses dalam memahami, preprocessing yaitu mereduksi data dan mengolah sebuah data tekstual secara otomatis untuk mendapatkan informasi. Sentiment analysis adalah proses penerapan natural language processing (NLP) dan analisis teks untuk mengidentifikasi dan melakukan ektrak informasi subjektif dari sebuah teks (Hussein, 2016). 2.7 Klasifikasi Klasifikasi merupakan proses pembagian data menjadi beberapa kelompok dimana memiliki sifat dependen dan independen dimana setiap kelompok berperan sebagai sebuah kelas. Klasifikasi dokumen adalah mengelompokkan suatu dokumen ke dalam kelompok yang telah dikenal sebelumnya secara otomatis berdasarkan isi dokumen melalui sebuah penelitian untuk memperoleh informasi dengan mengembangkan sebuah metode klasifikasi (Tenenboim, L., dkk., 2008). Jadi klasifikasi diartikan sebagai menganalisis label kelas dari suatu data objek, label kelas sudah ada, Tujuannya untuk mengelompokkan pada kelas-kelas yang telah ditentukan. 2.8 K-Nearest Neighbor Algoritme k-nearest neighbor merupakan salah satu metode untuk proses klasifikasi terhadap suatu objek berdasarkan data training yang memiliki jarak paling dekat dengan objek. Penentuan jarak dengan nilai terdekat atau terjauh dihitung berdasarkan jarak Euclidean (J. Nilson, 1996). Proses perhitungan K- Nearest Neighbor (Han., dkk): Preprocessing, langkah pertama adalah menyiapkan data training dan mendapatkan tuple himpunan DS = {(d i, c j ) 0 i < n, 0 j < m} dimana d i adalah term vector representation teks dokumen dan c j categori label. Similarity Measure, menggunakan TF x IDF untuk menghitung bobot setiap term dalam dokumen, sebagai variasi untuk meningkatkan akurasi yang signifikan. Term Frequency merupakan jumlah kemunculan sebuah term dalam sebuah dokumen (Gebre., dkk). TF dapat dirumuskan pada persamaan berikut: w t,d = log(tf t,d + 1) (1) Inverse Document Frequency adalah log dari kebalikan probabilitas term yang ditemukan di dalam dokumen. IDF dapat dirumuskan pada persamaan berikut: idf t = log( n n t ) (2) Cosine similarity adalah fungsi yang digunakan untuk menghitung kesamaan antara semua data training dengan dokumen X. Cosine similarity dapat dirumuskan pada persamaan berikut (Suguna, 2010): SIM (X, d i ) = m j=1 x j.d ij ( m 2 j=1 x j ) ( m 2 j=1 dij ) (3)

4 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Feature Selection dan Information Gain Feature selection biasa disebut variable selection, attribute selection atau feature subset selection merupakan proses pemilihan fitur yang relevan pada term yang menjadi target dari data learning pada sebuah permasalahan. Information gain adalah salah satu pendekatan yang populer dimana digunakan sebagai kriteria penting dalam sebuah data teks dokumen. Dimana ide awalnya berasal dari information theory. Berikut ini merupakan persamaan dari information gain (Uguz, 2011): C IG(t) = i=1 P(c i ) log P(c i ) C +P(t) i=1 P(c i t) log P(c i t) (4) +P(t ) C i=1 P(c i t ) log P(c i t ) Dimana c i adalah kategori, P(c i) adalah peluang dari kategori, P(t) dan P(t ) adalah peluang term t yang muncul atau tidak muncul dalam dokumen. P(c i t) adalah peluang bersyarat kategori pada term t yang muncul, dan P(c i t ) adalah peluang bersyarat kategori pada term t yang tidak muncul Evaluasi Hasil klasifikasi dapat diuji dengan menggunakan metode pengujian dimana akan diukur tingkat akurasi sistem yang dibuat. Pengujian yang dapat dilakukan terdiri dari beberapa cara yaitu seperti accuracy, precision, recall dan f-measure. Accuracy adalah sebuah tingkat kedekatan antara nilai prediksi dengan nilai aktual. Precision merupakan jumlah jumlah dokumen relevan yang ditemukan dibagi dengan jumlah semua dokumen yang ditemukan. Recall merupakan jumlah dokumen relevan yang ditemukan dibagi dengan jumlah semua dokumen relevan di dalam koleksi (Pendit, 2008). F-measure merupakan kombinasi precision dan recall sebagai harmonic mean. Berikut persamaan Accuracy, Precision, Recall dan F-measure: Accuracy = Precision = Recall = F-Measure TP+TN (5) TP+TN+FP+FN = 2 TP TP+FP TP TP+FN precision x recall precision+recall 3. PERANCANGAN DAN IMPLEMENTASI (6) (7) (8) Proses dalam sistem ini ada tiga yaitu preprocessing, feature selection untuk pengurangan fitur term dan klasifikasi menggunakan metode k-nearest neighbor. Ketiga proses memiliki sub proses dimana masing-masing tahapan akan lebih detail menjelaskan alur dari proses yang dijalankan. Berikut ini merupakan alur jalannya proses secara keseluruhan pada Gambar 1. Gambar 1 Alur Proses Sentiment Analysis Peringkasan Review Dengan Metode Information Gain Dan K-Nearest Neighbor Berdasarkan Gambar 1 sistem akan mengambil data training dan data testing yang akan dilakukan proses klasifikasi. Tahapan selanjutnya sistem akan melakukan proses preprocessing data training dan data testing. Pada data training setelah tahapan preprocessing selesai maka dilakukan proses feature selection yaitu penerapan metode pengurangan term untuk menghapus beberapa term yang dianggap tidak penting dalam sebuah dokumen dan akan digunakan sebagai term data training pada saat proses klasifikasi. Tahapan selanjutnya adalah pemilihan term untuk proses klasifikasi data dimana term yang digunakan pada data testing adalah term hasil preprocessing yang kemudian dicocokkan dengan hasil term dari proses feature

5 Hasil Pengujian Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1183 selection pada data training. Setelah tahap pemilihan kata, tahap selanjutnya adalah klasifikasi data dimana pada tahap ini berfungsi untuk pengelompokkan review film sehingga hasilnya adalah sebuah review film yang termasuk dalam kategori review positif atau kategori review negatif. 4. PENGUJIAN DAN ANALISIS Pada penelitian ini dilakukan beberapa pengujian terhadap hasil penerapan metode gabungan information gain dan k-nearest neighbor. 4.1 Pengujian Nilai k K-Nearest Neighbor Pengujian ini dilakukan dengan menggunakan nilai k yang berbeda untuk mengetahui nilai k yang paling optimal yang akan digunakan untuk proses klasifikasi sehingga akan menghasilkan nilai akurasi yang optimal. Berikut ini merupakan hasil pengujian accuracy, precision, recall dan f-measure variasi penggunaan nilai k terdiri dari 1, 3, 5, 7, 9, 11, 13 dan 15: Pengujian Variasi Nilai k untuk Klasifikasi K-Nearest Neighbor 0,94 0,93 0,92 0,91 0,9 0,89 0,88 0,87 0,86 0,85 Accuracy Precision Recall F-Measure Jenis Pengujian K=1 K=3 K=5 K=7 K=9 K=11 K=13 K=15 Gambar 2 Grafik Variasi nilai k Proses klasifikasi data testing akan diproses untuk menentukan seberapa besar kemiripan antara data testing dan data training. Penentuan besar kemiripan data testing dengan data training tergantung dengan nilai k tetangga terdekat yang akan digunakan. Jika nilai k yang digunakan sesuai maka hasil klasifikasi akan memiliki nilai akurasi yang tinggi namun jika nilai k yang digunakan tidak sesuai maka hasil akurasinya akan rendah. Berdasarkan Gambar 2 diatas nilai k yang paling optimal adalah ketika k=5 karena memiliki nilai accuracy sebesar 92% dimana nilai akurasinya merupakan nilai akurasi tertinggi dibandingkan dengan nilai akurasi pada nilai k yang lain serta nilai precision, recall dan f-measure yang tinggi yaitu 0.93, 0.92 dan Pada penelitian ini kemiripan antara data training dan data testing sangat dekat. Isi dokumen terdiri dari beberapa kalimat yang panjang sehingga term pada data testing dan data training relevan. Pada beberapa data isi dokumen mengandung term yang tidak termasuk ke dalam kategori yang sebenarnya namun karena jumlahnya tidak banyak maka kecenderungan dokumen untuk tidak termasuk ke dalam kategori yang sesuai sangat kecil sehingga kebanyakan dokumen termasuk ke dalam kategori yang sebenarnya. 4.2 Pengujian Variasi Penggunaan Jumlah Term Hasil Information Gain untuk Klasifikasi Pengujian ini berfungsi untuk mengetahui pengaruh variasi banyaknya term data training yang digunakan terhadap hasil klasifikasi menggunakan k-nearest neighbor. Pemilihan banyaknya term data training yang digunakan untuk proses klasifikasi berdasarkan hasil perhitungan information gain pada masingmasing term. Hasil information gain pada masing-masing term diurutkan dari nilai tertinggi ke rendah. Term dengan nilai information gain tertinggi memiliki peluang untuk digunakan pada saat proses klasifikasi, sebaliknya term yang memiliki nilai information gain yang lebih rendah tidak akan digunakan untuk proses klasifikasi. Variasi banyaknya jumlah term data training yang digunakan pada saat proses klasifikasi adalah 33% dan 66% term dengan nilai information gain tertinggi dari jumlah seluruh term pada data training. Term data testing yang akan diuji kemudian dicocokkan dengan hasil term information gain pada saat klasifikasi untuk menentukan seberapa besar kemiripan antara data testing dan data training. Hasil pengujian accuracy, precision, recall dan f-measure variasi jumlah term seperti pada Gambar 3:

6 Hasil Pengujian Berdasarkan Banyak Term Hasil Pengujian Berdasarkan Jumlah Term Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1184 Pengujian Variasi Penggunaan Jumlah Term Hasil Information Gain 0,95 0,85 0,75 0,65 0,55 0,45 Jenis Pengujan 33% 66% 100% Gambar 3 Grafik Pengujian Jumlah Term hasil Information Gain Gambar 3 menunjukkan hasil pengujian variasi penggunaan banyak jumlah term hasil information gain untuk klasifikasi. Pada penggunaan term sebesar 33% memiliki nilai akurasi rendah yaitu sebesar 0.5. Pada saat penggunaan term sebesar 66% memiliki akurasi sebesar yang lebih besar Hal ini dipengaruhi beberapa faktor diantaranya adalah term yang seharusnya digunakan untuk klasifikasi memiliki nilai information gain yang rendah sehingga term dihapus dan tidak digunakan pada saat proses klasifikasi. Pada penelitian ini 33% term dengan nilai nilai information gain tertinggi merupakan term yang muncul satu kali pada data training sedangkan term terendah adalah term yang muncul hampir di semua data training. Selain itu, batas banyaknya pengambilan term berpengaruh terhadap term yang akan diambil, dimana term yang memiliki nilai information gain yang sama akan dihapus ketika batas telah ditentukan. 4.3 Pengujian Variasi Penggunaan Jumlah Term Berdasarkan Threshold Nilai Information Gain Pengujian ini berfungsi untuk mengetahui pengaruh dari pemilihan jumlah term pada saat proses klasifikasi. Term dengan nilai information gain yang sama akan dianggap sebagai term yang sama sehingga term tetap digunakan meskipun batas term telah ditentukan. Hasil pengujian jumlah term seperti pada Gambar 4: Pengujian Variasi Penggunaan Variasi Jumlah Term Berdasarkan Threshold Nilai Information Gain 0,95 0,9 0,85 0,8 0,75 0,7 0,65 0,6 Jenis Pengujian 33% 66% 100% Gambar 4 Grafik Pengujian Variasi Penggunaan Jumlah Term Berdasarkan Threshold nilai Information Gain Gambar 4 menunjukkan semakin besar jumlah term yang digunakan semakin besar nilai akurasinya. Penggunaan 66% jumlah term memiliki nilai akurasi yang lebih besar dari penggunaan 33% jumlah term. Jika dibandingkan dengan pengujian sebelumnya pengujian ini memiliki peningkatan nilai akurasi pada saat penggunaan term sebesar 33%. Pada saat penggunaan jumlah term 33% dari jumlah seluruh term dimana term yang memiliki nilai information gain yang sama akan digunakan pada saat proses klasifikasi menghasilkan akurasi sebesar 0.68 dan hasilnya lebih baik dibandingkan dengan penggunaan 33% jumlah term tanpa memperhatikan term nilai information gain yang sama. Sedangkan pada saat penggunaan jumlah term 66% dengan memperhatikan nilai information gain yang sama memiliki nilai akurasi yang lebih rendah dibandingkan dengan penggunaan 66% penggunaan jumlah term sesuai batas yang ditentukan. Pada pengujian sebelumnya hasil 66% jumlah term yang digunakan pada saat proses klasifikasi memiliki jumlah term yang lebih banyak pada salah satu kategori namun pada pengujian ini 66% jumlah term yang digunakan untuk klasifikasi memiliki jumlah yang sama pada masing-masing kategori

7 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1185 sehingga masing-masing data memiliki peluang yang sama. Hasilnya adalah pengklasifikasian data berdasarkan nilai kedekatan data testing pada masing-masing kategori. 5. KESIMPULAN Berdasarkan hasil pengujian dan analisis hasil penelitian ini dapat diambil kesimpulan bahwa pada saat pemilihan term yang digunakan untuk proses klasifikasi menggunakan metode information gain menghasilkan term unik dimana term yang muncul sekali memiliki nilai information gain tertinggi. Term yang hanya muncul pada salah satu kategori memiliki nilai information gain lebih tinggi jika dibandingkan dengan term yang muncul pada semua kategori. Term yang memiliki nilai information gain terendah adalah term yang muncul pada hampir semua data training. Nilai information gain akan berpengaruh terhadap term yang akan digunakan pada saat proses klasifikasi, dimana term yang memiliki nilai information gain yang tinggi maka akan digunakan pada saat proses klasifikasi sedangkan term dengan nilai information gain terendah akan dihapus. Pada pengujian nilai k, penggunaan k=5 merupakan penggunaan k yang optimal untuk proses klasifikasi menggunakan metode k-nearest neighbor dimana menghasilkan nilai akurasi sebesar 92%. Pada pengujian variasi jumlah term yang digunakan untuk proses klasifikasi berbanding lurus dengan hasil akurasi, dimana semakin sedikit jumlah term yang digunakan maka semakin kecil hasil akurasi sebaliknya semakin besar jumlah term yang digunakan maka semakin besar nilai akurasinya, sedangkan pada pengujian banyak jumlah term yang digunakan berdasarkan threshold nilai information gain penggunaan 66% dari jumlah term memiliki nilai akurasi yang lebih rendah jika dibandingkan dengan penggunaan 66% tanpa memperhatikan nilai information gain yang sama. Pengujian penggunaan term hasil information gain berpengaruh terhadap hasil klasifikasi menggunakan k-nearest neighbor. Hasilnya perpaduan antara penggunaan feature selection dengan metode information gain dengan metode k-nearest neighbor menghasilkan akurasi yang rendah dibandingkan dengan metode k-nearest neighbor karena term yang relevan memiliki nilai information gain yang rendah sehingga akan dihapus pada saat proses feature selection dan tidak digunakan pada saat proses klasifikasi. Berdasarkan kesimpulan yang ada, apabila pembaca ingin mengembangkan penelitian lebih lanjut ada beberapa kriteria lain yaitu diperlukan pengujian dengan menggunakan metode feature selection yang lain selain information gain untuk mengetahui metode feature selection lain memiliki nilai akurasi yang lebih baik atau tidak. Selain itu, diperlukan pengujian dengan menggunakan metode klasifikasi yang lain untuk mengetahui nilai akurasi jika digabungkan dengan metode information gain. Metode information gain tidak dapat membedakan antara term sentiment analysis dengan kata bukan sentiment analysis. Oleh karena itu pada penelitian selanjutnya diperlukan metode yang dapat membedakan antara term sentiment analysis atau bukan. Membedakan antara term positif dan negatif diperlukan jika term yang menunjukkan sentiment terdiri dari dua suku kata untuk mengetahui term yang merupakan term positif atau term negatif. Oleh karena itu pada penelitian selanjutnya diperlukan metode untuk menggabungkan dua suku kata yang berdampingan menjadi satu suku kata yang merupakan term positif atau negatif. DAFTAR PUSTAKA Feldman, Ronen and James Sanger., The Text Mining Handbook. Cambridge: Cambridge University Press. Cambridge. Gebre, B., Zampieri, M., Wittenburg, P., Heskes, T., Improving Native Language Identification with TF-IDF Weighting. Han, X., Liu, J., Shen, Z., Miao., An Optimized K-Nearest Neighbor Algorithm for Large Scale Hierarchical Text Classification. Hussein, D.M., A Survey on Sentiment Analysis Challenges, Cairo: Journal of King Saud University. J. Nilsson, Nill., Introduction To Machine Learning. Stanford University. Khan, M.T., Durrani, M., Ali, A., Inayat, I., Khalid, S., Khan, H., Sentiment analysis and the complex natural language, Pakista: Complex adaptive system modeling. Nugroho, Eko., Perancangan Sistem Deteksi Plagiarime Dokumen Teks

8 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1186 Dengan Menggunakan Algoritma Robin-Karp. Program Studi Ilmu Komputer, Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Brawijaya Malang. Pendit, Putu Laxman., Perpustakaan Digital Dari A Sampai Z. Jakarta: Cita Karya Karsa Mandiri. Singh, S.R., Murthy, H.A., Gonsalves, T.A., Feature Selection for Text Classification Based on Gini Coeficient of Inequality, 10, pp Suguna, N., Thanushkodi, K., An Improved K-Nearest Neighbor Classification Using Genetic Algorithm. Tenenboim, L., Shapira, B., & Shoval, P., Ontology-based classification of news in an electronic news paper Paper presented at Intelligent Information and Engineering Systems Conference. Bulgaria. Tim Penyusun Kamus Pusat Pembinaan dan Pengembangan Bahasa, Kamus Besar Bahasa Indonesia, Jakarta: Balai Pustaka. Uguz, H., A Two-Stage Feature Selection Method For Text Categorization By Using Information Gain, Principal Component Analysis And Genetic Algorithm, pp , Turkey: Elsevier. Wicaksono, A. F., Nio, Ellen., Myaeng, S. H., Unsupervised approach for sentiment analysis on Indonesian Movie Reviews. Korea: Korea Advance Institute of Science and Technology.

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 8, Agustus 2018, hlm. 2449-2454 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 486-492 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN:

Prosiding SENTIA 2015 Politeknik Negeri Malang Volume 7 ISSN: KLASIFIKASI TUGAS AKHIR UNTUK MENENTUKAN DOSEN PEMBIMBING MENGGUNAKAN NAÏVE BAYES CLASSIFIER (NBC) Putri Elfa Mas`udia 1 Politeknik Negeri Malang E-mail : putri.elfa@polinema.ac.id Abstrak Pemilihan dosen

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS SKRIPSI Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar Strata Satu Program Studi Informatika

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

SKRIPSI. Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata Satu Program Studi Informatika HALAMAN JUDU L PENGUKURAN TINGKAT KEMIRIPAN DOKUMEN MENGGUNAKAN ALGORITMA JARO-WINKLER DAN ENHANCED CONFIX STRIPPING STEMMER SKRIPSI Diajukan untuk memenuhi sebagai persyaratan mendapatkan gelar Strata

Lebih terperinci

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 306-312 http://j-ptiik.ub.ac.id Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Informasi telah menjadi kebutuhan utama dalam kehidupan manusia. Informasi bisa dikatakan sebagai pengetahuan yang didapatkan dari pembelajaran, pengalaman, atau instruksi.

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN)

SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Journal of Environmental Engineering & Sustainable Technology JEEST http://jeest.ub.ac.id SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Indriati

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO

OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO OPTIMASI NAÏVE BAYES DENGAN PEMILIHAN FITUR DAN PEMBOBOTAN GAIN RATIO I. Gusti. A. Socrates ), Afrizal L. Akbar 2), dan M. Sonhaji Akbar 3), 2, 3) Teknik Informatika, Institut Teknologi Sepuluh Nopember

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Rizki Tri Wahyuni 1, Dhidik Prastiyanto 2, dan Eko Supraptono 3 Jurusan Teknik Elektro, Fakultas Teknik,

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA Optimization Techniques Modi ed k Nearest Neighbor Classi cation Using Genetic Algorithm Siti Mutro n 1, Abidatul

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER

SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER SENTIMENT ANALYSIS TOKOH POLITIK PADA TWITTER Agung Pramono 1, Rini Indriati 2, Arie Nugroho 3, 1,2,3 Sistem Informasi, Fakultas Teknik, Universitas Nusantara PGRI Kediri E-mail: 1 pramonoagung0741@gmail.com,

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

Klasifikasi Teks Pengaduan Pada Sambat Online Menggunakan Metode N- Gram dan Neighbor Weighted K-Nearest Neighbor (NW-KNN)

Klasifikasi Teks Pengaduan Pada Sambat Online Menggunakan Metode N- Gram dan Neighbor Weighted K-Nearest Neighbor (NW-KNN) Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 594-601 http://j-ptiik.ub.ac.id Klasifikasi Teks Pengaduan Pada Sambat Online Menggunakan

Lebih terperinci

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 12, Desember 2017, hlm. 1725-1732 http://j-ptiik.ub.ac.id Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia Layanan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 4978 IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES Bayu Indrawarman Julianto 1, Adiwijaya 3, Mohamad Syahrul

Lebih terperinci

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: Adika

Lebih terperinci

Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor

Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor Jurnal Sisfo Vol. 06 No. 01 (2016) 147 156 is.its.ac.id/pubs/oajis/ Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor Jane Riany *, Mohammad Fajar, Musfirah

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio

Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio I. Gusti. A. Socrates 1, Afrizal L. Akbar 2, M. Sonhaji Akbar 3 Teknik Informatika, Institut Teknologi Sepuluh Nopember, Surabaya,

Lebih terperinci

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI)

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI) ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI) Oleh: Enggal Suci Febriani 3..3..35 Dibimbing oleh :. Irwan

Lebih terperinci

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA Suprianto 1), Sunardi 2), Abdul Fadlil 3) 1 Sistem Informasi STMIK PPKIA Tarakanita Rahmawati 2,3 Magister Teknik Informatika Universitas

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE

PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE TESIS PERINGKASAN TEKS BAHASA INDONESIA SECARA OTOMATIS MENGGUNAKAN METODE SENTENCE SCORING DAN DECISION TREE PERIANTU MARHENDRI SABUNA No. Mhs.: 155302367/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel,

Lebih terperinci

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014

SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014 SISTEM ANALISIS SENTIMEN POSITIF DAN NEGATIF MENGGUNAKAN ALGORITMA KLASIFIKASI NAIVE BAYES PADA KASUS TOKOH PUBLIK CAPRES INDONESIA 2014 Oleh Yosafat Gerald Montalili NIM : 612006047 Skripsi Untuk melengkapi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci