Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM)
|
|
- Ratna Kusnadi
- 7 tahun lalu
- Tontonan:
Transkripsi
1 Peringkasan Teks Otomatis Berita Berbahasa Indonesia Pada Multi-Document Menggunakan Metode Support Vector Machines (SVM) Deni Fitriaman #1, Masayu Leylia Khodra #2, Bambang Rianto Trilaksono *3 # Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Bandung, Jawa Barat, Indonesia 1 deni.fitriaman@gmail.com 2 masayu@stei.itb.ac.id, * Teknik Elektro, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Bandung, Jawa Barat, Indonesia 3 briyanto@lskk.ee.itb.ac.id Abstrak Banyaknya berita-berita online sering menarik minat masyarakat untuk membacanya, tetapi kadang dengan terlalu banyaknya berita tersebut membuat orang susah mendapatkan informasi yang relevan. artikel berita dapat membantu pembaca untuk mendapatkan informasi penting dari berita. Pada penelitian ini sistem peringkasan teks otomatis berita pada multi-document dibagi menjadi empat tahap utama, yaitu: preprocessing, ekstraksi fitur, machine learning, dan generate summarization dari beberapa artikel yang mempunyai topik sama. Fitur-fitur kalimat yang digunakan adalah panjang kalimat, posisi kalimat, adanya data numeric, kata-kata thematic, similaritas kalimat dengan judul, kemiripan kalimat dengan kumpulan kalimat lain, ikatan leksikal dengan kalimat sebelum dan sesudahnya. Pada tahapan machine learning menggunakan metode support vector machine (SVM) dengan algoritma LibSVM untuk menghasilkan model. Sedangkan pada generate summarization menggunakan metode maximal marginal relevance (MMR) untuk menghilangkan redundancy data. Dengan menggunakan metode LibSVM dihasilkan beberapa kandidat ringkasan yang selanjutnya diseleksi menggunakan metode MMR. Sehingga didapatkan hasil ringkasan ekstraksi yang efektif dan efisien. Kata kunci peringkasan teks, berita, multi-document, Support Vector Machine (SVM), Maximal Marginal Relevance (MMR). I. PENDAHULUAN Seiring dengan perkembangan zaman membuat kebutuhan manusia terhadap informasi semakin besar, hal ini membuat manusia mulai beralih dari pencarian berita tradisional (seperti koran, radio, televisi, dll) ke penggunaan aplikasi media online dan situs media sosial [1]. Perkembangan pesat layanan informasi online telah mengakibatkan ledakan informasi (information overloading) sehingga tidak ada waktu untuk membaca semua informasi berita online secara lengkap [2][3]. Informasi yang ada pada saat ini tidak hanya bersumber dari satu dokumen saja, melainkan dari beberapa dokumen (multi-document) [4]. Cara dalam mengatasi permasalahan itu adalah dengan membuat satu ringkasan dari beberapa artikel berita. Sebagai dampak dari besarnya kumpulan dokumen online dan meningkatnya kebutuhan bagi pembaca untuk mendapatkan informasi penting dari kumpulan dokumen tersebut, maka dikembangkannya penelitian mengenai metode peringkasan teks multi-document [2] [4]. Peringkasan teks (Text Summarization) adalah proses penyaringan informasi paling penting dari satu atau beberapa sumber untuk menghasilkan teks (ringkasan) dengan panjang tidak lebih dari setengah (kurang dari 50%) teks asli untuk pengguna [2] [5]. Metode peringkasan teks yang digunakan dalam penelitian ini adalah pendekatan pembelajaran mesin (machine learning). Dengan menggunakan metode ini peringkasan kalimat akan dipandang sebagai permasalahan klasifikasi kalimat. dalam artikel akan dibagi menjadi dua kelas, yaitu kelas positif dan kelas negatif. positif berisi kalimat yang termasuk ke dalam ringkasan, sedangkan kalimat negatif tidak termasuk ke dalam ringkasan [6]. Metode klasifikasi yang akan digunakan dalam penelitian kali ini adalah Support Vector Machine (SVM). Tujuan dari penelitian ini adalah membangun SVM Classifier untuk peringkasan teks berita online berbahasa Indonesia pada multi-document, merumuskan kelompok fitur yang digunakan pada proses klasifikasi, serta menghasilkan ringkasan yang efektif dan efisien dengan menggunakan metode Maximal Marginal Relevance (MMR). Kumpulan dokumen yang digunakan sebagai dataset adalah kumpulan berita online yang diambil dalam satu topik dari sepuluh situs berita online ( metrotvnews.com, dan II. PERINGKASAN OTOMATIS BERITA ONLINE BERBAHASA INDONESIA PADA MULTI- DOCUMENT Peringkasan otomatis berita online berbahasa Indonesia pada multi-document adalah sistem peringkasan teks otomatis untuk kumpulan berita online yang diambil dari beberapa situs berita online yang memiliki topik yang sama (satu topik) dan menggunakan SVM Classifier. Masukan dari sistem adalah teks kumpulan berita yang diperoleh dari 10 situs berita online dalam satu topik. Output dari sistem adalah ringkasan ekstraksi dari teks input (compression rate). Sistem ini
2 memiliki dua proses utama, yaitu proses pelatihan (training) dan proses pengujian (testing). Pada proses pelatihan sistem akan mencari model klasifikasi untuk SVM Classifier, sedangkan pada proses pengujian dilakukan untuk mengetahui kinerja dari sistem. Arsitektur sistem Peringkasan Teks Otomatis multi-document ditunjukan oleh Gambar 1. Preprocessing Kumpulan Dokumen Pelatihan Tokenization Stop-words / Stop-list Removal E k s t r a k s i F I t u r Vektor Fitur Pelatihan SVM Model Klasifikasi Indexing Vektor Fitur SVM Classifier Kumpulan Dokumen Masukan Kandidat Pembentukan (MMR) Gambar 2. Struktur Konseptual SVM Hasil Gambar 1. Arsitektur Sistem Peringkasan Teks Berita Online Berbahasa Indonesia pada Multi-Document Langkah-langkah pada proses pelatihan adalah sebagai berikut: a. Mempersiapkan dokumen pelatihan (training dataset). Training dataset yang digunakan adalah kumpulan teks berita online berbahasa Indonesia yang memiliki topic yang sama. b. Membuat ringkasan manual dengan persentase pemampatan berkisar 25% sampai dengan 30% dari satu kumpulan topik yang sama. Yang digunakan oleh training dataset. c. Melakukan preprocessing yang umum digunakan dalam metode temu-balik informasi (tokenizing, stop-word, case folding, dan indexing) pada setiap dokumen pelatihan. d. Mengekstraksi dokumen pelatihan dengan cara mengubah seluruh kalimat ke dalam vektor fitur. e. Melatih SVM menggunakan vektor fitur untuk mendapatkan model klasifikasi. Sedangkan langkah-langkah pada proses pengujian adalah sebagai berikut: a. Melakukan preprocessing dan ekstraksi fitur untuk mendapatkan vektor fitur. b. Vektor fitur akan diklasifikasikan oleh SVM classifier dengan menggunakan model klasifikasi yang telah diperoleh pada proses pelatihan. c. Setiap kalimat dalam dokumen akan diurutkan berdasarkan nilai α. N kalimat teratas diekstrak untuk disusun ke dalam ringkasan. A. Support Vector Machines (SVM) Support Vector Machines (SVM) merupakan salah satu metode pembelajaran mesin (machine learning) yang memaksimumkan akurasi prediksi dengan mencari bidang pembatas (hyperplane) terbaik dari dua kelas dalam ruang fitur [7]. Gambar 2 memperlihatkan struktur konseptual dari SVM. Salah satu bidang pemisah yang memberikan generalisasi paling baik adalah bidang pemisah yang dapat memaksimumkan margin. Margin adalah jarak antara bidang pembatas kelas-1 dengan kelas-2. Data yang berada paling dekat dengan bidang pemnatas disebut support vector [7]. Data pada ruang input (input space) berdimensi d dinotasikan dengan x i R d, sedangkan label kelas dinotasikan dengan y i { 1, 1} untuk I = 1,2,, n, dimana n adalah banyaknya data. Dengan asumsi kedua kelas dapat dipisahkan secara linear bidang pembatas, maka persamaan bidang pembatasnya adalah: x i. w + b = 0 (1) Data x i yang terbagi ke dalam dua kelas didefinisikan sebagai vektor yang memenuhi pertidaksamaan: x i. w + b 1 (2) x i. w + b +1 (3) Dimana w adalah normal bidang, dan b adalah posisi bidang relatif terhadap pusat koordinat. Margin terbesar dapat dicari dengan cara memaksimalkan jarak antar bidang pembatas kedua kelas, yaitu 2/ w. Hal ini dirumuskan sebagai permasalahan quadratic programming [8], yaitu: min τ(w) = 1 2 w 2 (4) Subject to: w. x + b 1, i Permasalahan ini lebih mudah diselesaikan dengan mengubah persamaan (4) ke dalam fungsi Lagrangian berikut: L p (w, b, α) = 1 2 w 2 α i (y i (x i. w + b) 1) n i=1 (5) α i merupakan Lagrange multiplier yang bernilai tidak negatif (α i 0). Nilai optimal dari persamaan 5 dapat dihitung dengan meminimalkan L terhadap w dan b, dan memaksimalkan L terhadap α i. Dengan memperhatikan bahwa pada titik optimal gradient L adalah 0, persamaan 5 dapat diubah menjadi persamaan yang hanya mengandung α i, yaitu:
3 n max α i 1 2 α iα j x i x j y i y j i=1 n i=1,j=1 Permasalahan pada data yang tidak dapat dipisahkan secara linear oleh bidang pemisah, dapat diselesaikan dengan menggunakan teknik SVM soft margin hyperplane [9]. Dengan menggunakan teknik ini, persamaan 4 diubah dengan menambahkan slack variable ξ i (ξ i 0): min τ(w, ξ) = 1 2 w 2 + C ξ i n i=1 Subject to: w. x + b 1 ξ i, i Parameter C digunakan untuk mengontrol efek (tradeoff) antara margin dengan kesalahan (error) klasifikasi ξ. Nilai C yang semakin besar akan memberikan penalti yang lebih besar pada kesalahan klasifikasi. Nilai α i berada pada rentang 0 α i C. Selain dengan menggunakan soft margin hyperplane permasalahan data yang tidak dapat dipisahkan secara linear, dapat diatasi dengan cara mengubah vektor fitur ke dalam dimensi yang lebih tinggi dengan menggunakan fungsi kernel. Fungsi kernel yang digunakan pada penelitan ini adalah Radial Basis Function (RBF), karena kernel ini cocok untuk dataset yang besar [10]. Berikut ini persamaan fungsi kernel RBF: K(x i, x) = exp( γ x i x 2 ), γ > 0 (8) B. Ekstraksi Fitur Pada teks berita online, kata kunci tidak diberikan oleh narasumber. Dalam penelitian ini kata kunci akan dicari dengan cara menghitung frekuensi. Kata kunci digunakan dalam mengekstrak fitur. Fitur dalam penelitian ini merupakan hasil ekstraksi yang diasumsikan memberikan informasi mengenai kalimat. Berikut adalah fitur-fitur yang digunakan dalam mengekstraksi [9] [11]: 1. Fitur Panjang yang paling pendek tidak akan dimasukkan ke dalam kandidat ringkasan. Fitur ini dihitung dengan membagi jumlah kata-kata dalam kalimat terhadap jumlah kata dari kalimat terpanjang. 2. Fitur Posisi Fitur ini mengasumsikan kalimat pertama pada setiap paragraf merupakan kalimat yang paling penting. Pada fitur ini akan diurutkan N kalimat pertama. 3. Fitur Data Numerik Biasanya kalimat yang mengandung data numerik merupakan kalimat penting dan biasanya kalimat tersebut masuk ke dalam ringkasan. 4. Fitur Kata-Kata Thematic Dalam Fitur ini menghitung kemunculan relatif kata kunci pada suatu kalimat, biasanya kalimat yang memiliki relatif kata kunci yang baik, merupakan kalimat ringkasan. 5. Fitur yang Menyerupai dengan Judul (6) (7) yang menyerupai judul adalah kalimat yang memiliki vocabulary overlap antara kalimat dengan judul. 6. Fitur Kemiripan dengan Kumpulan Lain Kemiripan kalimat dapat dilihat dari vocabulary overlap antara kalimat dengan kalimat yang lain, untuk mempermudah maka kata yang dilihat hanya kata kunci. 7. Fitur Ikatan Leksikal dengan Sebelumnya Ikatan leksikal antara kalimat dengan kalimat sebelumnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya. 8. Fitur Ikatan Leksikal dengan Sesudahnya Ikatan leksikal antara kalimat dengan kalimat sesudahnya didefinisikan sebagai kata (stem) yang muncul dalam kedua kalimat tersebut, nilai akan 1 apabila memiliki hubungan lexical, 0 jika tidak punya. C. Pembangunan Model Untuk mendapatkan model klasifikasi yang dapat mengklasifikasikan kalimat dengan optimal, proses pembelajaran dilakukan dengan menggunakan parameter terbaik. Langkah-langkah untuk mencari parameter terbaik adalah sebagai berikut:: a. Berdasarakan dataset yang digunakan dalam penelitian ini, terjadi imbalanced dataset. Oleh karena itu perlu dilakukan perbaikan distribusi data dengan menggunakan metode Synthetic Minority Over-sampling Technique (SMOTE). Pada proses pembelajaran dilakukan dengan 10-fold cross validation. b. Mencari parameter terbaik C dan γ dengan menggunakan tools yang sudah disediakan oleh Grid Search dan LibSVM. Setelah nilai C dan γ terbaik ditemukan, maka dilakukan proses pelatihan terhadap dataset yang sudah di-balance. Hasil dari proses pelatihan adalah sebuah model klasifikasi. D. Pembentukan Model klasifikasi yang digunakan oleh SVM Classifier akan memisahkan kalimat-kalimat dalam teks berita berdasarkan kelasnya. -kalimat yang masuk ke dalam kelas positif akan diurutkan berdasarkan nilai relevansi, N jumlah kalimat dengan nilai relevansi tertinggi akan disusun dalam ringkasan [10]. Nilai relevansi dapat berupa nilai probabilitas kelas positif atau dengan menggunakan MMR. III. EKSPERIMEN A. Tools Eksperimen pada penelitian ini menggunakan sistem peringkasan teks otomatis pada multi-document untuk berita berbahasa Indonesia. Aplikasi SVM menggunakan library LibSVM pada Weka B. Dataset Dataset yang digunakan adalah kumpulan teks berita online berbahasa Indonesia yang memiliki topik yang sama. Dataset
4 ini diambil dari beberapa situs media berita online, diantaranya: detik.com, kompas.com, metrotvnews.com, dan Proses pengumpulan dataset ini dilakukan secara manual, sedangkan domain berita yang digunakan adalah berita umum, politik, ekonomi, dan olahraga. Setiap kumpulan berita dalam satu topik dibuat sebuah ringkasan manual dengan pemampatan 25-30% dari rata-rata jumlah kalimat pada setiap artikelnya. Setiap kalimat dalam teks berita akan menjadi satu instance data. Pada Tabel 1 adalah dataset yang digunakan dalam penelitian ini. Dataset Jumlah Artikel Tabel 1 Kumpulan Dataset Jumlah Topik Positif Negatif Pelatihan Pengujian C. Balancing Dataset Distribusi dataset pada data pelatihan menunjukkan adanya imbalanced dataset, untuk mengatasi permasalahan tersebut maka digunakan metode Synthetic Minority Oversampling Technique (SMOTE). SMOTE merupakan metode oversampling yang ide utamanya yaitu membuat class minoritas baru dengan menginterpolasi beberapa instances class minoritas yang terletak berdekatan (dengan menggunakan teknik k nearest neighbors). Metode SMOTE ini bekerja dengan mencari k nearest neighbors (yaitu ketetanggaan data) untuk setiap data di kelas minor, setelah itu buat synthetic data sebanyak persentase duplikasi yang diinginkan Antara data minor. D. Skenario Eksperimen Pada penelitian ini akan dilakukan beberapa eksperimen untuk mendapatkan model terbaik, diantaranya pencarian parameter terbaik, fitur yang paling baik, dan kinerja SVM tanpa MMR dan dengan menggunakan MMR. a. Eksperimen Penggunaan SMOTE untuk Imbalanced dataset Pada Eksperimen ini membandingkan hasil pelatihan sebelum menggunakan matode balancing dataset dan yang setelah menggunakan metode balancing dataset. Pada penelitian ini metode balancing dataset yang digunakan adalah Synthetic Minority Oversampling Technique (SMOTE). Dari hasil tersebut didapatkan bahwa hasil penelitian yang tanpa menggunakan balancing dataset, tidak berhasil mengidentifikasi kelas positif dan nilai f-measure pada kelas positifnya bernilai nol (0). Sedangkan hasil pelatihan yang menggunakan SMOTE untuk balancing dataset, berhasil mengidentifikasi kelas positif dan memiliki nilai f-measure pada kelas positif bernilai b. Eksperimen Pencarian Parameter Terbaik Pada Eksperimen ini akan menggunakan fungsi kernel RBF dimana kernel tersebut memerlukan parameter C & γ pada prosesnya. Untuk mendapatkan parameter terbaik, bisa di dapatkan dengan menggunakan tools Grid Search. Dari hasil pencarian menggunakan Grid Search, didapat sepasang parameter terbaik yaitu dengan nilai C = 4.0 dan nilai γ = Nilai f- measure yang diperoleh dari parameter terbaik tersebut adalah c. Eksperimen Fitur yang Paling Baik Fitur yang dianggap paling baik adalah fitur yang memiliki nilai f-measure yang mendekati 1. Setiap fitur akan dibuat model klasifikasinya, lalu dilihat n fitur mana yang memiliki f-measure terbaik. Pada Tabel 2 adalah hasil pengukuran f-measure untuk setiap fitur. Tabel 2 Hasil Eksperimen Setiap Fitur No Fitur Akurasi Precision Recall F-Measure 1 Panjang % Posisi % Data Numerik % Kata-kata Thematic Menyerupai Judul Kemiripan dengan Lainnya Ikatan Leksikal dengan Sebelumnya Ikatan Leksikal dengan Sesudahnya % % % % % d. Eksperimen Algoritma Klasifikasi Lainnya Pada Eksperimen ini melakukan percobaan dengan menggunakan setting terbaik untuk SVM diaplikasikan juga ke algoritma klasifikasi naïve bayes, dan k-nearest Neighbor (knn), yaitu: menggunakan SMOTE dan nilai parameter terbaik (C = 4.0 dan nilai γ = 512.0) yang bertujuan untuk membandingkan akurasi (f-measure) dari hasil pelatihan algoritma tersebut dengan algoritma SVM yang digunakan dalam penelitian ini. Dari hasil eksperimen ini didapat hasil sebagai berikut: Tabel 3 Hasil Perbandingan Hasil SVM Naïve Bayes knn Akurasi 77.25% 59.29% 76.25% Precision Recall f-measure Pada Tabel 3 dapat dilihat hasil kedua pelatihan tersebut (naïve bayes, dan k-nearest Neighbor) masih dibawah dari hasil pelatihan dengan menggunakan Support Vector Machine (SVM). Sehingga dapat disimpulkan bahwa kinerja dengan menggunakan SVM lebih baik dibandingkan dengan menggunakan klasifikasi naïve bayes, dan k-nearest Neighbor (knn).
5 Jumlah Responden e. Eksperimen Hasil tanpa MMR dan Hasil Menggunakan MMR Gambar 3. Tampilan Hasil Tanpa MMR Pada Gambar 3 diatas dapat dilihat bahwa hasil ringkasan tanpa MMR memiliki susunan kalimat yang kurang baik, sehingga pembaca/pengguna akan sulit dalam memahami informasi penting yang akan disampaikan. Gambar 4. Tampilan Hasil Dengan MMR Tabel 4 Scoring Board Hasil Tanpa MMR Topik Kurang Cukup Baik Sangat Baik Tabel 5 Scoring Board Hasil Dengan MMR Topik Kurang Cukup Baik Sangat Baik Dari hasil survei pada Tabel 4 dan Tabel 5 di atas, dapat dibuat sebuah grafik sebagai berikut: Pada Gambar 4 diatas dapat dilihat bahwa hasil ringkasan SVM dengan menggunakan MMR memiliki susunan kalimat yang lebih baik dibandingkan dengan hasil tanpa MMR, sehingga pembaca/pengguna akan lebih mudah dalam memahami informasi penting yang akan disampaikan Grafik Survei Hasil RIngkasan E. Survei Keterbacaan Survei ini digunakan untuk mengukur apakah teks yang dihasilkan oleh sistem dapat dipahami oleh pembaca dan relevan dengan sumber berita aslinya. Survei ini dilakukan dengan cara mengirimkan kuisioner kepada 40 responden. yang digunakan pada survei ini menggunakan model terbaik yang telah didapat pada proses training dengan parameter terbaik (C = 4.0 dan γ = 512.0) dari hasil eksperimen. Survei ini bertujuan untuk mencari metode mana yang dapat menghasilkan ringkasan dengan tingkat keterbacaan yang lebih baik bagi pembaca Tanpa MMR Dengan MMR Topik Kurang Cukup Baik Sangat Baik Gambar 5. Grafik Survei Hasil
6 Hasil grafik pada Gambar 5 dapat dilihat bahwa responden memilih ringkasan yang dihasilkan oleh metode SVM menggunakan MMR lebih banyak daripada ringkasan SVM tanpa MMR. Sehingga dapat disimpulkan bahwa hasil ringkasan SVM dengan menggunakan MMR keterbacaannya lebih baik dibandingkan hasil ringkasan SVM tanpa MMR. F. Evaluasi Hasil Evaluasi hasil ringkasan ini untuk mengukur hasil ringkasan yang dilakukan oleh sistem apakah sudah baik, dan relevan dengan sumber berita aslinya. Pengevaluasian ini dilakukan dengan membandingkan dan memberi penilaian terhadap hasil ringkasan dimana penilaian itu diberikan oleh orang yang ahli dalam bidangnya atau dalam hal ini sering disebut human expert judgement. Pada pengevaluasian ini dilakukan oleh Dr. Dadang S. Anshori, M.Si (Dosen Bahasa Indonesia di UPI sekaligus Ketua Jurusan). Penilaian dari ringkasan akan dikelompokkan dalam empat kategori, yaitu kurang, cukup, baik dan sangat baik. Adapun hasil penilaiannya sebagai berikut. dalam ringkasan) menggunakan SVM Classifier. Selanjutnya dipilih n kalimat dari kelas positif berdasarkan nilai relevansinya. Nilai relevansi dapat berupa nilai probabilitas kemunculan kelas positif atau nilai MR yang dihasilkan melalui MMR. Parameter klasifikasi SVM dengan kernel RBF terbaik yang digunakan sistem peringkasan teks otomatis pada multi-document dalam Tesis ini yaitu, nilai C = 4.0 dan γ = Nilai f-measure yang diperoleh dari parameter terbaik tersebut adalah Sistem peringkasan teks otomatis mengalami peningkatan kinerja jika permasalahan imbalanced dataset ditangani pada level data. Empat fitur yang terbaik pada proses klasifikasi pada Tesis ini adalah panjang kalimat, posisi kalimat, kemiripan kalimat dengan kalimat lainnya, dan data numerik. Pembangunan model klasifikasi menggunakan empat fitur yang terbaik tidak meningkatkan kinerja proses klasifikasi. Tipe Tanpa MMR Dengan MMR Tabel 6 Scoring Board Hasil Kurang Cukup Baik Sangat Baik Grafik Evaluasi Tanpa MMR Gambar 6. Grafik Evaluasi oleh Human Expert Judgement Dari Gambar 6 di atas dapat dilihat bahwa hasil ringkasan sistem dengan menggunakan MMR lebih baik dan relevan daripada hasil ringkasan sistem tanpa menggunakan MMR. IV. KESIMPULAN Dengan MMR Kurang Cukup Baik Sangat Baik Pada sistem peringkasan teks otomatis berita berbahasa Indonesia pada multi-document dapat dilakukan secara efektif dengan cara mengklasifikasikan kalimat-kalimat dalam setiap artikel ke dalam kelas positif (termasuk ke dalam ringkasan) atau kelas negatif (tidak termasuk ke REFERENSI [1] An, J., Cha, M., Gummadi, K., dan Crowcroft, J. (2011). Media Landscape in Twitter, A New World Convention and Political Diversity, University of Cambridge. [2] Lioret, Elena. (2008). Text Summarization: An Overview, Dept. Lenguajes y Sistemas Informaticos Universidad de Alicante Alicante, Spain. [3] Mani, Inderjeet, dan Marbury, T, Mark. (1999). Advances in Automatic Text Summarization, Massachusetts Institute of Technology, Massachusetts, Amerika. [4] Wardhana, Wisnu L. (2008). Peringkas Multi-Dokumen Untuk Bahasa Indonesia Menggunakan Teknik Centroid-Based Summarization Dan Teknik K-Means- Based Summarization. Skripsi pada Fakultas Ilmu Komputer Universitas Indonesia. tidak diterbitkan. [5] S, Suneetha. (2011). Automatic Text Summarization: The Current State of The Art, International Journal of Science and Advance Technology, Vol.1 No.9, JNTU, Hyderabad. [6] Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. In Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval (pp ). ACM. [7] Joachims, Thorsten. (1999). Making Large-Scale SVM Learning Practical. Universitait Dortmund, Jerman. [8] Hovy, E., dan Lin, C. Y. (1998). Automated Text Summarization and the SUMMARIST system, Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998 (pp ). Association for Computational Linguistics. [9] Karamuftuoglu, Murat. (2002). An Approach to Summarisation Based on Lexical Bonds. Document Understanding Conferences. [10] Ishikawa, Kai, 2004, Trainable Automatic Text Summarization using Segementation of Sentence, NEC Corporation. [11] Fattah, Abdel, Mohamed dan Ren, Fuji. (2008). Automatic Text Summarization, World Academy of Science, Engineering and Technology 37.
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori
Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
Lebih terperinciBAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
Lebih terperinciBAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat
BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinciSVM untuk Regresi. Machine Learning
MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,
Lebih terperinciSVM untuk Regresi Ordinal
MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,
Lebih terperinciANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA
ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi
Lebih terperinciBAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.
BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperinciISSN: Yogyakarta, 27 Juli 2017 CITEE 2017
Analisis Perbandingan Metode Over-Sampling Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADSYN-kNN) untuk Data dengan Fitur Nominal-Multi Categories Sri Rahayu 1, Teguh Bharata Adji
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen
Lebih terperinciMoch. Ali Machmudi 1) 1) Stmik Bina Patria
UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciBandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
Lebih terperinciIMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,
Lebih terperinciLAPORAN TUGAS AKHIR. Disusun oleh: Franky
LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis
Lebih terperinciSupport Vector Machine
MMA10991 Topik Khusus Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,
Lebih terperinciIMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE
Jurnal Informatika Polinema ISSN: 2407-070X IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Faisal Rahutomo 1, Pramana Yoga Saputra 2, Miftahul Agtamas
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya
Lebih terperinciPerbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor
Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik
Lebih terperinciBAB III ANALISIS DAN PENYELESAIAN MASALAH
BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan
Lebih terperinciEVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE
EVALUASI EFEKTIFITAS METODE MACHINE-LEARNING PADA SEARCH-ENGINE Rila Mandala Kelompok Keahlian Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung Jalan Ganesha 10 Bandung,
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPengantar Support Vector Machine
Pengantar Support Vector Machine Anto Satriyo Nugroho February 8, 2007 1 Pengantar Pattern Recognition (PR) didefinisikan sebagai proses pemetaan suatu data ke dalam konsep tertentu yang telah didefinisikan
Lebih terperinciSVM untuk Ranking. Model Linear
MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar belakang
BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciKLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)
KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) SKRIPSI Disusun Oleh : MEKAR SEKAR SARI NIM. 24010210120008 JURUSAN STATISTIKA FAKULTAS
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciBAB III METODE PENELITIAN
BAB III BAB 3 METODE PENELITIAN 3.1. Tahap pengumpulan data Data awal dalam penelitian ini adalah dokumen berupa artikel teks berita online dalam bahasa Indonesia yang dikumpulkan secara acak dari portal
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciKLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY
KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY Arif Munandar *), Achmad Hidayatno, and Teguh Prakoso Departemen Teknik
Lebih terperinciPenerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia
Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas
Lebih terperinciBAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.
BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciPENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT
PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT TUGAS AKHIR Diajukan Untuk Memenuhi Sebagian Prasyarat Mencapai Derajat Teknik Informatika Disusun Oleh
Lebih terperinciISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan)
ISSN 0216-3241 173 SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL Oleh I Ketut Purnamawan Jurusan Manajemen Informatika Fakultas Teknik dan Kejuruan Universitas Pendidikan Ganesha tutpurna@yahoo.com
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Informasi telah menjadi kebutuhan utama dalam kehidupan manusia. Informasi bisa dikatakan sebagai pengetahuan yang didapatkan dari pembelajaran, pengalaman, atau instruksi.
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Setiap siswa di dalam kelas memiliki karakteristik diri yang berbeda beda, seperti : jujur, empati, sopan, menghargai dan sebagainya. Karakteristik diri tersebut berperan
Lebih terperinciUKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
Lebih terperinciISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 Klasifikasi Informasi, Anjuran dan Larangan pada Hadits Shahih Bukhari menggunakan Metode Support Vector Machine. Andina
Lebih terperinciBAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai
BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di
Lebih terperinciBAB 1 PENDAHULUAN. Latar Belakang
BAB 1 PENDAHULUAN Latar Belakang Berita pada media massa online bertambah banyak setiap waktu karena selalu ada sesuatu yang patut untuk diberitakan kepada khalayak. Hal ini membuat pembaca harus menyiapkan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
Lebih terperinciSTUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciUKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Lebih terperinciMetode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala
Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen
Lebih terperinciHASIL DAN PEMBAHASAN. B fch a. d b
7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinciBAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan
1 BAB I PENDAHULUAN 1.1 Latar Belakang Pesatnya perkembangan media sosial menawarkan pengguna kesempatan untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan tidak lagi memiliki
Lebih terperinciPenerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan
Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Krisantus Sembiring / 13503121 PROGRAM STUDI
Lebih terperinciPeringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 11, November 2017, hlm. 1198-1203 http://j-ptiik.ub.ac.id Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan
Lebih terperinciNurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo Prasetyo³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
PERINGKASAN TEKS OTOMATIS DOKUMEN TUNGGAL BERBAHASA INDONESIA MENGGUNAKAN GRAPH-BASED SUMMARIZATION ALGORITHM DAN SIMILARITY (STUDI KASUS ARTIKEL BERITA) Nurzaitun Purwasih¹, Moch. Arif Bijaksana², Bowo
Lebih terperinci1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah
1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari
Lebih terperinciPENGENALAN CITRA TULISAN TANGAN DOKTER DENGAN MENGGUNAKAN SVM DAN FILTER GABOR
PENGENALAN CITRA TULISAN TANGAN DOKTER DENGAN MENGGUNAKAN SVM DAN FILTER GABOR Angga Lisdiyanto (1), Lukman Zaman P.C.S.W (2) Teknik Informatika, Universitas Islam Lamongan (1) Teknik Informatika, Sekolah
Lebih terperinciKlasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom
Lebih terperinciBAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali
BAB I PENDAHULUAN 1.1. Latar Belakang Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali objek 3 dimensi. Sistem penglihatan manusia dapat membedakan berbagai macam objek 3 dimensi
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah
Lebih terperinciBAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciKlasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor
D-344 JURNAL SAINS DAN SENI ITS Vol. 5 No. 2 (2016) 2337-3520 (2301-928X Print) Email Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor Shiela Novelia Dharma Pratiwi, Brodjol
Lebih terperinciSUPPORT VECTOR MACHINE (SVM)
MAKALAH DATA MINING SUPPORT VECTOR MACHINE (SVM) Di Susun Oleh : Nama : RA. Toyyibatul Faihah NRP : 07.04.111.00132 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS TRUNOJOYO 2010 1 PENDAHULUAN 1.1
Lebih terperinciPENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
Lebih terperinciBAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.
BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan
Lebih terperinciABSTRAK. Kata Kunci: data tidak seimbang, klasifikasi, KSMOTE, boosting, SSO, support vector machine.
ABSTRAK Klasifikasi dalam data mining adalah proses untuk menemukan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data atau konsep. Salah satu permasalahan klasifikasi adalah distribusi
Lebih terperinciBAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
Lebih terperinciBab ini menguraikan latar belakang, rumusan masalah, tujuan, ruang lingkup dan tahapan yang dilalui dalam penelitian.
BAB 1 PENDAHULUAN Bab ini menguraikan latar belakang, rumusan masalah, tujuan, ruang lingkup dan tahapan yang dilalui dalam penelitian. 1.1 Latar Belakang Sejak zaman dahulu kala, umat manusia sudah menyadari
Lebih terperinci4 Notepad dan Microsoft Excel sebagai editor data.
dengan menggunakan perangkat lunak ENVI disimpan dalam file.txt (Lampiran 1). File ini berisi informasi mengenai panjang gelombang dan nilai pantulan (reflectance) objek di permukaan bumi. Objek yang diperlukan
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciBAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam media internet artikel merupakan suatu kebutuhan dan pengetahuan. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat tanpa membaca
Lebih terperinciBAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen
BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan
Lebih terperinciMetode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)
Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa
Lebih terperinciPerbandingan Algoritma Pendeteksian Spam
Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciAnalisis Akurasi Support Vector Machine...
ANALISIS AKURASI SUPPORT VECTOR MACHINE DENGAN FUNGSI KERNEL GAUSSIAN RBF UNTUK PRAKIRAAN BEBAN LISTRIK HARIAN SEKTOR INDUSTRI Luqman Assaffat 1 * 1 Jurusan Teknik Elektro, Fakultas Teknik, Universitas
Lebih terperinciPRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA
PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA Penyusun Tugas Akhir : Astris Dyah Perwita (NRP : 5110.100.178)
Lebih terperinciTabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan
BAB I PENDAHULUAN Sebagai negara berkembang, perekonomian Indonesia didorong untuk tumbuh dengan pesat. Salah satu indikator pertumbuhan perekonomian yang baik adalah tingginya daya beli masyarakat. Tingginya
Lebih terperinciFEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)
FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP) Ratna Pertiwi¹, Deni Saepudin², Intan Nurma Yulita³ ¹Teknik Informatika,, Universitas Telkom Abstrak Berkembangnya
Lebih terperinciIMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS
IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciBAB 3 METODE PENELITIAN
BAB 3 METODE PENELITIAN 3.1. Wilayah dan Jadwal Penelitian Wilayah penelitan adalah Kota Banda Aceh. Penelitian ini dilakukan mulai bulan April sampai Juli 2014. 3.2. Populasi dan Sampel Populasi dalam
Lebih terperinciBAB II LANDASAN TEORI
2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma
Lebih terperinciISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer
Lebih terperinci