Jurnal Informatika dan Komputer PENS

Ukuran: px
Mulai penontonan dengan halaman:

Download "Jurnal Informatika dan Komputer PENS"

Transkripsi

1 Jurnal Informatika dan Komputer PENS Teknik Komputer Vol.2, No.2, 2015 Politeknik Elektronika Negeri Surabaya Aplikasi Pendeteksi Kemiripan Laporan Menggunakan Text Mining dan Clustering Fitria Dwi Indah Kusuma, 1) Tri Harsono, 1) Sigit Wasista, 2) Aliridho Barakbah 1) Program Studi D4 Teknik Komputer, 2) Program Studi D4 Teknik Informatika Departemen Informatika dan Komputer Politeknik Elektronika Negeri Surabaya Kampus PENS, Jalan Raya ITS Sukolilo, Surabaya Tel: (031) ; Fax: (031) Abstrak Dalam dunia pendidikan, khususnya di lingkungan perkuliahan yang identik dengan banyaknya jumlah mata kuliah teori maupun praktikum di setiap semesternya, selalu disertai pula dengan banyaknya tugas berupa laporan yang harus dikerjakan oleh setiap mahasiswa. Sebagian besar tugas maupun laporan tersebut berupa soft file. Tidak jarang seorang mahasiswa melakukan proses copypaste-modify terhadap tugas maupun laporan milik mahasiswa lain, bahkan tidak jarang pula mahasiswa yang melakukan copy-paste hanya mengganti jenis font yang digunakan tanpa melakukan perubahan apapun terhadap isi tugas dan laporan tersebut. Pada penelitian ini dideteksi kemiripan antar laporan resmi dengan cara membandingkan isi analisa dan kesimpulan dari laporan tersebut yang telah disimpan dalam bentuk teks berupa file.txt untuk mengetahui tingkat kemiripan antar laporan dimana hasil pembandingan tersebut dinyatakan dalam bentuk persentase atau nilai tingkat kemiripan isi antar laporan. Proses pembandingannya dilakukan dengan memanfaatkan adanya text mining dan clustering. Text mining itu sendiri terdiri dari beberapa tahap, yaitu tokenizing, filtering, stemming, tagging dan analyzing. Proses deteksi kemiripan laporan akan bekerja lebih optimal ketika diproses melalui tahap stemming dan tagging meskipun membutuhkan waktu yang lebih lama dibandingkan tanpa melalui tahap stemming dan tagging. Deteksi kemiripan laporan menggunakan tahap stemming dan tagging menghasilkan persentase keberhasilan sebesar 65,19% dan ketika diproses tanpa menggunakan tahap stemming dan tagging menghasilkan persentase keberhasilan sebesar 64,23%. Kata Kunci : kemiripan laporan, text mining, clustering. 1. Pendahuluan Perkembangan teknologi saat ini semakin canggih, termasuk perkembangan teknologi digital di era modern saat ini. Teknologi digital telah menjadi kebutuhan bagi seluruh pengguna teknologi saat ini, salah satunya adalah dokumen teks. Dokumen teks dalam bentuk digital akan lebih memudahkan pengguna dalam melakukan penyimpanan karena lebih efisien, akan tetapi juga lebih memudahkan pengguna untuk melakukan penjiplakan. Penjiplakan atau plagiarisme merupakan tindakan mencontoh atau meniru hasil karya milik orang lain tanpa seizin pemilik asli karya tersebut yang selanjutnya diakui sebagai hasil karya milik sendiri [4]. Banyaknya mata kuliah praktikum yang diberikan dalam satu semester perkuliahan, serta jumlah praktikum dari setiap mata kuliah praktikum yang berjumlah 16 kali pertemuan menyebabkan banyaknya jumlah laporan praktikum yang harus dikumpulkan oleh setiap mahasiswa dalam satu semesternya. Oleh karena itu, mahasiswa diwajibkan untuk mengumpulkan laporan praktikum dalam bentuk soft file yang semakin memudahkan mahasiswa untuk melakukan tindakan plagiarisme. Tidak jarang seorang mahasiswa melakukan proses copy-paste-modify terhadap tugas maupun laporan milik mahasiswa lain, bahkan tidak jarang pula mahasiswa yang melakukan copy-paste hanya mengganti jenis font yang digunakan tanpa melakukan perubahan apapun terhadap isi laporan tersebut tersebut.

2 Jurnal Informatika dan Komputer PENS, Teknik Komputer, Vol.2, No.2, 2015 Tindakan plagiarisme yang dilakukan mahasiswa terhadap tugas-tugas berupa laporan soft file yang diberikan oleh dosen tersebut, menimbulkan banyak kerugian, baik bagi mahasiswa yang melakukan proses copy-paste maupun bagi mahasiswa yang dijiplak laporannya. Salah satu bentuk kerugian yang ditimbulkan akibat dari tindakan plagiarisme tersebut adalah menyebabkan mahasiswa menjadi kurang kreatif karena tidak terbiasa untuk menyelesaikan tugasnya sendiri akibat dari kebiasaan mahasiswa yang hanya sekedar melakukan proses editing terhadap tugas milik mahasiswa lain. Berdasarkan kondisi banyaknya jumlah laporan praktikum yang dikumpulkan, menjadi menyulitkan untuk mendeteksi kemiripan laporan praktikum milik antar mahasiswa secara manual karena jumlahnya yang terlalu banyak sehingga sulit pula untuk mengetahui ada atau tidaknya tindakan plagiarisme yang dilakukan oleh mahasiswa. Pembuatan aplikasi ini mengacu pada penelitian sebelumnya yang berjudul Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia Menggunakan Algoritma Winnowing dengan Metode K-Gram dan Synonym Recognition oleh Mudafiq Riyan Pratama, Eko Budi Cahyono, dan Gita Indah Marthasari [4]. Implementasi Deteksi Penjiplakan Dengan Algoritma Winnowing pada Dokumen Terkelompok oleh I Wayan Surya Priantara, Diana Purwitasari, dan Umi Laili Yuhana [3]. Penerapan Algoritma Boyer-Moore dan Algoritma Rabin Karp dalam Mendeteksi Aksi Plagiarisme oleh Arif Prasetiya [10]. Berdasarkan penelitian sebelumnya yang diacu, maka dibuatlah penelitian ini dengan mengajukan suatu pendekatan baru untuk mendeteksi kemiripan antar laporan resmi. 2. Desain Sistem Secara garis besar, perancangan Aplikasi Pendeteksi Kemiripan Laporan Menggunakan Text Mining dan Clustering ditunjukkan pada Gambar 1 Dokumen Text Mining Keyword Extraction d 1 w 1 w 2 w 3 d 2 w 1 w 2 w 3 Keyword Aggregation Keyword Metric d 1 d 2 w 1 w 2... w n Clustering Clusters Tingkat kedekatan antar dokumen Gambar 1. Diagram Alur Sistem Perancangan sistem yang akan dibuat adalah melakukan pembandingan antar dokumen berisi teks yang berupa txt berbahasa indonesia, dimana dalam 1 kali proses pembandingan terdapat 10 dokumen yang dibandingkan dengan tema yang sama, milik mahasiswa yang berbeda. 10 dokumen tersebut kemudian di proses menggunakan text mining yang menghasilkan output berupa matriks dari masing-masing dokumen, yang mana setiap dokumen memiliki kata kunci masing-masing sejumlah n. Setiap kata kunci tersebut memiliki bobotnya masing-masing yang diperoleh dari frekuensi kemunculan kata tersebut dalam dokumen yang bersangkutan. Seluruh matriks tersebut kemudian digabungkan menjadi 1 buah matriks besar melalui proses aggregation. Dalam 1 matriks besar tersebut, seluruh kata kunci pada 10 matriks sebelumnya digabungkan untuk kemudian dicari nilai bobot dari setiap kata kunci tersebut terhadap 10 dokumen. Setelah diketahui nilai bobot dari seluruh kata kunci pada 10 dokumen, maka akan dilakukan proses clustering atau pengelompokkan berdasarkan similaritas tertentu untuk mendapatkan hasil cluster berupa tingkat kedekatan antar kedua dokumen tersebut sehingga dapat diketahui tingkat kemiripan keduanya.

3 Jurnal Informatika dan Komputer PENS, Teknik Komputer Vol.2, No.2, Dokumen Berdasarkan gambar 3.1 terlihat bahwa input dari sistem yang dibuat ini adalah berupa dokumen laporan tugas milik mahasiswa. Dokumen yang digunakan sebagai input ini terdiri dari 10 buah laporan milik 10 orang mahasiswa yang berbeda yang memiliki tema tugas yang sama. Dokumen yang digunakan sebagai input ini hanya berisi teks, dan tidak berupa gambar yang disimpan dalam bentuk txt berbahasa indonesia Text Mining Text mining secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen teks tak terstruktur (unstructured). Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen [1]. Pada prinsipnya, text mining adalah bidang ilmu multidisipliner, melibatkan information retrieval (IR), text analysis, information extraction (IE), clustering, categorization, visualization, database technology, natural language processing (NLP), machine learning, dan data mining. Dapat pula dikatakan bahwa text mining merupakan salah satu bentuk aplikasi kecerdasan buatan (artificial intelligence / AI) [1]. Text mining mencoba memecahkan masalah information overload dengan menggunakan teknik-teknik dari bidang ilmu yang terkait. Text mining dapat dipandang sebagai suatu perluasan dari data mining atau knowledge-discovery in database (KDD), yang mencoba untuk menemukan pola-pola menarik dari basis data berskala besar. Namun text mining memiliki potensi komersil yang lebih tinggi dibandingkan dengan data mining, karena kebanyakan format alami dari penyimpanan informasi adalah berupa teks. Text mining menggunakan informasi teks tak terstruktur dan mengujinya dalam upaya mengungkap struktur dan arti yang tersembunyi di dalam teks [1] Tahap Tokenizing Tahap tokenizing atau parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Gambar 2 adalah contoh dari tahap tokenizing. ini membangun jaringan antara dua untuk melakukan serangan terhadap antar Gambar 2. Tahap Tokenizing Tahap Filtering Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa mengunakan algoritma stop list (membuang kata-kata yang kurang penting) atau word list (menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Gambar 3 adalah contoh dari tahap filtering. Ini Membangun Jaringan Antara Melakukan Serangan Terhadap Antar Gambar 3. Tahap Filtering Ini Membangun Jaringan Antara Melakukan Serangan Terhadap Antar Membangun Jaringan Melakukan Serangan

4 Jurnal Informatika dan Komputer PENS, Teknik Komputer, Vol.2, No.2, Tahap Stemming dan Tagging Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Tahap tagging adalah tahap mencari bentuk awal atau root dari tiap kata lampau atau kata hasil stemming. Tahap ini berlaku untuk dokumen teks berbahasa Inggris, sedangkan untuk dokumen teks berbahasa Indonesia, prosesnya digabungkan dengan tahap stemming. Gambar 4 adalah contoh dari tahap stemming dan tagging : Membangun Jaringan Melakukan Serangan Bangun Jaring Laku Serang Gambar 4. Tahap Stemming dan Tagging Tahap Analyzing Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada. Term Frequency merupakan algoritma yang paling sederhana yang biasanya dipakai untuk scoring. Gambar 5 adalah contoh dari tahap analyzing. Membangun Jaringan Melakukan Serangan : 1 Bangun : 1 Jaring : 1 : 1 : 1 : 1 Laku : 1 Serang : 1 Gambar 5. Tahap Analyzing 2.3. Keyword Extraction Keyword extraction berasal dari 2 kata yaitu extract dan keyword. Extract sendiri sangat berhubungan dengan kata atau frasa dalam sebuah dokumen. Sedangkan keyword di definisikan sebagai rangkaian atau urutan dari satu atau lebih kata, yang merepresentasikan isi dari sebuah dokumen. Secara ideal, keyword merpresentasikan isi dari sebuah dokumen yang bersifat sangat penting dalam bentuk sederhana. Berdasaran pengertian keyword extraction, pada sistem ini, isi dari kedua dokumen input akan di ekstraksi berdasarkan kata kunci dari masing-masing dokumen dan setiap kata kunci tersebut memiliki nilai bobot masing-masing yang menunjukkan frekuensi tingkat kemunculan kata dalam satu dokumen. Contoh keyword extraction ditunjukkan pada Tabel 1 dan Tabel 2 Tabel 1. Contoh Keyword Extraction untuk Dokumen 1 Praktikum Sensor Gerakan ADC Objek d Tabel 1 menunjukkan contoh hasil dari proses keyword extraction dari dokumen 1. Contoh pada Tabel 3.1 tersebut terdapat 5 kata kunci yang dihasilkan dari proses text mining, yaitu praktikum, sensor, gerakan, ADC, dan objek. Masingmasing kata kunci tersebut memiliki frekuensi kemunculan yang bervariasi. kata praktikum, frekuensi kemunculannya pada dokumen 1 adalah sebanyak 2 kali. kata sensor adalah sebanyak 22 kali. kata gerakan adalah sebanyak 3 kali. kata ADC adalah sebanyak 3 kali dan untuk kata objek adalah sebanyak 8 kali. Tabel 1. Contoh Keyword Extraction untuk Dokumen 2 Praktikum PIR Gerakan Output Data d Tabel 2 menunjukkan contoh hasil dari proses keyword extraction dari dokumen 2. Contoh pada Tabel 3.2 tersebut terdapat 5 kata kunci yang dihasilkan dari proses text mining, yaitu praktikum, PIR, gerakan, output, dan data. Masingmasing kata kunci tersebut memiliki frekuensi kemunculan yang bervariasi. kata praktikum, frekuensi

5 Jurnal Informatika dan Komputer PENS, Teknik Komputer Vol.2, No.2, 2015 kemunculannya pada dokumen 2 adalah sebanyak 1 kali. kata PIR adalah sebanyak 5 kali. kata gerakan adalah sebanyak 1 kali. kata output adalah sebanyak 3 kali dan untuk kata data adalah sebanyak 5 kali Keyword Aggregation Keyword aggregation berasal dari 2 kata yaitu keyword dan aggregation. Aggregation sendiri memiliki pengertian dimana beberapa hal dikelompokkan secara bersama-sama menjadi satu. Proses keyword aggregation pada sistem ini adalah menggabungkan hasil dari keyword extraction dari kedua dokumen menjadi satu berupa keyword matric Keyword Metric Keyword metric berasal dari 2 kata yaitu keyword dan metric. Metric merupakan bentuk representasi output dari proses keyword aggregation yang dinyatakan dalam bentuk matriks. Matriks sendiri dinyatakan dalam bentuk tabel. Contoh proses keyword metric ditunjukkan pada Tabel 3 Tabel 3. Contoh Keyword Matric Praktikum Sensor PIR Gerakan Output Objek Data d d Tabel 3 menunjukkan contoh keyword metric yang merupakan hasil dari proses keyword aggregation yaitu proses untuk menggabungkan hasil dari keyword extraction dokumen 1 yang ditunjukkan pada tabel 1 dan dokumen 2 yang ditunjukkan pada tabel 2. Terdapat 2 kata kunci yang sama antara dokumen 1 dan dokumen 2 yaitu kata praktikum dan gerakan. Selain kedua kata tersebut, kata kunci lainnya berbeda antara kedua dokumen. kata praktikum dan gerakan, masing-masing dokumen memiliki nilai frekuensi kemunculannya masing-masing sesuai dengan nilai yang terdapat pada tabel 1 dan 2, sedangkan untuk kata sensor, PIR, output, objek, dan data yang hanya dimiliki oleh salah satu dokumen, maka nilai frekuensi kemunculan pada dokumen yang tidak terdapat kata kunci tersebut adalah 0 sedangkan untuk dokumen yang didalamnya terdapat kata kunci tersebut, maka nilai frekuensi kemunculannya adalah sama dengan yang terdapat pada Tabel 1 dan Output Output dari sistem ini adalah tingkat kedekatan antar dokumen yang diperoleh dari hasil clustering yang telah dilakukan proses pengelompokan berdasarkan similaritas tertentu. Berdasarkan tingkat kedekatan antar dokumen tersebut, maka dapat diketahui nilai persentase (%) tingkat kemiripan antar laporan tersebut sehingga kedua dokumen yang di proses tersebut dapat dikategorikan sebagai tindak plagiarisme atau tidak berdasarkan nilai persentase (%) yang dihasilkan. menentukan jenis kesamaan antara dokumen yang diuji, terdapat 5 jenis penilaian persentase similarity (Mutiara-Agustina, 2008) yang ditunjukkan pada Tabel 4 [9]. Tabel 4. Jenis Penilaian Persentase Similarity Persentase Similarity Jenis Kesamaan antar Dokumen 0% Kedua dokumen tersebut benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan <15% Kedua dokumen tersebut hanya mempunyai sedikit kesamaan 15% - 50% Kedua dokumen tersebut termasuk plagiat tingkat sedang >50% Kedua dokumen tersebut mendekati plagiarisme 100% Kedua dokumen tersebut adalah plagiat karena dari awal sampai akhir mempunyai isi yg sama persis. 3. Pengujian dan Pembahasan Pada tahap ini, perancangan perangkat lunak direalisasikan sebagai serangkaian program atau unit program dengan melakukan beberapa pengujian terhadap fungsi-fungsi yang dimiliki oleh sistem, performa dari sistem maupun dari algoritma yang digunakan. Proses pengujian ini dilakukan terhadap 3 jenis dokumen yang berbeda, yaitu dokumen portsentry, dokumen scanning dan probing, dan dokumen password management dimana masing-masing jenis dokumen, terdapat 10 dokumen yang di proses.output berupa nilai persentase similaritas antar laporan ini dihitung berdasarkan output dari tahap keyword aggregation sebelumnya, dimana setiap dokumen memiliki keyword masingmasing beserta frekuensi kemunculan dari keyword tersebut yang dihitung berdasarkan persamaan 1 S = N A N x 100% (1)

6 Jurnal Informatika dan Komputer PENS, Teknik Komputer, Vol.2, No.2, 2015 Keterangan : S = Similaritas dalam bentuk persentase N = Jumlah keyword antar 2 dokumen A = Total selisih absolut kemunculan keyword antar 2 dokumen Contoh implementasi dari persamaan 1 terhadap hasil dari tahap keyword aggregation ditunjukkan pada Tabel 5 Tabel 5. Contoh Hasil Keyword Aggregation Praktikum Sensor PIR Gerakan Output Objek Data Jumlah d d Selisih Berdasarkan data yang ditunjukkan pada Tabel 5 dapat dihitung persentase kedekatan antara dokumen 1 dan dokumen 2 menggunakan persamaan 1 yang ditunjukkan pada persamaan 2 S = x 100% 50 S = 7 x 100% 50 S = 14% (2) 3.1. Pengujian Persentase Similarity Antar Dokumen Proses perhitungan persentase similaritas ini dilakukan setiap antar 2 dokumen yang kemudian hasilnya ditampilkan ke dalam sebuah tabel yang di dalamnya berisi informasi persentase similaritas mulai dari dokumen 1 hingga dokumen 10, dimana untuk nilai persentase kemiripan lebih dari 50% diberikan indikator berupa warna merah pada baris dan kolom pada tabel yang merupakan indikasi dari kategori plagiarisme seperti yang ditunjukkan pada Tabel 6 Tabel 6. Output Persentase Kemiripan Antar Laporan D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D1 45% 50% 44% 45% 49% 53% 46% 44% 53% D2 45% 42% 92% 46% 40% 74% 84% 92% 74% D3 50% 42% 45% 52% 78% 47% 45% 45% 47% D4 44% 92% 45% 46% 43% 74% 87% 100% 74% D5 45% 46% 52% 46% 47% 53% 47% 46% 53% D6 49% 40% 78% 43% 47% 44% 42% 43% 44% D7 53% 74% 47% 74% 53% 44% 77% 74% 100% D8 46% 84% 45% 87% 47% 42% 77% 87% 77% D9 44% 92% 45% 100% 46% 43% 74% 87% 74% D10 53% 74% 47% 74% 53% 44% 100% 77% 74% Hasil persentase similaritas yang ditunjukkan pada Gambar 7 kemudian dilakukan proses sorting atau pengurutan secara ascending yaitu mulai dari nilai persentase terkecil ke nilai persentase terbesar. Setelah proses sorting berhasil dilakukan, setiap nilai persentase similaritas tersebut dikategorikan ke dalam 5 jenis penilaian persentase similarity (Mutiara-Agustina, 2008) berdasarkan Tabel 4. yang disertai keterangan nama dokumen seperti yang ditunjukkan pada Gambar 6

7 Jurnal Informatika dan Komputer PENS, Teknik Komputer Vol.2, No.2, 2015 Gambar 6. Kategori Penilaian Persentase Similarity 3.2. Pengujian Lama Waktu Pemrosesan Tahap Filtering Waktu yang dibutuhkan untuk melakukan pemrosesan pada tahap filtering ini masih dalam hitungan detik untuk setiap dokumennya, sehingga estimasi total waktu yang dibutuhkan untuk menyelesaikan pemrosesan pada tahap filtering ini untuk 10 dokumen sekaligus berkisar antara 1 menit hingga 3 menit bergantung pada banyaknya jumlah kata yang digunakan pada setiap dokumen. Semakin sedikit jumlah kata yang digunakan dalam sebuah dokumen yang di proses, maka waktu yang dibutuhkan akan menjadi semakin singkat. Sebaliknya, semakin banyak jumlah kata yang digunakan dalam sebuah dokumen yang di proses, maka waktu yang dibutuhkan akan menjadi semakin lama. Hal tersebut disebabkan karena sistem harus melakukan pengecekan terhadap setiap kata hasil tokenizing yang disimpan dalam array untuk dibandingkan dengan daftar stopword / stoplist yang disimpan dalam database sejumlah 384 kata. Jika kata dalam array ditemukan dalam database, maka kata tersebut harus dibuang dengan mengosongkan isi dari indeks array yang bersangkutan. Hal tersebut terjadi secara terus menerus mulai dari indeks array pertama hingga indeks array terakhir yang menjadi indikator kata pertama hingga kata terakhir dalam setiap dokumen. Selain itu, jika kata hasil tokenizing yang disimpan dalam array berada pada urutan akhir dalam database stopword maka akan menyebabkan waktu pemrosesan menjadi lebih lama dibandingkan dengan kata yang terdapat pada urutan awal dalam database stopword, sehingga meskipun jumlah kata antar dokumen sama, waktu pemrosesannya bisa jadi berbeda meskipun berbeda tipis karena disebabkan oleh hal tersebut. Dokumen yang di proses adalah dokumen berisi analisa dan kesimpulan dari materi praktikum tentang portsentry yang jumlah katanya berkisar antara 330 kata hingga 544 kata sehingga lama waktu pemrosesannya pun menjadi lebih lama berkisar antara 16 detik hingga 28 detik untuk setiap dokumennya dan 3 menit 39 detik untuk total waktu pemrosesan 10 dokumen. Data waktu pemrosesan filtering ini ditunjukkan pada Tabel 7 sedangkan untuk data waktu berupa grafik ditunjukkan pada Gambar 7 Tabel 7. Lama Waktu Tahap Filtering Dokumen Jumlah Kata Waktu D :00:17 D :00:25 D :00:26 D :00:28 D :00:16 D :00:23 D :00:18 D :00:21 D :00:27 D :00:18 TOTAL WAKTU 0:03:39

8 Waktu Jurnal Informatika dan Komputer PENS, Teknik Komputer, Vol.2, No.2, 2015 Grafik Waktu Tahap Filtering 0:00:30 0:00:26 0:00:22 0:00:17 0:00:13 0:00:09 0:00:04 0:00: Jumlah Kata Gambar 7. Grafik Waktu Tahap Filtering 3.3. Pengujian Lama Waktu Pemrosesan Tahap Stemming dan Tagging Tahap ini merupakan tahap yang paling memakan waktu lama untuk satu kali proses jenis dokumen. Dalam satu kali proses jenis dokumen, terdapat 10 dokumen yang di proses secara bergantian mulai dari dokumen pertama hingga dokumen terakhir, dan untuk masing-masing dokumen tersebut membutuhkan waktu dalam hitungan menit untuk menyelesaikan proses stemming dan tagging ini sehingga untuk 10 dokumen dapat membutuhkan waktu dalam hitungan jam. Hal tersebut dikarenakan untuk mengembalikan ke kata dasar, terdapat beberapa tahapan proses yang harus dilalui. Kata hasil proses filtering yang disimpan dalam array, dilakukan pengecekan satu per satu terhadap isi folder kamus yang di dalamnya terdapat file.txt mulai dari angka 0 hingga 9 serta alphabet A-Z yang berisi kata dasar berbahasa Indonesia. Jika kata dalam array tersebut ditemukan di dalam salah satu file.txt dalam folder kamus, maka proses untuk kata tersebut berhenti karena sudah termasuk kata dasar, sehingga proses akan dilanjutkan ke indeks array selanjutnya untuk memproses kata yang lain. Sebaliknya, jika tidak ditemukan dalam folder kamus, maka kata tersebut akan di proses untuk melakukan pengecekan imbuhan berupa akhiran, jika tidak mengandung akhiran, maka akan dilakukan pengecekan imbuhan berupa awalan. Sebaliknya, jika ditemukan imbuhan berupa akhiran, maka kata tersebut akan di proses untuk menghilangkan akhiran tersebut, jika telah selesai dihilangkan akan kembali dicocokan dengan kamus sama seperti proses pertama. Jika tidak ditemukan dalam kamus, maka proses berlanjut ke penghapusan awalan. Proses yang sama terjadi pada pengecekan imbuhan berupa awalan serta kata ganti kepemilikan. Oleh karena itu, membutuhkan waktu yang lama untuk pemrosesan setiap dokumennya. Secara keseluruhan, semakin sedikit jumlah kata yang di proses maka waktu yang dibutuhkan untuk melakukan prosesnya juga semakin cepat, sebaliknya semakin banyak jumlah kata yang di proses maka akan waktu yang dibutuhkan untuk melakukan prosesnya juga semakin lama. Jumlah kata yang dijadikan acuan untuk tahap stemming dan tagging ini adalah jumlah kata hasil filtering, sehingga hanya kata-kata penting saja yang digunakan, dan jumlahya lebih sedikit dibandingkan dengan jumlah kata yang digunakan pada tahap filtering. Dokumen yang di proses adalah dokumen berisi analisa dan kesimpulan tentang materi praktikum portsentry merupakan dokumen yang memiliki jumlah kata rata-rata paling banyak dibandingkan dengan dokumen jenis kedua dan ketiga yaitu sejumlah 225 kata hingga 407 kata, sehingga membutuhkan waktu proses yang sangat lama untuk setiap dokumennya yang berkisar antara 9 menit hingga 22 menit sehingga total waktu yang dibutuhkan untuk melakukan proses stemming dan tagging terhadap 10 dokumen jenis ini adalah selama 2 jam 41 menit 44 detik. Jumlah kata masingmasing dokumen serta lama waktu prosesnya ditunjukkan pada Tabel 8 sedangkan untuk data dalam bentuk grafik ditunjukkan pada Gambar 8 Tabel 8. Lama Waktu Tahap Stemming dan Tagging Dokumen Jumlah Kata Waktu D :09:32 D :15:40 D :16:14 D :22:15 D :11:42 D :17:35 D :14:27 D :17:00

9 Waktu Jurnal Informatika dan Komputer PENS, Teknik Komputer Vol.2, No.2, 2015 D :22:58 D :14:40 TOTAL WAKTU 2:41:44 Grafik Waktu Tahap Stemming dan Tagging 0:28:48 0:21:36 0:14:24 0:07:12 0:00: Jumlah Kata Gambar 8.Grafik Waktu Tahap Stemming dan Tagging Berdasarkan pengujian yang telah dilakukan mulai dari pengujian persentase similarity antar dokumen, pengujian persentase kemiripan laporan dengan stemming dan tanpa stemming, pengujian lama waktu pemrosesan tahap filtering dan pengujian lama waktu pemrosesan tahap stemming dan tagging, dapat disimpulkan bahwa persentase kemiripan antar laporan yang dihasilkan akan lebih tinggi jika di proses dengan melalui tahap stemming dan tagging akan tetapi waktu yang dibutuhkan akan menjadi lebih lama. Hasil persentase kemiripan antar laporan tersebut akan menunjukkan tingkat plagiarisme antar dokumen yang dibagi menjadi 5 jenis penilaian, sehingga user dapat mengetahui dokumen mana sajakah yang memiliki isi yang benar-benar berbeda, memiliki sedikit kesamaan, plagiat tingkat sedang, plagiarisme dan memiliki isi yang sama persis Persentase Kemiripan Laporan dengan Menghilangkan Kata yang Harus Ada Persentase similarity yang dihasilkan dari aplikasi ini merupakan hasil dari proses perhitungan yang mengacu pada jumlah kemunculan kata dasar dari masing-masing dokumen tanpa memperhatikan kata tertentu yang selalu muncul di setiap dokumen. Hal tersebut berpengaruh terhadap output persentase similarity yang dihasilkan. Dokumen jenis pertama yaitu portsentry memiliki beberapa kata yang selalu muncul di setiap dokumen yang tercantum pada Tabel 9 Tabel 9. Kata yang selalu Muncul pada Setiap Dokumen Portsentry No Keyword D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 33 Aktif Blokir Cara Deny Etc File Guna Ignore Ip Konfigurasi Laku Mode Nmap

10 Jurnal Informatika dan Komputer PENS, Teknik Komputer, Vol.2, No.2, Port Portsentry Rver Serang Syslog System Tcp Tdeteks Berdasarkan kata yang selalu muncul pada dokumen portsentry yang tercantum pada Tabel 9 maka proses perhitungan persentase similarity antar dokumen dikurangi dengan jumlah kemunculan masing-masing kata pada setiap dokumen. Output persentase similarity yang dihasilkan setelah dikurangi dengan kata yang selalu muncul pada setiap dokumen menjadi lebih kecil dibandingkan dengan output persentase similarity ketika semua kata dihitung. Selisih output yang dihasilkan antara keduanya berkisar antara 0% hingga 23,70%. Selisih yang dihasilkan bervariasi disebabkan oleh jumlah kemunculan kata yang dikurangi untuk menghitung persentase juga bervariasi jumlahnya. Semakin besar jumlah kemunculan kata yang dikurangi akan menyebabkan selisih yang besar. Sebaliknya, semakin kecil jumlah kemunculan kata yang dikurangi akan menyebabkan selisih yang kecil. Data persentase kemiripan laporan ini ditunjukkan pada Tabel 10 Tabel 10. Persentase Kemiripan Laporan dengan Menghilangkan Kata yang Harus Ada Nama Dokumen Semua Kata Dihitung Kata Tertentu Dihilangkan Selisih D1 D2 44,6% 23,5% 21,10% D1 D3 50,2% 36,2% 14,00% D1 D4 44,1% 25,8% 18,30% D1 D5 44,7% 22,5% 22,20% D1 D6 49,5% 33,9% 15,60% D1 D7 53,1% 29,5% 23,60% D1 D8 46,0% 25,2% 20,80% D1 D9 44,1% 25,8% 18,30% D1 D10 53,1% 29,5% 23,60% D2 D3 42,4% 20,9% 21,50% D2 D4 91,7% 91,0% 0,70% D2 D5 45,7% 25,3% 20,40% D2 D6 40,2% 18,5% 21,70% D2 D7 73,5% 65,1% 8,40% D2 D8 83,7% 79,3% 4,40% D2 D9 91,7% 91,0% 0,70% D2 D10 73,5% 65,1% 8,40% D3 D4 44,6% 22,7% 21,90% D3 D5 51,6% 38,6% 13,00% D3 D6 78,4% 72,1% 6,30% D3 D7 46,8% 25,7% 21,10% D3 D8 44,8% 22,3% 22,50% D3 D9 44,6% 22,7% 21,90% D3 D10 46,8% 25,7% 21,10% D4 D5 46,1% 28,1% 18,00% D4 D6 42,6% 20,5% 22,10% D4 D7 74,0% 68,7% 5,30% D4 D8 86,7% 85,5% 1,20% D4 D9 100,0% 100,0% 0,00% D4 D10 74,0% 68,7% 5,30% D5 D6 46,5% 27,6% 18,90% D5 D7 52,5% 30,5% 22,00%

11 Jurnal Informatika dan Komputer PENS, Teknik Komputer Vol.2, No.2, 2015 D5 D8 46,9% 25,2% 21,70% D5 D9 46,1% 28,1% 18,00% D5 D10 52,5% 30,5% 22,00% D6 D7 43,9% 20,2% 23,70% D6 D8 41,9% 19,3% 22,60% D6 D9 42,6% 20,5% 22,10% D6 D10 43,9% 20,2% 23,70% D7 D8 76,6% 68,7% 7,90% D7 D9 74,0% 68,7% 5,30% D7 D10 100,0% 100,0% 0,00% D8 D9 86,7% 85,5% 1,20% D8 D10 76,6% 76,1% 0,50% D9 D10 74,0% 68,7% 5,30% 4. Kesimpulan dan Saran Berdasarkan hasil pengujian dan analisa yang dilakukan maka dapat diambil kesimpulan : 1. Rata-rata total waktu yang dibutuhkan untuk menyelesaikan proses pada tahap filtering untuk 10 dokumen adalah 2 menit 13 detik 2. Waktu yang dibutuhkan untuk proses pada tahap filtering bergantung pada banyaknya kata hasil tokenizing yang harus di proses karena perlu dilakukan pencocokan antara kata hasil tokenizing dengan daftar stopword dalam database 3. Rata-rata total waktu yang dibutuhkan untuk menyelesaikan proses pada tahap stemming dan tagging untuk 10 dokumen adalah 1 jam 30 menit 4. Proses stemming dan tagging membutuhkan waktu yang lama karena setiap kata hasil filtering dicocokkan dengan kamus bahasa Indonesia terlebih dahulu, jika tidak ditemukan dalam kamus, kemudian di proses untuk melakukan pengecekan terhadap possesive pronoun, suffix, dan prefix 5. Semakin banyak jumlah kata yang di proses, maka semakin lama waktu yang dibutuhkan untuk menyelesaikan proses filtering maupun proses stemming dan tagging 6. dokumen berbahasa Indonesia, proses tagging dijadikan dalam satu proses dengan stemming karena dalam bahasa Indonesia tidak terdapat kata lampau 7. Tahap analyzing dan keyword extraction memiliki output yang sama karena keduanya bertujuan untuk menghitung frekuensi kemunculan kata kunci dalam 1 dokumen Adapun saran yang diberikan oleh penulis untuk pengembangan aplikasi pendeteksi duplikasi ini, yaitu: 1. Proses stemming dan tagging membutuhkan waktu yang lama, sehingga dibutuhkan metode maupun teknik pemrograman yang lebih baik agar proses menjadi lebih cepat 2. Input sistem tidak hanya terbatas pada file.txt Referensi [1] Eko Nugroho. Perancangan Sistem Deteksi Plagiarisme Dokumen Teks dengan Menggunakan Algoritma Rabin Karp. Program Studi Ilmu Komputer, Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Brawijaya, Malang [2] Sandy Dewanto, Indriati, ST, M.Kom & Imam Cholissodin, S.Si, M.Kom. Deteksi Plagiarisme Dokumen Teks Menggunakan Algoritma Rabin-Karp dengan Synonym Recognition. Program Studi Ilmu Komputer, Program Teknologi Informaika dan Ilmu Komputer, Universitas Brawijaya Malang [3] I Wayan Surya Priantara, Diana Purwitasari & Umi Laili Yuhana. Implementasi Deteksi Penjiplakan dengan Algoritma Winnowing pada Dokumen Terkelompok. Teknik Informatika, Fakultas Teknologi Informasi, ITS [4] Mudafiq Riyan Pratama, Eko Budi Cahyono & Gita Indah Marthasari. Aplikasi Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia Menggunakan Algoritma Winnowing Dengan Metode K-Gram dan Synonym Recognition. Jurusan Teknik Informatika, Universitas Muhammadiyah Malang [5] Farid Thalib & Ratih Kusumawati. Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith- Waterman. Universitas Gunadarma. [6] Ali Ridho Barakbah. Introduction to Text Mining. Department of Information and Computer Engineering, Electronic Engineering Polytechnic Institute of Surabaya [7] Ali Ridho Barakbah. Clustering. Department of Information and Computer Engineering, Electronic Engineering Polytechnic Institute of Surabaya [8] Raymond J. Mooney. Text Mining. University of Texas, Austin [9] Mukani Nawi. Sistem Pengukuran Tingkat Similaritas Dokumen Menggunakan Algoritma Rabin-Karp dan Enhanced Confix Stripping Stemmer. Program Studi Teknik Informatika, Fakultas Teknik, Universitas Nusantara PGRI, Kediri [10] Arif Prasetiya. Penerapan Algoritma Boyer-Moore dan Algoritma Rabin-Karp dalam Mendeteksi Aksi Plagiarisme. Program Studi Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Bandung

TUGAS AKHIR. Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang. Oleh :

TUGAS AKHIR. Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang. Oleh : APLIKASI PENDETEKSI DUPLIKASI DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA WINNOWING SERTA PENGELOMPOKAN DOKUMEN DENGAN MENGGUNAKAN ALGORITMA FUZZY C-MEANS TUGAS AKHIR Sebagai Persyaratan Guna Meraih

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN 1.1 Latar Belakang Plagiarisme atau sering disebut plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah-olah karangan

Lebih terperinci

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x

Jurnal Coding, Sistem Komputer Untan Volume 04, No.1 (2016), hal ISSN : x APLIKASI PENDETEKSI PLAGIAT TERHADAP KARYA TULIS BERBASIS WEB MENGGUNAKAN NATURAL LANGUAGE PROCESSING DAN ALGORITMA KNUTH-MORRIS-PRATT [1] Rio Alamanda, [2] Cucu Suhery, [3] Yulrio Brianorman [1][2][3]

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme, kemiripan dokumen, dan

Lebih terperinci

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI)

ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI) ARTIKEL KLASIFIKASI KONTEN BERITA SURAT KABAR BERDASARKAN JUDUL DENGAN TEXT MINING MENGGUNAKAN METODE NAÏVE BAYES (STUDI KASUS : RADAR KEDIRI) Oleh: Enggal Suci Febriani 3..3..35 Dibimbing oleh :. Irwan

Lebih terperinci

BAB I PENDAHULUAN. dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan

BAB I PENDAHULUAN. dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan BAB I PENDAHULUAN 1.1 Latar Belakang Semakin berkembangnya teknologi informasi saat ini, dokumen digital dapat dengan mudah diduplikasi (Schleimer, Wilkerson, & Aiken, 2003). Dengan mudahnya duplikasi

Lebih terperinci

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL Nur Rosyid M, Entin Martiana, Damitha Vidyastana, Politeknik Elektronika

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi informasi dan komunikasi tidak hanya membawa dampak positif, tetapi juga membawa dampak negatif, salah satunya adalah tindakan plagiarisme (Kharisman,

Lebih terperinci

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif

BAB I PENDAHULUAN. berinovasi menciptakan suatu karya yang original. Dalam hal ini tindakan negatif 1 BAB I PENDAHULUAN I.1 Latar Belakang Pada dasarnya manusia menginginkan kemudahan Dalam segala hal. Sifat tersebut akan memicu tindakan negatif apabila dilatarbelakangi oleh motivasi untuk berbuat curang

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

IMPLEMENTASI ALGORITMA BOYER MOORE DAN METODE N-GRAM UNTUK APLIKASI AUTOCOMPLETE DAN AUTOCORRECT

IMPLEMENTASI ALGORITMA BOYER MOORE DAN METODE N-GRAM UNTUK APLIKASI AUTOCOMPLETE DAN AUTOCORRECT IMPLEMENTASI ALGORITMA BOYER MOORE DAN METODE N-GRAM UNTUK APLIKASI AUTOCOMPLETE DAN AUTOCORRECT TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Akademik Studi Strata Satu (S1) Teknik Informatika Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP

APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP APLIKASI STATISTIK PENDETEKSIAN PLAGIARISME DOKUMENT TEXT DENGAN ALGORITMA RABIN KARP Dedi Leman 1, Gunadi Widi Nurcahyo 2, Sarjon Defit 3 Teknik Informasi, Magister Komputer, Universitas Putra Indonesia

Lebih terperinci

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK

STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER ABSTRAK STEMMING DOKUMEN TEKS BAHASA INDONESIA MENGGUNAKAN ALGORITMA PORTER Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal Soedirman Jl. Mayjen Sungkono Blater Km

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh

PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP. Oleh PENGEMBANGAN APLIKASI PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA RABIN-KARP Oleh Kadek Versi Yana Yoga,0815051046 Jurusan Pendidikan Teknik Informatika Fakultas Teknik dan Kejuruan

Lebih terperinci

Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith-Waterman

Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith-Waterman Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith-Waterman Farid Thalib 1 dan Ratih Kusumawati 2 1 Laboratorium Sistem Komputer, Universitas Gunadarma, Depok -

Lebih terperinci

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP

APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP Inta Widiastuti 1, Cahya Rahmad 2, Yuri Ariyanto 3 1,2 Jurusan Elektro, Program Studi Teknik Informatika, Politeknik Negeri Malang

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Informasi saat ini berkembang sangat pesat, hal ini sangat mendukung terhadap kebutuhan manusia yang ingin serba cepat dan mudah dalam mendapatkan suatu informasi.

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM Laporan Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP

APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP Versi Online: https://journal.ubm.ac.id/index.php/alu Vol.I (No. 1 ) : 12-17. Th. 2018 ISSN: 2620-620X APLIKASI PENDETEKSI PLAGIARISME TUGAS DAN MAKALAH PADA SEKOLAH MENGGUNAKAN ALGORITMA RABIN KARP Plagiarisme

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM Pada pengembangan suatu sistem diperlukan analisis dan perancangan sistem yang tepat, sehingga proses pembuatan sistem dapat berjalan dengan lancar dan sesuai seperti

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

Rancang Bangun Sistem Pengelolaan Dokumen-dokumen Penting Menggunakan Text Mining

Rancang Bangun Sistem Pengelolaan Dokumen-dokumen Penting Menggunakan Text Mining Rancang Bangun Sistem Pengelolaan Dokumendokumen Penting Menggunakan Text Mining Ahmad Hatta A 1), Nana Ramadijanti, S.Kom, M.Kom 2), Afrida Helen, S.T., M.Kom 2) Mahasiswa 1, Dosen 2 Jurusan Teknik Informatika

Lebih terperinci

DETEKSI PLAGIARISME SOURCE CODE BERBASIS ABSTRACT SYNTAX TREE

DETEKSI PLAGIARISME SOURCE CODE BERBASIS ABSTRACT SYNTAX TREE DETEKSI PLAGIARISME SOURCE CODE BERBASIS ABSTRACT SYNTAX TREE TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang SETIYA PUTRA UTAMA 201210370311278

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

BAB 1 PENDAHULUAN. 1.1.Latar Belakang 7 BAB 1 PENDAHULUAN 1.1.Latar Belakang Saat ini informasi sangat mudah didapatkan terutama melalui media internet. Dengan banyaknya informasi yang terkumpul atau tersimpan dalam jumlah yang banyak, user

Lebih terperinci

BAB 1 PENDAHULUAN Pengantar

BAB 1 PENDAHULUAN Pengantar BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi

Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi Implementasi Algoritma Jaro-Winkler Distance Untuk Sistem Pendeteksi Plagiarisme Pada Dokumen Skripsi Panji Novantara* 1, Opin Pasruli 2 1,2 Fakultas Ilmu Komputer Universitas Kuningan * 1 panji@uniku.ac.id,

Lebih terperinci

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE

DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE DETEKSI SIMILARITAS DOKUMEN ABSTRAK TUGAS AKHIR MENGGUNAKAN METODE LEVENSHTEIN DISTANCE Abdul Najib 1), Karyo Budi Utomo 2) 1), 2) Jurusan Teknologi Informasi, Politeknik Negeri Samarinda Email: abdulnajib@polnes.ac.id

Lebih terperinci

IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK

IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK IMPLEMENTASI DETEKSI PENJIPLAKAN DENGAN ALGORITMA WINNOWING PADA DOKUMEN TERKELOMPOK 1 Tugas Akhir I Wayan Surya Priantara 5107100057 Dosen Pembimbing Diana Purwitasari, S.Kom., M.Sc. Umi Laili Yuhana,

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA

ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA ANALISIS PENGUKURAN SELF PLAGIARISM MENGGUNAKAN ALGORITMA RABIN-KARP DAN JARO-WINKLER DISTANCE DENGAN STEMMING TALA Jayanta 1), Halim Mahfud 2), Titin Pramiyati 3) 1), 3) Fakultas Ilmu Komputer UPN Veteran

Lebih terperinci

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN

JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN JURNAL PENERAPAN COMPLETE AND AVERAGE LINKAGE PADA PEMBENTUKAN RESEARCH GROUP DOSEN IMPLEMENTATION OF COMPLETE AND AVERAGE LINKAGE TO THE FORMATION FACULTY RESEARCH GROUP Oleh: DEVY SURYANINGTYAS 12.1.03.02.0366

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PENDAHULUAN I - 1

BAB I PENDAHULUAN I - 1 BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dunia pendidikan merupakan dunia yang memerlukan perhatian khusus karena pendidikan merupakan faktor yang sangat mempengaruhi kualitas para calon penerus bangsa

Lebih terperinci

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemanfaatan teknologi pada era globalisasi telah menjadi satu hal yang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang. Pemanfaatan teknologi pada era globalisasi telah menjadi satu hal yang BAB 1 PENDAHULUAN 1.1 Latar Belakang Pemanfaatan teknologi pada era globalisasi telah menjadi satu hal yang sangat penting dalam kehidupan sehari-hari. Beberapa pemanfaatan teknologi dalam kehidupan sehari-hari

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

Preprocessing Text Mining Pada Box Berbahasa Indonesia

Preprocessing Text Mining Pada  Box Berbahasa Indonesia Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Preprocessing Text Mining Pada Email Box Berbahasa Indonesia Gusti Ngurah Mega Nata 1), Putu Pande Yudiastra 2) STMIK STIKOM

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering

Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering Kestrilia Rega Prilianti Program Studi Teknik Informatika Universitas MaChung kestrilia@machung.ac.id ABSTRAK

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut sebagai Teks Data Mining (TDM) atau Knowledge Discovery in Text (KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining

BAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining 13 BAB 2 LANDASAN TEORI 2.1 Pengertian Text Mining Text Mining dapat juga diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari karta-kata yang merupakan perwakilan isi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA II.1 Plagiarisme II.1.1 Pengertian Plagiarisme Plagiarisme adalah tindakan penyalahgunaan, pencurian /perampasan, penerbitan, pernyataan, atau menyatakan sebagai milik sendiri

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari.

BAB I PENDAHULUAN. Inggris bahasa Madura Enggi Bunten. Madura yang digunakan untuk berkomunikasi dalam kehidupan seharihari. BAB I PENDAHULUAN 1.1. Latar Belakang Pertumbuhan ekonomi Jawa Timur yang sangat pesat membuat lahan industri semakin berkurang. Salah satu incaran pemerintah provinsi Jawa Timur untuk pengembangan industri

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Algoritma Rabin-Karp Algoritma Rabin-Karp adalah suatu algoritma pencarian string yang diciptakan Michael O. Rabin dan Richard M. Karp pada tahun 1987 yang menggunakan fungsi

Lebih terperinci

UNIVERSITAS BINA NUSANTARA

UNIVERSITAS BINA NUSANTARA UNIVERSITAS BINA NUSANTARA Program Ganda Teknik Informatika - Matematika Skripsi Sarjana Program Ganda Semester Ganjil 2005/2006 SKRIPSI PROGRAM GANDA UNIVERSITAS BINA NUSANTARA Sintiche Mayang Suwandi

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring dengan perkembangan teknologi informasi, maka proses dan media penyimpanan data pun semakin berkembang. Dengan adanya personal computer (PC), orang dapat menyimpan,

Lebih terperinci

BAB 3 ANALISA DAN PERANCANGAN

BAB 3 ANALISA DAN PERANCANGAN BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA)

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 49 RANCANG BANGUN APLIKASI CHATBOT INFORMASI OBJEK WISATA KOTA BANDUNG DENGAN PENDEKATAN NATURAL LANGUAGE PROCESSING Elisabet Nila S. C. P 1, Irawan Afrianto 2 1,2 Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pada zaman seperti sekarang ini, jurnal atau berita elektronik merupakan suatu bentuk hasil karya dari seseorang yang sudah familiar. Di dalam karyakarya tersebut

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB I PENDAHULUAN! 1.1 Latar Belakang

BAB I PENDAHULUAN! 1.1 Latar Belakang 1.1 Latar Belakang BAB I PENDAHULUAN Untuk dapat tetap bisa menjalankan proses bisnisnya dengan baik, suatu instansi harus memenuhi suatu standar dalam melayani keinginan konsumen atau yang biasa dikenal

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB I PENDAHULUAN 1.1 LATAR BELAKANG BAB I PENDAHULUAN Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah. 1.1 LATAR BELAKANG Perkembangan penggunaan informasi

Lebih terperinci

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.

PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA. PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Perkembangan teknologi informasi telah mampu mengubah persepsi manusia terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

Lebih terperinci

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2

APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY. Rahimi Fitri 1, Arifin Noor Asyikin 2 APLIKASI PENILAIAN UJIAN ESSAY OTOMATIS MENGGUNAKAN METODE COSINE SIMILARITY Rahimi Fitri 1, Arifin Noor Asyikin 2 mahaluddin@yahoo.com (1) Staf Pengajar Jurusan Teknik Elektro Politeknik Negeri Banjarmasin

Lebih terperinci

Oleh: ARIF DARMAWAN NIM

Oleh: ARIF DARMAWAN NIM APLIKASI PENGKLASIFIKASIAN DOKUMEN INFO PADA TWITTER MENGGUNAKAN ALGORITMA NAIVE BAYES TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

PENERAPAN ALGORITMA LATENT SEMANTIC INDEXING PADA CONTENT BASED IMAGE RETRIEVAL SYSTEM

PENERAPAN ALGORITMA LATENT SEMANTIC INDEXING PADA CONTENT BASED IMAGE RETRIEVAL SYSTEM PENERAPAN ALGORITMA LATENT SEMANTIC INDEXING PADA CONTENT BASED IMAGE RETRIEVAL SYSTEM Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya

Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya Materi 1 DATA MINING 3 SKS Semester 6 S1 Sistem Informasi UNIKOM 2015 Nizar Rabbi Radliya nizar.radliya@yahoo.com Nama Mahasiswa NIM Kelas 1. Memahami cakupan materi dan sistem perkuliahan Data Mining.

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

UKDW. Bab 1 PENDAHULUAN

UKDW. Bab 1 PENDAHULUAN Bab 1 PENDAHULUAN 1.1. Latar Belakang Masalah Pada dasarnya manusia menginginkan kemudahan dalam segala hal. Sifat tersebut akan memicu tindakan negatif apabila dilatar belakangi oleh motivasi untuk berbuat

Lebih terperinci

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME Anacostia Kowanda 1 Ika Pretty Siregar 2 Junior Lie 3 Nur Farida Irmawati 4 Detty Purnamasari 5 1,2,3,4 JurusanTeknik Informatika,

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci