BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

dokumen-dokumen yang mirip
1 BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB III METODE PENELITIAN

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

ISSN: Akhmad Pandhu Wijaya 1, Heru Agus Santoso 2

BAB 1 PENDAHULUAN 1.1. Latar belakang

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

1.5 Metode Penelitian

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB I PENDAHULUAN. Gambar 1.1. Grafik jumlah pengguna internet di Indonesia tahun versi APJII

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. informasi bagi mereka peserta didik. Tapi ada materi-materi yang tidak baik

BAB II TINJAUAN PUSTAKA

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI OPINI PADA DATA TWITTER DENGAN EKSPASI QUERY MENGGUNAKAN PENDEKATAN SINONIM

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB 1 PENDAHULUAN Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB I PENDAHULUAN. d) suku, agama, ras dan antargolongan (SARA), dan/ atau,

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB IV HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID SOFTWARE APPLICATION

PENDAHULUAN. I.1 Latar Belakang

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

Integrated Porn Autocensor Aplikasi Penyensoran Dokumen Bermuatan Porno Berbasis Citra Dan Teks

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PEMBANGUNAN TWEET AGGREGATOR DENGAN MENGGUNAKAN METODE NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. saat ini semakin meningkat, terutama pada jaringan internet (interconection

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

BAB I PENDAHULUAN I-1

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Transkripsi:

BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan dan penyebaran informasi yang menjadi mudah dilakukan dalam bentuk elektronis, baik yang berwujud teks, wicara, citra, ataupun video. Hal ini mengakibatkan informasi menjadi berlimpah tetapi nilai informasi yang dikandungnya tidak teruji dan sulit dipertanggungjawabkan, bahkan berpotensi mengandung unsur negatif, salah satunya dalam bentuk pornografi. Seiring berjalannya waktu, masalah pornografi semakin sulit diatasi dan semakin banyak ekspos pornografi kepada pengguna internet. Survey menunjukkan bahwa 64 persen pengguna internet berusia 10 sampai dengan 19 tahun di Indonesia mengetahui keberadaan konten pornografi di internet (KOMINFO dan UNICEF, 2014). Di Indonesia terdapat beberapa upaya yang telah dilakukan untuk menanggulangi masalah pornografi di internet, salah satunya adalah melalui peraturan pemerintah. Di dalam Pasal 1 Peraturan Menteri Komunikasi dan Informatika Republik Indonesia (PERMENKOMINFO RI) Nomor 19 Tahun 2014 Tentang Penanganan Situs Internet Bemuatan Negatif dijelaskan bahwa jenis situs internet yang ditangani adalah situs yang mengandung pornografi dan kegiatan 1

2 ilegal lainnya berdasarkan peraturan perundang-undangan. Serta di dalam Pasal 8 dijelaskan bahwa Penyelenggara Jasa Akses Internet (PJAI) wajib melakukan pemblokiran terhadap situs-situs yang terdapat dalam TRUST+. Sistem TRUST+ menerapkan mekanisme kerja dengan menyediakan server pusat yang akan menjadi acuan dan rujukan kepada seluruh layanan akses informasi publik (fasilitas bersama), serta menerima informasi-informasi dari fasilitas akses informasi publik untuk menjadi alat analisis dan profiling penggunaan internet di Indonesia dengan melakukan perlindungan terhadap top level domain, Uniform Resource Locator (URL), dan konten. Perlindungan terhadap URL tidak lain adalah upaya pemblokiran translasi URL situs bermuatan negatif terhadap alamat Internet Protocol (IP) penyedia dalam Domain Name Service (DNS). Akan tetapi, jumlah situs yang mengandung unsur pornografi terus berkembang. Selain itu, peraturan ini hanya berlaku pada penyelenggara akses internet Indonesia. Dengan demikian, apabila pengguna internet menggunakan DNS luar negeri, maka situs porno tetap dapat diakses. Dengan adanya kelemahan tersebut, maka perlu dilakukan upaya pemblokiran situs porno melalui proses pengenalan konten situs web secara otomatis dimana komputer memiliki kemampuan mengenali dan mengklasifikasikan konten yang mengandung pornografi, baik konten visual, teks, ataupun kombinasi keduanya. Pengklasifikasian berbasis teks merupakan hal yang penting dalam proses klasifikasi konten pornografi. Hal ini karena dalam beberapa penelitian terdahulu, klasifikasi teks merupakan deteksi awal kandungan konten pornografi (Du, 2003; Hu, 2007; Ahmadi, 2011). Bahkan, dalam penelitian lain, klasifikasi teks menjadi

3 proses tunggal untuk pengenalan dan penapisan konten pornografi (Abidin, 2014). Akan tetapi, klasifikasi teks bergantung pada Bahasa yang digunakan. Penelitian klasifikasi konten teks berbahasa Indonesia yang telah dilakukan sebelumnya dilakukan oleh Abidin (2014). Abidin (2014) membangun sistem penapis konten pornografi dalam situs web Bahasa Indonesia berbasis klasifikasi teks dengan metode Vector Space Model (VSM) dan Term Frequency Inverse Document Frequency (TF-IDF). Hasil pengujian menunjukkan 82.80% situs web yang mengandung pornografi berhasil tertapis. Untuk meningkatkan akurasi, Abidin menyarankan upaya peningkatan model klasifikasi dengan penggunaan metode tokenisasi n-gram dan reduksi term dalam pra-proses teks. Namun demikian, akurasi klasifikasi teks dipengaruhi oleh banyak faktor, diantaranya koleksi data (Korde & Mahender, 2012), corpus category (Dan, 2013), pemilihan metode pra-proses, seleksi fitur, jumlah term atau kata yang digunakan (García Adeva, 2014) dan pemilihan algoritme klasifikasi. Oleh karena itu, pada penelitian ini akan dicari kombinasi proses klasifikasi yang menghasilkan akurasi terbaik pada kasus klasifikasi konten pornografi berbasis teks Bahasa Indonesia. Proses klasifikasi yang dimaksud dalam penelitian ini adalah kombinasi kerja antara metode pra-proses dan metode klasifikasi. Metode klasifikasi yang populer dan menunjukkan akurasi yang tinggi dalam kasus klasifikasi teks diantaranya adalah Naïve Bayes Classifier (NBC) dan Support Vector Machine (SVM). Oleh karena itu, dalam penelitian ini dilakukan pengujian beberapa metode pra-proses dan metode SVM dan NBC.

4 1.2. Rumusan Masalah Berdasarkan paparan pada bagian latar belakang, maka rumusan masalah pada penelitian ini adalah sebagai berikut: 1. Akurasi klasifikasi yang belum tinggi pada klasifikasi konten pornografi berbahasa Indonesia berbasis teks. 2. Belum dieksplorasinya proses-proses pra-proses dan pemilihan metode klasifikasi yang digunakan untuk klasifikasi teks pornografi berbahasa Indonesia. 1.3. Batasan Masalah Beberapa batasan yang dilakukan dalam penelitian ini adalah sebagai berikut: 1. batasan subyek penelitian, menggunakan kumpulan teks Bahasa Indonesia hasil ekstraksi dari situs-situs web yang telah digunakan pada penelitian Content Filtering oleh Abidin (2014), dan 2. batasan sistem, penelitian menggunakan perangkat lunak Weka versi 3.6.11 untuk pengolahan dan analisis data. Metode klasifikasi yang digunakan adalah Support Vector Machine (SVM) dengan kernel polinomial dan Naïve Bayes Classifier (NBC). 1.4. Pertanyaan Penelitian 1. Bagaimana penerapan metode SVM dan NBC pada proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi?

5 2. Apakah penggunaan metode tokenisasi yang berbeda dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi? 3. Apakah penggunaan metode tokenisasi dan nilai C yang berbeda pada SVM dan NBC dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi? 4. Apakah penggunaan metode tokenisasi, nilai C pada SVM dan NBC, dan stop word list yang berbeda dapat mempengaruhi proses klasifikasi teks berbahasa Indonesia yang mengandung pornografi? 1.5. Tujuan Penelitian Tujuan dilakukannya penelitian ini adalah sebagai berikut: 1. mempelajari penerapan metode SVM dan NBC pada klasifikasi teks pada kasus klasifikasi teks Bahasa Indonesia yang mengandung konten pornografi, 2. melakukan analisis performa dan mengetahui tingkat akurasi algoritme SVM dan NBC dalam klasifikasi teks Bahasa Indonesia yang mengandung konten ponografi, dan 3. mengetahui pengaruh penggunaan metode-metode pra-proses dan nilai C yang digunakan terhadap akurasi klasifikasi menggunakan SVM dan NBC. 1.6. Manfaat Penelitian Penelitian ini diharapkan dapat menjadi dasar dalam pengembangan sistem pengklasifikasi teks yang mengandung unsur pornografi yang lebih akurat. Keberadaan sistem pengklasifikasi teks pornografi diharapkan dapat menjadi tapis

6 dari situs yang berisi konten pornografi baik yang berjalan di mesin client maupun berbasis proxy. Hasil penelitian ini diharapkan pula dapat dijadikan sebagai dasar dan pertimbangan dalam penelitian-penelitian yang terkait klasifikasi teks di masa depan. 1.7. Keaslian Penelitian Penelitian ini merupakan kelanjutan dari penelitian System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model yang telah dilakukan oleh Abidin (2014). Penilitian tersebut menggunakan metode TF-IDF dan Vector Space Model (VSM). Penelitian tersebut telah memperoleh akurasi klasifikasi sebesar 82.80%. Penelitian ini berupaya menghasilkan model klasifikasi terbaik yang merupakan kombinasi dari metode pra-proses dan metode klasifikasi yang digunakan. Beberapa penelitian mengenai klasifikasi konten teks untuk penapis konten pornografi lainnya dapat diamati dalam Tabel 1.1.

7 Tabel 1.1 Ringkasan Penelitian Tentang Klasifikasi Teks Pornografi No Peneliti Judul Penelitian Metode Data Hasil 1 Hu dkk. Recognition of - C4.5 decision tree untuk - Klasifikasi continuous pages : 300 Hasil akurasi klasifikasi: (2007) Pornographic Web mengklasifikasikan halaman web teks porno, 300 teks terkait seks, dan - 99.3% untuk klasifikasi continuous Pages by kedalam continuous text pages, 1000 teks normal pages Classifying Texts discrete pages, dan image pages. - Klasifikasi discrete pages : 1000-91.6% untuk klasifikasi discrete text and Images - SVM untuk klasifikasi continuous text pages. - NBC untuk klasifikasi discrete pages. teks porno dan 2000 teks normal 2 Polpinij dkk. (2008) 3 Ahmadi dkk. (2011) A Web Pornography Patrol System by Content-based Analysis: In Particular Text and Images Intelligent classification of web pages using contextual and visual features Naïve Bayes Classifier (NBC) dan Support Vector Machines (SVM). Iterative Dichotomiser 3 (ID3) classifier. - 1,200 halaman web berbahasa Thailand dan 1,200 halaman web berbahasa Inggris. - 800 halaman untuk training dan 400 halaman untuk testing. 1072 halaman berbahasa Inggris dan 223 halaman berbahasa Persia. Dataset tersebut terdiri dari 700 halaman yang mengandung konten imoral, dan sisanya 595 halaman normal. NBC menghasilkan akurasi 97,83% dibandingkan SVM yang memperoleh akurasi 95% pada klasifikasi Bahasa Thailand. Sedangkan pada klasifikasi Bahasa Inggris, SVM menghasilkan akurasi 100% dibandingkan NBC yang menghasilkan akurasi 98%. Hasil pengujian menunjukkan 89% konten teks imoral berhasil ditapis dan 78% normal diizinkan. Pada penelitian tersebut terjadi over blocking sebesar 22%.

8 4 Dan dkk. (2013) 5 Abidin dkk. (2014) Research of Text Categorizatiom on Weka System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model NBC, SVM, dan Decision Tree. Metode TF-IDF sebagai pembobot fitur dan Vector Space Model. Data teks dari topik seni, komputer, pertanian, ekonomi, politik, dan olahraga. 193 data porno, dan 193 data tidak porno Bahasa Indonesia. Data tersebut dibagi menjadi 100 data latih dan 183 data uji. Dan (2013) menyimpulkan bahwa performa klasifikasi tidak hanya dipengaruhi oleh algoritme klasifikasi, tetapi juga oleh kedekatan corpus category. Akurasi yang dihasilkan pada penelitian tersebut adalah 82.80%. Akurasi pada penelitian tersebut dipengaruhi oleh misspelling secara sengaja berupa penggunaan kata kamuflase

9 Berdasarkan penelitian-penelitian terdahulu mengenai klasifikasi teks di atas, dapat disimpulkan bahwa kebanyakan menggunakan tokenisasi unigram pada proses tokenisasi, kemudian menerapkan metode klasifikasi Support Vector Machine (SVM) dan Naïve Bayes Classifier (NBC). Selain itu, kasus klasifikasi teks kebanyakan diterapkan pada bahasa asing, khususnya Bahasa Inggris. Oleh Karena itu, Abidin (2014) membangun sistem penapis konten pornografi berbahasa Indonesia berbasis klasifikasi. Namun demikian, akurasi yang dihasilkan perlu ditingkatkan. Penelitian ini melanjutkan penelitian tersebut dengan mencari kombinasi metode pra-proses dan metode klasifikasi terbaik menggunakan SVM dan NBC dalam rangka peningkatan akurasi klasifikasi. 1.8. Sistematika Penulisan Dalam penulisan laporan tugas akhir ini, penulis menggunakan sistematika untuk memperjelas keseluruhan isi dari penelitian. Adapun sistematika penulisan adalah sebagai berikut: BAB 1: PENDAHULUAN Bab ini menjelaskan latar belakang, rumusan masalah, batasan, dan manfaat dilakukannya penelitian klasifikasi teks yang mengandung pornografi, serta keterkaitan dengan penelitian lainnya. BAB II: TINJAUAN PUSTAKA DAN DASAR TEORI Bab ini menjelaskan tinjauan pustaka mengenai klasifikasi teks pornografi, skema pra-proses teks mencakup metode tokenisasi dan stemming, metode term weighting dan klasifikasi. Bab ini juga memaparkan teori-teori tentang pornografi, proses

10 klasifikasi teks, skema pra-proses, metode term weighting TF-IDF (Term Frequency Inverse Document Frequency), serta algoritme klasifikasi yang digunakan, yaitu SVM dan NBC. BAB III: METODE PENELITIAN Bab ini menjelaskan metode yang digunakan dalam penelitian, meliputi langkah kerja, alat dan bahan, serta alur penelitian klasifikasi teks pornografi. BAB IV: HASIL DAN PEMBAHASAN Bab ini memaparkan hasil penelitian klasifikasi teks pornografi beserta dengan pembahasannya. BAB V: KESIMPULAN DAN SARAN Bab ini berisikan kesimpulan akhir dari penelitian yang dilakukan dan saran untuk perkembangan penelitian klasifikasi teks pornografi lebih lanjut.