1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh dan menyebarluaskan informasi yang menjadi mudah dilakukan dalam bentuk elektronis, baik yang berwujud teks, wicara, citra, ataupun video. Hal ini berakibat pada melimpahnya informasi, tetapi nilai yang dikandungnya tidak teruji dan tidak dapat dipertanggungjawabkan, bahkan berpotensi mengandung konten negatif, salah satunya dalam bentuk pornografi. Konten negatif yang disebarluaskan melalui media internet kini dapat dijangkau dengan mudah oleh berbagai kalangan pengguna internet. Sebuah survei bahkan mengungkapkan bahwa 64 persen pengguna internet berusia 10-19 tahun di Indonesia mengetahui keberadaan konten negatif di internet [1]. Upaya penanggulangan permasalahan konten negatif di internet salah satunya adalah melalui peraturan pemerintah. Di dalam Pasal 8 Peraturan Menteri Komunikasi dan Informatika Republik Indonesia (PERMENKOMINFO RI) Nomor 19 Tahun 2014 Tentang Penanganan Situs Internet Bemuatan Negatif disebutkan bahwa Penyelenggara Jasa Akses Internet (PJAI) diwajibkan melakukan pemblokiran terhadap situs-situs yang terdapat dalam TRUST+. Sistem TRUST+ merupakan sistem pemblokir situs negatif berbasis Uniform Resource Locator (URL). Sistem pemblokiran URL merupakan upaya pemblokiran translasi URL terhadap alamat Internet Protocol (IP) penyedia situs negatif dalam Domain Name Service (DNS). Cara ini kurang ekfektif karena jumlah dan ragam situs negatif terus bertambah, sehingga menyulitkan upaya penapisan secara keseluruhan. Selain itu, peraturan ini hanya berlaku pada penyelenggara akses internet Indonesia. Dengan demikian, jika pengguna internet menggunakan DNS luar negeri, maka situs negatif 1

tetap dapat diakses. Untuk menanggulangi masalah tersebut, sistem penapis yang bekerja melalui pengenalan konten dengan memanfaatkan algoritme klasifikasi machine learning telah banyak diteliti. Beberapa penelitian menggunakan fitur teks [2] [4], gambar [3], [5] atau video [6] yang terkandung dalam halaman web untuk mendeteksi kandungan negatif. Klasifikasi teks memiliki peran penting pada beberapa penelitian sebagai pendeteksi awal keberadaan konten negatif [2], [5], [7]. Oleh karena itu, penelitian ini berupaya mengeksplorasi lebih jauh penggunaan klasifikasi teks dalam mengenali konten negatif. Proses klasifikasi teks secara umum dapat dibagi menjadi tahap ekstraksi fitur dan klasifikasi. Ekstraksi fitur terdiri dari tahap pra-proses, indexing, pembobotan, dan seleksi fitur. Ekstaksi fitur teks merupakan tahap yang penting dalam klasifikasi teks. Ekstraksi fitur berperan menentukan fitur mana yang akan digunakan oleh teknik klasifikasi dan fitur mana yang diabaikan. Kebanyakan penelitian melakukan ekstraksi fitur secara terurut. Tahap praproses, indexing, pembobotan, dan seleksi fitur dilakukan secara berurutan. Hal tersebut mengakibatkan tahap pra-proses, khususnya proses tokenisasi (pemotongan teks menjadi kumpulan fitur) dilakukan secara unsupervised. Dalam proses tokenisasi unsupervised, semua fitur yang mungkin akan diambil untuk diproses. Hal ini mengakibatkan metode tokenisasi yang lebih maju seperti n-gram, char-n-gram [8], atau skip-gram [9] menghasilkan jumlah fitur yang besar, padahal tidak semua fitur tersebut signifikan untuk proses klasifikasi. Jumlah fitur yang besar mengakibatkan dihasilkannya dimensi vektor kata yang besar (high dimensionality word vector). Hal ini dapat membebani proses komputasi baik pada saat dilakukannya pra-proses, maupun proses-proses selanjutnya (indexing, pembobotan dan seleksi fitur). Di lain pihak, penambahan fitur n-gram yang relevan dapat meningkatkan performa klasifikasi teks [10]. Oleh karena itu, diperlukan suatu mekanisme pra-proses yang supervised. 2

Hal ini bermanfaat untuk menggali fitur n-gram yang relevan sekaligus menghindari dihasilkannya dimensi vektor kata yang besar. Mekanisme supervised dapat dilakukan dengan proses ekstraksi fitur yang dilakukan secara selektif dengan mengekstrak fitur n-gram (n>1) yang salah satu fitur penyusunnya relevan terhadap klasifikasi [11]. Sebagai contoh dalam kasus klasifikasi konten negatif, fitur yang relevan seperti sex, adult, free, dan lain-lain merupakan fitur penyusun yang dapat digunakan. Namun demikian, fitur yang relevan bergantung pada kasus klasifikasi. Oleh karenanya, setiap kasus klasifikasi yang berbeda memerlukan fitur penyusun relevan yang berbeda pula. Selain ekstraksi fitur-fitur n-gram, pembobotan fitur, yaitu pemberian bobot kepada fitur sesuai dengan signifikansinya, merupakan tahap yang dapat dieksplorasi untuk meningkatkan performa klasifikasi. Pembobotan yang umum digunakan, Term Frequency Inverse Document Frequency (TF-IDF), hanya mempertimbangkan parameter frekuensi kemunculan fitur dalam dokumen dan jumlah dokumen yang mengandung fitur tersebut. Padahal, dalam proses klasifikasi terdapat informasi lain yang dapat dimanfaatkan: - frekuensi kemunculan fitur dalam setiap kelas, - distribusi kemunculan fitur dalam setiap kelas, dan - jumlah dokumen pada setiap kelas. Pertimbangan informasi tersebut dapat dimanfaatkan untuk meningkatkan faktor pembeda yang pada akhirnya dapat meningkatkan performa model klasifikasi. Beberapa metode pembobotan yang menggunkan informasi tersebut diantaranya Term Frequency Inverse Document Frequency Inverse Class Density (TF-IDF-ICD) [12] dan Term Frequency Relevance Factor (TF-RF) [13]. Namun demikian, performa sebuah model tidak hanya bergantung pada satu faktor, melainkan berbagai faktor, termasuk koleksi data. Oleh karena itu, model klasifikasi perlu diuji pada data yang digunakan pada penelitian ini. 1.2 Perumusan masalah Berdasarkan latar belakang di atas, permasalahan yang dihadapi pada 3

penelitian klasifikasi konten negatif berbasis teks adalah sebagai berikut. 1. Teknik ekstraksi fitur n-gram terkini menghasilkan jumlah fitur yang besar sehingga membutuhkan waktu eksekusi tambahan. Di lain pihak, penggunaan fitur n-gram yang relevan dapat meningkatkan performa klasifikasi teks. 2. Konsep TF-IDF yang umum digunakan untuk pembobotan pada klasifikasi teks hanya mempertimbangkan parameter frekuensi kemunculan fitur dalam dokumen dan jumlah dokumen yang mengandung fitur tersebut. Sementara itu, informasi intra dan inter kelas yang berpotensi meningkatkan performa klasifikasi tidak dilibatkan dalam perhitungan bobot. 1.3 Keaslian penelitian Penelitian ini merupakan kelanjutan dari penelitian System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model [4] dan The Classification Process of Indonesian Pornographic Texts Based on Machine Learning [14]. Penelitian ini berupaya mengembangkan dan menguji teknik ekstraksi selektif dan pembobotan fitur untuk meningkatkan performa klasifikasi teks, serta menguji signifikansi teknik-teknik tersebut terhadap data teks berkandungan negatif. Beberapa penelitian mengenai klasifikasi konten teks untuk penapis konten teks lainnya dapat diamati dalam Tabel 1.1. 4

Tabel 1.1 Penelitian Terkait No Peneliti Judul Penelitian Tujuan Hasil dan Kesimpulan Terkait 1 Abidin dkk. (2014) 2 Johannes F. 3 Polpinij dkk. (2008) 4 Ren dkk. (2013) 5 Lan (2008) 6 Dan dkk. (2013) System of Negative Indonesian Website Detection Using TF- IDF and Vector Space Model A Study Using n-gram Features for Text Categorization A Web Pornography Patrol System by Content-based Analysis: In Particular Text and Images Class-indexing-based term weighting for automatic text classification Supervised and Traditional Term Weighting Methods for Automatic Text Categorization Research of Text Categorization on Weka Membangun sistem pendeteksi konten teks negatif pada data berbahasa Indonesia. Mempelajari efek penggunaan fitur n- gram pada performa kategorisasi teks. Membangun sistem penapis situs negatif berbasis analisis kandungan teks dan gambar. Mengembangkan dan menguji metode pembobot fitur TF-IDF-ICD (Term Frequency Inverse Document Frequency Inverse Class Density). Mengembangkan dan menguji metode pembobot fitur TF-RF (Term Frequency Relevance Factor). Membandingkan beberapa algoritme klasifikasi untuk data teks. Dibutuhkannya penanganan pada fitur yang dikamuflasekan dan dibutuhkannya ekstraksi fitur n-gram yang disertai dengan reduksi jumlah fitur untuk peningkatan performa klasifikasi. Penggunaan fitur 2-gram dan 3-gram bermanfaat untuk peningkatan performa kategorisasi. Di lain pihak, penggunaan n-gram degan n>3 justru mengurangi performa kategorisasi. Penggunaan model probabilistik ekstraksi fitur n-gram dan algoritme SVM pada klasifikasi teks efektif dalam mengklasifikasikan situs negatif. TF-IDF-ICD secara konsisten dan signifikan memiliki performa lebih baik dibandingkan dengan metode pembobot fitur supervised lainnya. TF-RF secara konsisten dan signifikan memiliki performa lebih baik dibandingkan dengan metode pembobot fitur supervised lainnya. SVM dan Naïve Bayes memiliki performa yang lebih baik dibandingkan metode lain. Performa klasifikasi juga dipengaruhi oleh corpus category/class (kondisi data). 5

Berdasarkan Tabel 1.1 diungkapkan bahwa kebutuhan fitur n-gram untuk dilibatkan dalam proses klasifikasi untuk peningkatkan performa klasifikasi bergantung pada data yang digunakan. Penelitian sebelumnya hanya menggunakan fitur 1-1-gram (uni-gram) [4]. Berdasarkan penelitian yang lebih lanjut pada kasus tersebut, fitur n-gram perlu dilibatkan untuk meningkatkan performa klasifikasi [14]. Ekstraksi fitur n-gram umumnya dilakukan secara unsupervised [15], sehinggga berdampak pada dihasilkannya dimensi tinggi vektor kata dan bertambahnya waktu eksekusi. Ada cara untuk melakukan ekstraksi n-gram secara terpilih melalui model probabilistik [11]. Pada cara ini, fitur n-gram penting yang diekstrak adalah fitur yang memiliki kandungan kata yang relevan terhadap kasus klasifikasi berdasarkan model probabilistik. Akan tetapi cara tersebut tetap memerlukan waktu eksekusi yang tinggi. Metode ekstraksi fitur selektif yang diajukan dalam karya ini melakukan proses ekstraksi secara bertingkat. Fitur-fitur 1-1-gram terlebih dahulu diekstrak untuk mencari fitur-fitur yang relevan terhadap kasus klasifikasi. Fitur n-gram kemudian diekstrak secara supervised dengan panduan fitur-fitur 1-1-gram yang relevan tersebut. Pembobot fitur TF-IDF yang digunakan penelitian sebelumnya tidak menggunakan informasi klasifikasi [14]. Pembobotan yang memperhatikan informasi tersebut dua diantaranya adalah TF-RF [13] dan TF-IDF-ICD [12]. TF- RF berupaya meningkatkan bobot fitur-fitur yang kemunculannya di kelas yang dideteksi dominan terhadap kelas lainnya. TF-IDF-ICD berupaya mengamati kerapatan/densitas kemunculan setiap fitur di setiap kelas untuk menentukan bobot fitur tersebut. Penelitian ini berupaya mengamati signifikansi pengaruh penggunaan metode-metode pembobot tersebut terhadap performa klasifikasi. 1.4 Tujuan Penelitian Berdasarkan permasalahan yang dihadapi, tujuan penelitian ini dapat dirumuskan sebagai berikut. 1. Mengembangkan metode ekstraksi fitur selektif untuk mengekstrak fitur n- 6

gram dengan mengurangi kebutuhan waktu eksekusi tambahan dan menguji signifikansi pengaruhnya terhadap peforma klasifikasi. 2. Mengimplementasikan metode pembobot fitur TF-RF [13] dan TF-IDF- ICD [12] yang memperhatikan informasi intra dan inter kelas serta menguji signifikansi pengaruhnya terhadap performa klasifikasi. 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah menghasilkan metode ekstraksi selektif fitur teks yang dapat digunakan dalam proses klasifikasi teks negatif. Penelitian ini berupaya menunjukkan signifikansi pengaruh penggunaan metode tersebut terhadap performa klasifikasi teks serta menunjukkan perbedaan waktu eksekusi metode tersebut dibandingkan metode sejenis lainnya. Manfaat lain dari penelitian ini adalah menguji metode-metode pembobot fitur yang memperhatikan kelas, yaitu TF-RF dan TF-IDF-ICD. Penelitian ini berupaya menguji signifikansi pengaruh penggunaan metode-metode pembobot fitur tersebut terhadap performa klasifikasi teks. Dengan demikian penelitian ini dapat dijadikan rujukan untuk penelitianpenelitian klasifikasi teks lainnya. 7