1 BAB I PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

1BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB III METODE PENELITIAN

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB 1 PENDAHULUAN Latar Belakang

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

ISSN: Akhmad Pandhu Wijaya 1, Heru Agus Santoso 2

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB 1 PENDAHULUAN UKDW

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

BAB 1 PENDAHULUAN UKDW

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

PENDAHULUAN. I.1 Latar Belakang

BAB 1 PENDAHULUAN 1.1. Latar belakang

ISSN SUPPORT VECTOR MACHINE PADA INFORMATION RETRIEVAL. Oleh....(I Ketut Purnamawan)

BAB II LANDASAN TEORI

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

PENDAHULUAN. Latar belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

V HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB II TINJAUAN PUSTAKA

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PRESENTASI TUGAS AKHIR KI091391

BAB III METODELOGI PENELITIAN

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. sehari-hari seiring dengan perkembangan teknologi aksesnya pada perangkat

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

Gambar 1.1 Proses Text Mining [7]

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB I PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB I PENDAHULUAN

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Document Indexing dan Term Weighting. M. Ali Fauzi

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Rancang Bangun Modul Pengelompokan Dokumen Pada Sistem Manajemen Dokumen Kepegawaian

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. Gambar 1.1. Grafik jumlah pengguna internet di Indonesia tahun versi APJII

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

RANCANG BANGUN ADD-ONS MOZILLA FIREFOX UNTUK IDENTIFIKASI TOPIK PADA MATERI BELAJAR ONLINE

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

Transkripsi:

1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh dan menyebarluaskan informasi yang menjadi mudah dilakukan dalam bentuk elektronis, baik yang berwujud teks, wicara, citra, ataupun video. Hal ini berakibat pada melimpahnya informasi, tetapi nilai yang dikandungnya tidak teruji dan tidak dapat dipertanggungjawabkan, bahkan berpotensi mengandung konten negatif, salah satunya dalam bentuk pornografi. Konten negatif yang disebarluaskan melalui media internet kini dapat dijangkau dengan mudah oleh berbagai kalangan pengguna internet. Sebuah survei bahkan mengungkapkan bahwa 64 persen pengguna internet berusia 10-19 tahun di Indonesia mengetahui keberadaan konten negatif di internet [1]. Upaya penanggulangan permasalahan konten negatif di internet salah satunya adalah melalui peraturan pemerintah. Di dalam Pasal 8 Peraturan Menteri Komunikasi dan Informatika Republik Indonesia (PERMENKOMINFO RI) Nomor 19 Tahun 2014 Tentang Penanganan Situs Internet Bemuatan Negatif disebutkan bahwa Penyelenggara Jasa Akses Internet (PJAI) diwajibkan melakukan pemblokiran terhadap situs-situs yang terdapat dalam TRUST+. Sistem TRUST+ merupakan sistem pemblokir situs negatif berbasis Uniform Resource Locator (URL). Sistem pemblokiran URL merupakan upaya pemblokiran translasi URL terhadap alamat Internet Protocol (IP) penyedia situs negatif dalam Domain Name Service (DNS). Cara ini kurang ekfektif karena jumlah dan ragam situs negatif terus bertambah, sehingga menyulitkan upaya penapisan secara keseluruhan. Selain itu, peraturan ini hanya berlaku pada penyelenggara akses internet Indonesia. Dengan demikian, jika pengguna internet menggunakan DNS luar negeri, maka situs negatif 1

tetap dapat diakses. Untuk menanggulangi masalah tersebut, sistem penapis yang bekerja melalui pengenalan konten dengan memanfaatkan algoritme klasifikasi machine learning telah banyak diteliti. Beberapa penelitian menggunakan fitur teks [2] [4], gambar [3], [5] atau video [6] yang terkandung dalam halaman web untuk mendeteksi kandungan negatif. Klasifikasi teks memiliki peran penting pada beberapa penelitian sebagai pendeteksi awal keberadaan konten negatif [2], [5], [7]. Oleh karena itu, penelitian ini berupaya mengeksplorasi lebih jauh penggunaan klasifikasi teks dalam mengenali konten negatif. Proses klasifikasi teks secara umum dapat dibagi menjadi tahap ekstraksi fitur dan klasifikasi. Ekstraksi fitur terdiri dari tahap pra-proses, indexing, pembobotan, dan seleksi fitur. Ekstaksi fitur teks merupakan tahap yang penting dalam klasifikasi teks. Ekstraksi fitur berperan menentukan fitur mana yang akan digunakan oleh teknik klasifikasi dan fitur mana yang diabaikan. Kebanyakan penelitian melakukan ekstraksi fitur secara terurut. Tahap praproses, indexing, pembobotan, dan seleksi fitur dilakukan secara berurutan. Hal tersebut mengakibatkan tahap pra-proses, khususnya proses tokenisasi (pemotongan teks menjadi kumpulan fitur) dilakukan secara unsupervised. Dalam proses tokenisasi unsupervised, semua fitur yang mungkin akan diambil untuk diproses. Hal ini mengakibatkan metode tokenisasi yang lebih maju seperti n-gram, char-n-gram [8], atau skip-gram [9] menghasilkan jumlah fitur yang besar, padahal tidak semua fitur tersebut signifikan untuk proses klasifikasi. Jumlah fitur yang besar mengakibatkan dihasilkannya dimensi vektor kata yang besar (high dimensionality word vector). Hal ini dapat membebani proses komputasi baik pada saat dilakukannya pra-proses, maupun proses-proses selanjutnya (indexing, pembobotan dan seleksi fitur). Di lain pihak, penambahan fitur n-gram yang relevan dapat meningkatkan performa klasifikasi teks [10]. Oleh karena itu, diperlukan suatu mekanisme pra-proses yang supervised. 2

Hal ini bermanfaat untuk menggali fitur n-gram yang relevan sekaligus menghindari dihasilkannya dimensi vektor kata yang besar. Mekanisme supervised dapat dilakukan dengan proses ekstraksi fitur yang dilakukan secara selektif dengan mengekstrak fitur n-gram (n>1) yang salah satu fitur penyusunnya relevan terhadap klasifikasi [11]. Sebagai contoh dalam kasus klasifikasi konten negatif, fitur yang relevan seperti sex, adult, free, dan lain-lain merupakan fitur penyusun yang dapat digunakan. Namun demikian, fitur yang relevan bergantung pada kasus klasifikasi. Oleh karenanya, setiap kasus klasifikasi yang berbeda memerlukan fitur penyusun relevan yang berbeda pula. Selain ekstraksi fitur-fitur n-gram, pembobotan fitur, yaitu pemberian bobot kepada fitur sesuai dengan signifikansinya, merupakan tahap yang dapat dieksplorasi untuk meningkatkan performa klasifikasi. Pembobotan yang umum digunakan, Term Frequency Inverse Document Frequency (TF-IDF), hanya mempertimbangkan parameter frekuensi kemunculan fitur dalam dokumen dan jumlah dokumen yang mengandung fitur tersebut. Padahal, dalam proses klasifikasi terdapat informasi lain yang dapat dimanfaatkan: - frekuensi kemunculan fitur dalam setiap kelas, - distribusi kemunculan fitur dalam setiap kelas, dan - jumlah dokumen pada setiap kelas. Pertimbangan informasi tersebut dapat dimanfaatkan untuk meningkatkan faktor pembeda yang pada akhirnya dapat meningkatkan performa model klasifikasi. Beberapa metode pembobotan yang menggunkan informasi tersebut diantaranya Term Frequency Inverse Document Frequency Inverse Class Density (TF-IDF-ICD) [12] dan Term Frequency Relevance Factor (TF-RF) [13]. Namun demikian, performa sebuah model tidak hanya bergantung pada satu faktor, melainkan berbagai faktor, termasuk koleksi data. Oleh karena itu, model klasifikasi perlu diuji pada data yang digunakan pada penelitian ini. 1.2 Perumusan masalah Berdasarkan latar belakang di atas, permasalahan yang dihadapi pada 3

penelitian klasifikasi konten negatif berbasis teks adalah sebagai berikut. 1. Teknik ekstraksi fitur n-gram terkini menghasilkan jumlah fitur yang besar sehingga membutuhkan waktu eksekusi tambahan. Di lain pihak, penggunaan fitur n-gram yang relevan dapat meningkatkan performa klasifikasi teks. 2. Konsep TF-IDF yang umum digunakan untuk pembobotan pada klasifikasi teks hanya mempertimbangkan parameter frekuensi kemunculan fitur dalam dokumen dan jumlah dokumen yang mengandung fitur tersebut. Sementara itu, informasi intra dan inter kelas yang berpotensi meningkatkan performa klasifikasi tidak dilibatkan dalam perhitungan bobot. 1.3 Keaslian penelitian Penelitian ini merupakan kelanjutan dari penelitian System of Negative Indonesian Website Detection Using TF-IDF and Vector Space Model [4] dan The Classification Process of Indonesian Pornographic Texts Based on Machine Learning [14]. Penelitian ini berupaya mengembangkan dan menguji teknik ekstraksi selektif dan pembobotan fitur untuk meningkatkan performa klasifikasi teks, serta menguji signifikansi teknik-teknik tersebut terhadap data teks berkandungan negatif. Beberapa penelitian mengenai klasifikasi konten teks untuk penapis konten teks lainnya dapat diamati dalam Tabel 1.1. 4

Tabel 1.1 Penelitian Terkait No Peneliti Judul Penelitian Tujuan Hasil dan Kesimpulan Terkait 1 Abidin dkk. (2014) 2 Johannes F. 3 Polpinij dkk. (2008) 4 Ren dkk. (2013) 5 Lan (2008) 6 Dan dkk. (2013) System of Negative Indonesian Website Detection Using TF- IDF and Vector Space Model A Study Using n-gram Features for Text Categorization A Web Pornography Patrol System by Content-based Analysis: In Particular Text and Images Class-indexing-based term weighting for automatic text classification Supervised and Traditional Term Weighting Methods for Automatic Text Categorization Research of Text Categorization on Weka Membangun sistem pendeteksi konten teks negatif pada data berbahasa Indonesia. Mempelajari efek penggunaan fitur n- gram pada performa kategorisasi teks. Membangun sistem penapis situs negatif berbasis analisis kandungan teks dan gambar. Mengembangkan dan menguji metode pembobot fitur TF-IDF-ICD (Term Frequency Inverse Document Frequency Inverse Class Density). Mengembangkan dan menguji metode pembobot fitur TF-RF (Term Frequency Relevance Factor). Membandingkan beberapa algoritme klasifikasi untuk data teks. Dibutuhkannya penanganan pada fitur yang dikamuflasekan dan dibutuhkannya ekstraksi fitur n-gram yang disertai dengan reduksi jumlah fitur untuk peningkatan performa klasifikasi. Penggunaan fitur 2-gram dan 3-gram bermanfaat untuk peningkatan performa kategorisasi. Di lain pihak, penggunaan n-gram degan n>3 justru mengurangi performa kategorisasi. Penggunaan model probabilistik ekstraksi fitur n-gram dan algoritme SVM pada klasifikasi teks efektif dalam mengklasifikasikan situs negatif. TF-IDF-ICD secara konsisten dan signifikan memiliki performa lebih baik dibandingkan dengan metode pembobot fitur supervised lainnya. TF-RF secara konsisten dan signifikan memiliki performa lebih baik dibandingkan dengan metode pembobot fitur supervised lainnya. SVM dan Naïve Bayes memiliki performa yang lebih baik dibandingkan metode lain. Performa klasifikasi juga dipengaruhi oleh corpus category/class (kondisi data). 5

Berdasarkan Tabel 1.1 diungkapkan bahwa kebutuhan fitur n-gram untuk dilibatkan dalam proses klasifikasi untuk peningkatkan performa klasifikasi bergantung pada data yang digunakan. Penelitian sebelumnya hanya menggunakan fitur 1-1-gram (uni-gram) [4]. Berdasarkan penelitian yang lebih lanjut pada kasus tersebut, fitur n-gram perlu dilibatkan untuk meningkatkan performa klasifikasi [14]. Ekstraksi fitur n-gram umumnya dilakukan secara unsupervised [15], sehinggga berdampak pada dihasilkannya dimensi tinggi vektor kata dan bertambahnya waktu eksekusi. Ada cara untuk melakukan ekstraksi n-gram secara terpilih melalui model probabilistik [11]. Pada cara ini, fitur n-gram penting yang diekstrak adalah fitur yang memiliki kandungan kata yang relevan terhadap kasus klasifikasi berdasarkan model probabilistik. Akan tetapi cara tersebut tetap memerlukan waktu eksekusi yang tinggi. Metode ekstraksi fitur selektif yang diajukan dalam karya ini melakukan proses ekstraksi secara bertingkat. Fitur-fitur 1-1-gram terlebih dahulu diekstrak untuk mencari fitur-fitur yang relevan terhadap kasus klasifikasi. Fitur n-gram kemudian diekstrak secara supervised dengan panduan fitur-fitur 1-1-gram yang relevan tersebut. Pembobot fitur TF-IDF yang digunakan penelitian sebelumnya tidak menggunakan informasi klasifikasi [14]. Pembobotan yang memperhatikan informasi tersebut dua diantaranya adalah TF-RF [13] dan TF-IDF-ICD [12]. TF- RF berupaya meningkatkan bobot fitur-fitur yang kemunculannya di kelas yang dideteksi dominan terhadap kelas lainnya. TF-IDF-ICD berupaya mengamati kerapatan/densitas kemunculan setiap fitur di setiap kelas untuk menentukan bobot fitur tersebut. Penelitian ini berupaya mengamati signifikansi pengaruh penggunaan metode-metode pembobot tersebut terhadap performa klasifikasi. 1.4 Tujuan Penelitian Berdasarkan permasalahan yang dihadapi, tujuan penelitian ini dapat dirumuskan sebagai berikut. 1. Mengembangkan metode ekstraksi fitur selektif untuk mengekstrak fitur n- 6

gram dengan mengurangi kebutuhan waktu eksekusi tambahan dan menguji signifikansi pengaruhnya terhadap peforma klasifikasi. 2. Mengimplementasikan metode pembobot fitur TF-RF [13] dan TF-IDF- ICD [12] yang memperhatikan informasi intra dan inter kelas serta menguji signifikansi pengaruhnya terhadap performa klasifikasi. 1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah menghasilkan metode ekstraksi selektif fitur teks yang dapat digunakan dalam proses klasifikasi teks negatif. Penelitian ini berupaya menunjukkan signifikansi pengaruh penggunaan metode tersebut terhadap performa klasifikasi teks serta menunjukkan perbedaan waktu eksekusi metode tersebut dibandingkan metode sejenis lainnya. Manfaat lain dari penelitian ini adalah menguji metode-metode pembobot fitur yang memperhatikan kelas, yaitu TF-RF dan TF-IDF-ICD. Penelitian ini berupaya menguji signifikansi pengaruh penggunaan metode-metode pembobot fitur tersebut terhadap performa klasifikasi teks. Dengan demikian penelitian ini dapat dijadikan rujukan untuk penelitianpenelitian klasifikasi teks lainnya. 7