UNIVERSITAS INDONESIA ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK GADGET E-COMMERCE KARYA AKHIR

Ukuran: px
Mulai penontonan dengan halaman:

Download "UNIVERSITAS INDONESIA ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK GADGET E-COMMERCE KARYA AKHIR"

Transkripsi

1 UNIVERSITAS INDONESIA ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK GADGET E-COMMERCE KARYA AKHIR LISTIAN PRATOMO FAKULTAS ILMU KOMPUTER PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI JAKARTA JANUARI 2013

2 UNIVERSITAS INDONESIA ANALISIS OPINI KONSUMEN BERBASIS FITUR DALAM BAHASA INDONESIA : STUDI KASUS PADA PRODUK GADGET E-COMMERCE KARYA AKHIR Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister Teknologi Informasi LISTIAN PRATOMO FAKULTAS ILMU KOMPUTER PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI JAKARTA JANUARI 2013

3 ii

4 iii

5 KATA PENGANTAR/UCAPAN TERIMA KASIH Puji syukur saya haturkan kepada Allah SWT yang telah memberikan berkat dan rahmat-nya sehingga saya dapat menyelesaikan Karya Akhir ini. Saya menyadari, tanpa bantuan dari berbagai pihak, sangatlah sulit bagi saya untuk menyelesaikannya. Maka dari itu, saya mengucapkan terima kasih saya kepada : 1. Mama dan papa yang selalu memberikan kasih sayang, dukungan dan doa selama ini kepada penulis. Serta untuk adik-adikku Dimas dan Aji; 2. Ibu Yova Ruldeviyani, M.Kom, selaku dosen pembimbing yang selalu sabar menyediakan waktu membimbing penulis menyelesaikan Karya Akhir ini; 3. Bapak Edric Mandagi, beserta pihak PT. WEBARQ yang telah banyak membantu memberikan data penelitian Karya Akhir ini; 4. Dosen pengajar dan staf MTI UI yang telah memberikan banyak ilmu dan bantuan kepada saya; 5. Teman teman MTI UI 2011SB, yang telah menghadirkan keluarga baru bagi saya saat di perkuliahan; dan 6. Seluruh pihak yang tidak dapat saya sebutkan satu per satu yang telah memberikan dukungan kepada saya dalam menyelesaikan Karya Akhir ini. Jakarta, 15 Januari 2013 Penulis iv

6 v

7 ABSTRAK Nama Program Studi Judul : Listian Pratomo : Magister Teknologi Informasi : Analisis Opini Konsumen Berbasis Fitur dalam Bahasa Indonesia : Studi Kasus pada Produk Gadget E-commerce Jumlah review mengalami peningkatan yang sangat pesat untuk setiap produk nya. Hal ini berakibat sulit nya bagi setiap pengguna untuk membaca semua review yang ada. Karya akhir ini menawarkan solusi menggunakan feature based opinion mining untuk mempermudah pengguna membaca review lebih mudah. Pada karya akhir ini terdapat 2 langkah yang akan dilakukan. Langkah pertama ialah melakukan ekstraksi feature menggunakan association rule dan pruning. Sedangkan langkah terakhir ialah menentukan orientasi dari setiap opini dengan menggunakan teknik klasifikasi. Beberapa algoritma klasifikasi seperti C45, Naïve Bayes dan Support Vector Machine cocok untuk mengatasi masalah ini. Dari hasil pengujian algoritma Support Vector Machine memiliki performa terbaik jika dibandingkan dengan algoritma lainnya. Kata kunci : Feature Extraction, Sentiment Analysis, C45, Naïve Bayes, SVM vi

8 ABSTRACT Name : Listian Pratomo Program Study : Master of Information Technology Title : Analysis of Indonesian Feature Based Customer Opinion : Case Study in E-commerce Gadget Product The number of customer reviews for each product grows rapidly. This condition makes customer difficult to read all the review.this thesis propose feature based opinion mining to help customer reads review easily. Feature based opinion mining in this thesis consist of two steps. First step identify product features using association technique and pruning. The last step identify opinion sentence orientation using classification technique. Several classification algorithm, such as C45, Naive Bayes, and Support Vector Machines are good approaches to solve this problem. Support Vector Machine has the best performance compared to other algorithms. Keywords : Feature Extraction, Sentiment Analysis, C45, Naïve Bayes, SVM vii

9 DAFTAR ISI HALAMAN PERNYATAAN ORISINALITAS...II HALAMAN PENGESAHAN...III KATA PENGANTAR/UCAPAN TERIMA KASIH... IV HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA AKHIR UNTUK KEPENTINGAN AKADEMIS... V ABSTRAK... VI ABSTRACT... VII DAFTAR ISI... VIII DAFTAR TABEL... X DAFTAR GAMBAR... XI BAB 1 PENDAHULUAN LATAR BELAKANG PERUMUSAN MASALAH RUANG LINGKUP PENELITIAN TUJUAN DAN MANFAAT PENELITIAN SISTEMATIKA PEMBAHASAN... 3 BAB 2 LANDASAN TEORI TEXT MINING POS Tagging StopWord Stemming Pembobotan FEATURE EXTRACTION FP-GROWTH SENTIMENT ANALYSIS C NAÏVE BAYES SUPPORT VECTOR MACHINE EVALUASI KLASIFIKASI Confusion Matrix Accuracy Precision Recall F-Measure BAB 3 METODOLOGI PENELITIAN PERUMUSAN MASALAH STUDI LITERATUR PENGUMPULAN DATA PENGUJIAN ANALISIS viii

10 3.6 HASIL PENELITIAN BAB 4 PEMROSESAN DATA PROFIL PERUSAHAAN TAHAPAN PEMROSESAN DATA Pengumpulan Data POS Tagging Identifikasi Opini Pencarian Frequent Feature Prunning Pemberian Label Opini Proses Stopword Konversi ke Bentuk Vector Space Model BAB 5 ANALISIS DATA FEATURE EXTRACTION Frequent Feature Redundancy Prunning KLASIFIKASI Pengujian menggunakan data asli Pengujian menggunakan data hasil overssampling Pengujian menggunakan data produk yang berbeda BAB 6 KESIMPULAN DAN SARAN KESIMPULAN SARAN DAFTAR REFERENSI LAMPIRAN PART OF SPEECH LABEL STOPWORD AKTUAL FEATURE IPHONE 4S AKTUAL FEATURE SAMSUNG GALAXY TAB FREQUENT FEATURE IPHONE 4S FREQUENT FEATURE SAMSUNG GALAXY TAB FEATURE HASIL PRUNNING IPHONE 4S FEATURE HASIL PRUNNING SAMSUNG GALAXY TAB CONTOH HASIL KLASIFIKASI ix

11 DAFTAR TABEL TABEL 2.1 RANGKUMAN BEBERAPA METODE FEATURE EXTRACTION... 9 TABEL 2.2 PERBANDINGAN ALGORITMA KLASIFIKASI UNTUK SENTIMENT ANALYSIS TABEL 2.3 DATA SAMPEL (WITTEN, ET AL., 199) TABEL 2.4 PERHITUNGAN GAIN TABEL 2.5 DATA SAMPEL NAÏVE BAYES TABEL 2.6 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT OUTLOOK TABEL 2.7 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT TEMPERATURE TABEL 2.8 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT HUMIDITY TABEL 2.9 PERHITUNGAN PROBABILITAS UNTUK ATRIBUT WIND TABEL 2.10CONFUSION MATRIX TABEL 4.1 HASIL IDENTIFIKASI OPINI DAN KANDIDAT FEATURE TABEL 4.2 CONTOH KANDIDAT FEATURE TABEL 4.3 PROSES PERHITUNGAN SUPPORT TABEL 4.4 PERHITUNGAN NILAI PURITY SUPPORT TABEL 4.5 CONTOH OPINI TABEL 4.6 PROSES STOPWORD TABEL 5.1 DATA REVIEW YANG DIGUNAKAN TABEL 5.2 DATA OPINI HASIL EKSTRAKSI TABEL 5.3 DATA HASIL KLASIFIKASI TABEL 5.4 CONFUSION MATRIX IPHONE 4S TABEL 5.5 CONFUSION MATRIX SAMSUNG GALAXY TAB TABEL 5.6 DATA OPINI HASIL EKSTRAKSI TABEL 5.7 DATA HASIL KLASIFIKASI MENGUNAKAN DATA OVERSAMPLING TABEL 5.8 CONFUSION MATRIX IPHONE 4S TABEL 5.9 CONFUSION MATRIX SAMSUNG GALAXY TAB TABEL 5.10 DATA LATIH DAN DATA UJI TABEL 5.11 DATA HASIL KLASIFIKASI MENGUNAKAN DATA YANG BERBEDA TABEL 5.12 CONFUSION MATRIX x

12 DAFTAR GAMBAR GAMBAR 2.1 ILUSTRASI ALGORITMA FP-GROWTH(VERHEIN, 2008) GAMBAR 2.2 PROSES PEMECAHAN NODE PADA ALGORITMA C GAMBAR 2.3 PRISNSIP KERJA SVM MENCARI HYPERPLANE(ANTO SATRIYO NUGROHO, 2003) GAMBAR 3.1 METODOLOGI PENELITIAN GAMBAR 4.1 LANGKAH-LANGKAH PEMROSESAN DATA GAMBAR 4.2 OPINI DALAM BENTUK VECTOR SPACE MODEL GAMBAR 5.1 EKSTRAKSI FEATURE PADA REVIEW IPHONE 4S GAMBAR 5.2 EKSTRAKSI FEATURE PADA REVIEW SAMSUNG GALAXY TAB GAMBAR 5.3 PRUNNING FEATURE PADA REVIEW IPHONE 4S GAMBAR 5.4 PRUNNING FEATURE PADA REVIEW SAMSUNG GALAXY TAB xi

13 BAB 1 PENDAHULUAN Jumlah review produk mengalami peningkatan yang signifikan setiap tahunnya, seiring dengan perkembangan e-commerce. Data review merupakan sumber informasi yang sangat bermanfaat bukan hanya bagi user tetapi juga bagi perusahaan manufaktur yang memproduksi produk tersebut. Bagi user data review dapat menjadi masukan untuk menentukan produk apa yang akan dibeli, sedangkan bagi perusahaan manufaktur data review dapat menjadi feedback untuk pengembangan produk selanjutnya. Namun data review merupakan unstructure data, sehingga sulit untuk memperoleh informasi penting dari suatu review. 1.1 Latar Belakang Perkembangan Internet yang begitu pesat diikuti oleh pertumbuhan e-commerce di Indonesia, ditandai dengan bermunculannya situ-situs e-commerce baru setiap tahunnya. PT. Web Architect Technology sebagai salah satu pengembang aplikasi lokal dengan portofolio e-commerce terbanyak terus berusaha mengembangkan e- commerce system yang handal dan mampu bersaing. PT. Web Architect Technology terus melakukan perbaikan terhadap e-commerce system yang ada dan melakukan penambahan fitur sesuai dengan pengguna e-commerce. feedback yang diberikan oleh Salah satu fitur yang terdapat didalam suatu sistem e-commerce ialah produk review, dimana setiap user dapat melakukan review mengenai suatu barang yang ditawarkan. Produk review sejatinya sangat berguna bagi pelanggan lain sebagai bahan referensi sebelum membeli produk tertentu, produk review menjadi sangat penting dalam e-commerce karena pelanggan tidak dapat mencoba secara langsung produk yang akan dibelinya, sehingga bantuan review dari pelangganpelanggan lain diharapkan dapat membantu pelanggan dalam menentukan produk yang akan dibelinya. Penggunaan gambar dan deskripsi saja dirasakan tidak cukup untuk menggambarkan kondisi suatu barang, sehingga review dari pengguna barang dirasakan sangat bermanfaat. Berdasarkan penelitian yang dilakukan oleh comscore dan the Kelsey group (Lipsman, 2007) menunjukkan 1

14 2 bahwa review yang dilakukan oleh pengguna memilki pengaruh yang signifikan terhadap pembeli. Penelitian yang dilakukan oleh comscore dan the Kelsey group didukung pula oleh Shih Yung Chou (Chou, 2011) yang menunjukkan bahwa review online menjadi prediktor yang signifikan terhadap reputasi dari penjual. Hal tersebut menunjukan bahwa review online merupakan komponen penting dari sebuah e-commerce. Review menyimpan berbagai informasi yang penting baik bagi pelanggan dan perusahaan manufaktur. Namun jumlahnya yang banyak menyulitkan pembaca untuk memperoleh informasi dari review. Diperlukan suatu sistem untuk melakukan ekstraksi informasi dari review sehingga dapat dengan mudah dipahami tanpa perlu membaca keseluruhan review. Sentiment analysis atau opinion mining merupakan salah satu cabang penelitian dari text mining yang berusaha melakukan ekstraksi informasi dari suatu opini. Sentiment analysis mencakup proses ekstraksi feature secara otomatis dan menentukan orientasi dari suatu opini. Dengan sentiment analysis dapat diperoleh informasi secara otomatis mengenai objek yang menjadi inti dari opini dan orientasi dari opini tersebut apakah positif, negatif atau netral. 1.2 Perumusan Masalah Jumlah review yang banyak disetiap produk menyulitkan pengguna untuk memperoleh gambaran mengenai kualitas produk yang akan dibeli. Dari data yang diperoleh jumlah review untuk suatu produk yang cukup populer bisa mencapai puluhan bahkan ratusan review. Pembeli perlu membaca satu persatu setiap review yang ada. Semakin banyak user yang menggunakan produk dan menulis review maka semakin sulit bagi pembeli untuk membaca semua review yang ada dan semakin sulit menentukan produk mana yang akan dibeli. Diperlukan sistem untuk melakukan pengelompokkan review yang positif dan negatif. Sehingga tanpa perlu membaca satu-persatu pengguna dapat memperoleh gambaran secara umum dari suatu produk. Berdasarkan uraian singkat diatas, secara garis besar permasalahan yang harus dijawab pada penelitian yang dilakukan dalam karya akhir ini adalah :

15 3 Bagaimana model untuk melakukan pengkategorian review yang sesuai dengan studi kasus? Secara spesifik, pertanyaan yang dijawab dalam penelitian ini yaitu : 1. Proses apa saja yang perlu dilakukan sebelum melakukan pengkategorian review? 2. Algoritma apa yang tepat untuk pengkategorian review berbahasa Indonesia? 1.3 Ruang Lingkup Penelitian Ruang lingkup pembahasan dalam penelitian ini adalah sebagai berikut : 1. Studi kasus penelitian yang dibahas dalam karya akhir ini adalah layanan e-commerce yang dikembangkan oleh PT. Web Architect Technology. 2. Data yang digunakan diperoleh dari review gadget dari beberapa e- commerce kemudian digabungkanmenjadi satu. 1.4 Tujuan dan Manfaat Penelitian Tujuan yang ingin dicapai dari penulisan karya akhir ini adalah menentukan model yang tepat untuk digunakan dalam pengkategorian review berbahasa Indonesia. Manfaat yang diharapkan dari penulisan karya akhir ini yaituhasil dari penelitian ini dapat diimplementasikan menjadi sebuah modul didalam WEBARQ e- commerce system yang akan digunakan untuk melakukan pengkategorian secara otomatis setiap review. 1.5 Sistematika Pembahasan Sistematika pembahasan masalah dalam penulisan karya akhir ini dibagi menjadi 5 bab dengan penjelasan mengenai cakupan pembahasan masing-masing bab sebagai berikut : 1. BAB 1 : Pendahuluan Bab pendahuluan terdiri dari latar belakang penulisan, perumusan permasalahan, ruang lingkup penelitian, tujuan dan manfaat penelitian, serta sistematika pembahasan karya akhir. 2. BAB 2 : Landasan Teori

16 4 Bab ini berisi dasar-dasar teori yang akan digunakan pada penelitian, termasu penelitian-penelitian sebelumnya yang akan dijadikan acuan dalam penulisan karya akhir ini. 3. BAB 3 : Metodologi Penelitian Pada bab ini ditulis langkah-langkahyang digunakan dalam menyusun karya akhir. Setiap langkah yang ada dan metode yang digunakan. 4. BAB 4 : Analisis Penerapan Sentiment Analysis Melakukan pengujian terhadap setiap metode dan melakukan komparasi untuk memperoleh model yang paling tepat untuk digunakan pada sentiment analysis dari produk review berbahasa Indonesia. 5. BAB 5 : Kesimpulan dan Saran Pada bab terakhir ini, ditulis kesimpulan dari hasil penelitian dan saran perbaikan karya akhir ke depan.

17 BAB 2 LANDASAN TEORI 2.1 Text Mining Text mining merupakan salah satu bagian dari data mining yang menerapkan konsep dan teknik data mining kedalam teks. Text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponenkomponen dalam data mining(feldman, et al., 2007). Pada data mining data yang digunakan adalah data terstruktur sedangkan dalam Text mining data yang digunakan adalah data yang tidak terstruktur berupa teks. Tujuan utama dari Text mining ialah melakukan pemrosesan data yang tidak terstruktur menjadi terstruktur supaya dapat digali berbagai informasi didalamnya menggunakan berbagai teknik yang ada di data mining. Data teks akan diproses menjadi data numerik agar dapat dilakukan proses lebih lanjut. Text mining menjadi salah satu topik yang cukup populer karena saat ini jumlah data yang tidak terstruktur(tekstual) jauh lebih banyak dibandingkan data yang terstruktur dan munculnya kebutuhan untuk ekstraksi informasi secara otomatis dari kumpulan data tekstual yang besar.faktor lain yang membuat Text mining menjadi topik yang menarik karenajumlah data meningkat pesat sedangkan kemampuan manusia memproses informasi konstan. Sebelum data teks diproses terlebih dahulu dilakukan preprocessing dengan tahapan-tahapan antara lain sebagai berikut: POS Tagging POS Tagging ialah proses pemberian label setiap bagian dari kalimat. Proses POS Tagging bermaanfaat untuk language generator, information extraction, summarization dan machine translation. Pada penelitian ini POS Tagging berguna untuk melakukan ekstraksi feature. Sesuai dengan penelitian Bing Liu(Liu, 2010), term yang akan digunakan untuk sentiment analysis mencakup sifat (adjective), kata keterangan (adverb), kata benda (Noun) dan kata kerja (verb). Terdapat 5

18 6 beberapa pendekatan yang dapat digunakan untuk melakukan pelabelan, antara lain: Pendekatan rule-based Pendekatan ini menggunakan karakteristik morfolojik dan informasi Part- Of-Speech serta kata kunci untuk memberikan tag pada sebuah kata atau frase. Pendekatan dictionary-based Pendekatan ini melakukan identifikasi setiap kata dengan melakukan pencocokkan terhadap entry dalam kamus, baru kemudian memberikan tag tertentu. Pendekatan machine-learning-based Teknik machine-learning dapat juga digunakan untuk melakukan pelabelan. Diperlukan data latih untuk membentuk model yang akan digunakan untuk melakukan pelabelan. Beberapa metode yang cukup sering digunakan antara lain Hidden Markov Model, Naive Bayes, dan Support Vector Machine. Analisis statistik Analisis statistik dilakukan untuk melakukan clustering terhadap teks dan melakukan identifikasi kata kunci yang terdapat dalam teks. Identifikasi term dan metode klasifikasi berdasarkan pembelajaran statistik ini secara umum dapat menangani tipe pengetahuan baru melakukan representasi dengan lebih efektif daripada pendekatan dengan rule-based dan dictionary-based. Pendekatan hibrid Pendekatan hibrid menggabungkan pendekatan rule-based dan dictionary-based untuk identifikasi setiap kata. Walaupun hasil yang dicapai dengan metode ini cukup memuaskan, namun permasalahan sinonim tak spesifik belum dapat ditangani sepenuhnya. Pada penelitian ini metode yang digunakan ialah POS Tagging menggunakan Hidden Markov Model (Wicaksono, et al., 2010), metode tersebut dipilih karena memiliki akurasi yang cukup baik untuk bahasa Indonesia yaitu 83-95%.

19 StopWord Stopwords adalah kata-kata sangat umum yang biasanya hanya sedikit pengaruhnya di dalam suatu teks. Proses stopword penyaringan kata-kata yang memiliki arti tidak penting, yang dikhawatirkan akan mengurangi performansi dari proses penambangan teks. Proses stopword pada umumnya dilakukan dengan menggunakan kamus stopword. Dimana kata-kata yang terdapat di dalam kamus akan dihilangkan sedangkan kata-kata yang tidak terdapat didalam kamus akan digunakan pada proses selanjutnya Stemming Proses stemming yaitu mengembalikan kata-kata yang telah diproses pada tahap sebelumnya menjadi kata dasar. Tujuan utama dari stemming ialah mengurangi dimensi dari data. Dengan stemming kata-kata dengan imbuhan akan dikembalikan ke kata dasar sehingga dimensi data yang akan diproses dapat berkurang. Stemming merupakan proses untuk memetakan berbagai variasi morfologikal dari kata menjadi bentuk dasar yang sama. Proses stemming berperan pula dalam meningkatkan efisiensi sistem. Terdapat berbagai metode untuk melakukan stemming salah satunya menggunakan kamus atau algoritma tertentu. Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma stemming untuk bahasa lainnya. Sebagai contoh Bahasa Inggris memiliki morfologi yang berbeda dengan Bahasa Indonesia sehingga algoritma stemming untuk kedua bahasa tersebut juga berbeda. Proses stemming pada teks berbahasa Indonesia lebih rumit/kompleks karena terdapat variasi imbuhan yang harus dibuang untuk mendapatkan kata dasar dari sebuah kata. Beberapa algoritma stemming Bahasa Indonesia telah dikembangkan sebelumnya. Penggunaan algoritma stemming yang sesuai mempengaruhi performa sistem Pembobotan Sebelum dapat di proses data teks akan dikonversi menjadi numerik dengan berbagai metode pembobotan. Penggunaan metode pembobotan yang tepat dapat mempengaruhi akurasi dari teknik yang digunakan.

20 8 Term Frequency Salah satu metode pembobotan yang paling sederhana, menggunakan jumlah dari kemunculan suatu term didalam dokumen. Metode pembobotan ini digunakan oleh Pang (Pang, et al., 2002) dalam sentiment analysis. Term Presence Term presence tidak memperhitungkan jumlah kemunculan suatu term tetapi hanya melakukan pengecekan apakan term tersebut ada di dalam dokumen. Jika term tersebut ada di dalam dokumen makan akan diberi nilai 1 sedangkan jika terdapat dalam dokumen makan akan diberi nilai 0. Pang(Pang, et al., 2002) juga menggunakan metode pembobotan ini untuk sentiment analysis. Term Frequency - Inverse Document Frequency (TF-IDF) TF-IDF merupakan metode pembobotan yang paling banyak digunakan di dalam kategorisasi teks (Sebastiani., 2002). TF-IDF melakukan dua buah perhitungan yaitu TF dan IDF. TF diperoleh dari jumlah term tersebut didalam dokumen. Sedangkan IDF merupakan jumlah dokumen dibagi jumlah dokumen dengan kemunculan term tersebut. IDF dirumuskan sebagai berikut : IDF bernilai 0 jika term t muncul disetiap dokumen. 2.2 Feature Extraction Feature extraction merupakan ekstraksi feature dari suatu opini. Feature sendiri dapat didefinisikan sebagai objek dari suatu opini. Dalam suatu kalimat suatu feature dibentuk dari kata benda/frase (Henrique Siqueira, 2008). Feature merupakan kata benda (noun) dengan panjang maksimal 3 kata (Hu, et al., 2004). Suatu kata benda dapat dikatakan feature jika memenuhi salah satu dari ketiga syarat berikut (Liliana Ferreira, 2008): Merupakan bagian dari produk pada dokumen tersebut. Contoh : kamera pada produk ponsel Atribut dari produk. Contoh: Ukuran dari notebook Atribut dari feature. Contoh kualitas kamera pada ponsel

21 9 Terdapat beberapa pendekatan yang dapat dilakukan untuk melakukan ekstraksi feature. Hasil rangkuman beberapa penelitian sebelumnya mengenai feature extraction dapat dilihat di table 2.1. Tabel 2.1 Rangkuman beberapa metode feature extraction Penulis Judul Deskripsi Minqing Hu dan Bing Mining Opinion Menggunakan association Liu(Hu, 2004) Features in rule mining dan prunning Customer Reviews untuk memperoleh feature. Didasari bahwa feature yang frequent merupakan feature yang penting karena paling sering diperbincangkan. Nilai precision dan recall yang diperoleh berkisan antara 0,6 hingga 0,8. Alejandra Lopez Fernandez, Tony Veale dan Prasenjit Majumder(Fernandez, et al., 2009) Gamgarn Somprasertsri dan Pattarachai Lalitrojwong(Somprasertsri, et al., 2009) Feature Extraction from Product Reviews using Feature Similarity and Polarity Mining Feature- Opinion in Online Customer Reviews for Opinion Summarization Memanfaatkan SentiWordNet untuk menghitung similarity antar feature. Feature yang diperoleh dalam kualitas baik namun dalam jumlah yang sedikit. Feature diperoleh dengan pendekatan NLP dengan melihat struktur kalimat dan keyword. Nilai rata-rata fmeasure yang diperoleh 0,75. Hana Jeong, Dongwook FEROM: Feature Memperkenalkan algoritma

22 10 Shin, dan Joongmin Extraction and feature extraction yang Choi(Jeong, et al., 2011) Refinement for diberi nama FEROM. Opinion Mining Ekstraksi feature dilakukan dengan melihat struktur kalimat, hanya feature yang terdapat dalam kalimat lengkap yang akan dipergunakan. Setelah feature diperoleh akan dilakukan proses refinement dengan memanfaatkan WordNet untuk mengetahui sinonim dan relasi antar feature. Feature-feature yang meiliki kesamaan akan digabungkan menjadi 1. Hasil ekstraksi memiliki nilai recall dan precision antara 0,8 sampai 0,9. Ana-Maria Popescu dan Extracting Product Menggunakan metode yang Oren Etzioni(Popescu, et Features and diberi nama OPINE, al., 2009) Opinions from dengan pendekatan Reviews clustering dan WordNet untuk memperoleh featurefeature yang relevan. Hasil penelitian menunjukan metode yang digunakan memiliki nilai precision 22% lebih baik dan recal lebih rendah 3% dari penelitian sebelumnya (Hu,

23 ). Pada penelitian ini metode ekstraksi yang akan digunakan ialah metode dengan memanfaatkan association rule dan prunning (Hu, 2004). Hal ini didasari karena metode tersebut merupakan metode yang umum digunakan untuk feature extraction dan memiliki akurasi yang cukup baik. FEROM memiliki akurasi yang paling baik diantara beberapa metode yang ada, namun salah satu kendala untuk menggunakan metode ini ialah belum ada WordNet yang cukup baik untuk Bahasa Indonesia. Sehingga metode ini sulit untuk digunakan untuk ektraksi feature dengan Bahasa Indonesia. Berdasarkan penelitian sebelumnya (Hu, 2004) proses ekstraksi melalui beberapa tahap yaitu : POS Tagging POS Tagging ialah proses pemberian label setiap bagian dari kalimat. Pada penelitian ini metode yang digunakan ialah POS Tagging menggunakan Hidden Markov Model (Wicaksono, et al., 2010), metode tersebut dipilih karena memiliki akurasi yang cukup baik untuk bahasa Indonesia yaitu 83-95%. Hasil POS Tagging berguna untuk melakukan ekstraksi opini dan memperoleh candidate feature. Generate Candidate Feature Setelah diperoleh semua opini dari sebuah review, dilakukan ekstraksi kandidat feature. Ekstraksi kandidat feature dilakukan mengikuti rule yang telah didefinisikan sebelumnya. Frequent Noun Identification Setelah memperoleh kandidat feature akan dicari feature-feature yang frequent. Hal ini dikarenakan tidak semua kandidat feature merupakan feature yang relevan, sehingga perlu dicari feature yang frequent. Feature yang frequent merupakan feature yang lebih relevan karena banyak dibahas pada berbagai review(hu, et al., 2004). Feature yang frequent diperoleh dengan menghitung nilai support untuk setiap feature, feature

24 12 dengan nilai support diatas minimum support merupakan feature yang frequent. Prunning Tidak semua feature yang frequent merupakan feature yang relevan, sehingga perlu dilakukan prunning. Proses prunning yang dilakukan ialah redundancy prunning. Redundancy pruning merupakan teknik pruning yakni menghilangkan feature yang redundan. Nilai purity support diperoleh dengan cara menghitung frekuensi kemunculan suatufeature tanpa superset nya. Sebagai contoh terdapat beberapa opini sebagai berikut : o Model baru tetapi masih menggunakan prosesor tipe lama. o Prosesor dual core mampu menjalankan beberapa pekerjaan sekaligus. o Kalah dari para pesaingnya yang telah menggunakan prosesor quad core. o Handphone dengan prosesor keluaran terbaru, sangat menakjubkan. Keempat opini tersebut memiliki feature prosesor didalamnya. Jika prosesor dual core dan prosesor quad core merupakan feature yang frequent maka nilai purity support dari feature prosesor ialah 2. Nilai purity support tersebut diperoleh dari kemunculan feature prosesor dalam opini tanpa superset nya yaitu dual core prosesor atau quad core prosesor. Semakin banyak tingkat kemunculan suatu feature tanpa supersetnya maka nilai puritysupport nya semakin tinggi. Feature-feature dengan nilai purity support dibawah nilai minimum akan dibuang (prunning). Evaluasi Prose evaluasi dari feature extraction dilakukan dengan cara membandingkan hasil aktual feature yang dilakukan secara manual dan feature yang diperoleh dari system. Parameter yang digunakan ialah precision, recall dan fmeasure. Nilai precision diperoleh dari jumlah feature yang sesuai dibagi dengan jumlah feature yang diekstrak oleh sistem. Sedangankan nilai recall merupakan jumlah feature yang sesuai

25 13 dibagi jumlah aktual feature. Pada penelitian ini digunakan fmeasure sebagai parameter untuk menghitung akurasi dari feature extraction. Fmeasure menggabungkan nilai precision dan recall, fmeasure sendiri dapat dihitung sebagai berikut FMeasure = 2 x Recall x Precision Recall + Precision 2.3 FP-Growth FP-growth merupakan salah satu algoritma pencarian frequent itemset yang cukup populer digunakan saat ini. Kelebihan utama dari algoritma ini ialah jumlah pengaksesan terhadap data dapat dikurangi. Berbeda dengan algoritma apriori yang memerlukan proses inisialisasi untuk memperoleh kandidat item dengan cara membaca data berulang-ulang.karakteristik algoritma FP-Growth adalah struktur data yang digunakan adalah tree yang disebut dengan FP-Tree. Dengan menggunakan FP-Tree, algoritma FP-growth dapat langsung mengekstrak frequent Itemset dari FP-Tree tanpa perlu melakukan pengaksesan data secara berulang-ulang seperti yang dilakukan pada algoritma apriori. Gambar 2.1 menggambarkan pembentukan FP-tree pada algoritma fpgrowth.

26 14 Gambar 2.1 Ilustrasi algoritma FP-growth(Verhein, 2008) Proses pembentukan FP-tree dilakukan dengan membaca data transaksi satu per satu. Jika terdapat item pada data transaksi yang belum terdapat di dalam tree maka akan dibentuk node dalam tree yang menyimpan informasi dari item tersebut. Setiap node menyimpan pula informasi frekuensi dari masing-masing item. Setelah semua data diproses maka terbentuk FP-tree akhir, dari FP-tree bisa diambil node yang memiliki frekuensi diatas nilai minimum support. 2.4 Sentiment Analysis Sentiment analysis atau opinion mining merupakan salah satu cabang penelitian dari domain data mining. Sentiment analysis menggunakan data opini mengenai suatu objek yang direpresentasikan dalam bentuk teks.sentiment analysis dapat didefinisikan sebagai suatu komputasi lingusitik yang berfokus untuk memeriksa apakah suatu feature tekstual memberikansuatu afektif konten terhadap suatu teks

27 15 dan bagaimana melakukan ekstraksi feature tersebut secara otomatis.(ann Devitt, 2007). Tujuan utama dari sentiment analysis ialah melakukan ekstraksi dari atribut dan komponen dari objek yang ada di dalam opini. Dengan memanfaatkan Sentiment Analysis pada produk review, pengguna dapat mengetahui gambaran secara umum kualitas suatu produk tanpa harus membaca review satu-persatu. Pada dasarnya Sentiment Analysis tidak jauh berbeda dengan Text mining pada umumnya. Namun pada kenyataannya Sentiment Analysis tidak semudah Text mining pada umumnya, hal ini dikarenakan penggunaan bahasa yang digunakan bisa menimbulkan ambiguitas. Beberapa penelitian sebelumnya mengenai Sentiment Analysis diperoleh hasil rangkuman yang dapat dilihat pada tabel 2.2: Tabel 2.2 Perbandingan Algoritma Klasifikasi untuk sentiment analysis Penulis Judul Metode Hasil Pang&Lee(Pang, Thumbs up? Naïve Bayes, Akurasi yang et al., 2002) Sentiment SVM, Maximum diperoleh classification using entropy dikisaran 77% machine learning 82.9%. Akurasi techniques tertinggi diperoleh menggunakan feature unigram dan Algoritma klasifikasi SVM. Pang&Lee (Pang, A sentimental Naïve Bayes, Akurasi 87%, et al., 2004) education: Sentiment SVM tidak ada analysis using perbedaan subjectivity signifikan antara summarization based akurasi terbaik on minimum cuts dan terburuk. Fanky&Ruli Machine Learning- Naïve Bayes, Akurasi yang

28 16 Manurung(Franky, based Sentiment Multinomial diperoleh et al.) Analysis of Automatic Naïve Bayes, kisaran 72%- Indonesian SVM, Maximum 81% Translations of entropy English Movie Reviews Wang Online Reviews Naïve Bayes, Membandingkan Zuhui&Jiang Sentiment Analysis SVM, Maximum ketiga algoritma Wei(Zuhui, et al., Applying Mutual entropy Naïve Baye, 2012) Information SVM dan Maximum entropy dengan mengaplikasikan Mutual Information. Penggunaan Mutual Information mampu meningkatkan akurasi Xiaowen Ding&Bing Liu(Ding, et al., 2010) Resolving Object and Attribute Coreference in Opinion Mining C45 Nilai fmeasure tertinggi 75% Grigori Empirical Study of SVN, Naïve Pengujian Sidorov&Sabino Machine Learning Bayes, C45 dilakukan untuk Miranda- Based Approach for berbagai Jiménez(Sidorov, Opinion Mining in kondisi. C45 et al., 2010) Tweets dan SVM memiliki

29 17 performa terbaik dan cukup baik untuk imbalance data Berdasarkan pada beberapa penelitian sebelumnya, pada penelitian ini algoritma klasifikasi yang akan digunakan ialah C45, SVM dan Naïve Bayes. C45, SVM dan Naïve Bayes dipilih karena memiliki akurasi yang paling baik diantara algoritma-algoritma lainnya. 2.5 C45 C45 merupakan salah satu algoritma decision tree yang cukup populer. Algoritma C45 merupakan perbaikan dari algortima sebelumnya yaitu ID3(Iterative Dichotomiser 3). Pada decision tree terdapat 3 jenis node, yaitu: Root Node, merupakan node paling awal Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua. Leafnode atau terminal node, merupakan node akhir pada node ini tersimpan informasi mengenai kelas Proses pembentukan tree pada C45 dilakukan dengan melakukan perhitungan Information GAIN. Atribut dengan nilai Information GAIN tertinggi akan digunakan sebagai titik percabangan. Untuk memperoleh nilai Information GAIN terlebih dahulu harus dihitung nilai entrophy nya. S = Himpunan Kasus N= Jumlah Partisi S pi = Proporsi dari Si terhadap S sementara nilai Information GAIN diperoleh dari

30 18 S A n = Himpunan Kasus = Atribut = Jumlah Partisi Atribut A Si = Jumlah Kasus pada partisi ke-i S = Jumlah Kasus dalam S Perhitungan information GAIN dilakukan untuk setiap atribut yang terdapat pada data. Tujuan utama dari perhitungan Information GAIN ialah memperoleh atribut terbaik yang akan digunakan pada proses percabangan suatu node. Proses perhitungan akan dilakukan berulang-ulang sampai semua record telah dikelompokan pada suatu kelas tertentu. Tabel 2.3 merupakan data sampel yang akan digunakan untuk mensimulasikan agoritma C45. Tabel 2.3 Data sampel (Witten, et al., 199) Outlook Temperature Humidity Windy Play Sunny Hot High FALSE No Sunny Hot High TRUE No overcast Hot High FALSE Yes rainy Mild High FALSE Yes rainy Cool Normal FALSE Yes rainy Cool Normal TRUE No overcast Cool Normal TRUE Yes Sunny Mild High FALSE No Sunny Cool Normal FALSE Yes rainy Mild Normal FALSE Yes Sunny Mild Normal TRUE Yes overcast Mild High TRUE Yes overcast Hot Normal FALSE Yes rainy Mild High TRUE No Untuk menentukan atribut mana yang akan digunakan untuk membuat titik percabangan dilakukan perhitungan nilai Information GAIN untuk setiap atribut sebagai berikut:

31 19 Tabel 2.4 Perhitungan GAIN Information Total Play=YES Play=NO Entropy GAIN Total Outlook Cloudy Rainy Sunny Temperature Cool Hot Mild Humidity High Normal Windy 0.06 FALSE TRUE Dapat dilihat dari tabel 2.4 bahwa nilai Information Gain tertinggi terdapat pada atribut Humadity. Kemudian Humadity akan menjadi titik percabangan, dengan jumlah percabangan sebanyak nilai atribut dari atribut Humidity. Pada kasus ini proses node dicabangkan menjadi dua sesuai atribut Humadity yaitu high dan normal. Proses percabangan dapat dilihat di gambar 2.2 Gambar 2.2 Proses pemecahan node pada algoritma C45

32 20 Dikarenakan untuk Humidity=normal semua record telah memiliki 1 kelas yaitu Yes maka node tersebut menjadi leaf. Sedangkan untuk Humidity=high akan dilakukan perhitungan ulang tanpa melibatkan atribut humidity. Proses ini terus dilakukan sampe data telah dikelompokkan pada suatu leaf node. Proses yang membedakan lagoritma C45 dan ID3 ialah untuk algoritma C45 pada setiap iterasi percabangan akan dilakukan perhitungan error untuk setiap node. Jika ternyata pada saat proses perbangan memiliki nilai error yang lebih besar dibandingkan tanpa percabangan maka akan dilakukan pruning terhadap node tersebut. 2.6 Naïve Bayes Naïve Bayes merupakan salah satu algoritma yang sering digunakan untuk melakukan klasifikasi teks. Hal ini dikarenakan Naïve Bayes memiliki kelebihan yaitu cepat dan mudah untuk diimplementasikan (Rennie, et al., 2003). Naïve Bayes sendiri menerapkan prinsip probabilitas untuk melakukan klasifikasi, bekerja dengan cara mencari nilai probabilitas tertinggi dari masing-masing kelas. Disebut Naïve karena dalam perhitungan peluang suatu atribut tidak ada pengaruhnya dengan atribut-atribut lain di dalam data. Teorema Bayes berawal dari rumus: P(A B) merupakan peluang A jika keadaan B. Dari rumus tersebut diperoleh Teorema Bayes yaitu : Dari Teorema Bayes tersebut diperoleh Dimana V merupakan kelas dan A adalah atribut darri data. Kelas yang dipilih ialah kelas dengan nilai probabilitas tertinggi. Berikut ini merupakan cara kerja

33 21 algoritma Naïve Bayes menggunakan data sampel(witten, et al., 199) pada tabel 2.5. Tabel 2.5 Data Sampel Naïve Bayes Outlook Temperature Humidity Windy Play Sunny Hot High FALSE No Sunny Hot High TRUE No overcast Hot High FALSE Yes rainy Mild High FALSE Yes rainy Cool Normal FALSE Yes rainy Cool Normal TRUE No overcast Cool Normal TRUE Yes Sunny Mild High FALSE No Sunny Cool Normal FALSE Yes rainy Mild Normal FALSE Yes Sunny Mild Normal TRUE Yes overcast Mild High TRUE Yes overcast Hot Normal FALSE Yes rainy Mild High TRUE No Algorimtma Naïve Bayes bekerja dengan menghitung probabilitas dari masingmasing atribut untuk setiap kelas. Data sampel yang digunakan memiliki 5 atribut dengan 1 atribut sebagai atribut kelas. Sehingga akan dilakukan perhitungan terhadap keempat atribut non kelas. Tabel 2.6 hingga tabel 2.9 menggambarkan perhitungan probabilitas setiap kelas terhadap masing-masing kelas. Tabel 2.6 Perhitungan probabilitas untuk atribut Outlook Outlook Play=Yes Play=No Sunny 2/9 3/5 Overcast 4/9 0/5 Rain 3/9 2/5 Tabel 2.7 Perhitungan probabilitas untuk atribut Temperature Temperature Play=Yes Play=No Hot 2/9 2/5 Mild 4/9 2/5 Cool 3/9 1/5 Tabel 2.8 Perhitungan probabilitas untuk atribut Humidity Humidity Play=Yes Play=No High 3/9 4/5 Normal 6/9 1/5 Tabel 2.9 Perhitungan probabilitas untuk atribut Wind

34 22 Wind Play=Yes Play=No Strong 9-Mar 5-Mar Weak 9-Jun 5-Feb Perhitungan probabilitas setiap atribut merupakan fase training dari algoritma Naïve Bayes. Setelah melewati fase training maka algoritma Naïve Bayes siap untuk melakukan klasifikasi. Proses klasifikasi mengacu pada model yang terbentuk pada fase training, sebagai contoh suatu recordr1=(outlook=sunny, Temperature=Cool, Humidity=High, Wind=Strong) akan diklasifikasikan masuk kedalam kelas No atau Yes dengan cara menghitungnya: Kelas Yes : P(Outlook=Sunny Play=Yes) = 2/9 P(Temperature=Cool Play=Yes) = 3/9 P(Humidity=High Play=Yes) = 3/9 P(Wind=Strong Play=Yes) = 3/9 P(Play=Yes) = 9/14 Kelas No : P(Outlook=Sunny Play=No) = 3/5 P(Temperature=Cool Play==No) = 1/5 P(Humidity=High Play=No) = 4/5 P(Wind=Strong Play=No) = 3/5 P(Play=No) = 5/14 Kemudian dihitung nilai untuk masing-masing kelas P(Yes r1): [P(Sunny Yes)P(Cool Yes)P(High Yes)P(Strong Yes)]P(Play=Yes) = P(No r1): [P(Sunny No) P(Cool No)P(High No)P(Strong No)]P(Play=No) = Karena P(No r1)> P(Yes r1) maka kelas untuk r1 ialah No

35 Support Vector Machine Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Prinsip dasar dari SVM ialah mencari hyperplane atau himpunan hyperplane terbaik untuk memisahkan kelas yang ada. Gambar 2.3 Prisnsip kerja SVM mencari Hyperplane(Nugroho, et al., 2003) Dari gambar 2.3 terlihat perinip kerja dari algoritma SVM berusaha mencari hyperplane terbaik. Hyperplane terbaik dapat diperoleh dengan mengukur margin (jarak) hyperplane dengan masing-masing record dari masing-masing kelas dan mencari titik maksimalnya. Dengan diperolehnya hyperplane dengan margin maksimal maka hyperplane tersebut akan membagi data menjadi menjadi bentuk klasifikasi yang optimal. Sebagai supervised algoritma SVM memerlukan data latih untuk menentukan hyperplane yang akan digunakan pada proses klasifikasi. Proses learning pada SVM ialah mencari hyperplane terbaik untuk klasifikasi. Misalkan Ɗ merupkan dataset yang ada direpresentasikan kedalam vektor: Ɗ = {(xi, yi) xi ϵr, yi ϵ{ 1,1}}n Dimana yi merupakan kelas yang bernilai 1 atau -1 dimana titik xi berada. SVM berusaha mencari hyperplane dengan margin maksimum dari titik dengan yi = +1dantitikdenganyi = -1.

36 24 Diperolehpersamaan: w. x + + b = +1 w. x - + b = -1 w. (x + -x -) = 2 M ( x x w ) w 2 w Tujuan utama pembuatan hyperplane ialah: Mengelompokkan setiap elemen dengan benar wx i b 1 jika y=+1 dan wx i b 1 untuk y=-1 dan y ( wx b) 1 untuk semua i. i i Memaksimalkan margin dengan meminimalkan 1 w t w 2 M 2 w,akan sama dengan dengan 2.8 Evaluasi Klasifikasi Proses evaluasi pada klasifikasi dilakukan dengan membandingkan kelas hasil klasifikasi dengan kelas aktual dari record tersebut. Beberapa pendekatan yang dapat dijadikan sebagai parameter performansi dari algoritma klasifikasi yaitu: Confusion Matrix Confusion matrix disebut juga matriks klasifikasi yang menjadi suatu alat visual dalam supervised learning. Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, digunakan untuk menentukan kinerja suatu model klasifikasi.

37 25 Tabel 2.10 Confusion matrix Actual Positive Negative Predicted Positive True Positive (TP) False Positive (FP) Negative False Negative (FN) True Negative (TN) True Positive (TP) adalah jumlah record yang diprediksi benar dengan kelas Positive. False Positive (FP) adalah jumlah record yang diprediksi salah dengan kelas Positive. True Negative (TN) adalah jumlah record yang diprediksi benar dengan kelas Negative. False Negative (FN)adalah jumlah record yang diprediksi salah dengan kelas Negative Accuracy Accuracy ialah jumlah data yang diklasifikasikan benar dibagi jumlah keseluruhan data. Perhitungan accuracy dapat dirumuskan sebagai berikut : Accuracy = TP + TN TP + FP + TN + FN Precision Precision (P) adalah tingkat ketepatan hasil klasifikasi dan jumlah keseluruhan pengenalan yang dilakukan sistem.perhitungan precision dapat dirumuskan sebagai berikut : Precision(P) = TP TP + FP Recall Recall (R) dinyatakan dalam jumlah pengenalan entitas bernilai benar dibagi jumlah entitas yang dikenali sistem.perhitungan recall dapat dirumuskan sebagai berikut :

38 26 Recall(R) = TP TP + FN F-Measure F-Measure menggabungkan antara Precision dan Recall. Dengan rumusan sebagai berikut: F Measure(F) = 2RP R + P Nilai tertinggi untuk F-Measure ialah 1 yang akan diperoleh jika Recall dan Precision bernilai 1.

39 BAB 3 METODOLOGI PENELITIAN Dalam menyusun Sentiment Analysis yang akan digunakan pada review produk online diperlukan tahapan-tahapan untuk memperoleh hasil yang sesuai dengan tujuan penelitian. Gambar 3.1 Metodologi Penelitian Alur pikir penelitian karya akhir dilaksanakan dengan menggunakan metodologi penelitian seperti yang terlihat dalam gambar 3.1. Ada enam aktivitas utama yakni perumusan masalah, studi literatur, pengumpulan data, pengujian, analisis, serta hasil penelitian. Berikut penjelasan keenam aktivitas tersebut : 3.1 Perumusan Masalah Dalam tahapan ini dilakukan penentuan pokok masalah dan tujuan dari penelitian, berikut ruang lingkup penelitian. Tujuan dari perumusan masalah ialah untuk menentukan dasar yang akan digunakan selama proses penelitian. Pada tahap ini ditentukan pula batasan-batasan dari penelitian agar memperjelas ruang lingkup penelitian. 27

40 Studi Literatur Setelah dilakukan perumusan masalah dilakukan studi literatur untuk mempelajari landasan teori yang akan digunakan. Studi literatur mencakup memahami teoriteori dasar yang akan digunakan pada penelitian dan membandingkan penelitianpenelitian serupa yang sebelumnya pernah dilakukan. 3.3 Pengumpulan data Pada tahap ini dilakukan pengumpulan data yang akan digunakan sebagai data latih dan data uji. Data yang digunakan diperoleh dari berbagai e-commerce lokal dengan data produk review berbahasa Indonesia. Setiap data dikelompokan berdasarkan setiap produk. 3.4 Pengujian Proses pengujian bertujuan untuk melakukan evaluasi dari setiap tahapan yang dilakukan. Untuk masing-masing tahap akan dicatat nilai akurasi yang diperoleh. Nilai akurasi akan digunakan untuk analisis pada tahap selanjutnya, untuk menentukan nilai konfigurasi dan algoritma yang paling sesuai untuk digunakan pada penelitian ini. 3.5 Analisis Dalam tahap ini akan dilakukan analisis terhadap hasil pengujian dari tahapan sebelumnya. Pengujian dilakukan dengan membandingkan hasil feature extraction dengan parameter fmeasure dan hasil klasifikasi dengan parameter macro average dan confusion matrix untuk setiap skenario yang telah dilakukan. 3.6 Hasil Penelitian Pada tahapan ini akan diperoleh hasil dari penelitian yang telah dilakukan. Hasil penelitian mencakup kesimpulan dan saran untuk penelitian selanjutnya. Kesimpulan berisi tahapan proses yang perlu dilakukan serta rekomendasi algoritma yang dapat digunakan untuk proses sentiment analysis.

41 Bab 4 menjelaskan BAB 4 PEMROSESAN DATA rangkaian proses dari aplikasi Sentiment Analysis. Implementasi aplikasi berdasarkan landasan teori yang telah dibahas pada bab sebelumnya 4.1 Profil Perusahaan PT. Web Architect Technology merupakan pengembang aplikasi lokal dengan spesialisasi pengembangan aplikasi berbasis web. Berdiri sejak 2009 PT. Web Architect Technology telah menyelesaikan banyak aplikasi berbasis web seperti ERP, CRM, e-commerce dan company profile website. Bekerja sama dengan agency-agency besar dari luar negeri, PT. Web Architect Technology banyak mengerjakan pesanan website dari dari perusahaan-perusahaan di negara lain.pt. Web Architect Technology merupakan salah satu perusahaan di Indonesia yang merupakan google adwords certified partner. PT. Web Architect Technology memiliki beberapa sistem yang siap disesuaikan dan digunakan sesuai kebutuhan dari konsumen, antara lain WCMS (WEBARQ Content Management System) dan WEBARQ ecommerce. Setiap sistem yang ada terus dikembangkan dan dilakukan perbaikan sesuai dengan masukan dari user pengguna sistem. 4.2 Tahapan Pemrosesan Data Berdasarkan beberapa penilitian terdahulu proses sentiment analysis melalui proses feature extraction sebelum dilakukan klasifikasi.terdapat beberapa subproses untuk setiap tahap nya. Gambar 4.1 menggambarkan tahapan-tahapan yang perlu dilakukan dalam proses sentiment analysis. 29

42 30 Gambar 4.1 langkah-langkah pemrosesan data Beberapa proses dilakukan secara manual dan sebagian dilakukan oleh sistem. Proses feature extraction memiliki 4 subproses yang kesemuanya dilakukan secara sistem. Sedangkan untuk proses klasifikasi terdapat proses yang perlu dilakukan secara manual yaitu pemberian label dari masing-masing opini Pengumpulan Data Pengumpulan data yang digunakan pada karya akhir ini dilakukan secara manual, data yang digunakan merupakan data review berbahasa Indonesia dari beberapa e- commerce yaitu yota, sinarelectronic dan beberapa e-commerce lain yang dirahasiakan. Data yang digunakan merupakan data review dari periode 20 Januari 2012 hingga 1 November Total jumlah review yang digunakan ialah 150 dari 3 produk yang berbeda dan terdiri dari 3048 kalimat. Data dikelompokan berdasarkan produk dan disimpan didalam file teks untuk setiap reviewnya POS Tagging Proses POS Tagging diperlukan untuk menentukan label dari setiap kata didalam review. Hal ini diperlukan karena feature dalam suatu opini merupakan kata

43 31 benda(liu, 2010), sehingga perlu diidentifikasi kata-kata mana saja yang berpotensi menjadi feature. Pada penelitian ini metode yang digunakan ialah POS Tagging menggunakan Hidden Markov Model (Wicaksono, et al., 2010), metode tersebut dipilih karena memiliki akurasi yang cukup baik untuk bahasa Indonesia yaitu 83-95%. Output dari tahapan ini ialah data review yang telah diberi label untuk setiap kata dalam review. Contoh data sebelum POS tagging : Iphone apple 4s memiliki prosesor yang lebih cepat. Semua keuntungan didapat dari ios 5 Pemilik iphone akhir nya mendapatkan model 64gb dan kamera yang lebih baik. prosesor dual core memberikan kecepatan lebih. Prosesor sudah dual core dengan chipset terbaru. sayang harganya mahal. handphone ini tampil dengan retina display beresolusi tinggi dan sistem operasi ios 5 Dengan dukungan dual core prosesor segala macam proses terasa lebih optimal dan cepat menggunakan iphone 4s ini. Prosesor dual core ini memiliki kecepatan 1ghz yang memberikan kinerja super cepat. Siri adalah fitur baru yang paling banyak dibicarakan. Contoh data setelah dilakukan POS Tagging menggunakan algoritma Hidden Markov : iphone/nn apple/nn 4s/CDP memiliki/vbt prosesor/nn yang/sc lebih/rb cepat/jj./. semua/cdi keuntungan/nn didapat/jj dari/in ios/nn 5/CDP pemilik/nn iphone/nn akhir/jj nya/rb mendapatkan/vbt model/nn 64gb/NN dan/cc kamera/nn yang/sc lebih/rb baik./. prosesor/nn dual/nn core/nn memberikan/vbt kecepatan/nn lebih/jj prosesor/nn sudah/md dual/vbt core/nn dengan/in chipset/nn terbaru./. sayang/nn harga/nn nya/nng mahal/jj./. handphone/nn

44 32 ini/dt tampil/vbt dengan/in retina/nn display/nn beresolusi/nn tinggi/jj dan/cc sistem/nn operasi/nn ios/nn 5/CDP dengan/in dukungan/nn dual/nn core/nn prosesor/nn segala/nn macam/nn proses/nn terasa/vbi lebih/rb optimal/jj dan/cc cepat/jj menggunakan/vbt iphone/nn 4s/NN ini/dt prosesor/nn dual/nn core/nn ini/dt memiliki/vbt kecepatan/nn 1ghz/NN yang/sc memberikan/vbt kinerja/nn super/nn cepat/jj./. siri/nn adalah/vbt fitur/nn baru/jj yang/sc paling/rb banyak/jj dibicarakan/vbt Terdapat 35 jenis label yang mungkin untuk setiap kata, jenis label pada POS Tagging terdapat pada lampiran 1.Hasil POS Tagging berguna untuk melakukan ekstraksi opini dan memperoleh candidate feature Identifikasi Opini Tidak semua kalimat didalam review berisi opini, untuk proses ekstraksi feature hanya kalimat-kalimat yang merupakan opini saja yang akan diikutsertakan pada proses selanjutnya. Opini dari suatu feature dapat dibentuk dari beberapa kata antara lain kata sifat(adj) atau simbol-simbol tertentu dengan rincian sebagai berikut. Kata Sifat Kata sifat pada suatu opini berfungsi menerangkan kondisi suatu objek yang menjadi fokus opini tersebut. Kata sifat dapat menerangkan kuantitas, kecukupan, urutan, kualitas, maupun penekanan suatu kata. Berdasarkan tata bahasa indonesia, Kata sifat lazim mengikuti kata benda sebagai sifat Contoh : harga mahal (NN + JJ) : mahal merupakan kata sifat yang menerangkan harga sebagai feature. Antara kata benda dan kata sifat dapat disisipkan beberapa kata antara lain conjunction, adverb, negation atau kombinasi beberapa kata tersebut. Contoh :

45 33 kualitas yang baik (NN + Conjunction + JJ), prosesor sangat luar biasa(nn + adverb + JJ), Kamera sangat tidak bagus (NN + adverb + negation + JJ) Satu kata sifat dapat juga menerangkan beberapa objek (feature) sekaligus Contoh : kamera, quad core prosesor dan layar sangat fantastis (NN, NN+NN+NN + conjunction + NN + JJ) Simbol Pada beberapa review opini dapat pula diekspresikan hanya dengan feature dan simbol. Simbol biasanya menerangkan bagaimana kondisi objek(feature) dalam opini tersebut. Contoh : Kelebihan iphone 4s: + Prosesor dual core ARM Cortex A9 + Kamera 8 Megapiksel + Siri + Performa + Dukungan App Store Kekurangan iphone 4s: - Desain - Harga iphone - Sangat bergantung pada itunes - Tidak ada slot micro SD - Beberapa pemakai iphone 4S melaporkan masalah kegagalan dalam membaca kartu SIM untuk semua operator Menggunakan rule yang telah didefinisikan dapat dilakukan ektraksi opini yang terdapat pada review. Berikut ini contoh ekstraksi feature menggunakan rule yang telah didefinisikan: Contoh data review yang telah melalui proses POS Tagging :

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. BAB 3 ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. A. Pohon Keputusan Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

Metode Bayes. Tim Machine Learning

Metode Bayes. Tim Machine Learning Metode Bayes Tim Machine Learning Mengapa Metode Bayes Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Pohon Keputusan. 6.1 Inductive Learning

Pohon Keputusan. 6.1 Inductive Learning 6 Pohon Keputusan Sometimes you make the right decision, sometimes you make the decision right. Phil McGraw Bab ini akan menelaskan salah satu varian pohon keputusan yaitu ID3 oleh Quinlan [27, 28] yang

Lebih terperinci

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis

ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis ALGORITMA C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Tabel 3.1. Keputusan Bermain Tenis NO OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE No

Lebih terperinci

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika Classification Decision Tree Classification Decision Tree Pengertian Pohon Keputusan Pohon keputusan adalah

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom

DATA MINING KLASIFIKASI BERBASIS DECISION TREE. Ramadhan Rakhmat Sani, M.Kom DATA MINING KLASIFIKASI BERBASIS DECISION TREE Ramadhan Rakhmat Sani, M.Kom Text Book Outline 1. Algoritma Data Mining Algoritma ID3 Algoritma C4.5 Algoritma C4.5 Introduction Algoritma C4.5 merupakan

Lebih terperinci

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

LAPORAN TUGAS AKHIR. Disusun oleh: Franky LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Seiring berkembangnya teknologi informasi saat ini maka berkembang pula perangkat perangkat yang mendukung guna akses informasi yang semakin dibutuhkan dalam waktu

Lebih terperinci

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan 1 BAB I PENDAHULUAN 1.1 Latar Belakang Pesatnya perkembangan media sosial menawarkan pengguna kesempatan untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan tidak lagi memiliki

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

Algoritma Dasar. 4.1 Naive Bayes

Algoritma Dasar. 4.1 Naive Bayes 4 Algoritma Dasar It is a capital mistake to theorize before one has data. Arthur Conan Doyle Sebelum masuk ke algoritma machine learning yang cukup modern/ matematis, kami akan memberi contoh algoritma

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya

Lebih terperinci

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Algoritma C4.5. Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 1.

Algoritma C4.5. Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh kasus yang dituangkan dalam Tabel 1. Algoritma C4.5 1 Kusrini, 2 Emha Taufiq Luthfi 1 Jurusan Sistem Informasi, 2 Jurusan Teknik Informatika 1, 2 STMIK AMIKOM Yogykakarta 1,2 Jl. Ringroad Utara Condong Catur Sleman Yogyakarta Untuk memudahkan

Lebih terperinci

Manfaat Pohon Keputusan

Manfaat Pohon Keputusan DECISION TREE (POHON KEPUTUSAN) Latar Belakang Pohon Keputusan Di dalam kehidupan manusia sehari-hari, manusia selalu dihadapkan oleh berbagai macam masalah dari berbagai macam bidang. Masalah-masalah

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN Bab ini akan menjelaskan latar belakang dari penelitian yang memberikan gambaran awal mengenai analisis sentimen dan perannya dalam perkembangan teknologi informasi. Tujuan dan ruang

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan media online mendorong munculnya informasi tekstual yang tidak terbatas, sehingga muncul kebutuhan penyajian tanpa mengurangi nilai dari informasi tersebut.

Lebih terperinci

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta

Budi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta Budi Susanto Versi 1.0 29/08/2012 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

Algoritma Data Mining (2) Tugas Klasifikasi

Algoritma Data Mining (2) Tugas Klasifikasi Algoritma Data Mining (2) Tugas Klasifikasi Anief Fauzan Rozi, S. Kom., M. Eng. 1 Kompentensi Mahasiswa mengetahui algoritma data mining pada tugas klasifikasi 2 Pokok Bahasan Algoritma C4.5 3 Supervised

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION

KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION KLASIFIKASI FITUR DALAM DOKUMEN REVIEW PRODUK DENGAN METODE LOCAL POINTWISE MUTUAL INFORMATION Yufis Azhar Program Studi Teknik Informatika Fakultas Teknik, Universitas Muhammadiyah Malang Email : yufis.az@gmail.com

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based

Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based Journal of Applied Informatics and Computing (JAIC) Vol.1, No.1, Desember 2017 e-issn: 2548-6861 33 Identifikasi Fitur Laptop beserta Orientasinya dengan Metode Apriori dan Lexicon-Based Try Satria Amanattullah

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang 1.1 Latar Belakang BAB I PENDAHULUAN Peningkatan jumlah dokumen ilmiah yang ada menimbulkan kebutuhan akan suatu sistem yang dapat memberikan rekomendasi dokumen ilmiah yang baik. Recommendation system

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Sebelum melakukan penelitian adapun penulis mencari penelitian penelitian yang memungkinkan terkait dengan penelitian antara lain : 1. Analisis Kinerja Data

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

BAB IV HASIL PENELITIAN DAN PEMBAHASAN BAB IV HASIL PENELITIAN DAN PEMBAHASAN 1.1 Data Training Data training adalah data yang digunakan untuk pembelajaran pada proses data mining atau proses pembentukan pohon keputusan.pada penelitian ini

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

Analisis Sentimen Twitter untuk Teks Berbahasa Indonesia dengan Maximum Entropy dan Support Vector Machine

Analisis Sentimen Twitter untuk Teks Berbahasa Indonesia dengan Maximum Entropy dan Support Vector Machine IJCCS, Vol.8, No.1, January 2014, pp. 91~100 ISSN: 1978-1520 91 Analisis Sentimen Twitter untuk Teks Berbahasa Indonesia dengan Maximum Entropy dan Support Vector Machine Noviah Dwi Putranti* 1, Edi Winarko

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Data mining bertujuan untuk menemukan pola-pola yang valid, baru, mempunyai nilai guna, dan mudah dipahami dari data yang ada. Jenis pola yang dihasilkan ditentukan

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI

BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI BAB II TINJAUAN PUSTAKA DAN LANDASAR TEORI 2.1 Penelitian Terkait Penelitian mengenai penggunaan Metode Klasifikasi dengan algoritma C4.5 dalam pengelompokan data siswa berdasarkan prestasi dan kriteria

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Jurnal Informatika Polinema ISSN: 2407-070X IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Faisal Rahutomo 1, Pramana Yoga Saputra 2, Miftahul Agtamas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Media massa memiliki berbagai jenis media penyiaran seperti televisi dan radio dan media cetak seperti surat kabar, majalah dan tabloid. Namun, dengan kemajuan teknologi

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Analisis Sentimen pada Twitter untuk Mengenai Penggunaan Transportasi Umum Darat Dalam Kota dengan Metode Support Vector Machine

Analisis Sentimen pada Twitter untuk Mengenai Penggunaan Transportasi Umum Darat Dalam Kota dengan Metode Support Vector Machine Analisis Sentimen pada Twitter untuk Mengenai Penggunaan Transportasi Umum Darat Dalam Kota dengan Metode Support Vector Machine Anita Novantirani 1, Mira Kania Sabariah S.T., M.T 2, Veronikha Effendy,

Lebih terperinci

dengan harga jual yang lebih rendah. Sedangkan diskon atau potongan harga adalah pengurangan harga langsung dari suatu produk yang dilakukan dalam

dengan harga jual yang lebih rendah. Sedangkan diskon atau potongan harga adalah pengurangan harga langsung dari suatu produk yang dilakukan dalam BAB I PENDAHULUAN 1.1. Latar Belakang Masalah CV. Amigo Mangesthi Utomo merupakan sebuah perusahaan perseorangan yang bergerak dalam bidang retail sepatu dan pakaian sejak tahun 1976. Pada tahun 2013,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

ID3 : Induksi Decision Tree

ID3 : Induksi Decision Tree ID3 : Induksi Decision Tree Singkatan: Iterative Dichotomiser 3 Induction of Decision "3" (baca: Tree Pembuat: Ross Quinlan, sejak akhir dekade 70-an. Pengembangan Lanjut: Cikal bakal algoritma C4.5, pada

Lebih terperinci

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Human Resource Management merupakan prosedur sistematis untuk mengumpulkan, menyimpan, mempertahankan, menarik dan memvalidasi data yang di butuhkan oleh suatu organisasi

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

BAB 1 PENDAHULUAN. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian yang memberikan gambaran awal mengenai klasifikasi topik dan perannya dalam perkembangan teknologi informasi. Tujuan dan ruang lingkup

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Dengan perkembangan teknologi yang semakin pesat, setiap orang dituntut untuk bisa memanfaatkan dengan baik perkembangan teknologi dan dapat menggunakan di dalam kehidupan

Lebih terperinci