BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE"

Transkripsi

1 BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE 3.1 Deskripsi Sistem Ekstraksi Informasi Gambar III-1 Arsitektur sistem ekstraksi informasi Sistem ekstraksi informasi secara umum terbagi menjadi 2 subsistem, yaitu subsistem pembelajaran model ekstraksi yang akan menghasilkan model ekstraksi, dan subsistem aplikasi model ekstraksi hasil pembelajaran untuk dapat menghasilkan informasi-informasi yang sesuai dengan struktur target yang telah ditentukan. Berikut ini adalah penjelasan detil mengenai masing-masing subsistem. III-1

2 III Pembelajaran Model Ekstraksi Pemrosesan awal (preprocessing) Sebelum dapat menjadi masukan bagi algoritma pembelajaran SVM, maka dataset yang akan dijadikan sebagai data pelatihan harus melalui pemrosesan awal terlebih dahulu (preprocessing). Pada pemrosesan awal tersebut, data pelatihan yang berupa kumpulan dokumen teks akan dipecah menjadi kumpulan token. Sebuah token didefinisikan sebagai rangkaian karakter alfabetik atau numerik yang berurutan, sedangkan tanda baca dianggap sebagai sebuah token. Sebuah token dianggap sebagai satu instance yang dapat menjadi contoh positif atau contoh negatif untuk diekstrak bagi field di dalam struktur target. Agar dapat digunakan sebagai masukan untuk algoritma klasifikasi, maka token-token dari teks harus diubah ke dalam vektor fitur (feature vector). Pengubahan token ke dalam vektor fitur pada ELIE L2 [FIN04a, FIN04b, FIN06] dan GATE-SVM [LI05a] secara umum hampir sama, yaitu menggunakan beberapa fitur Natural Language Processing (NLP) seperti part-of speech (POS), gazetteer, dan orthographic. Pada GATE-SVM [LI05a] dijelaskan bahwa proses pengubahan ke dalam vektor fitur tersebut menggunakan perangkat lunak open source yang disebut ANNIE (A Nearly New Information Extraction System), yang merupakan bagian dari GATE (General Architecture for Text Engineering). Sedangkan pada ELIE L2 [FIN04a, FIN04b, FIN06] tidak dijelaskan mengenai perangkat bantu yang digunakan untuk mengubah token ke dalam vektor fitur. Oleh karena itu, proses pengubahan token ke dalam vektor fitur akan menggunakan ANNIE dan menggunakan GATE- SVM [LI05a] sebagai acuan. Fitur-fitur NLP yang dapat digunakan antara lain: 1. Orthography atau Case, yaitu penggunaan huruf besar dan huruf kecil oleh token. 2. Tokenkind, yaitu jenis token: kata, angka, simbol, atau tanda baca. 3. Lemma, yaitu bentuk dasar dari token, merupakan hasil dari analisis morfologikal. 4. Part of Speech (POS), yaitu tata bahasa dari token, apakah merupakan kata benda, kata kerja, dan sebagainya.

3 III-3 5. Lookup atau gazetteer, yaitu daftar kata dan istilah untuk berbagai kategori, misalnya untuk kategori negara yang berisi daftar seluruh negara yang ada di dunia. 6. Entity, yaitu fitur named entity recognition yang dimiliki oleh ANNIE, bekerja berdasarkan aturan ekstraksi yang sudah terdefinisi (rule-based). Dari fitur-fitur NLP tersebut, POS merupakan satu-satunya fitur yang language dependent, yaitu bergantung pada bahasa yang digunakan. Sedangkan fitur-fitur lainnya tidak bergantung pada domain maupun bahasa. Pada Tabel III-1 dapat dilihat contoh teks Time: 3:30 PM dan fitur-fitur NLP yang bersesuaian. Sebagai catatan, tidak semua token memiliki fitur yang bersesuaian, sebagai contoh untuk token Time yang tidak memiliki fitur Lookup karena tidak terdapat di dalam daftar gazetteer yang dimiliki ANNIE. Tabel III-1 Fitur NLP untuk contoh teks "Time: 3:30 PM" Token Case Tokenkind Lemma POS Lookup Entity Time upperinitial word time NNP Unknown : punctuation : : 3 number 3 CD Time : punctuation : : Time 30 number 30 CD Time PM allcaps word pm NNP Time Time Kemudian, vektor fitur dari setiap token diturunkan dari fitur NLP dari setiap token dengan cara: 1. Setiap kemungkinan kemunculan fitur dari data pelatihan dikumpulkan dan diindeks dengan id yang unik, dan setiap dimensi dari vektor fitur berkorespondensi dengan sebuah fitur NLP. 2. Untuk setiap token, setiap komponen dari vektor fitur yang berkorespondensi dengan nilai dari fitur NLP yang bersesuaian akan diberi bobot 1, sedangkan komponen lainnya akan diberi bobot 0 dan tidak akan dimasukan sebagai masukan bagi algoritma klasifikasi. Untuk setiap token, vektor fitur merupakan himpunan fitur yang ditulis dengan format: [indeks fitur NLP]:[bobot]

4 III-4 Pada ekstraksi informasi, konteks lingkungan tempat sebuah kata berada sama pentingnya dengan kata itu sendiri. Oleh karena itu, vektor fitur masukan bagi algoritma klasifikasi harus memperhitungkan kata-kata yang mendahului dan katakata yang mengikuti token yang bersangkutan. Konteks lingkungan ini disebut sebagai window konteks. Pada eksperimen yang dilakukan oleh [LI05a], jumlah kata yang mendahului dan mengikuti adalah sama. Jumlah kata ini disebut sebagai window size. Oleh karena itu, jika window size-nya adalah 3, maka vektor fitur yang menjadi masukan bagi algoritma klasifikasi diturunkan dari 7 buah token, yaitu: - 3 buah token yang mendahului, - token yang akan diklasifikasi (current token), dan - 3 buah token yang mengikuti. Strategi representasi konteks yang sama juga digunakan oleh ELIE L2 [FIN04a, FIN04b, FIN06]. Sebagai vektor fitur masukan bagi algoritma klasifikasi, token-token yang berada di dalam window konteks dapat diberi bobot yang berbeda, bergantung pada letak token relatif terhadap token yang sedang diamati (current token). Terdapat dua skema pembobotan yang dapat digunakan. 1. Equal weighting, yaitu memberi bobot 1 pada semua komponen vektor fitur yang bersesuaian dengan fitur NLP yang dimiliki oleh setiap token di dalam window konteks. Hal ini berarti bahwa semua token tetangga dianggap sama pentingnya, tidak bergantung pada letak token tetangga tersebut relatif terhadap current token. 2. Reciprocal weighting, yaitu memberi bobot berdasarkan letak token relatif terhadap current token. Semakin dekat token tetangga dengan current token, maka bobotnya menjadi lebih tinggi. Sebaliknya, jika semakin jauh maka bobotnya pun menjadi lebih rendah. Nilai bobot dihitung dengan menggunakan rumus 1/j, dengan j adalah posisi token relatif terhadap current token.

5 III Pembelajaran SVM Terdapat beberapa algoritma klasifikasi yang dapat digunakan untuk menghasilkan model ekstraksi, salah satunya adalah Support Vector Machine (SVM). SVM telah mencapai performansi state-of-the-art untuk berbagai persoalan klasifikasi, termasuk untuk persoalan named entity recognition [LI05a]. Oleh karena itu, akan digunakan SVM sebagai algoritma klasifikasi. Strategi yang akan digunakan yaitu strategi Begin/End (BE) tagging yang telah dijelaskan pada bagian Strategi ini dipilih selain karena ELIE [FIN04a, FIN04b, FIN06] dan GATE-SVM [LI05a] menggunakan strategi ini, juga karena strategi ini menggunakan jumlah kelas yang paling sedikit yaitu n + 1 kelas untuk sebuah classifer, dengan n adalah jumlah slot pada template, walaupun untuk strategi ini dibutuhkan dua buah classifier. Akan tetapi, pada GATE-SVM [LI05a], strategi Begin/End tagging dimodifikasi. Untuk menyederhanakan implementasi, jumlah classifier yang digunakan hanya satu, yaitu untuk mengklasifikasikan token ke dalam n kelas B-type + n kelas E-type. Token lain-lain (O atau Others) tidak dianggap sebagai kelas. Dengan demikian, jumlah kelas yang digunakan oleh classifier adalah sebanyak 2n, dengan n adalah jumlah tipe slot pada template. Karena mengklasifikasikan token ke dalam banyak kelas, maka classifier merupakan multi class SVM. Secara umum, multi class SVM diimplementasikan dengan cara mengkombinasikan beberapa SVM biner. Penjelasan mengenai multi class SVM dapat dilihat pada bagian Di dalam tugas akhir ini, teknik kombinasi yang akan diujikan dan dibandingkan performansinya hanya teknik one-against-all (disebut juga one-vs-others) dan one-against-one (disebut juga one-vs-another). Pemilihan teknik kombinasi ini didasarkan pada keterbatasan perangkat bantu, yaitu GATE 4.0, yang hanya mengimplementasikan multi class SVM dengan kedua teknik tersebut. Pembelajaran SVM membutuhkan parameter pembelajaran, antara lain: - SVM kernel yang digunakan: linear, polynomial, RBF, atau sigmoid. - Parameter uneven margin: 0 < τ < 1

6 III Model Ekstraksi Pada akhir proses pembelajaran SVM akan dihasilkan model ekstraksi, yaitu berupa kumpulan hipotesis yang dapat memisahkan data ke dalam 2n kelas. Adapun bentuk hasil pembelajaran berupa model yang dihasilkan oleh SVM dapat dilihat pada Lampiran L Aplikasi Model Ekstraksi Pemrosesan awal (preprocessing) Sebelum dapat mengaplikasikan model ekstraksi, dokumen teks yang akan diekstrak informasi yang terkandung di dalamnya juga harus melalui pemrosesan awal terlebih dahulu (preprocessing). Sama seperti pada proses pembelajaran model ekstraksi, pada pemrosesan awal tersebut, data pelatihan yang berupa kumpulan dokumen teks dipecah menjadi kumpulan token dan diubah ke dalam vektor fitur sesuai dengan yang telah dijelaskan pada bagian Klasifikasi SVM Proses klasifikasi dilakukan menggunakan model ekstraksi yang dihasilkan dari proses pembelajaran SVM. Model ekstraksi tersebut diaplikasikan pada vektor fitur setiap token, sehingga diperoleh label-label kelas untuk setiap token di dalam dokumen teks. Tidak menutup kemungkinan bahwa satu token memiliki lebih dari satu label kelas (misalnya sebagai B-area sekaligus sebagai B-language), atau diklasifikasikan baik sebagai B-type maupun E-type. Pada kasus yang kedua, artinya token tersebut menjadi pengisi tunggal untuk suatu field tipe tertentu Pemrosesan Akhir (postprocessing) Mengacu pada [LI05a], setelah diperoleh label kelas untuk setiap token, diperlukan adanya pemrosesan akhir (postprocessing), yang terdiri dari 3 tahap, yaitu: 1. Meyakinkan adanya konsistensi hasil, yaitu menghilangkan tag awal yang tidak memiliki tag akhir, dan sebaliknya. 2. Menyaring entitas kandidat yang dihasilkan dari tahap pertama, berdasarkan panjangnya. Tag dari entitas kandidat akan dihilangkan jika panjangnya (yaitu

7 III-7 jumlah kata/token) tidak sama dengan entitas manapun dengan tipe yang sama di dalam data pelatihan. Pada saat proses pelatihan, statistik jumlah token untuk setiap entitas untuk setiap tipe slot disimpan. 3. Mengumpulkan semua tag yang mungkin untuk sebuah token, kemudian dibandingkan probabilitasnya. - Pertama-tama, keluaran dari SVM untuk setiap token, misalkan nilainya adalah x, diubah ke dalam probabilitas dengan menggunakan rumus s ( x) = /( 1+ exp( βx) ) 1, dimana β = Batas probabilitas sebuah label kelas dapat di-assign pada token disebut dengan thresholdprobabilityboundary. - Jika ( x) thresholdprobabilityboundary s > maka label kelas tersebut akan menjadi kandidat label, jika tidak maka diabaikan. - Kemudian, tag atau tipe slot untuk setiap entitas 1 dihitung probabilitasnya dengan menggunakan rumus s ( xs ) s( x e ), dimana s ( x s ) adalah probabilitas label kelas begin suatu tipe slot dan s ( x e ) adalah probabilitas label kelas end tipe slot yang sama. - Batas probabilitas sebuah tag dapat di-assign pada entitas disebut dengan thresholdprobabilityentity. - Jika ( s( x ) s( x )) thresholdprobabilityentity maka tag tersebut akan s e > menjadi kandidat tag untuk sebuah entitas, jika tidak maka diabaikan. - Tag dengan probabilitas terbesar lah yang akan di-assign pada entitas tersebut. 3.2 Dataset untuk Ekstraksi Informasi Terdapat dua dataset yang digunakan di dalam tahap eksperimen sistem ekstraksi informasi di dalam tugas akhir ini. Yang pertama adalah dataset job postings corpus yang merupakan dataset standar untuk evaluasi performansi sebuah sistem ekstraksi informasi. Dataset yang kedua adalah dataset yang dibuat sendiri. Dataset job postings corpus digunakan untuk memvalidasi apakah implementasi sistem ekstraksi informasi yang direplikasi dari [LI05a] sudah benar atau belum. 1 Yang dimaksud dengan entitas adalah kata atau frase, jadi bisa berupa sebuah token atau gabungan beberapa token

8 III-8 Kemudian sistem ekstraksi informasi diaplikasikan pada dataset yang kedua, untuk kemudian dianalisis performansinya. Berikut ini penjelasan mengenai masing-masing dataset Job Postings Corpus Terdapat beberapa dataset standar yang dapat digunakan untuk ekstraksi informasi. Dataset atau corpus tersebut dapat ditemukan pada RISE Repository yang dapat diakses pada URL: Salah satu dataset yang banyak digunakan adalah Job Postings Corpus, yang dikoleksi oleh Mary E. Califf [CAL98]. Dataset ini terdiri dari 300 pesan newsgroup yang memberikan detil mengenai lowongan pekerjaan di Austin. Format dokumen ini dapat dikatakan semi-terstruktur, karena bagian header di-generate oleh program mailing, sedangkan bagian isi pesan dibuat oleh manusia dalam natural language. Pada Gambar III-2 dapat dilihat contoh dokumen di dalam job postings corpus yang sudah diberi anotasi. Representasi pemberian anotasi yang digunakan adalah dengan memberikan tag awal dan akhir seperti dalam contoh Gambar II-4. From: "Brian Baccam" Newsgroups: austin.jobs Subject: <language>visual BASIC</language> in <city>san Antonio</city> Date: <post_date>30 Aug 1997<post_date> 21:56:47 GMT Organization: Devon Tax Group Lines: 16 Message-ID: NNTP-Posting-Host: pc22.devontax.com X-Newsreader: Microsoft Internet News Xref: cs.utexas.edu austin.jobs: <language>visual Basic</language> <title>progammer</title> needed in <city>san Antonio</city>. Will be working with a small team to develop a tax management program. Minimum Qualifications: * 2-4 yrs. of <language>visual Basic</language> application development experience * strong working knowldge of <application>access</application> and/or <application>sql Server</application> a plus. Location: <city>san Antonio</city> Position: Contractual Duration: Minumum 3 months Please send resume in text format only to: bbaccam@devontax.com or fax to: (210) Gambar III-2 Contoh Job Postings Corpus [FIN06]

9 III-9 Dataset job postings corpus mendefinisikan 17 slot/field menyangkut informasi yang akan diekstrak dari sebuah iklan lowongan pekerjaan. Daftar field dan jumlah kemunculannya di dalam dataset beserta contoh nilainya dapat dilihat pada Tabel III-2. Tabel III-2 Daftar field pada Job Postings Corpus [FIN06] Field / Slot Kemunculan Contoh id 299 NEWTNews consults@ws-n title 466 ALC Application Programmer, Visual Basic Developers company 291 Alliance, CPS, Charter Professional Services Inc salary 143 $50k to $70k, to $60k recruiter 325 Resource Spectrum state 462 TX, Texas, Miami, Georgia, MI city 639 Austin, Battle Creek, San Antonio country 363 US, USA, England, UK language 867 RPG, COBOL, CICS, Java, c, c++, SQL, PowerBuilder platform 705 AS400, Windows 95, windows, portable systems, PC application 605 DB2, Oracle, DB2 server, sysbase Area 980 Failure analysis, multimedia, TCP/IP, internet required years experience 173 2, 2+, two, 5, 4 desired years experience 45 5, 4, 10 required degree 80 BS, B.S., Bachelor, Bachelor s, BSCS desired degree 21 Phd, BS, BSCS, Masters, MSCS post date Aug 1997, 11 Sep 1997 Berikut ini adalah penjelasan mengenai setiap field pada template Job Postings Corpus. - id, merupakan header yang ter-attach pada setiap pesan newsgroup - title, judul pekerjaan yang diiklankan - company, perusahaan tempat lowongan pekerjaan berada - salary, jumlah gaji yang ditawarkan - recruiter, agensi yang mengiklankan lowongan pekerjaan - state, city, dan country, dimana lowongan pekerjaan terdapat - language, bahasa pemrograman yang harus dikuasai - platform, sistem operasi dan platform sistem umum yang harus dikuasai

10 III-10 - application, aplikasi komputer yang harus dikuasai - area, kategori umum dari pekerjaan di bidang komputer - required years experience, lama pengalaman kerja yang dibutuhkan - desired years experience, lama pengalaman kerja yang diinginkan (lebih memberikan nilai tambah) - required degree, tingkat pendidikan terakhir yang dibutuhkan - desired degree, tingkat pendidikan terakhir yang diinginkan (lebih memberikan nilai tambah) - post date, tanggal pesan di-posting Pada dataset ini language, platform, application, dan area adalah field yang memiliki beberapa nilai (multi-valued fields), sedangkan yang lainnya merupakan field bernilai tunggal (single-valued fields). Jumlah instance, atau dengan kata lain jumlah token di dalam dataset ini adalah sebanyak token token di antaranya merupakan contoh negatif, yaitu tidak memiliki tag tipe slot apapun. Sedangkan sisanya merupakan contoh positif. Dari Gambar III-3 dapat terlihat bahwa job postings corpus merupakan imbalanced dataset. Gambar III-3 Rasio data positif dan negatif pada job postings corpus Dataset Lowongan Pekerjaan Dataset ini dibuat dengan mengumpulkan halaman-halaman web yang mengandung informasi lowongan pekerjaan. Total dokumen di dalam dataset adalah sebanyak 180 halaman web. Adapun bahasa yang digunakan sebagian Bahasa Inggris dan sebagian lagi Bahasa Indonesia dengan perbandingan 1 : 1, yaitu 90 dokumen Bahasa Inggris dan 90 dokumen Bahasa Indonesia. Adapun dokumen Bahasa Indonesia kebanyakan

11 III-11 merupakan dokumen multi-bahasa Indonesia-Inggris. Deskripsi lengkap mengenai dataset yang dikumpulkan termasuk sumber dataset dapat dilihat pada Lampiran D. Proses anotasi dilakukan secara manual, dengan menggunakan editor anotasi yag disediakan oleh GATE 4.0. Adapun penjelasan mengenai pemberian anotasi terhadap dokumen teks dengan menggunakan GATE 4.0 GUI dapat dilihat pada Lampiran A. Didefinisikan 14 slot/field menyangkut informasi yang akan diekstrak dari sebuah iklan lowongan pekerjaan, yaitu: - industry, industri yang digeluti perusahaan, co: IT, Telecom - company_name, nama perusahaan - job_category, kategori dari pekerjaan yang ditawarkan - job_title, nama pekerjaan - location, lokasi pekerjaan (negara, propinsi, kota) - education_level, pendidikan minimum (S1, D3) - foreign_language, bahasa asing - description, deskripsi pekerjaan yang akan dilakukan - salary, gaji yang ditawarkan - contact, alamat - deadline, batas pengiriman lamaran kerja - posting_date, tanggal lowongan kerja di-post - needed_experience, pengalaman kerja yang dibutuhkan - experience_duration, lama pengalaman kerja yang dibutuhkan Pendefinisian 14 slot ini didasarkan pada field yang berhubungan dengan sebuah lowongan pekerjaan, di dalam basis data Jomar, Sistem Cerdas untuk Perangkat Lunak Layanan Bursa Kerja [WID07]. Jumlah instance, atau dengan kata lain jumlah token di dalam dataset ini adalah sebanyak token token di antaranya merupakan contoh negatif, yaitu tidak memiliki tag tipe slot apapun. Sedangkan sisanya merupakan contoh positif. Dari Gambar III-4 dapat terlihat bahwa dataset lowongan pekerjaan merupakan imbalanced dataset.

12 III-12 Gambar III-4 Rasio data positif dan negatif pada dataset lowongan pekerjaan 3.3 Perangkat Bantu Eksperimen Perangkat bantu eksperimen yang diimplementasikan adalah perangkat lunak yang menggunakan library GATE 4.0 ( dan diimplentasikan dalam bahasa Java, menggunakan Netbeans IDE 6.0. Tujuan pembuatan perangkat bantu eksperimen adalah untuk mempermudah proses evaluasi performansi sistem ekstraksi informasi yang telah dibangun. Adapun implementasi perangkat lunak mengacu kepada paper mengenai GATE-SVM [LI05a]. Hal ini dilakukan untuk mempermudah pembuatan perangkat lunak, karena library yang disediakan oleh GATE 4.0 sudah sangat lengkap. GATE 4.0 (General Architecture for Text Engineering) merupakan aplikasi open source yang ditujukan untuk pengembangan aplikasi natural language processing, salah satunya adalah untuk ekstraksi informasi. GATE 4.0 menyediakan modul pemrosesan teks untuk menghasilkan fitur-fitur NLP yang terdapat di dalam suatu dokumen teks. Modul tersebut adalah ANNIE (A Nearly New IE system). ANNIE juga digunakan oleh [LI05a] untuk menghasilkan fitur-fitur NLP yang akan diubah menjadi vektor fitur masukan algoritma pembelajaran. GATE 4.0 juga menyediakan API untuk pembelajaran mesin, yaitu pada modul Batch Learning Processing Resource (PR). Implementasi dari Batch Learning PR ini mencakup 3 tipe pembelajaran NLP, yaitu: - chunk recognition (named entity recognition) - text classification - relation extraction

13 III-13 Chunk recognition atau named entity recognition merupakan nama lain dari ekstraksi informasi. Dengan kata lain, modul Batch Learning PR dapat digunakan untuk mengimplementasikan ekstraksi informasi. Adapun algoritma pembelajaran utama yang diimplementasikan di dalam Batch Learning PR ini adalah SVM, dengan menggunakan versi Java dari LibSVM. Selain SVM, Batch Learning PR juga mendukung beberapa algoritma pembelajaran di dalam Weka, yaitu Naïve Bayes, KNN, dan C4.5. Penjelasan mengenai penggunaan ANNIE untuk memecah dokumen teks menjadi sekumpulan token dan menghasilkan fitur-fitur NLP untuk setiap token, dapat dilihat pada Lampiran B. Sedangkan penjelasan mengenai penggunaan Batch Learning PR sebagai modul pembelajaran dapat dilihat pada Lampiran C. Perangkat bantu eksperimen sistem ekstraksi informasi yang diimplementasikan akan menggunakan ANNIE dan Batch Learning PR sebagai komponen utama. Perubahan yang dilakukan pada library GATE 4.0 untuk mengimplementasikan perangkat bantu eksperimen tersebut dapat dilihat pada Lampiran K. Fungsionalitas yang dimiliki oleh perangkat bantu eksperimen antara lain: 1. Melakukan pemrosesan awal, yaitu menghasilkan fitur-fitur NLP dari sebuah dokumen teks, dengan menggunakan ANNIE GATE 4.0. Dokumen yang sudah melalui pemrosesan awal dapat disimpan dalam format file XML. 2. Menyediakan antarmuka yang dapat digunakan untuk mengatur parameter pembelajaran, yang disimpan di dalam file configuration.xml, untuk kemudian digunakan oleh Batch Learning PR. Parameter yang dapat dikonfigurasi antara lain: - thresholdprobabilityentity dan thresholdprobabilityboundary, yang diperlukan pada tahap pemrosesan akhir (postprocessing) - Penggunaan metode filtering (tidak digunakan di dalam tugas akhir ini) - Algoritma klasifikasi yang digunakan: SVM, Naïve Bayes, atau KNN - Jika menggunakan algoritma SVM: - parameter pembelajaran SVM, seperti fungsi kernel yang digunakan dan parameter uneven margin. - Teknik implementasi multi class SVM

14 III-14 - Fitur-fitur NLP yang akan dijadikan sebagai atribut - Ukuran window konteks (window size) 3. Melakukan proses pembelajaran, menggunakan Batch Learning PR GATE 4.0. Terdapat 4 buah mode pembelajaran, antara lain: Produce feature files only, Training, Application, dan Evaluation. Penjelasan mengenai masing-masing mode pembelajaran dapat dilihat pada Lampiran C. 4. Menampilkan status proses pembelajaran pada panel Log Message. 5. Menampilkan hasil evaluasi (jika digunakan mode Evaluation pada pembelajaran) pada panel Evaluation Result. Hasil evaluasi juga dapat disimpan ke dalam file dengan format Excel (.xls). 6. Menampilkan perbedaan anotasi antara anotasi Label hasil ekstraksi informasi dengan anotasi Label yang terdapat pada dokumen teks, per tipe pengisi slot. Perbedaan anotasi ini dapat digunakan untuk menghitung jumlah correct, partial correct, spurious, dan missing. Pada Gambar III-5 dapat dilihat antarmuka perangkat bantu eksperimen yang diimplementasikan. Gambar III-5 Antarmuka perangkat bantu eksperimen

15 III-15 Keterangan: 1. Panel pengaturan direktori, digunakan untuk: - mengatur direktori tempat GATE 4.0 berada (GATE home directory) - mengatur direktori yang berisi data yang akan diproses (Corpus directory). 2. Panel pengaturan pemrosesan awal (preprocessing) menggunakan ANNIE, digunakan untuk mengatur direktori tempat menyimpan hasil pemrosesan awal. Jika tidak diisi maka hasil pemrosesan awal tidak akan disimpan. 3. Panel pengaturan proses pembelajaran, digunakan untuk: - mengatur direktori tempat menyimpan file konfigurasi, file vektor fitur, dan model hasil pembelajaran (Working directory) - mengatur parameter pembelajaran - memulai proses pembelajaran, dengan mengklik tombol Run 4. Panel status proses pembelajaran, menampilkan log message proses pembelajaran. 5. Panel hasil evaluasi, menampilkan hasil evaluasi jika digunakan mode pembelajaran Evaluation. Berisi metrik evaluasi untuk setiap tipe pengisi slot. Jika diklik ganda maka muncul jendela perbedaan anotasi antara anotasi Label yang sebenarnya dengan anotasi Label hasil ekstraksi, untuk tipe pengisi slot yang diklik. Pada Gambar III-6 dapat dilihat perbedaan anotasi untuk tipe pengisi slot company_name. Gambar III-6 Jendela perbedaan anotasi untuk tipe pengisi slot company_name - Baris yang tidak berwarna menandakan hasil ekstraksi yang benar (correct). - Baris berwarna biru menandakan hasil ekstraksi benar sebagian (partial correct) - Baris berwarna kuning menandakan hasil ekstraksi yang salah (spurious) - Baris berwarna merah menandakan entitas yang tidak terdeteksi (missing)

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen

BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen

Lebih terperinci

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks

Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Paramita / 13504040 PROGRAM STUDI TEKNIK INFORMATIKA

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah

BAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah BAB III METODOLOGI Dalam penelitian ini metodologi memegang peranan penting guna mendapatkan data yang obyektik, valid dan selanjutnya digunakan untuk memecahkan permasalahan yang telah dirumuskan. Maka

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital

ABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital ABSTRAK Kemudahan dalam mendapatkan musik digital membuat orang-orang dapat memiliki banyaknya koleksi musik digital. Terkadang orang-orang menikmati musik dengan jenis musik tertentu berdasarkan kondisi

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining. Modul Praktikum WEKA Yudi Wibisono (e: yudi@upi.edu ); t: @yudiwbs Ilmu Komputer Universitas Pendidikan Indonesia (cs.upi.edu) Versi BETA : Oktober 2013 http://creativecommons.org/licenses/by-nc-sa/3.0/

Lebih terperinci

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN 3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB 2 LANDASAN TEORI. Data adalah fakta atau bagian dari fakta yang digambarkan dengan simbol-simbol,

BAB 2 LANDASAN TEORI. Data adalah fakta atau bagian dari fakta yang digambarkan dengan simbol-simbol, BAB 2 LANDASAN TEORI 2.1 Data dan Informasi Data adalah fakta atau bagian dari fakta yang digambarkan dengan simbol-simbol, gambar-gambar, nilai-nilai, bilangan-bilangan, uraian karakter yang mempunyai

Lebih terperinci

BAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK

BAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK BAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK Pada bab ini akan dibahas berbagai hal yang terkait analisis dan perancangan perangkat lunak web mining yang diusulkan sebagai solusi permasalahan.

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

Tutorial penggunaan CMS / Application By. Steph/IT/04/2010

Tutorial penggunaan CMS / Application By. Steph/IT/04/2010 Tutorial penggunaan CMS / Application By. Steph/IT/04/2010 Bab I Pengenalan dasar Website Ditek Jaya terdaftar dengan menggunakan nama domain http://www. ditekjaya.co.id Website Ditek Jaya dilengkapi dengan

Lebih terperinci

PENDAHULUAN. I.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang I PENDAHULUAN I.1 Latar Belakang Internet sebagai jaringan komputer skala global telah mendorong pertambahan jumlah informasi digital. Pada sistem yang bersifat terbuka seperti internet, pertambahan informasi

Lebih terperinci

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan

PERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey

Lebih terperinci

ABSTRAK. Kata kunci: diagram kelas, xml, java, kode sumber, sinkronisasi. v Universitas Kristen Maranatha

ABSTRAK. Kata kunci: diagram kelas, xml, java, kode sumber, sinkronisasi. v Universitas Kristen Maranatha ABSTRAK Salah satu bidang kajian dalam bidang teknologi informasi adalah rekayasa perangkat lunak. Dalam rekayasa perangkat lunak, terdapat konsep yang mendasari berbagai jenis metodologi pengembangan

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Manajemen Proyek 2.1.1. Pengertian Manajemen Menurut James A.F. Stoner (2006) Manajemen adalah suatu proses perencanaan, pengorganisasian, kepemimpinan, dan pengendalian upaya

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang 1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian

Lebih terperinci

Praktikum Basis Data 2. BAB 1 : Pendahuluan

Praktikum Basis Data 2. BAB 1 : Pendahuluan BAB 1 : Pendahuluan 1.1. Sasaran Memahami fitur-fitur Oracle9i Dapat menjelaskan aspek teori maupun fisik dari database relasional Menggambarkan Implementasi Oracle pada RDBMS dan ORDBMS 1.2. Oracle9i

Lebih terperinci

Perbandingan Algoritma Pendeteksian Spam

Perbandingan Algoritma Pendeteksian Spam Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan

BAB IV EKSPERIMEN. 4.1 Tujuan BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN 26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Teori Umum 1.1.1 Aplikasi SMS Lokal Komputer Aplikasi SMS Lokal Komputer digunakan untuk pengiriman SMS ke pelanggan dengan menggunakan PC yang disambungkan dengan Handphone agar

Lebih terperinci

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

BAB 1 PENDAHULUAN. Universitas Sumatera Utara 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning

Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning MENGENAL RAPIDMINER RapidMiner Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning Salah satu disiplin ilmu dari Computer Science yang mempelajari

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pengembangan teknologi diharapkan menghasilkan berbagai hal yang berguna untuk memenuhi kebutuhan masyarakat serta memberi kemudahan dan kenyamanan pada pengguna

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer

Lebih terperinci

Secara garis besar, arsitektur sistem Real Time Auto Door-Lock terbagi menjadi 6 bagian, yaitu:

Secara garis besar, arsitektur sistem Real Time Auto Door-Lock terbagi menjadi 6 bagian, yaitu: 7 DOOR-Lock BAB 2 SISTEM REAL TIME AUTO SISTEM REAL TIME AUTO DOOR-LOCK Bab ini akan menjelaskan tentang arsitektur dari sistem, proses analisis kebutuhan dan desain dari perangkat lunak sistem, skema

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI III.1. Sistem Informasi Sistem presensi menggunakan QRCode dan ijin berbasis web dan mobile merupakan sistem informasi yang digunakan untuk menyelesaika masalah presensi dan ijin

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.

BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12. BAB I Pendahuluan Perkembangan teknologi komputer akhir-akhir semakin maju, terutama perkembangan dibidang teknologi informasi, karena didukung oleh perkembangan perangkat keras, perangkat lunak dan jaringan

Lebih terperinci

BAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa Latin Computare yang berarti

BAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa Latin Computare yang berarti BAB 2 LANDASAN TEORI 2.1 Pengertian Komputer Istilah komputer mempunyai arti yang luas dan berbeda untuk orang yang berbeda. Istilah komputer (computer) berasal dari bahasa Latin Computare yang berarti

Lebih terperinci

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION

Lebih terperinci

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.

DAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi. DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI 2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma

Lebih terperinci

Web Site :

Web Site : BAHASA ASSEMBLY Salahuddin, SST Email : salahuddin_ali@ymail.com salahuddin.ali00@gmail.com Web Site : www.salahuddinali.com Pendahuluan Program adalah kumpulan instruksi/perintah yang disusun sebagai

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 36 BAB III ANALISA DAN PERANCANGAN SISTEM III.1 Analisa Perancangan aplikasi E-Learning ini membahas seputar materi Microsoft Word 2003. Setiap penjelasan disertai dengan arahan berupa suara untuk melanjutkan

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang 9 BAB 1 PENDAHULUAN Latar Belakang Short Message Service (SMS) merupakan salah satu media komunikasi yang banyak digunakan saat ini karena praktis untuk digunakan dan biaya pengirimannya murah. Namun,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Pengertian Perancangan Perancangan adalah proses merencanakan segala sesuatu terlebih dahulu (Kamus Bahasa Indonesia, 1988, h: 927). Perancangan merupakan penggambaran, perencanaan,

Lebih terperinci

BAB II LANDASAN TEORI. Basis Data Terdistribusi didefinisikan sebagai sebuah collection of multiple,

BAB II LANDASAN TEORI. Basis Data Terdistribusi didefinisikan sebagai sebuah collection of multiple, BAB II LANDASAN TEORI 2.1 Basis Data Terdistribusi Basis Data Terdistribusi didefinisikan sebagai sebuah collection of multiple, database yang saling berkaitan secara logik yang didistribusikan melalui

Lebih terperinci

BAB II LANDASAN TEORI Konsep Dasar Membangun Aplikasi Berbasis Web

BAB II LANDASAN TEORI Konsep Dasar Membangun Aplikasi Berbasis Web BAB II LANDASAN TEORI 2.1. Konsep Dasar Membangun Aplikasi Berbasis Web Aplikasi berbasis web adalah aplikasi yang dijalankan melalui browser dan diakses melalui jaringan komputer. Aplikasi berbasis web

Lebih terperinci

5 BAB II Tinjauan Pustaka

5 BAB II Tinjauan Pustaka BAB II TINJAUAN PUSTAKA 2.1. Teori Umum 2.1.1.Pengertian Komputer Sujatmiko (2012:156), Komputer adalah mesin yang dapat mengolah data digital dengan mengikuti serangkaian perintah atau program. Sutanta

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa latin computere yang berarti

BAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa latin computere yang berarti BAB 2 LANDASAN TEORI 2.1 Pengertian Komputer Istilah komputer (computer) berasal dari bahasa latin computere yang berarti menghitung. Dalam bahasa Inggris komputer berasal dari kata to compute yang artinya

Lebih terperinci

RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI APLIKASI FORUM phpbb3 SECARA OTOMATIS.

RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI APLIKASI FORUM phpbb3 SECARA OTOMATIS. RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI APLIKASI FORUM phpbb3 SECARA OTOMATIS. Dosen Pembimbing : Daniel Oranova Siahaan, S.Kom, M.Sc, Pd.Eng Nurul Fajrin

Lebih terperinci

BAB II LANDASAN TEORI. suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem

BAB II LANDASAN TEORI. suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem BAB II LANDASAN TEORI 2.1 Sistem Informasi Bagian-bagian yang memiliki keterkaitan pengoperasian dalam mencapai suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem informasi dapat dibuat

Lebih terperinci

Dynamic Connection Logging System for Mikrotik Router Board Muhammad Tirta Mulia 1 Ferry Mulyanto 2 Jurusan Teknik Informatika, Universitas Pasundan, Jl. Setiabudi 193 Bandung 40153 1,2) 081221000140,

Lebih terperinci

Manual CMS Wordpress

Manual CMS Wordpress Manual CMS Wordpress Manajemen CMS Wordpress by IT Support Team FEB Unpad Page 2 Manual CMS Wordpress Untuk Admin Contents : A. Laman Utama B. Manajemen Pengelolaan Konten dengan Wordpress C. General Settings

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang dan Permasalahan

BAB I PENDAHULUAN Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1 1.1 Latar Belakang dan Permasalahan Pencarian lokasi menjadi salah satu kebutuhan masyarakat dewasa ini terbukti dengan banyaknya penyedia layanan pemetaan seperti Google Map, Bing

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Krisantus Sembiring / 13503121 PROGRAM STUDI

Lebih terperinci

BABI PENDAHULUAN. 1.1 Latar Belakang

BABI PENDAHULUAN. 1.1 Latar Belakang BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk

Lebih terperinci

Services Course. Office Web Apps Participant Guide

Services Course. Office Web Apps Participant Guide Live@edu Services Course Office Web Apps Participant Guide Outlook Live Windows Live SkyDrive Office Web Apps Palajaran Office Web Apps Melihat Online Dokumen Microsoft Office Mengedit Dokumen Microsoft

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI

BAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI BAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI Bab ini berisi analisis pengembangan program aplikasi pengenalan karakter mandarin, meliputi analisis kebutuhan sistem, gambaran umum program aplikasi yang

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184

ISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN 3.1 Gambaran umum sistem Pada tugas akhir ini, akan dibuat sebuah aplikasi berbasis jaringan internet dimana aplikasi ini digunakan untuk membantu seorang admin dalam mengendalikan

Lebih terperinci

Petunjuk Pengembangan Course dalam Elearning berbasis Moodle

Petunjuk Pengembangan Course dalam Elearning berbasis Moodle 1 Petunjuk Pengembangan Course dalam Elearning berbasis Moodle (Part I) Oleh: Herman Dwi Surjono, Ph.D. hermansurjono@uny.ac.id http://herman.elearning-jogja.org A. Pendahuluan Portal elearning kini banyak

Lebih terperinci

TABEL DATABASE TABEL - KODE BARANG TOKO INFOMART BARANG - NAMA BARANG - HARGA

TABEL DATABASE TABEL - KODE BARANG TOKO INFOMART BARANG - NAMA BARANG - HARGA TABEL Dalam pembuatan database, data yang pertama dibuat adalah tabel. Tabel merupakan kumpulan data yang tersusun menurut aturan tertentu dan merupakan komponen utama pada database. Table disusun dalam

Lebih terperinci

BAB II. KAJIAN PUSTAKA

BAB II. KAJIAN PUSTAKA BAB II. KAJIAN PUSTAKA A. MYSQL MySQL merupakan sistem basis dataopen source paling populer. MySQL adalah sebuah implementasi dari sistem manajemen basis data relasional (Relational Database Management

Lebih terperinci

Tugas Rekayasa Perangkat Lunak Berorientasi Obyek Review IDE untuk Java (NetBeans, Eclipse, Intellij IDEA)

Tugas Rekayasa Perangkat Lunak Berorientasi Obyek Review IDE untuk Java (NetBeans, Eclipse, Intellij IDEA) Tugas Rekayasa Perangkat Lunak Berorientasi Obyek Review IDE untuk Java (NetBeans, Eclipse, Intellij IDEA) Dengan semakin diminatinya pemrograman berorientasi obyek untuk membangun perangkat lunak menyebabkan

Lebih terperinci

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana

Lebih terperinci

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA

PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas

Lebih terperinci

Aplikasi Komputer. Microsoft Office 2010 Microsoft Office Access 2010 Bag 1. Miftahul Fikri, M.Si. Modul ke: Fakultas Ekonomi dan Bisnis

Aplikasi Komputer. Microsoft Office 2010 Microsoft Office Access 2010 Bag 1. Miftahul Fikri, M.Si. Modul ke: Fakultas Ekonomi dan Bisnis Modul ke: Microsoft Office 2010 Microsoft Office Access 2010 Bag 1 Fakultas Ekonomi dan Bisnis Miftahul Fikri, M.Si Program Studi Manajemen www.mercubuana.ac.id Microsoft Access adalah sebuah program program

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi

Lebih terperinci

BAB 2 TINJAUAN TEORI

BAB 2 TINJAUAN TEORI BAB 2 TINJAUAN TEORI 2.1. Pengenalan HTML 2.1.1. Pendahuluan HTML Hypertext Markup Language merupakan kepanjangan dari kata HTML. Adalah script dimana kita bisa menampilkan informasi dan daya kreasi kita

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Basis data saat ini sudah berkembang menjadi sangat besar secara cepat ke dalam ukuran terabyte. Di dalam tumpukan data tersebut mungkin terdapat informasiinformasi

Lebih terperinci

Search Engines. Information Retrieval in Practice

Search Engines. Information Retrieval in Practice Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi

Lebih terperinci

BAB III LANDASAN TEORI

BAB III LANDASAN TEORI BAB III LANDASAN TEORI 3.1 Pengertian Informasi Informasi adalah data yang diolah menjadi bentuk yang lebih berguna dan lebih berarti bagi yang menerimanya.sumber dari informasi adalah data. Data merupakan

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha ABSTRAK Penipuan dengan menggunakan pesan singkat pada ponsel yang diterima oleh pengguna sampai sekarang ini masih sangat banyak. Pesan penipuan ini dikirim oleh orang yang tidak bertanggung jawab dan

Lebih terperinci

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB I PENDAHULUAN. Jumlah  spam di dunia semakin meningkat secara eksponensial. BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Sistem Informasi Secara teori, penerapan sebuah Sistem Informasi memang tidak harus menggunakan komputer dalam kegiatannya. Tetapi pada prakteknya tidak mungkin sistem

Lebih terperinci

BAB 3 PERANCANGAN SISTEM

BAB 3 PERANCANGAN SISTEM 20 BAB 3 PERANCANGAN SISTEM 3.1 Rancangan Perangkat Keras Sistem ini hanya menggunakan beberapa perangkat keras yang umum digunakan, seperti mikrofon, speaker (alat pengeras suara), dan seperangkat komputer

Lebih terperinci