BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE
|
|
- Hartanti Johan
- 7 tahun lalu
- Tontonan:
Transkripsi
1 BAB III EKSTRAKSI INFORMASI MENGGUNAKAN SUPPORT VECTOR MACHINE 3.1 Deskripsi Sistem Ekstraksi Informasi Gambar III-1 Arsitektur sistem ekstraksi informasi Sistem ekstraksi informasi secara umum terbagi menjadi 2 subsistem, yaitu subsistem pembelajaran model ekstraksi yang akan menghasilkan model ekstraksi, dan subsistem aplikasi model ekstraksi hasil pembelajaran untuk dapat menghasilkan informasi-informasi yang sesuai dengan struktur target yang telah ditentukan. Berikut ini adalah penjelasan detil mengenai masing-masing subsistem. III-1
2 III Pembelajaran Model Ekstraksi Pemrosesan awal (preprocessing) Sebelum dapat menjadi masukan bagi algoritma pembelajaran SVM, maka dataset yang akan dijadikan sebagai data pelatihan harus melalui pemrosesan awal terlebih dahulu (preprocessing). Pada pemrosesan awal tersebut, data pelatihan yang berupa kumpulan dokumen teks akan dipecah menjadi kumpulan token. Sebuah token didefinisikan sebagai rangkaian karakter alfabetik atau numerik yang berurutan, sedangkan tanda baca dianggap sebagai sebuah token. Sebuah token dianggap sebagai satu instance yang dapat menjadi contoh positif atau contoh negatif untuk diekstrak bagi field di dalam struktur target. Agar dapat digunakan sebagai masukan untuk algoritma klasifikasi, maka token-token dari teks harus diubah ke dalam vektor fitur (feature vector). Pengubahan token ke dalam vektor fitur pada ELIE L2 [FIN04a, FIN04b, FIN06] dan GATE-SVM [LI05a] secara umum hampir sama, yaitu menggunakan beberapa fitur Natural Language Processing (NLP) seperti part-of speech (POS), gazetteer, dan orthographic. Pada GATE-SVM [LI05a] dijelaskan bahwa proses pengubahan ke dalam vektor fitur tersebut menggunakan perangkat lunak open source yang disebut ANNIE (A Nearly New Information Extraction System), yang merupakan bagian dari GATE (General Architecture for Text Engineering). Sedangkan pada ELIE L2 [FIN04a, FIN04b, FIN06] tidak dijelaskan mengenai perangkat bantu yang digunakan untuk mengubah token ke dalam vektor fitur. Oleh karena itu, proses pengubahan token ke dalam vektor fitur akan menggunakan ANNIE dan menggunakan GATE- SVM [LI05a] sebagai acuan. Fitur-fitur NLP yang dapat digunakan antara lain: 1. Orthography atau Case, yaitu penggunaan huruf besar dan huruf kecil oleh token. 2. Tokenkind, yaitu jenis token: kata, angka, simbol, atau tanda baca. 3. Lemma, yaitu bentuk dasar dari token, merupakan hasil dari analisis morfologikal. 4. Part of Speech (POS), yaitu tata bahasa dari token, apakah merupakan kata benda, kata kerja, dan sebagainya.
3 III-3 5. Lookup atau gazetteer, yaitu daftar kata dan istilah untuk berbagai kategori, misalnya untuk kategori negara yang berisi daftar seluruh negara yang ada di dunia. 6. Entity, yaitu fitur named entity recognition yang dimiliki oleh ANNIE, bekerja berdasarkan aturan ekstraksi yang sudah terdefinisi (rule-based). Dari fitur-fitur NLP tersebut, POS merupakan satu-satunya fitur yang language dependent, yaitu bergantung pada bahasa yang digunakan. Sedangkan fitur-fitur lainnya tidak bergantung pada domain maupun bahasa. Pada Tabel III-1 dapat dilihat contoh teks Time: 3:30 PM dan fitur-fitur NLP yang bersesuaian. Sebagai catatan, tidak semua token memiliki fitur yang bersesuaian, sebagai contoh untuk token Time yang tidak memiliki fitur Lookup karena tidak terdapat di dalam daftar gazetteer yang dimiliki ANNIE. Tabel III-1 Fitur NLP untuk contoh teks "Time: 3:30 PM" Token Case Tokenkind Lemma POS Lookup Entity Time upperinitial word time NNP Unknown : punctuation : : 3 number 3 CD Time : punctuation : : Time 30 number 30 CD Time PM allcaps word pm NNP Time Time Kemudian, vektor fitur dari setiap token diturunkan dari fitur NLP dari setiap token dengan cara: 1. Setiap kemungkinan kemunculan fitur dari data pelatihan dikumpulkan dan diindeks dengan id yang unik, dan setiap dimensi dari vektor fitur berkorespondensi dengan sebuah fitur NLP. 2. Untuk setiap token, setiap komponen dari vektor fitur yang berkorespondensi dengan nilai dari fitur NLP yang bersesuaian akan diberi bobot 1, sedangkan komponen lainnya akan diberi bobot 0 dan tidak akan dimasukan sebagai masukan bagi algoritma klasifikasi. Untuk setiap token, vektor fitur merupakan himpunan fitur yang ditulis dengan format: [indeks fitur NLP]:[bobot]
4 III-4 Pada ekstraksi informasi, konteks lingkungan tempat sebuah kata berada sama pentingnya dengan kata itu sendiri. Oleh karena itu, vektor fitur masukan bagi algoritma klasifikasi harus memperhitungkan kata-kata yang mendahului dan katakata yang mengikuti token yang bersangkutan. Konteks lingkungan ini disebut sebagai window konteks. Pada eksperimen yang dilakukan oleh [LI05a], jumlah kata yang mendahului dan mengikuti adalah sama. Jumlah kata ini disebut sebagai window size. Oleh karena itu, jika window size-nya adalah 3, maka vektor fitur yang menjadi masukan bagi algoritma klasifikasi diturunkan dari 7 buah token, yaitu: - 3 buah token yang mendahului, - token yang akan diklasifikasi (current token), dan - 3 buah token yang mengikuti. Strategi representasi konteks yang sama juga digunakan oleh ELIE L2 [FIN04a, FIN04b, FIN06]. Sebagai vektor fitur masukan bagi algoritma klasifikasi, token-token yang berada di dalam window konteks dapat diberi bobot yang berbeda, bergantung pada letak token relatif terhadap token yang sedang diamati (current token). Terdapat dua skema pembobotan yang dapat digunakan. 1. Equal weighting, yaitu memberi bobot 1 pada semua komponen vektor fitur yang bersesuaian dengan fitur NLP yang dimiliki oleh setiap token di dalam window konteks. Hal ini berarti bahwa semua token tetangga dianggap sama pentingnya, tidak bergantung pada letak token tetangga tersebut relatif terhadap current token. 2. Reciprocal weighting, yaitu memberi bobot berdasarkan letak token relatif terhadap current token. Semakin dekat token tetangga dengan current token, maka bobotnya menjadi lebih tinggi. Sebaliknya, jika semakin jauh maka bobotnya pun menjadi lebih rendah. Nilai bobot dihitung dengan menggunakan rumus 1/j, dengan j adalah posisi token relatif terhadap current token.
5 III Pembelajaran SVM Terdapat beberapa algoritma klasifikasi yang dapat digunakan untuk menghasilkan model ekstraksi, salah satunya adalah Support Vector Machine (SVM). SVM telah mencapai performansi state-of-the-art untuk berbagai persoalan klasifikasi, termasuk untuk persoalan named entity recognition [LI05a]. Oleh karena itu, akan digunakan SVM sebagai algoritma klasifikasi. Strategi yang akan digunakan yaitu strategi Begin/End (BE) tagging yang telah dijelaskan pada bagian Strategi ini dipilih selain karena ELIE [FIN04a, FIN04b, FIN06] dan GATE-SVM [LI05a] menggunakan strategi ini, juga karena strategi ini menggunakan jumlah kelas yang paling sedikit yaitu n + 1 kelas untuk sebuah classifer, dengan n adalah jumlah slot pada template, walaupun untuk strategi ini dibutuhkan dua buah classifier. Akan tetapi, pada GATE-SVM [LI05a], strategi Begin/End tagging dimodifikasi. Untuk menyederhanakan implementasi, jumlah classifier yang digunakan hanya satu, yaitu untuk mengklasifikasikan token ke dalam n kelas B-type + n kelas E-type. Token lain-lain (O atau Others) tidak dianggap sebagai kelas. Dengan demikian, jumlah kelas yang digunakan oleh classifier adalah sebanyak 2n, dengan n adalah jumlah tipe slot pada template. Karena mengklasifikasikan token ke dalam banyak kelas, maka classifier merupakan multi class SVM. Secara umum, multi class SVM diimplementasikan dengan cara mengkombinasikan beberapa SVM biner. Penjelasan mengenai multi class SVM dapat dilihat pada bagian Di dalam tugas akhir ini, teknik kombinasi yang akan diujikan dan dibandingkan performansinya hanya teknik one-against-all (disebut juga one-vs-others) dan one-against-one (disebut juga one-vs-another). Pemilihan teknik kombinasi ini didasarkan pada keterbatasan perangkat bantu, yaitu GATE 4.0, yang hanya mengimplementasikan multi class SVM dengan kedua teknik tersebut. Pembelajaran SVM membutuhkan parameter pembelajaran, antara lain: - SVM kernel yang digunakan: linear, polynomial, RBF, atau sigmoid. - Parameter uneven margin: 0 < τ < 1
6 III Model Ekstraksi Pada akhir proses pembelajaran SVM akan dihasilkan model ekstraksi, yaitu berupa kumpulan hipotesis yang dapat memisahkan data ke dalam 2n kelas. Adapun bentuk hasil pembelajaran berupa model yang dihasilkan oleh SVM dapat dilihat pada Lampiran L Aplikasi Model Ekstraksi Pemrosesan awal (preprocessing) Sebelum dapat mengaplikasikan model ekstraksi, dokumen teks yang akan diekstrak informasi yang terkandung di dalamnya juga harus melalui pemrosesan awal terlebih dahulu (preprocessing). Sama seperti pada proses pembelajaran model ekstraksi, pada pemrosesan awal tersebut, data pelatihan yang berupa kumpulan dokumen teks dipecah menjadi kumpulan token dan diubah ke dalam vektor fitur sesuai dengan yang telah dijelaskan pada bagian Klasifikasi SVM Proses klasifikasi dilakukan menggunakan model ekstraksi yang dihasilkan dari proses pembelajaran SVM. Model ekstraksi tersebut diaplikasikan pada vektor fitur setiap token, sehingga diperoleh label-label kelas untuk setiap token di dalam dokumen teks. Tidak menutup kemungkinan bahwa satu token memiliki lebih dari satu label kelas (misalnya sebagai B-area sekaligus sebagai B-language), atau diklasifikasikan baik sebagai B-type maupun E-type. Pada kasus yang kedua, artinya token tersebut menjadi pengisi tunggal untuk suatu field tipe tertentu Pemrosesan Akhir (postprocessing) Mengacu pada [LI05a], setelah diperoleh label kelas untuk setiap token, diperlukan adanya pemrosesan akhir (postprocessing), yang terdiri dari 3 tahap, yaitu: 1. Meyakinkan adanya konsistensi hasil, yaitu menghilangkan tag awal yang tidak memiliki tag akhir, dan sebaliknya. 2. Menyaring entitas kandidat yang dihasilkan dari tahap pertama, berdasarkan panjangnya. Tag dari entitas kandidat akan dihilangkan jika panjangnya (yaitu
7 III-7 jumlah kata/token) tidak sama dengan entitas manapun dengan tipe yang sama di dalam data pelatihan. Pada saat proses pelatihan, statistik jumlah token untuk setiap entitas untuk setiap tipe slot disimpan. 3. Mengumpulkan semua tag yang mungkin untuk sebuah token, kemudian dibandingkan probabilitasnya. - Pertama-tama, keluaran dari SVM untuk setiap token, misalkan nilainya adalah x, diubah ke dalam probabilitas dengan menggunakan rumus s ( x) = /( 1+ exp( βx) ) 1, dimana β = Batas probabilitas sebuah label kelas dapat di-assign pada token disebut dengan thresholdprobabilityboundary. - Jika ( x) thresholdprobabilityboundary s > maka label kelas tersebut akan menjadi kandidat label, jika tidak maka diabaikan. - Kemudian, tag atau tipe slot untuk setiap entitas 1 dihitung probabilitasnya dengan menggunakan rumus s ( xs ) s( x e ), dimana s ( x s ) adalah probabilitas label kelas begin suatu tipe slot dan s ( x e ) adalah probabilitas label kelas end tipe slot yang sama. - Batas probabilitas sebuah tag dapat di-assign pada entitas disebut dengan thresholdprobabilityentity. - Jika ( s( x ) s( x )) thresholdprobabilityentity maka tag tersebut akan s e > menjadi kandidat tag untuk sebuah entitas, jika tidak maka diabaikan. - Tag dengan probabilitas terbesar lah yang akan di-assign pada entitas tersebut. 3.2 Dataset untuk Ekstraksi Informasi Terdapat dua dataset yang digunakan di dalam tahap eksperimen sistem ekstraksi informasi di dalam tugas akhir ini. Yang pertama adalah dataset job postings corpus yang merupakan dataset standar untuk evaluasi performansi sebuah sistem ekstraksi informasi. Dataset yang kedua adalah dataset yang dibuat sendiri. Dataset job postings corpus digunakan untuk memvalidasi apakah implementasi sistem ekstraksi informasi yang direplikasi dari [LI05a] sudah benar atau belum. 1 Yang dimaksud dengan entitas adalah kata atau frase, jadi bisa berupa sebuah token atau gabungan beberapa token
8 III-8 Kemudian sistem ekstraksi informasi diaplikasikan pada dataset yang kedua, untuk kemudian dianalisis performansinya. Berikut ini penjelasan mengenai masing-masing dataset Job Postings Corpus Terdapat beberapa dataset standar yang dapat digunakan untuk ekstraksi informasi. Dataset atau corpus tersebut dapat ditemukan pada RISE Repository yang dapat diakses pada URL: Salah satu dataset yang banyak digunakan adalah Job Postings Corpus, yang dikoleksi oleh Mary E. Califf [CAL98]. Dataset ini terdiri dari 300 pesan newsgroup yang memberikan detil mengenai lowongan pekerjaan di Austin. Format dokumen ini dapat dikatakan semi-terstruktur, karena bagian header di-generate oleh program mailing, sedangkan bagian isi pesan dibuat oleh manusia dalam natural language. Pada Gambar III-2 dapat dilihat contoh dokumen di dalam job postings corpus yang sudah diberi anotasi. Representasi pemberian anotasi yang digunakan adalah dengan memberikan tag awal dan akhir seperti dalam contoh Gambar II-4. From: "Brian Baccam" Newsgroups: austin.jobs Subject: <language>visual BASIC</language> in <city>san Antonio</city> Date: <post_date>30 Aug 1997<post_date> 21:56:47 GMT Organization: Devon Tax Group Lines: 16 Message-ID: NNTP-Posting-Host: pc22.devontax.com X-Newsreader: Microsoft Internet News Xref: cs.utexas.edu austin.jobs: <language>visual Basic</language> <title>progammer</title> needed in <city>san Antonio</city>. Will be working with a small team to develop a tax management program. Minimum Qualifications: * 2-4 yrs. of <language>visual Basic</language> application development experience * strong working knowldge of <application>access</application> and/or <application>sql Server</application> a plus. Location: <city>san Antonio</city> Position: Contractual Duration: Minumum 3 months Please send resume in text format only to: bbaccam@devontax.com or fax to: (210) Gambar III-2 Contoh Job Postings Corpus [FIN06]
9 III-9 Dataset job postings corpus mendefinisikan 17 slot/field menyangkut informasi yang akan diekstrak dari sebuah iklan lowongan pekerjaan. Daftar field dan jumlah kemunculannya di dalam dataset beserta contoh nilainya dapat dilihat pada Tabel III-2. Tabel III-2 Daftar field pada Job Postings Corpus [FIN06] Field / Slot Kemunculan Contoh id 299 NEWTNews consults@ws-n title 466 ALC Application Programmer, Visual Basic Developers company 291 Alliance, CPS, Charter Professional Services Inc salary 143 $50k to $70k, to $60k recruiter 325 Resource Spectrum state 462 TX, Texas, Miami, Georgia, MI city 639 Austin, Battle Creek, San Antonio country 363 US, USA, England, UK language 867 RPG, COBOL, CICS, Java, c, c++, SQL, PowerBuilder platform 705 AS400, Windows 95, windows, portable systems, PC application 605 DB2, Oracle, DB2 server, sysbase Area 980 Failure analysis, multimedia, TCP/IP, internet required years experience 173 2, 2+, two, 5, 4 desired years experience 45 5, 4, 10 required degree 80 BS, B.S., Bachelor, Bachelor s, BSCS desired degree 21 Phd, BS, BSCS, Masters, MSCS post date Aug 1997, 11 Sep 1997 Berikut ini adalah penjelasan mengenai setiap field pada template Job Postings Corpus. - id, merupakan header yang ter-attach pada setiap pesan newsgroup - title, judul pekerjaan yang diiklankan - company, perusahaan tempat lowongan pekerjaan berada - salary, jumlah gaji yang ditawarkan - recruiter, agensi yang mengiklankan lowongan pekerjaan - state, city, dan country, dimana lowongan pekerjaan terdapat - language, bahasa pemrograman yang harus dikuasai - platform, sistem operasi dan platform sistem umum yang harus dikuasai
10 III-10 - application, aplikasi komputer yang harus dikuasai - area, kategori umum dari pekerjaan di bidang komputer - required years experience, lama pengalaman kerja yang dibutuhkan - desired years experience, lama pengalaman kerja yang diinginkan (lebih memberikan nilai tambah) - required degree, tingkat pendidikan terakhir yang dibutuhkan - desired degree, tingkat pendidikan terakhir yang diinginkan (lebih memberikan nilai tambah) - post date, tanggal pesan di-posting Pada dataset ini language, platform, application, dan area adalah field yang memiliki beberapa nilai (multi-valued fields), sedangkan yang lainnya merupakan field bernilai tunggal (single-valued fields). Jumlah instance, atau dengan kata lain jumlah token di dalam dataset ini adalah sebanyak token token di antaranya merupakan contoh negatif, yaitu tidak memiliki tag tipe slot apapun. Sedangkan sisanya merupakan contoh positif. Dari Gambar III-3 dapat terlihat bahwa job postings corpus merupakan imbalanced dataset. Gambar III-3 Rasio data positif dan negatif pada job postings corpus Dataset Lowongan Pekerjaan Dataset ini dibuat dengan mengumpulkan halaman-halaman web yang mengandung informasi lowongan pekerjaan. Total dokumen di dalam dataset adalah sebanyak 180 halaman web. Adapun bahasa yang digunakan sebagian Bahasa Inggris dan sebagian lagi Bahasa Indonesia dengan perbandingan 1 : 1, yaitu 90 dokumen Bahasa Inggris dan 90 dokumen Bahasa Indonesia. Adapun dokumen Bahasa Indonesia kebanyakan
11 III-11 merupakan dokumen multi-bahasa Indonesia-Inggris. Deskripsi lengkap mengenai dataset yang dikumpulkan termasuk sumber dataset dapat dilihat pada Lampiran D. Proses anotasi dilakukan secara manual, dengan menggunakan editor anotasi yag disediakan oleh GATE 4.0. Adapun penjelasan mengenai pemberian anotasi terhadap dokumen teks dengan menggunakan GATE 4.0 GUI dapat dilihat pada Lampiran A. Didefinisikan 14 slot/field menyangkut informasi yang akan diekstrak dari sebuah iklan lowongan pekerjaan, yaitu: - industry, industri yang digeluti perusahaan, co: IT, Telecom - company_name, nama perusahaan - job_category, kategori dari pekerjaan yang ditawarkan - job_title, nama pekerjaan - location, lokasi pekerjaan (negara, propinsi, kota) - education_level, pendidikan minimum (S1, D3) - foreign_language, bahasa asing - description, deskripsi pekerjaan yang akan dilakukan - salary, gaji yang ditawarkan - contact, alamat - deadline, batas pengiriman lamaran kerja - posting_date, tanggal lowongan kerja di-post - needed_experience, pengalaman kerja yang dibutuhkan - experience_duration, lama pengalaman kerja yang dibutuhkan Pendefinisian 14 slot ini didasarkan pada field yang berhubungan dengan sebuah lowongan pekerjaan, di dalam basis data Jomar, Sistem Cerdas untuk Perangkat Lunak Layanan Bursa Kerja [WID07]. Jumlah instance, atau dengan kata lain jumlah token di dalam dataset ini adalah sebanyak token token di antaranya merupakan contoh negatif, yaitu tidak memiliki tag tipe slot apapun. Sedangkan sisanya merupakan contoh positif. Dari Gambar III-4 dapat terlihat bahwa dataset lowongan pekerjaan merupakan imbalanced dataset.
12 III-12 Gambar III-4 Rasio data positif dan negatif pada dataset lowongan pekerjaan 3.3 Perangkat Bantu Eksperimen Perangkat bantu eksperimen yang diimplementasikan adalah perangkat lunak yang menggunakan library GATE 4.0 ( dan diimplentasikan dalam bahasa Java, menggunakan Netbeans IDE 6.0. Tujuan pembuatan perangkat bantu eksperimen adalah untuk mempermudah proses evaluasi performansi sistem ekstraksi informasi yang telah dibangun. Adapun implementasi perangkat lunak mengacu kepada paper mengenai GATE-SVM [LI05a]. Hal ini dilakukan untuk mempermudah pembuatan perangkat lunak, karena library yang disediakan oleh GATE 4.0 sudah sangat lengkap. GATE 4.0 (General Architecture for Text Engineering) merupakan aplikasi open source yang ditujukan untuk pengembangan aplikasi natural language processing, salah satunya adalah untuk ekstraksi informasi. GATE 4.0 menyediakan modul pemrosesan teks untuk menghasilkan fitur-fitur NLP yang terdapat di dalam suatu dokumen teks. Modul tersebut adalah ANNIE (A Nearly New IE system). ANNIE juga digunakan oleh [LI05a] untuk menghasilkan fitur-fitur NLP yang akan diubah menjadi vektor fitur masukan algoritma pembelajaran. GATE 4.0 juga menyediakan API untuk pembelajaran mesin, yaitu pada modul Batch Learning Processing Resource (PR). Implementasi dari Batch Learning PR ini mencakup 3 tipe pembelajaran NLP, yaitu: - chunk recognition (named entity recognition) - text classification - relation extraction
13 III-13 Chunk recognition atau named entity recognition merupakan nama lain dari ekstraksi informasi. Dengan kata lain, modul Batch Learning PR dapat digunakan untuk mengimplementasikan ekstraksi informasi. Adapun algoritma pembelajaran utama yang diimplementasikan di dalam Batch Learning PR ini adalah SVM, dengan menggunakan versi Java dari LibSVM. Selain SVM, Batch Learning PR juga mendukung beberapa algoritma pembelajaran di dalam Weka, yaitu Naïve Bayes, KNN, dan C4.5. Penjelasan mengenai penggunaan ANNIE untuk memecah dokumen teks menjadi sekumpulan token dan menghasilkan fitur-fitur NLP untuk setiap token, dapat dilihat pada Lampiran B. Sedangkan penjelasan mengenai penggunaan Batch Learning PR sebagai modul pembelajaran dapat dilihat pada Lampiran C. Perangkat bantu eksperimen sistem ekstraksi informasi yang diimplementasikan akan menggunakan ANNIE dan Batch Learning PR sebagai komponen utama. Perubahan yang dilakukan pada library GATE 4.0 untuk mengimplementasikan perangkat bantu eksperimen tersebut dapat dilihat pada Lampiran K. Fungsionalitas yang dimiliki oleh perangkat bantu eksperimen antara lain: 1. Melakukan pemrosesan awal, yaitu menghasilkan fitur-fitur NLP dari sebuah dokumen teks, dengan menggunakan ANNIE GATE 4.0. Dokumen yang sudah melalui pemrosesan awal dapat disimpan dalam format file XML. 2. Menyediakan antarmuka yang dapat digunakan untuk mengatur parameter pembelajaran, yang disimpan di dalam file configuration.xml, untuk kemudian digunakan oleh Batch Learning PR. Parameter yang dapat dikonfigurasi antara lain: - thresholdprobabilityentity dan thresholdprobabilityboundary, yang diperlukan pada tahap pemrosesan akhir (postprocessing) - Penggunaan metode filtering (tidak digunakan di dalam tugas akhir ini) - Algoritma klasifikasi yang digunakan: SVM, Naïve Bayes, atau KNN - Jika menggunakan algoritma SVM: - parameter pembelajaran SVM, seperti fungsi kernel yang digunakan dan parameter uneven margin. - Teknik implementasi multi class SVM
14 III-14 - Fitur-fitur NLP yang akan dijadikan sebagai atribut - Ukuran window konteks (window size) 3. Melakukan proses pembelajaran, menggunakan Batch Learning PR GATE 4.0. Terdapat 4 buah mode pembelajaran, antara lain: Produce feature files only, Training, Application, dan Evaluation. Penjelasan mengenai masing-masing mode pembelajaran dapat dilihat pada Lampiran C. 4. Menampilkan status proses pembelajaran pada panel Log Message. 5. Menampilkan hasil evaluasi (jika digunakan mode Evaluation pada pembelajaran) pada panel Evaluation Result. Hasil evaluasi juga dapat disimpan ke dalam file dengan format Excel (.xls). 6. Menampilkan perbedaan anotasi antara anotasi Label hasil ekstraksi informasi dengan anotasi Label yang terdapat pada dokumen teks, per tipe pengisi slot. Perbedaan anotasi ini dapat digunakan untuk menghitung jumlah correct, partial correct, spurious, dan missing. Pada Gambar III-5 dapat dilihat antarmuka perangkat bantu eksperimen yang diimplementasikan. Gambar III-5 Antarmuka perangkat bantu eksperimen
15 III-15 Keterangan: 1. Panel pengaturan direktori, digunakan untuk: - mengatur direktori tempat GATE 4.0 berada (GATE home directory) - mengatur direktori yang berisi data yang akan diproses (Corpus directory). 2. Panel pengaturan pemrosesan awal (preprocessing) menggunakan ANNIE, digunakan untuk mengatur direktori tempat menyimpan hasil pemrosesan awal. Jika tidak diisi maka hasil pemrosesan awal tidak akan disimpan. 3. Panel pengaturan proses pembelajaran, digunakan untuk: - mengatur direktori tempat menyimpan file konfigurasi, file vektor fitur, dan model hasil pembelajaran (Working directory) - mengatur parameter pembelajaran - memulai proses pembelajaran, dengan mengklik tombol Run 4. Panel status proses pembelajaran, menampilkan log message proses pembelajaran. 5. Panel hasil evaluasi, menampilkan hasil evaluasi jika digunakan mode pembelajaran Evaluation. Berisi metrik evaluasi untuk setiap tipe pengisi slot. Jika diklik ganda maka muncul jendela perbedaan anotasi antara anotasi Label yang sebenarnya dengan anotasi Label hasil ekstraksi, untuk tipe pengisi slot yang diklik. Pada Gambar III-6 dapat dilihat perbedaan anotasi untuk tipe pengisi slot company_name. Gambar III-6 Jendela perbedaan anotasi untuk tipe pengisi slot company_name - Baris yang tidak berwarna menandakan hasil ekstraksi yang benar (correct). - Baris berwarna biru menandakan hasil ekstraksi benar sebagian (partial correct) - Baris berwarna kuning menandakan hasil ekstraksi yang salah (spurious) - Baris berwarna merah menandakan entitas yang tidak terdeteksi (missing)
BAB IV EKSPERIMEN. 4.1 Tujuan Eksperimen. 4.2 Lingkungan Eksperimen
BAB IV EKSPERIMEN 4.1 Tujuan Eksperimen Terdapat beberapa hal yang menjadi tujuan eksperimen, yaitu: 1. Membandingkan performansi hasil eksperimen dengan hasil penelitian [LI05a], menggunakan dataset dan
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen
Lebih terperinciPenerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks
Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Paramita / 13504040 PROGRAM STUDI TEKNIK INFORMATIKA
Lebih terperinciBAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI
BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciBAB III METODOLOGI 3.1. Prosedur Penelitian Identifikasi Masalah
BAB III METODOLOGI Dalam penelitian ini metodologi memegang peranan penting guna mendapatkan data yang obyektik, valid dan selanjutnya digunakan untuk memecahkan permasalahan yang telah dirumuskan. Maka
Lebih terperinciBAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat
BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan
Lebih terperinciBAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciBAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.
BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang
Lebih terperinciBAB III ANALISIS DAN PENYELESAIAN MASALAH
BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan
Lebih terperinciBAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.
BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan
Lebih terperinciABSTRAK. Kata Kunci : klasifikasi, musik digital, jenis musik, support vector machine, fitur ekstraksi, daftar putar musik digital
ABSTRAK Kemudahan dalam mendapatkan musik digital membuat orang-orang dapat memiliki banyaknya koleksi musik digital. Terkadang orang-orang menikmati musik dengan jenis musik tertentu berdasarkan kondisi
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciModul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.
Modul Praktikum WEKA Yudi Wibisono (e: yudi@upi.edu ); t: @yudiwbs Ilmu Komputer Universitas Pendidikan Indonesia (cs.upi.edu) Versi BETA : Oktober 2013 http://creativecommons.org/licenses/by-nc-sa/3.0/
Lebih terperinciPembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN
3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Pertumbuhan jumlah situs web (website) di Internet berdasarkan hasil survey dari Netcraft (2013) menunjukkan peningkatan pesat dari 18 juta website pada tahun 2000
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinciBAB 2 LANDASAN TEORI. Data adalah fakta atau bagian dari fakta yang digambarkan dengan simbol-simbol,
BAB 2 LANDASAN TEORI 2.1 Data dan Informasi Data adalah fakta atau bagian dari fakta yang digambarkan dengan simbol-simbol, gambar-gambar, nilai-nilai, bilangan-bilangan, uraian karakter yang mempunyai
Lebih terperinciBAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK
BAB IV ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK Pada bab ini akan dibahas berbagai hal yang terkait analisis dan perancangan perangkat lunak web mining yang diusulkan sebagai solusi permasalahan.
Lebih terperinciBAB I PERSYARATAN PRODUK
BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama
Lebih terperinciTutorial penggunaan CMS / Application By. Steph/IT/04/2010
Tutorial penggunaan CMS / Application By. Steph/IT/04/2010 Bab I Pengenalan dasar Website Ditek Jaya terdaftar dengan menggunakan nama domain http://www. ditekjaya.co.id Website Ditek Jaya dilengkapi dengan
Lebih terperinciPENDAHULUAN. I.1 Latar Belakang
I PENDAHULUAN I.1 Latar Belakang Internet sebagai jaringan komputer skala global telah mendorong pertambahan jumlah informasi digital. Pada sistem yang bersifat terbuka seperti internet, pertambahan informasi
Lebih terperinciPERSYARATAN PRODUK. 1.1 Pendahuluan Latar Belakang Tujuan
BAB 1 PERSYARATAN PRODUK Bab ini membahas mengenai hal umum dari produk yang dibuat, meliputi tujuan, ruang lingkup proyek, perspektif produk, fungsi produk dan hal umum yang lainnya. 1.1 Pendahuluan Hal
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Twitter Twiter adalah sebuah layanan media sosial yang memungkinkan penggunanya untuk menulis maksimal 140 karakter, yang dikenal sebagai Tweet. Twitter didirikan oleh Jack Dorsey
Lebih terperinciABSTRAK. Kata kunci: diagram kelas, xml, java, kode sumber, sinkronisasi. v Universitas Kristen Maranatha
ABSTRAK Salah satu bidang kajian dalam bidang teknologi informasi adalah rekayasa perangkat lunak. Dalam rekayasa perangkat lunak, terdapat konsep yang mendasari berbagai jenis metodologi pengembangan
Lebih terperinciBAB I PENDAHULUAN.
BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Manajemen Proyek 2.1.1. Pengertian Manajemen Menurut James A.F. Stoner (2006) Manajemen adalah suatu proses perencanaan, pengorganisasian, kepemimpinan, dan pengendalian upaya
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
1. BAB I PENDAHULUAN 1.1 Latar Belakang website adalah salah satu layanan yang bisa digunakan untuk melakukan pencarian berbagai informasi, sehingga sangat dibutuhkan untuk keperluan pengguna dalam pencarian
Lebih terperinciPraktikum Basis Data 2. BAB 1 : Pendahuluan
BAB 1 : Pendahuluan 1.1. Sasaran Memahami fitur-fitur Oracle9i Dapat menjelaskan aspek teori maupun fisik dari database relasional Menggambarkan Implementasi Oracle pada RDBMS dan ORDBMS 1.2. Oracle9i
Lebih terperinciPerbandingan Algoritma Pendeteksian Spam
Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,
Lebih terperinciBAB IV EKSPERIMEN. 4.1 Tujuan
BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN
26 BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya, selain itu juga berfungsi untuk memberikan gambaran dan
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 1.1 Teori Umum 1.1.1 Aplikasi SMS Lokal Komputer Aplikasi SMS Lokal Komputer digunakan untuk pengiriman SMS ke pelanggan dengan menggunakan PC yang disambungkan dengan Handphone agar
Lebih terperinciBAB 1 PENDAHULUAN. Universitas Sumatera Utara
1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Kata kunci (keyword) merupakan kata-kata singkat yang dapat menggambarkan isi suatu artikel ataupun dokumen (Figueroa,et al. 2014). Kata kunci memberikan kemudahan
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
Lebih terperinciSebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning
MENGENAL RAPIDMINER RapidMiner Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning Salah satu disiplin ilmu dari Computer Science yang mempelajari
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Pengembangan teknologi diharapkan menghasilkan berbagai hal yang berguna untuk memenuhi kebutuhan masyarakat serta memberi kemudahan dan kenyamanan pada pengguna
Lebih terperinciUKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinciISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097
ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5097 Perancangan Sistem Pemeringkatan Jawaban Pada Forum Tanya Jawab Menggunakan Textual Feature dan Semantic Similarity Answer
Lebih terperinciSecara garis besar, arsitektur sistem Real Time Auto Door-Lock terbagi menjadi 6 bagian, yaitu:
7 DOOR-Lock BAB 2 SISTEM REAL TIME AUTO SISTEM REAL TIME AUTO DOOR-LOCK Bab ini akan menjelaskan tentang arsitektur dari sistem, proses analisis kebutuhan dan desain dari perangkat lunak sistem, skema
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan
Lebih terperinciBAB III LANDASAN TEORI
BAB III LANDASAN TEORI III.1. Sistem Informasi Sistem presensi menggunakan QRCode dan ijin berbasis web dan mobile merupakan sistem informasi yang digunakan untuk menyelesaika masalah presensi dan ijin
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciBAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.
BAB I Pendahuluan Perkembangan teknologi komputer akhir-akhir semakin maju, terutama perkembangan dibidang teknologi informasi, karena didukung oleh perkembangan perangkat keras, perangkat lunak dan jaringan
Lebih terperinciBAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa Latin Computare yang berarti
BAB 2 LANDASAN TEORI 2.1 Pengertian Komputer Istilah komputer mempunyai arti yang luas dan berbeda untuk orang yang berbeda. Istilah komputer (computer) berasal dari bahasa Latin Computare yang berarti
Lebih terperinciANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.2 Agustus 2016 Page 3654 ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED ASPECT LEVEL SENTIMENT CLASSIFICATION
Lebih terperinciDAFTAR ISI. Adryan Ardiansyah, 2013 Sistem Pengenalan Entitas Dengan Perceptron Pada Tweets Universitas Pendidikan Indonesia repository.upi.
DAFTAR ISI ABSTRAK...i ABSTRACT... ii KATA PENGANTAR... iii DAFTAR ISI... v DAFTAR GAMBAR...vii DAFTAR TABEL... viii DAFTAR ISTILAH... ix BAB I PENDAHULUAN... 1 1.1 Latar Belakang... 1 1.2 Rumusan Masalah...
Lebih terperinciBAB II LANDASAN TEORI
2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma
Lebih terperinciWeb Site :
BAHASA ASSEMBLY Salahuddin, SST Email : salahuddin_ali@ymail.com salahuddin.ali00@gmail.com Web Site : www.salahuddinali.com Pendahuluan Program adalah kumpulan instruksi/perintah yang disusun sebagai
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
36 BAB III ANALISA DAN PERANCANGAN SISTEM III.1 Analisa Perancangan aplikasi E-Learning ini membahas seputar materi Microsoft Word 2003. Setiap penjelasan disertai dengan arahan berupa suara untuk melanjutkan
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera
Lebih terperinciBAB 1 PENDAHULUAN Latar Belakang
9 BAB 1 PENDAHULUAN Latar Belakang Short Message Service (SMS) merupakan salah satu media komunikasi yang banyak digunakan saat ini karena praktis untuk digunakan dan biaya pengirimannya murah. Namun,
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Pengertian Perancangan Perancangan adalah proses merencanakan segala sesuatu terlebih dahulu (Kamus Bahasa Indonesia, 1988, h: 927). Perancangan merupakan penggambaran, perencanaan,
Lebih terperinciBAB II LANDASAN TEORI. Basis Data Terdistribusi didefinisikan sebagai sebuah collection of multiple,
BAB II LANDASAN TEORI 2.1 Basis Data Terdistribusi Basis Data Terdistribusi didefinisikan sebagai sebuah collection of multiple, database yang saling berkaitan secara logik yang didistribusikan melalui
Lebih terperinciBAB II LANDASAN TEORI Konsep Dasar Membangun Aplikasi Berbasis Web
BAB II LANDASAN TEORI 2.1. Konsep Dasar Membangun Aplikasi Berbasis Web Aplikasi berbasis web adalah aplikasi yang dijalankan melalui browser dan diakses melalui jaringan komputer. Aplikasi berbasis web
Lebih terperinci5 BAB II Tinjauan Pustaka
BAB II TINJAUAN PUSTAKA 2.1. Teori Umum 2.1.1.Pengertian Komputer Sujatmiko (2012:156), Komputer adalah mesin yang dapat mengolah data digital dengan mengikuti serangkaian perintah atau program. Sutanta
Lebih terperinciBAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan media dan teknologi informasi, terutama pada perkembangan internet dan media sosial, menjadikan fungsi internet dari suatu media informasi biasa, bertambah
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB 2 LANDASAN TEORI. Istilah komputer (computer) berasal dari bahasa latin computere yang berarti
BAB 2 LANDASAN TEORI 2.1 Pengertian Komputer Istilah komputer (computer) berasal dari bahasa latin computere yang berarti menghitung. Dalam bahasa Inggris komputer berasal dari kata to compute yang artinya
Lebih terperinciRANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI APLIKASI FORUM phpbb3 SECARA OTOMATIS.
RANCANG BANGUN MODUL PENGKATEGORIAN TOPIK DAN PENGELOMPOKKAN TOPIK DENGAN KLUSTER DARI APLIKASI FORUM phpbb3 SECARA OTOMATIS. Dosen Pembimbing : Daniel Oranova Siahaan, S.Kom, M.Sc, Pd.Eng Nurul Fajrin
Lebih terperinciBAB II LANDASAN TEORI. suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem
BAB II LANDASAN TEORI 2.1 Sistem Informasi Bagian-bagian yang memiliki keterkaitan pengoperasian dalam mencapai suatu maksud tertentu adalah bagian dari suatu sistem, yang mana sistem informasi dapat dibuat
Lebih terperinciDynamic Connection Logging System for Mikrotik Router Board Muhammad Tirta Mulia 1 Ferry Mulyanto 2 Jurusan Teknik Informatika, Universitas Pasundan, Jl. Setiabudi 193 Bandung 40153 1,2) 081221000140,
Lebih terperinciManual CMS Wordpress
Manual CMS Wordpress Manajemen CMS Wordpress by IT Support Team FEB Unpad Page 2 Manual CMS Wordpress Untuk Admin Contents : A. Laman Utama B. Manajemen Pengelolaan Konten dengan Wordpress C. General Settings
Lebih terperinciBAB I PENDAHULUAN Latar Belakang dan Permasalahan
BAB I PENDAHULUAN 1 1.1 Latar Belakang dan Permasalahan Pencarian lokasi menjadi salah satu kebutuhan masyarakat dewasa ini terbukti dengan banyaknya penyedia layanan pemetaan seperti Google Map, Bing
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah
Lebih terperinciPenerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan
Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Krisantus Sembiring / 13503121 PROGRAM STUDI
Lebih terperinciBABI PENDAHULUAN. 1.1 Latar Belakang
BABI PENDAHULUAN 1.1 Latar Belakang Named entity recognition(ner) merupakan salah satu bagian domain Information Extraction(IE) pada sistem Natural Language Processing(NLP). Sistem NER bertujuan untuk
Lebih terperinciServices Course. Office Web Apps Participant Guide
Live@edu Services Course Office Web Apps Participant Guide Outlook Live Windows Live SkyDrive Office Web Apps Palajaran Office Web Apps Melihat Online Dokumen Microsoft Office Mengedit Dokumen Microsoft
Lebih terperinciBAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI
BAB 3 ANALISIS DAN PERANCANGAN PROGRAM APLIKASI Bab ini berisi analisis pengembangan program aplikasi pengenalan karakter mandarin, meliputi analisis kebutuhan sistem, gambaran umum program aplikasi yang
Lebih terperinciISSN : e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184
ISSN : 2355-9365 e-proceeding of Engineering : Vol.3, No.1 April 2016 Page 1184 Ekstraksi Informasi pada Makalah Ilmiah dengan Pendekatan Supervised Learning Information Extraction on Scientific Papers
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN 3.1 Gambaran umum sistem Pada tugas akhir ini, akan dibuat sebuah aplikasi berbasis jaringan internet dimana aplikasi ini digunakan untuk membantu seorang admin dalam mengendalikan
Lebih terperinciPetunjuk Pengembangan Course dalam Elearning berbasis Moodle
1 Petunjuk Pengembangan Course dalam Elearning berbasis Moodle (Part I) Oleh: Herman Dwi Surjono, Ph.D. hermansurjono@uny.ac.id http://herman.elearning-jogja.org A. Pendahuluan Portal elearning kini banyak
Lebih terperinciTABEL DATABASE TABEL - KODE BARANG TOKO INFOMART BARANG - NAMA BARANG - HARGA
TABEL Dalam pembuatan database, data yang pertama dibuat adalah tabel. Tabel merupakan kumpulan data yang tersusun menurut aturan tertentu dan merupakan komponen utama pada database. Table disusun dalam
Lebih terperinciBAB II. KAJIAN PUSTAKA
BAB II. KAJIAN PUSTAKA A. MYSQL MySQL merupakan sistem basis dataopen source paling populer. MySQL adalah sebuah implementasi dari sistem manajemen basis data relasional (Relational Database Management
Lebih terperinciTugas Rekayasa Perangkat Lunak Berorientasi Obyek Review IDE untuk Java (NetBeans, Eclipse, Intellij IDEA)
Tugas Rekayasa Perangkat Lunak Berorientasi Obyek Review IDE untuk Java (NetBeans, Eclipse, Intellij IDEA) Dengan semakin diminatinya pemrograman berorientasi obyek untuk membangun perangkat lunak menyebabkan
Lebih terperinciKLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER
KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana
Lebih terperinciPERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA
PERBANDINGAN DECISION TREE, MAXIMUM ENTROPY, DAN ASSOCIATION RULES PADA RESOLUSI KOREFERENSI UNTUK BAHASA INDONESIA Astria Kurniawan Sumantri 1, Indra Budi 2, Heri Kurniawan 2 1,2,3 Fakultas Ilmu Komputer,Universitas
Lebih terperinciAplikasi Komputer. Microsoft Office 2010 Microsoft Office Access 2010 Bag 1. Miftahul Fikri, M.Si. Modul ke: Fakultas Ekonomi dan Bisnis
Modul ke: Microsoft Office 2010 Microsoft Office Access 2010 Bag 1 Fakultas Ekonomi dan Bisnis Miftahul Fikri, M.Si Program Studi Manajemen www.mercubuana.ac.id Microsoft Access adalah sebuah program program
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 1.1 Data Mining Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi
Lebih terperinciBAB 2 TINJAUAN TEORI
BAB 2 TINJAUAN TEORI 2.1. Pengenalan HTML 2.1.1. Pendahuluan HTML Hypertext Markup Language merupakan kepanjangan dari kata HTML. Adalah script dimana kita bisa menampilkan informasi dan daya kreasi kita
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision
Lebih terperinciBAB III METODOLOGI PENELITIAN
60 BAB III METODOLOGI PENELITIAN 1.1 Desain Penelitian Desain penelitian adalah tahapan atau gambaran yang akan dilakukan dalam penelitian. Desain penelitian dibuat untuk memudahkan pelaksanaan tahaptahap
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang Masalah
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Basis data saat ini sudah berkembang menjadi sangat besar secara cepat ke dalam ukuran terabyte. Di dalam tumpukan data tersebut mungkin terdapat informasiinformasi
Lebih terperinciSearch Engines. Information Retrieval in Practice
Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi
Lebih terperinciBAB III LANDASAN TEORI
BAB III LANDASAN TEORI 3.1 Pengertian Informasi Informasi adalah data yang diolah menjadi bentuk yang lebih berguna dan lebih berarti bagi yang menerimanya.sumber dari informasi adalah data. Data merupakan
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha
ABSTRAK Penipuan dengan menggunakan pesan singkat pada ponsel yang diterima oleh pengguna sampai sekarang ini masih sangat banyak. Pesan penipuan ini dikirim oleh orang yang tidak bertanggung jawab dan
Lebih terperinciBAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.
BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Pengertian Sistem Informasi Secara teori, penerapan sebuah Sistem Informasi memang tidak harus menggunakan komputer dalam kegiatannya. Tetapi pada prakteknya tidak mungkin sistem
Lebih terperinciBAB 3 PERANCANGAN SISTEM
20 BAB 3 PERANCANGAN SISTEM 3.1 Rancangan Perangkat Keras Sistem ini hanya menggunakan beberapa perangkat keras yang umum digunakan, seperti mikrofon, speaker (alat pengeras suara), dan seperangkat komputer
Lebih terperinci