BAB I PENDAHULUAN. 1.1 Latar Belakang

dokumen-dokumen yang mirip
ISSN : e-proceeding of Engineering : Vol.4, No.2 Agustus 2017 Page 2182

BAB I PENDAHULUAN 1.1. Latar Belakang

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB III METODOLOGI PENELITIAN

1.5 Metode Penelitian

BAB I PENDAHULUAN Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB 1 PENDAHULUAN Latar Belakang

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

PENDAHULUAN. 1.1 Latar Belakang

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB 1 PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I-1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB 1 PENDAHULUAN Pengantar

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN. Universitas Sumatera Utara

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB I PENDAHULUAN 1.1 Latar Belakang

@UKDW BAB 1 PENDAHULUAN Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang Latar Belakang

BAB I PENDAHULUAN. tahunnya (Radev et al, 2000). Pada bulan Juli 2011, jumlah host yang diiklankan di

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB I PENDAHULUAN 1.1. Latar Belakang

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

ANALISIS CLUSTER PADA DOKUMEN TEKS

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB 2 TINJAUAN PUSTAKA

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

ANALISIS KLASTERING LIRIK LAGU INDONESIA

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB III METODOLOGI PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

1.1. Latar Belakang Masalah

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB I PENDAHULUAN 1.1 Latar Belakang

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN. internet yang kini menjadi peranan penting. Kebutuhan user yang semakin

BAB IV PREPROCESSING DATA MINING

BAB I PENDAHULUAN 1.1 Latar Belakang

1.2. Latar Belakang Masalah

BAB I PENDAHULUAN. 1.1 Latar Belakang

ABSTRAK. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen. vii

BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN. Desain penelitian adalah tahapan atau gambaran yang akan dilakukan

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

1. PENDAHULUAN. Perkembangan teknologi informasi, khususnya teknologi Internet. mudah dan gratis, mengakibatkan informasi berlimpah.

BAB II TINJAUAN PUSTAKA

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN I - 1

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. Menurut Peraturan Menteri Pendidikan dan Kebudayaan (Permendikbud) Nomor 103

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 LATAR BELAKANG

BAB III BAB 3 METODOLOGI PENELITIAN. dalam proses penelitian implementasi metode Bisecting K-Means untuk. Tahapan penelitian yang dilakukan yaitu:

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB 1 PENDAHULUAN. Latar Belakang

BAB 3 LANDASAN TEORI

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. komponen penting dalam hal memajukan kualitas PT tersebut. Apabila sistem

Transkripsi:

BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun 2017 mencapai 112 juta orang. Hal ini menunjukkan besarnya kebutuhan internet bagi penduduk Indonesia sebagai media untuk mendapatkan informasi. Seiring dengan itu, berbagai bentuk dan jenis informasi tersedia melimpah di internet. Namun, setiap pengguna internet memiliki kebutuhan informasi tersendiri. Sebagian besar para pengguna hanya ingin memperoleh informasi dalam bidang tertentu saja. Membaca koleksi dokumen yang berjumlah banyak tentu akan membutuhkan waktu yang sangat lama. Disamping itu, latar belakang penulis membuat Tugas Akhir ini adalah perkembangan website yang meningkat drastis sehingga mengakibatkan semakin pesat pula perkembangan artikel berita. Banyaknya informasi tersebut menyebabkan pengguna internet dapat mengalami kesulitan untuk menemukan informasi atau berita yang diinginkan, sehingga informasi tersebut tidak dapat dimanfaatkan secara optimal. Oleh karena itu dibutuhkan pengelompokan informasi agar lebih terstruktur sehingga informasi tersebut dapat dimanfaatkan secara maksimal. Tahapan pertama yang dilakukan dalam mengolah informasi adalah preprocessing. Preprocessing adalah tahapan untuk mentransformasi data ke suatu format yang lebih mudah dan efektif untuk diproses oleh pemakai. Langkah-langkah dalam preprocessing terdiri dari sentence, tokenization, stopworld removal, stemming, TF (Term Frequency), IDF (Inverse Document Frequency), TF*IDF. Langkah selanjutnya adalah pengelompokan dokumen informasi dalam data mining dengan metode clustering. Clustering merupakan proses pengelompokkan data atau objek ke dalam bentuk cluster (kelompok) sehingga setiap data dalam kelompok memiliki kemiripan variabel-variabel yang diteliti, dan didapatkan kemiripan objek dalam kelompok yang sama dibandingkan sesama objek dari kelompok yang berbeda. Tidak melakukan klasifikasi, estimasi, atau memprediksi nilai variabel target. Dan teknik ini hanya melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan. Terdapat banyak metode clustering yang dapat digunakan 1

untuk melakukan pengelompokan dokumen, diantaranya partitional clustering dan hierarchical clustering. Masing-masing metode ini memiliki kelebihan dan kekurangan. Partitional clustering merupakan metode clustering yang prosesnya membagi objek menjadi beberapa partisi dan setiap objeknya hanya menjadi bagian dari sebuah cluster, sehingga tidak terjadi overlaping. Sementara itu, hierarchical clustering merupakan metode clustering yang direpresentasikan dengan sebuah pohon biner yang disebut dendrogram pada metode hierarchical clustering objek cluster-nya dapat terjadi overlaping. Metode hierarchical clustering ini mengelompokkan data dengan cara membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak mirip di tempatkan pada hirarki yang berjauhan. Penelitian ini menggunakan metode K-Medoids. Metode K-Medoids merupakan bagian dari partitioning clustering. Metode K-Medoids cukup efisien untuk dataset yang kecil. Langkah awal K-Medoids adalah mencari titik yang paling representatif (medoids) dalam sebuah dataset dengan menghitung jarak dalam kelompok dari semua kemungkinan kombinasi dari medoids sehingga jarak antar titik dalam suatu cluster kecil sedangkan jarak titik antar cluster besar. Penelitian ini penulis melakukan penelitian terhadap data berita berbahasa inggris yang diambil dari beberapa situs online, kemudian disalin ke notepad dalam format.txt. Data berita tersebut berupa dokumen teks yang memiliki isi tulisan atau kumpulan kata berbahasa inggris. Metode pembobotan yang digunakan dalam penelitian ini ada metode TF-IDF. Metode tersebut digunakan untuk mendapatkan nilai rangking pada setiap kalimat. Sehingga dengan nilai rangking tersebut didapatkan kalimat utama dalam dokumen tersebut yang selanjutnya diproses untuk menghasilkan kesimpulan (summary) dari artikel/berita. 2

1.2 Perumusan Masalah Berdasarkan permasalahan yang terdapat pada latar belakang, maka rumusan masalah yang terkain dalam penelitian ini adalah : a. Bagaimana menentukan kalimat utama dalam suatu dokumen berita menggunakan pembobotan TF-IDF. b. Bagaimana melakukan pengelompokkan dokumen berita menggunakan metode K- Medoids. 1.3 Tujuan Tujuan yang dari penelitian ini adalah sebagai berikut: a. Menentukan kalimat utama dalam sebuah dokumen berita menggunakan pembobotan TF-IDF. b. Mengelompokkan dokumen berita dengan metode K-Medoids. 1.4 Batasan Masalah Pada penelitian ini terdapat batasan masalah sebagain berikut : a. Menggunakan bahasa pemrograman Java dan IDE Netbeans sebagai compiler. b. Dataset yang digunakan adalah dataset berita online yang sudah disalin ke dalam file notepad dengan format.txt. c. Data teks menggunakan berita berbahasa inggris. d. Tidak menangani kesalahan pada penulisan kata dalam dokumen. e. Kualitas cluster tidak dibandingkan dengan algoritma lainnya. 3

1.5 Metodologi Penelitian Untuk mendapakatkan hasil tugas akhir yang sesuai dengan tujuan, terdapat metodologi penelitian sebagai berikut : a. Studi Literatur Dilakukan untuk memahami tentang k-medoids clustering dan peringkas dokumen otomatis dengan metode TF-IDF melalui buku, jurnal, paper, dan artikel. b. Analisa Perancangan Merancang sistem k-medoids clustering dan peringkasan dokumen otomatis dengan metode TF-IDF, sehingga dapat menghasilkan keluaran yang diharapkan. c. Implementasi Melakukan implementasi terhadap rancangan yang sudah dibuat. d. Pengujian dan Analisis Melakukan pengujian dan analisis evaluasi terhadap sistem yang telah dibangun, supaya dapat diketahui kemampuan sistem yang sudah dibangun. e. Kesimpulan Membuat kesimpulan dari hasil penelitian yang sudah dilakukan berdasarkan dengan tujuan yang sudah ditentukan sebelumnya. f. Penyusunan Laporan Membuat dokumentasi penelitian dengan menyusun laporan penelitian. 4

1.6 Sistematika Penulisan Penulisan tugas akhir ini dibagi dalam beberapa bagian. Setiap bagian mejelaskan langkah demi langkah dalam pengerjaan tugas akhir ini. Berikut adalah bagian tersebut: BAB I PENDAHULUAN Bab ini berisi tentang latar belakang penelitian serta tugas akhir, rumusan masalah, tujuan tugas akhir, dan batasan masalah dari judul tugas akhir. Serta metodologi penelitian dan sistematika penulisan yang digunakan dalam tugas akhir ini. BAB II TINJAUAN PUSTAKA Bab ini berisi tentang penjelasan sumber-sumber terkait yang digunakan dalam sistem yang dibuat, bersumber dari jurnal, buku, maupun artikel resmi dari internet. BAB III PERANCANGAN SISTEM Bab ini membahas mengenai semua hal yang berkaitan dengan proses pemodelan dan perancangan sistem yang dibangun BAB IV PENGUJIAN DAN ANALISIS Bab ini membahas pengujian-pengujian yang dilakukan pada sistem, baik dari summarize maupun k-medoids clustering. Dari hasil pengujian akan dilakukan analisis dan menarik kesimpulan dari hasil analisis tersebut. Serta akan membandingkannya dengan pendapat beberapa ahli. BAB V KESIMPULAN DAN SARAN Bab ini berisi tentang kesimpulan akhir dari perancangan, analisis, dan pengujian yang diperoleh serta saran dan harapan untuk pengembangan penelitian lebih lanjut. 5