BAB 2 LANDASAN TEORI

Ukuran: px
Mulai penontonan dengan halaman:

Download "BAB 2 LANDASAN TEORI"

Transkripsi

1 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi tag mengacu pada proses pemberian rekomendasi tag secara otomatis yang berguna dan informatif untuk sebuah objek yang muncul berdasarkan informasi historisnya. Objek yang akan ditandai dapat berupa foto, video atau dokumen. Secara umum, dokumen yang di-tag biasanya berhubungan dengan satu sama lain atau memiliki banyak koneksi tag. Pengguna juga dapat memberikan tag pada dokumennya dengan berbagai persepsi (Song et al, 2008). Gambar 2.1 Representasi Grafik Triplet (u, d, t) (Song et al, 2008) Pemberian tag pada dokumen d dilakukan oleh pengguna u dengan tag t dapat direpresentasikan dengan menggunakan triplet (u, d, t). Bila dilihat dari representasi grafiknya, setiap node adalah salah satu elemen dalam triplet dan tiap-tiap ujung dari node menjadi derajat atau bobot dari koneksinya. Baik pengguna dan dokumen sangat terhubung ke tag, sedangkan hubungan antara tag sendiri tidak bisa diamati secara langsung. Merekomendasikan tag yang relevan dengan pengguna baru atau dokumen

2 7 baru hanya bisa dilakukan secara tidak langsung dari perspektif pengguna atau sudut pandang dokumen (Song et al, 2008). Rekomendasi tag dapat dilakukan secara manual atau menggunakan autotag, yaitu pemberian tag secara otomatis dengan menggunakan suatu metode atau konsep pembelajaran tertentu seperti metode statistik dan text mining. Sistem rekomendasi tag secara otomatis memberikan kemudahan dalam memberikan rekomendasi tag terhadap informasi yang akan dipublikasikan terutama jika informasi tersebut memiliki ukuran yang besar atau cakupan yang luas. Selain itu, sistem rekomendasi tag secara otomatis juga akan menghemat penggunaan waktu dalam pemberian tag. Diharapkan rekomendasi yang diberikan dapat membantu pengguna dalam mengambil keputusan pemberian tag pada objek yang akan dipublikasikan sehingga nantinya dapat memudahkan dalam peroses filterasi objek tersebut ataupun objek lain yang memiliki kesamaan dengan objek tersebut. Dari segi perilaku pengguna, sistem tag dapat diklasifikasikan menjadi 3, yaitu self-tagging, permission-based dan free-for-all. Pada self-tagging, pengguna hanya menandai konten yang mereka ciptakan untuk pengambilan pribadi di masa depan, contohnya seperti situs facebook ( dan YouTube ( Permission-based menetapkan berbagai tingkat izin untuk pemberian tag, contohnya seperti situs Flickr ( Kedua bentuk penandaan tersebut digolongkan sebagai narrow folksonomies atau folksonomi sempit dan tidak mendukung atau tidak termasuk ke dalam collaborative tagging. Free-for-all memungkinkan pengguna untuk menandai setiap item dan merupakan sistem collaborative tagging, contohnya seperti situs Yahoo! MyWeb ( Free-to-all tagging juga dikenal sebagai broad folksonomy atau folksonomi luas (Ji et al, 2007). 2.2 Text Mining Text mining (penambangan teks) bisa secara luas didefinisikan sebagai proses pengetahuan intensif dimana pengguna berinteraksi dengan koleksi dokumen dari waktu ke waktu dengan menggunakan seperangkat alat analisis. Dalam kaitannya dengan data mining, text mining berusaha untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari pola-pola yang menarik. Namun dalam text mining, sumber-sumber data adalah koleksi dokumen. Dan pola-

3 8 pola menarik tersebut tidak ditemukan diantara catatan database yang sudah diformalisasi melainkan dalam data tekstual yang tidak terstruktur di dalam koleksi dokumen-dokumen tersebut (Feldman et al, 2007). Sama sepertihalnya data mining, text mining adalah salah satu bagian lain dari Knowledge Discovery. Text Mining sering juga disebut dengan Text Data Mining (TDM) atau Knowledge Discovery in Textual Database (KDT). Metode ini digunakan untuk menggali informasi dari data-data dalam bentuk teks seperti buku, makalah, paper, dan lain sebagainya. Secara umum text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen (Anggaradana, 2013). Hal yang membedakan data mining dengan text mining adalah proses analisis terhadap suatu datanya. Data Mining atau Knowledge Discovery in Database (KDD) adalah proses untuk menemukan pengetahuan dari sejumlah besar data yang disimpan baik di dalam databases, data warehouses atau tempat penyimpanan informasi lainnya. Sedangkan untuk text mining sering disebut dengan Keyword-Based Association Analysis. Keyword-Based Association Analysis merupakan sebuah analisa yang mengumpulkan keywords atau terms (istilah) yang sering muncul secara bersamaan dan kemudian menemukan hubungan asosiasi dan korelasi diantara keywords atau terms itu (Kurniawan et al, 2009). Secara garis besar dalam melakukan implementasi text mining terdiri dari dua tahap besar yaitu pre-processing dan processing (Anggaradana, 2013) Pre-Processing Tahap pre-processing adalah tahap dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Setiap kata akan dipecah-pecah menjadi struktur bagian kecil yang nantinya akan mempunyai makna sempit. Ada beberapa hal yang perlu dilakukan pada tahap pre-processing ini, yaitu Tokenizing, Filtering,dan Stemming. a. Tokenizing Tokenizing atau parsing adalah sebuah proses yang dilakukan sesorang untuk menjadikan sebuah kalimat menjadi lebih bermakna atau berarti dengan cara

4 9 memecah kalimat tersebut menjadi kata-kata atau frase-frase. Untuk beberapa kasus, pada tahap ini tindakan yang dilakukan adalah to Lower Case, dengan mengubah semua karakter huruf menjadi huruf kecil. Kemudian, dilakukan tahap tokenizing yaitu merupakan proses penguraian abstrak yang semula berupa kalimatkalimat berisi kata-kata dan tanda pemisah antar kata seperti titik (.), koma (,), spasi dan tanda pemisah lain menjadi kumpulan kata-kata saja baik itu berupa kata penting maupun kata tidak penting (Anggaradana, 2013). b. Filtering atau Seleksi Fitur Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Dimana dalam tahap ini bisa digunakakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Dalam tahap ini penulis menggunakan algoritma stoplist. Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang. Contoh stopwords adalah yang, dan, di, dari dan seterusnya. Proses ini akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya (Anggaradana, 2013). c. Stemming Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Atau dengan kata lain pada tahap ini dilakukan proses penghilangan prefiks dan sufiks dari query dan istilah-istilah yang dihasilkan dari proses filtering. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama dianggap memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan query-nya (Anggaradana, 2013). Pada intinya proses ini mempunyai dua tujuan, yaitu (1) dalam hal efisiensi, stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan dan mempercepat proses pencarian. (2) dalam hal keefektifan, stemming mengurangi recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang sama untuk

5 10 ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks. Beberapa algoritma yang telah dikembangkan untuk proses stemming diantaranya Algoritma Porter (Bahasa Indonesia dan Inggris) dan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia (Nazief et al, 1996). Dalam hal ini, Penelitian yang dilakukan Agusta (2009) menunjukkan algoritma Nazief & Adriani memiliki tingkat akurasi yang lebih tinggi dalam proses stemming untuk bahasa Indonesia dibandingkan algoritma Porter Processing Tahap yang kedua adalah melakukan processing. Tahap ini merupakan tahap inti dimana setiap kata akan diolah dengan algoritma tertentu, yang dalam penelitian ini akan digunakan metode TF-IDF. Tahap ini sering disebut juga dengan Analizing. Dalam tahap processing, dokumen akan dianalisa oleh aplikasi. Secara umum terdapat dua jenis metode yaitu metode yang tidak melakukan perhitungan bobot kalimat dan yang melakukan perhitungan bobot kalimat. Metode yang tidak menghitung bobot kalimat hanya mengambil beberapa kalimat awal dan akhir. Metode-metode yang menghitung bobot kalimat menggunakan bobot term (kata maupun pasangan kata) dari setiap term yang terdapat dalam kalimat tersebut (Anggaradana, 2013). Dalam penelitian ini digunakan metode yang menghitung bobot (term), dimana bobot term diperoleh dengan melakukan perhitungan terhadap Term Frequency dan Inverse Document Frequency dari term tersebut yaitu TF-IDF. Hasil perhitungan dari TF-IDF akan menghasilkan beberapa rekomendasi tag yang berasal dari dalam artikel tersebut. Selanjutnya digunakan teknik Collaborative tagging untuk mencari rekomendasi tag dari objek yang sudah dipublikasi sebelumnya. 2.3 Algoritma Nazief & Adriani Algoritma Nazief & Adriani adalah algoritma yang dikembangkan oleh Bobby Nazief dan Mirna Adriani. Algoritma ini dapat dimanfatkan untuk stemming bahasa Indonesia. Adapun flow chart algoritma Nazief & Adriani dapat dilihat pada gambar 2.2.

6 11 Gambar 2.2 Flow Chart Algoritma Nazief & Adriani (Nazief et al, 1996) Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan (Nazief et al, 1996). Untuk mengoptimalkan pemotongan sufiks, prefiks, dan konfiks pada kata digunakan tabel kombinasi kata awalan dan akhiran yang tidak diijinkan dan dapat dilihat pada tabel 2.1.

7 12 Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani, et al. 2007) Awalan Akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Adapun pemotongan kata dasar dibuat berdasarkan aturan peluruhan kata dasar seperti terlihat pada tabel 2.2. Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani, et al. 2007) Aturan Awalan Peluruhan 1 berv Ber-V.. be-rv 2 belajar bel-ajar 3 berc1erc2 be-c1erc2.. dimana C1!={ r l } 4 terv ter-v.. te-rv 5 tercer ter-cer.. dimana C!== r 6 tec1erc2 te-c1erc2 dimana C1!= r 7 me{l r w y}v me-{l r w y}v 8 mem{b f v} mem-{b f v} 9 mempe mem-pe 10 mem{rv V} me-m{rv V} me-p{rv V} 11 men{c d j z} men-{c d j z} 12 menv me-nv me-tv 13 meng{g h q k } meng-{g h q k} 14 mengv meng-v meng-kv 15 mengec menge-c 16 menyv me-ny.. meny-sv 17 mempv mem-pv 18 pe{w y}v pe-{w y}v 19 perv per-v pe-rv 20 pem{b f v} pem-{b f v} 21 pem{rv V} pe-m{rv V} pe-p{rv V} 22 pen{c d j z} pen-{c d j z} 23 penv pe-nv pe-tv

8 13 Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani, et al. 2007)(Lanjutan) Aturan Awalan Peluruhan 24 peng{g h q} peng-{g h q} 25 pengv peng-v peng-kv 26 penyv pe-nya peny-sv 27 pelv pe-lv ; kecuali untuk kata "pelajar" 28 PeCP pe-cp dimana C!={r w y l m n} dan P!='er' 29 percerv per-cerv dimana C!={r w y l m n} Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturanaturan berikut: 1. Aturan untuk reduplikasi a. Jika kedua kata yang dihubungan penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh anak-anak root word-nya adalah anak. b. Kata lain misalnya bolak-balik, berbalas-balasan dan seolah-olah. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas, maka root word berbalas-balasan adalah balas. Sebaliknnya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root word-nya adalah bolak-balik. 2. Tambahan untuk awalan dan akhiran serta aturannya. a. Tipe awalan mem-, kata yang diawali dengan awalan memp- memiliki tipe awalan mem-. b. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng Term Frequency-Invers Document Frequency (TF-IDF) TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistik numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF meningkat secara proporsional berdasarkan jumlah atau banyaknya kata yang muncul

9 14 pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotan TF-IDF sering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user. TF-IDF pada dasarnya merupakan hasil dari perhitungan antara TF (Term Frequency) dan IDF (Inverse Document Frequency). Banyak cara untuk menentukan nilai yang tepat dari kedua statistik yang ada. Dalam kasus term frequency tf (t, d), cara yang paling sederhana adalah dengan menggunakan raw frequency di dalam dokumen, yaitu berapa kali term t muncul di dokumen d. Jika menyatakan raw frequency t sebagai f (t,d), maka skema tf yang sederhana adalah tf (t, d) = f (t,d). Kemungkinan lain meliputi (Manning, et al. 2008): - frekuensi Boolean : tf (t,d) = 1 jika t muncul di d dan 0 kebalikannya; - skala frekuensi logaritmik : tf (t,d) = log (f (t,d) + 1); - penambahan frekuensi, untuk mencegah bias terhadap dokumen lagi, misalnya raw frequency dibagi dengan raw frequency maksimum dari setiap term di dalam dokumen. tf (t, d) = 0,5 + 0,5 f (t, d) max {f (w, d) w d (2.1) IDF (Inverse Document Frequency) merupakan ukuran apakah term itu umum atau langka di semua dokumen. Hal ini diperoleh dengan membagi jumlah dokumen di dalam korpus dengan jumlah dokumen yang berisi term, dan kemudian mengambil logaritma dari hasil bagi tersebut. N idf (t, D) = log { d D t d (2.2) dimana: - N : kardinalitas dari N, atau jumlah total dokumen di dalam korpus. - { d D t d : jumlah dokumen dimana term t muncul (misalnya tf (t, d) 0). Jika term tidak ada di dalam korpus, hal ini akan mengacu kepada division-by-zero. Oleh karena itu, biasanya untuk menyesuaikannya rumus menjadi: 1 + {d D: t d} (2.3)

10 15 Secara matematis fungsi dasar log tidak lah penting dan merupakan faktor pengali terhadap hasil keseluruhan. Maka TF-IDF dapat dirumuskan menjadi: tfidf (t, d, D) = tf (t, d) idf (t, D) (2.4) 2.5 Collaborative Tagging Collaborative tagging menawarkan alternatif rekomendasi tag dan filterasi tag yang telah banyak digunakan. Collaborative tagging digambarkan seperti berbagai pengetahuan antara objek satu dengan berbagai objek lainnya. Collaborative tagging memungkinkan pengguna untuk berbagi tag pada objek mereka dengan objek pengguna lain. Teknik ini juga memungkinkan pengguna untuk menandai objek mereka secara bebas dan berbagi konten, sehingga para pengguna dapat mengkategorikan informasi dengan bebas, dan mereka dapat menelusuri kategori informasi yang dimiliki oleh pengguna lain. Tag klasifikasi, dan konsep menghubungkan set tag antara server web/blog, telah menyebabkan munculnya klasifikasi folksonomi pada objek-objek di internet. Mereka cenderung menggunakan tag yang ada untuk dengan mudah membentuk koneksi antar objek dengan tag yang berkaitan (Lee, et al, 2008). Collaborative tangging memungkinkan rekomendasi tag untuk objek baru yang akan publikasikan dapat berasal dari objek itu sendiri dan atau dari objek yang mirip. Pada metode collaborative tagging, tag yang berasal dari objek tersebut (Obaru) akan dicocokkan dengan tag pada objek lainnya yang telah diterbitkan (Olama). Tingkat kemiripan tag pada Obaru dengan Olama harus ditetapkan terlebih dahulu. Jika tingkat kemiripan yang ditentukan telah melewati ambang batasnya, maka tag-tag pada Olama (selain tag yang sama antar Obaru dan Olama) akan diikutsertakan menjadi rekomendasi tag pada Obaru (tag recommendation = Obaru Olama). Semakin tinggi derajat tingkat kemiripan yang ditentukan, maka semakin akurat rekomendasi tag yang akan didapatkan dan berlaku sebaliknya. Pada penelitian ini, collaborative tag yang digunakan ialah menggunakan tag similarity yaitu pengukuran kesamaan dengan menghitung persentase kemiripan tag hasil ekstraksi dari arikel yang baru dengan tag-tag berita lainnya di database. Persentase kemiripan berita berdasarkan tag pada penelitian ini adalah 50%.

11 Penerapan TF-IDF dan Collaborative Tagging pada Rekomendasi Tag Secara umum, tahap-tahap dalam membentuk sistem rekomendasi tag pada penelitian ini mengggunakan metode text-mining dimana tahap stemming-nya menggunakan algoritma Algoritma Nazief & Adriani, tahap processing-nya menggunakan metode TF-IDF. Untuk meningkatkan kemampuan sistem dalam memberikan rekomendasi, digunakan Collaborative tagging agar rekomendasi tag dapat berasal dari berita lain yang pernah diterbitkan sebelumnya. Adapun langkah-langkah pada sistem rekomendasi tag yang akan dikembangkan adalah sebagai berikut: 1. Masukkan text berita yang akan dibuat rekomendasinya. 2. Lakukan tokenizing pada text yang telah dimasukkan sehingga setiap kalimat pada text menjadi satuan kata-kata atau frase-frase. Kemudian sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses tolowercase. 3. Lakukan filtering pada kata-kata atau frase-frase yang telah ada dengan menggunakan metode stoplist (membuang kata-kata yang kurang penting seperti kata sambung, kata depan, dan lain sebagainya). 4. Lakukan stemming pada setiap kata (k) menggunakan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia yang berfungsi menemukan kata dasar dari setiap kata masukan. Untuk k =1 hingga k=n dilakukan langkah berikut: 4.1 Samakan kata atau frase dengan kata-kata di dalam kamus dimana jika ditemukan maka diasumsikan kata tersebut adalah kata dasar atau root word, jika tidak maka tahap selanjutnya dilakukan. 4.2 Lakukan Infection suffixes ( -lah, -kah, -ku, -mu, atau -nya ) dibuang. Jika berupa particles ( -lah, -kah, -tah, atau -pun ) maka langkah ini diulangi untuk menghapus Passive Pronouns ( -ku, -mu, atau -nya ), jika ada. 4.3 Hapus Derivation Suffixes ( -i, -an atau -kan ). Jika kata ditemukan dikamus, maka diasumsikan kata tersebut adalah root word. Jika tidak maka dilanjutkan ke langkah Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah - k, maka -k juga akan ikut dihapus. Jika kata tersebut ditemukan dalam kamus, maka diasumsikan kata tersebut adalah root word. Jika tidak, akan dilanjutkan ke langkah 3b.

12 Akhiran yang dihapus ( i, -an atau -kan ) dikambalikan, lanjut ke tahap Hapus derivation prefix ( di-, ke-, se-, te-, be- dan me- ). Jika pada langkah 3 ada suffix yang dihapus maka dilanjutkan ke langkah 4.4.1, jika tidak pergi ke langkah Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. Jika ditemukan, maka diasumsikan kata tersebut adalah root word, jika tidak lanjut ke langkah For i=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan kata dasar sesuai tabel 2.2. Jika root word belum ditemukan lakukan langkah 5, jika sudah maka diasumsikan kata tersebut adalah root word. Catatan: jika awalan kedua dan awalan pertama adalah sama maka kata tersebut adalah root word. 4.5 Lakukan recoding. 4.6 Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Jika root word merupakan kata reduplikasi seperti anak-anak, bolak-balik, atau berbalas-balasan, maka kata tersebut harus mengikti aturan reduplikasi. 4.7 k+1, ulangi proses stemming untuk kata berikutnya. 5. Setelah hasil stemming kata telah didapatkan, tentukan bobot tiap-tiap kata dengan menggunakan metode TF-IDF sebagai berikut: 5.1 Hitung TF yaitu frekuensi kemunculan kata term (t) pada text berita (d). 5.2 Hitung invers document frequency (idf) yaitu dengan persamaan berikut: idf = Log10(N/(1+df) ) (2.5) dimana: N = merupakan jumlah seluruh berita yang ada pada tabel berita. df = jumlah kemunculan kata (term) terhadap daftar isi berita di database. 5.3 Hitung bobot (W) masing-masing dokumen dengan persamaan 2.6. Wt= tf * idf (2.6) dengan : t = kata(term) ke t tf = term freqency W = bobot kata(term) ke- t idf = inverse document f reqency

13 Lakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kata dan mengambil 6 kata dengan bobot terbesar akan dijadikan sebagai hasil rekomendasi tag. 6. Hasil rekomendasi tag dari proses TF-IDF akan dicari kemiripannya dengan berita lainnya yang telah diterbitkan dan disimpan pada Tabel Berita di database dengan langkah berikut: 6.1 Persentasi kemiripan berita dihitung dengan persamaan 2.7. Kpn = (%kemiripan * hsltfidf)/100 (2.7) Dimana: Kpn = Jumlah kemiripan tag, %kemiripan = Persentase kemiripan tag, hsltfidf = Jumlah rekomendasi tag hasil TF-IDF (hasil Langkah 5.4). 6.2 Untuk setiap berita yang telah di-upload pada kategori yang sama dan memiliki jumlah kemiripan tag Kpn maka tag pada berita lainnya akan ditambahkan ke dalam rekomendasi tag otomatis. 2.7 Teknik Rekomendasi Tag Terdahulu Penelitian mengenai rekomendasi tag telah banyak dilakukan dengan berbagai algoritma guna mendapatkan hasil rekomendasi yang lebih relevan dan efektif. Muflikah, Fadilah, dan Rido (2013) menggunakan Algoritma Latent Semantic Indexing untuk sistem rekomendasi tag pada dokumen blog. Adapun langkah-langkah rekomendasi tag dengan menggunakan Algoritma Latent Semantic Indexing yang mereka lakukan adalah sebagai berikut: 1. Parsing Dokumen Blog berformat.html ke.txt. 2. Proses Training Data meliputi pengelompokan tag dan pembentukan Graf term frequency (TF) dan first occurrence (FO). 3. Preprocessing dalam sistem ini meliputi tokenizing, filtering, perhitungan term frequency (TF) dan perhitungan first occurrence (FO). Stemming tidak diperlukan karena sifat dari tag yang bebas dari kaidah tata bahasa. Perhitungan TF dan FO digunakan untuk pembobotan kata. FO adalah menyatakan jarak posisi kemunculan kata pertama pada dokumen. Hal ini didasarkan pada asumsi bahwa kata-kata penting yang menjadi topik isi dokumen berada pada beberapa paragraf pertama.

14 19 4. Tahap ekstraksi TI merupakan proses untuk mendapatkan sekumpulan kata kunci TI sebanyak jumlah input TI dari user. TI yang diambil adalah sebanyak m kata dengan bobot score terbesar. Semakin tinggi nilai TF dan semakin rendah nilai FO maka semakin besar kemungkinan kata tersebut merupakan kata kunci. 5. Teknik dekomposisi matriks dengan Singular Value Decomposition (SVD). SVD berkaitan erat dengan singular value atau nilai singular dari sebuah matriks yang merupakan salah satu karakteristik matriks. 6. Ekstraksi tag (Tag-Out) menggunakan algoritma Latent Semantic Indexing (LSI) dengan langkah kerja sebagai berikut: Matriks berukuran mxs dibentuk pada saat proses dokumen uji, setelah tahap ekstraksi TI. Sebanyak m jumlah TI dicari pasangan co-occurrence-nya di dalam graf. Maka didapatkan sebanyak s jumlah TO yang paling sedikit memiliki nilai co-occurrence 1 dengan paling sedikit 1 buah TI. Selanjutnya dibentuk matriks A mxs yang berisikan bobot untuk m TI dan s TO yang memiliki co-occurrence pada bipartite graph (bigraf). Bigraf dibentuk saat training data. Kemudian dilakukan reduksi matriks menjadi Uk, Vk, dan Sk. Baris-baris pada matriks Vk adalah kumpulan dari vektor eigen, maka tiap baris matriks Vk merupakan koordinat vektor masing-masing dokumen. Tahap terakhir adalah mengukur tingkat kesamaan (similarity) antara vektor query dan masing-masing vektor dokumen menggunakan rumus perhitungan cosine similarity. Setelah didapatkan hasil kedekatan masing-masing vektor kemudian dilakukan pengurutan secara descending hasil similarity antara query dan semua dokumen. Semakin besar nilai similarity artinya semakin dekat hubungan antara TO dengan m TI yang telah dipilih pada proses ekstraksi keyword. 7. Metode Evaluasi dengan ukuran evaluasi terhadap sistem rekomendasi tag adalah sebagai berikut: Top-k accuracy. Prosentase dari dokumen yang rekomendasi tag-nya benar paling sedikit 1 dari sejumlah k tag teratas yang direkomedasikan (top-k th tag). Exact-k Accuracy. Prosentase banyaknya dokumen yang hasil rekomendasi tag-nya benar sebanyak k dari sejumlah k tag teratas yang direkomendasikan (exact-k th tag)

15 20 Tag-recall. Prosentase hasil tag rekomendasi yang benar dari seluruh tag yang telah diberikan oleh user. Tag rekomendasi yang benar adalah tag yang sama antara tag yang dihasilkan oleh program dan tag yang dibuat oleh user. Tag-precision. Prosentase hasil tag rekomendasi yang benar dari seluruh tag yang dihasilkan oleh algoritma program. F-Measure merupakan gabungan antara precision dan recall. Pada tahun 2013, Purbasari, Cai, Lao, dan Al-Rawali melakukan penelitian mengenai rekomendasi tag pada situs berbagi gambar di Flikr. Langkah-langkah yang dilakukan oleh dalam penelitian mereka adalah sebagai berikut: 1. Pengambilan tag dari Flickr. Proses ini menggunakan API dari Flickr dengan menggunakan implementasi Java sebagai bahasa pemrogramannya. 2. Lakukan crawling pada semua gambar di Flickr yang memiliki tag tersebut. Untuk setiap gambar yang ditemukan, diambil seluruh tag-nya dan dilakukan crawling kembali untuk mengambil tag dari gambar lain yang mengandung tag tersebut. Sejumlah gambar yang tidak memiliki tag tidak disimpan dalam database. 3. Lakukan iterasi selama stopping condition masih belum terpenuhi. Untuk menentukan stopping condition. Jika iterasi sudah melebihi maksimal iterasi maka pelatihan dihentikan. Bila nilai MAPE kurang dari atau sama dengan error tolerance maka pelatihan dihentikan. 4. Kegiatan pra-proses pada tag, yang meliputi pengecekan dengan kamus untuk menyaring kata yang berbahasa Inggris saja, Pembuangan tag yang memiliki frekuensi dengan frekuensi tertinggi maupun terendah, 5. Pembuatan matriks untuk memetakan tag dengan gambar. 6. Proses clustering untuk memudahkan proses mining tag. 7. Pencarian association rule pada setiap cluster untuk menghasilkan kombinasi tag yang sering muncul bersamaan. Algoritma Apriori mencari pasangan tag yang paling sering muncul bersamaan dengan menetapkan batasan confidence dan minimum support. 8. Perekomendasian tag. Tag yang direkomendasikan didasarkan pada hasil association rule yang ditemukan pada langkah sebelumnya. Hanya rule yang kuat yang akan dipilih untuk menghasilkan rekomendasi tag dari query tag yang dimasukkan oleh pengguna.

16 21 9. Pengambilan kembali gambar yang memiliki tag yang sama atau yang irekomendasikan. Selain menghasilkan output berupa tag hasil rekomendasi, sistem juga akan menampilkan sejumlah gambar dari Flickr yang memiliki tag yang direkomendasikan tersebut. Ini juga dilakukan melalui Flickr API dengan menggunakan metode SEARCH pada interface PhotoInterface. Adapun ringkasan beberapa penelitian terdahulu yang telah dilakukan untuk memberikan rekomendasi tag pada beberapa masalah yang berbeda dapat dilihat pada tabel 2.3. Tabel 2.3 Penelitian Sebelumnya No Judul Pengarang Tahun Kelebihan Kekurangan 1. TagAssist: Automatic tag Suggestion for Blog Posts Sanjay C. Sood dan Kristian J. Hammond 2007 Nilai Precision mencapai 42.10% Tag tidak memiliki komponen user feedback 2. Automatic tag Recommendation for the Web 2.0 Blogosphere Using Collaborative tagging and Hybrid ANN Semantic Structures Sigma On, Kee Lee dan Andy Hon Wai Chun 2007 Tag-tag yang berhubungan dengan semantic content akan diberikan walaupun sudah pernah dipakai pada blog sebelumnya Parameter dan algoritma yang digunakan masih dalam proses pengembangan 3. A Content-Based Method to Enhance tag Recommendation Yu-Ta Lu, Shoou-I Yu, Tsung-Chieh Chang, Jane Yung-jen Hsu 2009 Nilai Precision rekomendasi tag mencapai 59% tervalidasi oleh 5 fold cross validation Tag yang direkomendasikan merupakan tag-tag yang tergolong populer dan kurang informatif dan spesifik

17 22 Tabel 2.3 Penelitian Sebelumnya (Lanjutan) No Judul Pengarang Tahun Kelebihan Kekurangan 4. Sistem Rekomendasi tag Pada Dokumen Blog Menggunakan Latent Semantic Indexing Lailil Muflikhah, Nurul Fadilah, Achmad Ridok 2013 Rekomendasi tag yang diberikan sebanyak 5 buah tag. Metode LSI digunakan untuk mencari hubungan latent antara Tag-In (TI) dan Tag-Out (TO) dalam setiap dokumen. Hasil terbaik F- Measure dicapai pada saat TI=2, yaitu 0.5. n/a 5. Aplikasi Rekomendasi tag Pada Situs Berbagi Gambar Flickr Intan Yuniar Purbasari, Hongyun Cai, Angeli Diane Lao, Iman Mohamed Al-Rawahi 2013 Teknik yang digunakan adalah Asossiation Rule Mining dan menggunakan API dari Flickr untuk crawling semua gambar di Flickr yang memiliki tag yang sesuai dengan tag yang diinput. Dapat memperoses data dengan jumlah data yang besar (sekitar 8000 data) dan jumlah kluster data yang besar. Aplikasi rekomendasi tag masih terbatas pada topik animal saja. Efisiensi proses Mining cukup rendah. Proses pemberian rekomendasi tag berjalan lambat. Tidak ada perhitungan tingkat keakuratan rekomendasi tag yang dihasilkan.

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING DOSEN PEMBIMBING Diana Purwitasarti, S.Kom., M.Sc. MAHASISWA Andita Dwiyoga T (5106

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING

PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING PEMBUATAN WEB PORTAL SINDIKASI BERITA INDONESIA DENGAN KLASIFIKASI METODE SINGLE PASS CLUSTERING Noor Ifada, Husni, Rahmady Liyantanto Jurusan Teknik Informatika, Fakultas Teknik, Universitas Truojoyo

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

1. Pendahuluan 2. Kajian Pustaka

1. Pendahuluan 2. Kajian Pustaka 1. Pendahuluan Evaluasi hasil belajar menjadi komponen yang sangat penting dalam proses pembelajaran, karena hasil evaluasi merupakan indikator dari pemahaman siswa terhadap materi ajar yang diberikan.

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

Klasifikasi Konten Berita Dengan Metode Text Mining

Klasifikasi Konten Berita Dengan Metode Text Mining JURNAL DUNIA TEKNOLOGI INFORMASI Vol. 1, No. 1, (2012) 14-19 14 Klasifikasi Konten Berita Dengan Metode Text Mining 1 Bambang Kurniawan, 1 Shril Effendi, 1 Opim Salim Sitompul 1 Program Studi S1 Teknologi

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING

APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING APLIKASI PENENTUAN KATA DASAR DARI KATA BERIMBUHAN PADA KALIMAT BAHASA INDONESIA DENGAN ALGORITMA STEMMING Julianto Wibowo Mahasiswa Program Studi Teknik Informatika, STMIK Budi Darma Medan Jl. Sisimangaraja

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Sistem 3.1.1 Analisis Masalah Dilihat dari sistem yang sedang berjalan saat ini sistem pencarian yang berlaku masih manual, dimana pengunjung perpustakaan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY Azhar Firdaus, Ernawati, dan Arie Vatresia Program Studi Teknik Informatika, Fakultas

Lebih terperinci

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25

Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25 54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index

Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Vol 2, No 3 Juni 2012 ISSN 2088-2130 Sistem Temu Kembali Informasi Menggunakan Model Ruang Vektor dan Inverted Index Fika Hastarita Rachman Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori, penelitian terdahulu, dan kerangka pikir yang mendasari penyelesaian permasalahan stemming dengan menggunakan algoritma enhanced confix

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN I-1 BAB I PENDAHULUAN 1.1 Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas merupakan sebuah bukti nyata bahwa informasi sangat diperlukan bagi pencari informasi [16]. Dengan munculnya

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Perkembangan volume dan keragaman informasi yang tersedia di internet saat ini sangat pesat sehingga mendorong tumbuhnya media pemberitaan online.

Lebih terperinci

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut

BAB II KAJIAN TEORI. kumpulan kalimat penting dari suatu teks yang menggambarkan inti teks tersebut A. Peringkasan Teks Otomatis BAB II KAJIAN TEORI Peringkasan teks merupakan proses untuk mendapatkan ringkasan teks secara otomatis dengan menggunakan bantuan komputer. Ringkasan teks adalah kumpulan kalimat

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkas Teks Otomatis 2.1.1 Pengertian Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Ringkasan adalah mengambil isi yang paling

Lebih terperinci

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY

TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp ISSN X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY TELEMATIKA, Vol. 12, No. 02, JULI, 2015, Pp. 146 158 ISSN 1829-667X PENILAIAN UJIAN BERTIPE ESSAY MENGGUNAKAN METODE TEXT SIMILARITY Meiyanto Eko Sulistyo 1, Ristu Saptono 2, Adam Asshidiq 3 Jurusan Informatika

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah 3.1.1 Analisis Kebutuhan Ada banyak hal yang berhubungan dengan sastra atau ilmu bahasa yang dapat diterapkan di dalam teknologi, seperti penerjemahan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini perkembangan ilmu pengetahuan dan teknologi informasi semakin berkembang pesat, banyak teknologi baru yang telah diciptakan dan digunakan oleh masyarakat

Lebih terperinci

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat

BAB III LANDASAN TEORI. 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat BAB III LANDASAN TEORI 3.1 Peringkasan Teks Secara Otomatis Sering kali kita memerlukan ringkasan dari sebuah dokumen untuk dapat memahami dengan cepat isi dari bacaan tersebut. Memahami isi bacaan melalui

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono 1, Fandy Setyo Utomo 2 1 Program Studi Teknik Informatika, STMIK AMIKOM Purwokerto E-mail

Lebih terperinci

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang BAB I PENDAHULUAN 1.1 Tujuan Merancang sebuah sistem yang dapat meringkas teks dokumen secara otomatis menggunakan metode generalized vector space model (GVSM). 1.2 Latar Belakang Dunia informasi yang

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

REKOMENDASI TAG PADA BERITA ONLINE MENGGUNAKAN TF-IDF DAN COLLABORATIVE TAGGING SKRIPSI SALMAN ALL FARIZI

REKOMENDASI TAG PADA BERITA ONLINE MENGGUNAKAN TF-IDF DAN COLLABORATIVE TAGGING SKRIPSI SALMAN ALL FARIZI REKOMENDASI TAG PADA BERITA ONLINE MENGGUNAKAN TF-IDF DAN COLLABORATIVE TAGGING SKRIPSI SALMAN ALL FARIZI 091402007 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS

Lebih terperinci

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR

SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR SISTEM PENCARIAN AYAT AL-QUR AN BERDASARKAN TERJEMAHAN BAHASA INDONESIA DENGAN PEMODELAN RUANG VEKTOR TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik

Lebih terperinci

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Pengertian Stemming Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci