BAB 2 LANDASAN TEORI
|
|
- Fanny Kartawijaya
- 7 tahun lalu
- Tontonan:
Transkripsi
1 BAB LANASAN EORI. Kerangka eori.. Algoritma Lingo Sebelum masuk dalam pembahasan teori lebih dalam tentang algoritma Lingo, analisis akan dilakukan terhadap website yang menyediakan fasilitas search engine pada gambar berikut yang menjadikannya lebih baik jika dibandingkan dengan search engine lain yang umumnya ada saat ini seperti Google, Yahoo, dan sebagainya.. Gambar. 6
2 Search engine di atas memiliki suatu keunikan dibanding dengan yang ada pada umumnya saat ini, yaitu adanya nilai persentase pada sebelah kiri dari masing-masing link dokumen. Persentase yang terlihat menggambarkan kedekatan hubungan antara suatu dokumen dengan setiap dokumen lainnya. okumen yang ditampilkan pada hasil pencarian hanya merupakan sejumlah dokumen yang memiliki kekerabatan yang erat dengan dokumen yang ditampilkan. Hasil pencarian oleh search engine di atas ditampilkan secara berurut mulai dari tingkat persentase tertinggi hingga terendah. engan demikian user dapat merasakan kemudahan dalam melakukan pencarian dokumen dengan adanya urutan relevansi yang jelas yang direpresentasikan dalam nilai yang ditampilkan. Sementara search engine yang ada saat ini hanya mampu mengembalikan hasil pencarian dokumen berupa sejumlah besar dokumen yang mengandung kata yang dicari tanpa mengetahui urutan yang jelas, dokumen mana yang paling relevan dengan query yang diinput oleh user. Hal ini yang membuat hasil pencarian dengan search engine pada Gambar. memberikan kemudahan yang lebih baik bagi user jika dibandingkan dengan search engine yang ada saat ini. Berikut istilah-istilah akan dijumpai dalam pembahasan mengenai algoritma Lingo pada skripsi ini, diambil dari situs []. Query merupakan satu atau sekumpulan kata kunci yang terdiri atas sekumpulan frase yang dimasukkan oleh user ke dalam kotak pencarian. igunakan oleh mesin pencari untuk dibandingkan dengan dokumen dokumen yang tersedia untuk mendapatkan hasil pencarian yang relevan. 7
3 Stop words merupakan kata kata seperti kata sambung, awalan, dll, memiliki pengaruh yang sangat kecil bahkan tidak sama sekali terhadap relevansi. Mesin pencari pada umumnya mengabaikan stop words yang berada dalam suatu query. Vektor dokumen merupakan vektor yang merepresentasikan sebuah dokumen. erm document matrix merupakan matriks di mana setiap kolomnya merupakan sebuah vektor dokumen, jadi matriks ini mengandung informasi dari sekumpulan dokumen. erm document matrix terdiri atas baris yang mewakili sejumlah kata dan kolom yang mewakili sejumlah dokumen. erm Frequency (F) merupakan pengukuran frekuensi munculnya kata dalam suatu dokumen. F dikombinasikan dengan Inverse ocument Frequency (IF) untuk mencari sejumlah dokumen yang paling relevan dengan query. Inverse ocument Frequency (IF) merupakan pengukuran frekuensi kemunculan suatu kata dalam sekumpulan dokumen. Perhitungan dilakukan dengan mengkalkulasi total dokumen dalam koleksi dibagi dengan jumlah dokumen yang mengandung kata tertentu. alam algoritma Lingo, yang pertama kali dilakukan adalah menciptakan label kelompok yang mudah dimengerti oleh manusia, kemudian menandai keseluruhan dokumen yang ada ke dalam label label kelompok yang telah terbentuk. Secara spesifik, dilakukan pengekstrakan frequent phrase dari dokumen yang diinput dengan harapan dapat menjadi sumber yang paling informatif yang menggambarkan deskripsi dari suatu topik. Kemudian dilakukan pengurangan term document matrix menggunakan SV untuk menemukan konsep abstrak dari bermacam macam topik, dengan tujuan untuk mendapatkan hasil pencarian. Pada akhirnya, dilakukan pencocokkan deskripsi grup dengan topik yang diekstrak dan menandai dokumen yang relevan masuk dalam 8
4 deskripsi grup yang tepat. Langkah spesifik dari algoritma Lingo disajikan sebagai berikut: a) Preprocessing ujuan dari fase Preprocessing adalah untuk melakukan pembuangan karakterkarakter dan kata kata yang tidak perlu dari suatu dokumen, yang dapat mempengaruhi kualitas pengelompokan. Ada tahap dalam melakukan Preprocessing, yaitu Stop Words Removal dan Stemming. Keduanya merupakan operasi yang umum dalam pengumpulan informasi. Berikut algoritma Preprocessing: Masukkan semua dokumen; Untuk setiap d lakukan langkah langkah berikut { } Jika kata d dikenali maka { } Lakukan proses Stop Words Removal dan Stemming;. Metode Stop Words Removal Stop Words merupakan sekumpulan kata yang dianggap sebagai kata yang terlalu umum dipakai dalam sistem online, sehingga nilai informasi yang terkandung di dalam kata tersebut sangat sedikit. engan demikian pencarian kata yang termasuk dalam daftar stop words akan diabaikan, contohnya dalam frase to be or not to be. 9
5 after also an and as at be because before between but before for however from if in into of or other out since such than that the these there this those to under upon when where whether which with within abel. aftar kata yang termasuk Stop Words Removal. Metode Stemming Metode Stemming merupakan proses penggunaan salah satu algoritma Stemmer untuk mendapatkan bentuk dasar dari sebuah kata. Stemmer pertama dipublikasikan oleh Julie Beth Lovins: Lovins JB (968) evelopment of Stemming Algorithm, Mechanical ranslation and Computational Linguistics, :-. Stemmer yang kemudian yang terkenal dengan algoritma Porter ditulis oleh Martin Porter, dan dipublikasikan pada Program, Vol 4 no. pp -7, Juli 98. Stemmer ini menjadi sangat luas dalam penggunaannya, dan menjadi standar algoritma yang biasa digunakan dalam melakukan proses Stemming pada dokumen berbahasa Inggris. Sebagai contoh, penggunaan Stemmer untuk bahasa Inggris dapat mengidentifikasikan kata stemmer, stemming, stemmed menjadi kata dasarnya, yaitu stem. Stemmer merupakan salah satu elemen yang cukup umum dalam tahap awal pengolahan query. Mungkin saja seseorang yang menuliskan kata stemmer dalam pencarian suatu dokumen, juga menginginkan dokumen yang di dalamnya terdapat kata stem (tanpa er ).
6 Sebelum masuk dalam pembahasan mengenai algoritma Porter yang akan digunakan dalam melakukan proses Stemming, berikut beberapa kemungkinan kondisi kondisi persyaratan dari algoritma Porter. *S Kata diakhiri dengan S, atau lainnya disesuaikan huruf setelah tanda *. *v* *d *o Kata mengandung huruf vokal.. Kata diakhiri dengan buah huruf konsonan yang sama (contoh: -, -SS). Kata diakhiri dengan cvc (konsonan-vokal-konsonan), di mana c yang kedua selain huruf W, X or Y (contoh:. -WIL, -HOP). m merupakan jumlah perulangan VC (vokal-konsonan), sebagai contoh: m > m = R, EE, REE, Y, BY. m = ROUBLE, OAS, REES, IVY. m = ROUBLES, PRIVAE, OAEN, ORRERY. Stemmer: Berikut contoh penulisan aturan untuk membuang akhiran kata dalam algoritma (kondisi) S S yang memiliki arti, jika sebuah kata memiliki akhiran S, dan susunan huruf-huruf sebelumnya memenuhi persyaratan kondisi yang diberikan, maka dilakukan penggantian S dengan S. Berikut algoritma Porter beserta contoh kata dalam aplikasinya, sumber [].
7 Langkah a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Langkah b (m>) EE -> EE feed -> feed agreed -> agree (*v*) E -> plastered -> plaster bled -> Bled (*v*) ING -> motoring -> motor sing -> sing Jika langkah b yang kedua atau ketiga sukses, lanjutkan dengan langkah berikut: A -> AE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop ann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m= and *o) -> E fail(ing) -> fail fil(ing) -> file alam tahap ini terdapat langkah pembuangan pasangan huruf yang sama pada akhiran menjadi buah huruf tunggal. Akhiran -E akan ditambahkan kembali pada -A, -BL and -IZ, dengan demikian akhiran -AE, -BLE and -IZE dapat diberikan, namun E mungkin saja dihilangkan pada langkah 4. Langkah c (*v*) Y -> I happy -> Happi sky -> sky Langkah (m>) AIONAL -> AE relational -> relate (m>) IONAL -> ION conditional -> condition rational -> rational (m>) ENCI -> ENCE valenci -> valence (m>) ANCI -> ANCE hesitanci -> hesitance (m>) IZER -> IZE igitizer -> digitize
8 (m>) ABLI -> ABLE conformabli -> conformable (m>) ALLI -> AL Radicalli -> radical (m>) ENLI -> EN differentli -> different (m>) ELI -> E vileli -> vile (m>) OUSLI -> OUS analogousli -> analogous (m>) IZAION -> IZE vietnamization -> vietnamize (m>) AION -> AE Predication -> predicate (m>) AOR -> AE operator -> operate (m>) ALISM -> AL feudalism -> feudal (m>) IVENESS -> IVE decisiveness -> decisive (m>) FULNESS -> FUL hopefulness -> hopeful (m>) OUSNESS -> OUS Callousness -> callous (m>) ALII -> AL Formaliti -> formal (m>) IVII -> IVE sensitiviti -> sensitive (m>) BILII -> BLE sensibiliti -> sensible Langkah (m>) ICAE -> IC triplicate -> triplic (m>) AIVE -> formative -> Form (m>) ALIZE -> AL formalize -> formal (m>) ICII -> IC electriciti -> electric (m>) ICAL -> IC electrical -> electric (m>) FUL -> hopeful -> hope (m>) NESS -> goodness -> good Langkah 4 (m>) AL -> revival -> reviv (m>) ANCE -> allowance -> allow (m>) ENCE -> Inference -> infer (m>) ER -> airliner -> airlin (m>) IC -> gyroscopic -> gyroscop (m>) ABLE -> adjustable -> adjust (m>) IBLE -> defensible -> defens (m>) AN -> irritant -> irrit (m>) EMEN -> replacement -> replac (m>) MEN -> adjustment -> adjust (m>) EN -> dependent -> depend (m> and (*S or *)) ION -> adoption -> adopt (m>) OU -> homologou -> homolog (m>) ISM -> communism -> commun (m>) AE -> activate -> activ (m>) II -> angulariti -> angular
9 (m>) OUS -> homologous -> homolog (m>) IVE -> effective -> effect (m>) IZE -> bowdlerize -> bowdler alam langkah di atas dilakukan pembuangan akhiran. Langkah 5a (m>) E -> probate -> Probat Rate -> rate (m= and not *o) E -> Cease -> ceas Langkah 5b (m > and *d and *L) -> single letter controll -> control roll -> roll b) Metode Frequent Phrase Extraction Secara intuisi, ketika menulis tentang suatu topik, seorang penulis terbiasa melakukan pengulangan subjek yang memiliki keterkaitan dengan kata kunci untuk mendapatkan perhatian pembaca. Frequent Phrase Extraction merupakan proses penemuan sejumlah kata yang disebutkan berulang ulang dalam suatu dokumen. Untuk menjadi suatu kandidat label, sebuah frequent phrase harus muncul minimal sejumlah ambang batas (threshold) dari term frequency. Berikut algoritma Frequent Phrase Extraction: Lakukan penggabungan seluruh dokumen; P c daftar seluruh kata yang terdapat pada seluruh dokumen yang diinput; P f p : { p P c frekuensi ( p ) > batas ambang term frequency }; alam melakukan Frequent Phrase Extraction, yang perlu dilakukan adalah membangun suatu term document matrix yang mewakili atas seluruh dokumen yang ada, 4
10 kemudian lakukan pembobotan, dan terakhir lakukan pemilihan kata yang termasuk dalam kandidat label di mana memiliki bobot di atas batas ambang term frequency. Langkah pertama dalam Frequent Phrase Extraction adalah dengan membangun suatu term document matrix yang terdiri atas kumpulan vektor dokumen. Vektor dokumen adalah vektor yang merepresentasikan sebuah dokumen. erm document matrix merupakan matriks di mana setiap kolomnya merupakan sebuah vektor dokumen, jadi matriks ini mengandung informasi dari sekumpulan dokumen. erm document matrix terdiri atas baris yang mewakili sejumlah kata dan kolom yang mewakili sejumlah dokumen. Langkah kedua dalam Frequent Phrase Extraction adalah dengan melakukan pembobotan setiap kolom dari term document matrix. Perhitungan bobot bertujuan untuk melakukan penyaringan kata yang sering muncul. Pembobotan dapat mengevaluasi seberapa penting suatu kata bagi sebuah dokumen Pembobotan seringkali digunakan oleh mesin pencari (search engine) untuk menemukan dokumen yang paling relevan dengan kata kunci yang dicari. FIF (erm Frequency Inverse ocument Frequency) merupakan teknik pembobotan yang sering digunakan dalam pengumpulan informasi. Perhitungan bobot bertujuan untuk melakukan penyaringan kata yang sering muncul. FIF dapat digunakan untuk mengevaluasi seberapa penting suatu kata bagi sebuah dokumen. FIF seringkali digunakan dalam search engine untuk menemukan dokumen yang paling relevan dengan query. dokumen. erm frequency menggambarkan ukuran seberapa penting suatu kata dalam suatu 5
11 F = n i = frekuensi munculnya suatu kata dalam suatu dokumen. k n i n k k n k = banyaknya kata dalam suatu dokumen. ocument frequency merupakan pengukuran secara umum tingkat kepentingan dari suatu kata (log dari hasil perhitungan jumlah dokumen dibagi dengan banyaknya dokumen yang mengandung kata tertentu). FIF = F log ( d t j j Contoh kasus: 5 buah kata yang terdapat dalam keseluruhan dokumen: : Information : Singular : Value 4 : Computations 5 : Retrieval buah frase yang ingin dicari: P : Singular Value P : Information Retrieval 7 buah dokumen yang tersedia: : Large Scale Singular Value Computations : Software for the Sparse Singular Value ecomposition : Introduction to Modern Information Retrieval 4 : Linear Algebra for Intelligent Information Retrieval 5 : Matrix Computations 6
12 6 : Singular Value Analysis of Cryptograms 7 : Automatic Information Organization Vektor dokumen untuk 4 sebagai berikut: Vektor okumen untuk 4 : (setelah dilakukan normalisasi):.56.8 NB: Proses normalisasi vektor dokumen 4 untuk kata Information: F = (dari 5 buah kata, kata Information mucul sebanyak kali) 5 7 IF = (dari 7 buah dokumen, kata Information terdapat pada buah dokumen) 7 FIF = F log IF = log = Proses normalisasi vektor dokumen 4 untuk kata Retrieval: F = (dari 5 buah kata, kata Retrieval mucul sebanyak kali) 5 7 IF = (dari 7 buah dokumen, kata Retrieval terdapat pada buah dokumen) 7 FIF = F x log IF = log =.88 5 Normalisasi dilakukan untuk mendapatkan panjang vektor dokumen =. (.76 a ) + (.88a ) = 7
13 .7a = a = 7.64 bobot dalam 4 untuk kata Information =.76 a = =. 56 bobot dalam 4 untuk kata Retrieval =.88 a = =. 8 erm ocument Matrix:.49 A = alam 4, terdapat satu buah kata Information dan satu buah kata Retrieval, hal ini yang membentuk vektor dokumen V 4. Setelah vektor dokumen terbentuk, lakukan normalisasi hingga didapatkan panjang masing masing vektor dokumen yang merupakan kolom pada term document matrix =, hal ini dilakukan untuk menjaga relevansi di mana sebelumnya setiap vektor dokumen memiliki panjang berbeda-beda. engan memasukkan vektor dokumen milik ke dalam kolom I, vektor dokumen milik ke dalam kolom II, vektor dokumen milik ke dalam kolom III dan seterusnya, didapatkan sebuah term document matrix. c) Metode Cluster Label Induction ari satu tahap sebelum Cluster Label Induction, didapatkan daftar dari frequent phrase yang memiliki frekuensi di atas batas ambang term frequency yang telah ditentukan. Seluruh kata yang tercakup dalam daftar frequent phrase kemudian akan 8
14 diproses lebih lanjut dalam fase Cluster Label Induction untuk mendapatkan label yang sebenarnya. Ada beberapa tahap dalam melakukan Cluster Label Induction: - penemuan konsep abstrak. - pencocokan frase dan pelabelan. Penemuan konsep abstrak dilakukan dengan metode Singular Value ecomposition (SV). SV dari term document matrix A dituliskan sebagai A = U V, di mana U merupakan t t matriks ortogonal di mana kolom kolomnya berperan sebagai vektor singular kiri dari A, V merupakan d d matriks ortogonal di mana kolom kolomnya berperan sebagai vektor singular kanan dari A dan merupakan t d matriks diagonal yang memiliki nilai singular σ σ... σ min ( t, d ). Matriks U yang merupakan salah satu hasil dari SV merepresentasikan konsep abstrak yang terdapat pada suatu dokumen. Peringkat dari matriks A ( r A ) sama dengan jumlah dari nilai singular yang bukan nol. Hanya sejumlah k pertama dari vektor pada matriks U digunakan dalam fase lebih lanjut. Nilai dari k ditentukan dari estimasi, dengan bantuan Frobenius norms dari matriks A. q merupakan batas ambang kandidat label. Semakin besar nilai q, semakin banyak jumlah kandidat label yang akan terbentuk. Setelah tahap perhitungan SV matriks A, kemudian lakukan perhitungan nilai k minimum yang memenuhi kondisi berikut A A k F F q, di mana X merupakan simbol dari Frobenius norm dari F matriks X dengan rumus: 9
15 A r A = σ F j j = Berikut algoritma Cluster Label Induction: A term document matrix yang sudah melewati tahap Stop Words Removal dan memiliki frekuensi lebih tinggi daripada batas ambang term frequency;,u,v SV ( A ); { Produk SV dari A } k ; { Mulai dengan jumlah kelompok } n Peringkat ( A ); repeat k k + ; q k i = = n i = ii ii ; until q > batas ambang kandidat label; Contoh kasus lanjutan: ari tahap Preprocessing didapatkan term document matrix sebagai berikut:.49 A = Menggunakan software matematika, MALAB 6., didapatkan SV dari matrix A sebagai berikut:
16 U.659 = = ari diagonal matriks di atas didapatkan: σ =.645, σ =.56, σ =.44, σ 4 =.754 A = r A σ F j j = = =.6495 Misalkan kita tetapkan q =.9, maka Jika k = q = = Jika k = q = = Jika k = q = = Perulangan berhenti pada k =, karena kondisi berhenti yaitu q > batas ambang kandidat label, di mana batas ambang kandidat label dalam hal ini ditetapkan sama dengan.9. Maka jumlah dari kelompok = k =.
17 ahap terakhir pada Cluster Label Induction adalah pencocokan frase dan pelabelan. Pada tahap ini, konsep abstrak dan frequent phrase diekspresikan dalam satu buah ruang vektor di mana deskripsi kelompok dapat diketahui. Untuk selanjutnya dapat dilakukan perhitungan jarak klasik dengan menggunakkan kosinus untuk mengkalkulasi seberapa dekat jarak/kekerabatan antara frase dan konsep abstrak. Misalkan ada sebuah matriks P dan sejumlah i kolom dari matriks U hasil dari perhitungan SV. Vektor m i adalah kosinus sudut antara konsep abstrak yang ke i dan frequent phrase dapat dikalkulasikan dengan rumus m i = U i P. Frase yang sesuai dengan komponen maksimum dari vektor m i, dipilih sebagai kandidat label kelompok. Sedangkan nilai kosinusnya menjadi skor bagi kandidat label kelompok. Berikut algoritmanya: P matriks frase P f ; Untuk setiap kolom hasil dari U k P { cari satu yang maksimum untuk setiap kolom m i ; tambahkan frase yang bernilai maksimum tersebut ke dalam kandidat label; skorlabel = m; i } Contoh kasus lanjutan: ari tahap sebelumnya didapatkan:
18 U.659 = k = ( k di sini menandakan jumlah kelompok yang akan dibentuk. engan demikian hanya sejumlah k kolom dari U yang merupakan konsep abstrak yang dihasilkan oleh SV yang akan dipergunakan dalam proses berikut). maka: U k.659 = U k = P = M = U k P M.9 = Perhitungan M = U P dilakukan untuk menemukan deskripsi dari kelompok k kelompok yang ada, di mana dari hasil perhitungan didapatkan jumlah kelompok = (diperoleh dari nilai k = ). P merupakan term document matrix berukuran t ( p + t ),
19 di mana t merupakan jumlah dari frequent terms dan p merupakan jumlah dari frequent phrases. P dibentuk dari frequent phrase dan seluruh kata yang terdapat pada dokumen, di mana telah dilakukan pembobotan dan normalisasi terhadap P. i satu sisi, kita ingin mendapatkan informasi yang sifatnya umum dari sejumlah dokumen, di sisi lain kita ingin membaginya ke dalam deskripsi label yang paling cocok. Baris pada matriks M merepresentasikan kelompok, sedangkan kolom pada matriks M merepresentasikan deskripsi dari kelompok. Untuk setiap baris, dipilih sebuah kolom yang nilainya paling maksimum, dengan demikian buah kelompok yang didapat: Singular Value (skor:.9) dan Information Retrieval (skor:.97). Berikut algoritma Frequent Phrase Extraction: Hitung kosinus antara setiap pasang kandidat label; Identifikasi label yang memenuhi batas ambang kesamaan label ke dalam kelompok-kelompok; Untuk setiap kelompok yang dibentuk dari label yang serupa { Pilih satu label dengan skor tertinggi; } d) Metode Cluster Content iscovery alam fase ini, kita menggunakan model ruang vektor klasik untuk menandai setiap dokumen yang diinput kedalam label label kelompok yang telah terbentuk dari fase Cluster Label Induction. Rumus perhitungan yang dipakai dalam fase ini yaitu C = Q A, di mana Q adalah matriks yang terdiri atas kelompok kelompok label, A adalah term document matrix asli dari dokumen dokumen yang tersedia. engan 4
20 demikian, elemen C dari matriks C mengindikasikan kekuatan hubungan antara i j dokumen ke j dan kelompok ke-i. okumen ditambahkan ke dalam kelompok jika C termasuk dalam batas ambang yang ditetapkan. okumen yang tidak ditandai i j kepada kelompok tertentu, akan dimasukkan ke dalam kelompok yang dinamakan Others. Berikut algoritma Cluster Content iscovery: Untuk setiap L kandidat label kelompok lakukan langkah langkah berikut { Buat kelompok C dengan L sebagai deskripsi; ambahkan ke dalam C semua dokumen yang skor kemiripannya dengan C masuk dalam batas ambang; } Masukkan ke dalam kelompok Others setiap dokumen yang belum menjadi anggota dari kelompok manapun kelompok manapun; Contoh kasus lanjutan: Pada akhirnya, dokumen ditandai pada kelompok dengan mengaplikasikan matriks Q dengan A FIF. ari tahap sebelumnya diketahui:.7 P =
21 .7 Q = Q = Lakukan perhitungan C = Q A, didapatkan matriks C sebagai berikut:.69 C = erakhir, lakukan proses penandaan dokumen pada kelompok kelompok yang ada: Information Retrieval [skor:.97] : Introduction to Modern Information Retrieval 4 : Linear Algebra for Intelligent Information Retrieval 7 : Automatic Information Organization Singular Value [skor:.9] : Software for the Sparse Singular Value ecomposition 6 : Singular Value Analysis of Cryptograms : Large Scale Singular Value Computations Others: [yang tidak ditandai kedalam kelompok manapun] 5 : Matrix Computations 6
22 .. Matriks Ortogonal Matriks ortogonal adalah matriks persegi di mana inversnya dapat diperoleh dengan melakukan transpos matriks ( didefinisikan sebagai berikut: A = A ). Matriks ortogonal juga dapat Jika A A = atau A A =, maka matriks A disebut matriks ortogonal. Berikut rumus untuk memperoleh vektor basis ortogonal u r k sebagai kolom dari matriks ortogonal: Langkah : µ = v v Vektor v r k Langkah : µ = v Langkah : µ = v v v - < v - < v - < v - < v, µ > µ, µ > µ, µ > µ - < v, µ > µ, µ > µ - < µ, µ > µ Langkah ke k :(misalkan sudah di peroleh µ, µ,..., µ merupakan vektor eigen dari matriks A. Matriks ortogonal U merupakan r r r penggabungan vektor basis ortogonal dalam tiap kolomnya = [ u u... ] U k- ) u k. Kerangka Pikir Proses pencarian dokumen yang diinginkan pada search engine dilakukan dengan menginput data yang disebut query pada kotak pencarian, setelah itu mesin pencari akan melakukan pencarian pada seluruh dokumen yang sesuai dengan query yang diinput. Pada umumnya hasil pencarian ditampilkan tanpa adanya urutan relevansi yang jelas. 7
23 alam skripsi ini digunakan algoritma Lingo, di mana dihasilkan pengurutan dokumen hasil pencarian sesuai dengan urutan kekerabatan antara frase yang diinput dengan dokumen, mulai dari kekerabatan tertinggi hingga terendah. Hal ini tentu saja sangat menguntungkan bagi user, di mana user mendapatkan hasil pencarian yang paling relevan berada pada posisi teratas. Proses yang dilakukan Lingo sehingga algoritma ini dapat mengetahui kekerabatan antara dokumen dengan frase yaitu dengan menyatukan seluruh dokumen yang dimiliki menjadi sebuah matriks yang disebut dengan term document matrix yang terdiri atas kolom mendeskripsikan dokumen, dan baris mendeskripsikan kata Proses awal pengolahan dokumen, dilakukan Preprocessing, di mana dalam tahap ini dilakukan pemrosesan terhadap sejumlah kata yang telah dikumpulkan dari seluruh dokumen. Pemrosesan terhadap sejumlah kata mencakup pemotongan kata menjadi kata dasarnya (Stemming) dan pembuangan kata yang umum dipakai seperti and, or (Stop Words Removal). ahap selanjutnya dalam pemrosesan awal dokumen, dilakukan tahap Frequent Phrase Extraction yang akan menyaring sejumlah kata yang merupakan penggabungan kata pada seluruh dokumen, di mana ditetapkan minimal kata yang akan menjadi kandidat pembentukan term document matrix harus muncul sejumlah n kali Sejumlah kata terpilih yang telah melalui berbagai proses penyaringan yang mewakili seluruh kata pada seluruh dokumen kemudian dipakai dalam pembentukan term document matrix yang merupakan matriks yang mewakili seluruh dokumen. Jadi deskripsi dari seluruh dokumen disajikan dalam bentuk matriks. Setelah melakukan pembentukan term document matrix, dilakukan proses pengolahan query yang sama dengan proses terbentuknya term document matrix, 8
24 hasilnya berupa phrase matrix yang terdiri atas baris sebagai deskripsi kata dan kolom sebagai deskripsi frase. alam tahap pembentukan matriks, akan diperoleh dua buah matriks, yaitu term document matrix yang mendeskripsikan seluruh dokumen yang dimiliki, dan phrase matrix yang mendeskripsikan frase yang diinput pada kotak pencarian. Jika matriks yang mewakili seluruh dokumen dan seluruh frase telah terbentuk, maka selanjutnya akan dilakukan proses yang secara garis besar dapat digambarkan dengan mengalikan term document matrix dengan phrase matrix, di mana akan dihasilkan sebuah matriks yang menggambarkan kekerabatan antara sejumlah frase dan dokumen. ari matriks ini dapat terlihat, ke dalam kelompok frase mana dokumen X terkategori (terjadi pengelompokan dokumen ke dalam kelompok frase yang paling sesuai). erlihat pula skor yang didapat untuk tiap dokumen, sebagai contoh: - skor dokumen untuk kelompok K yaitu., - skor dokumen untuk kelompok K yaitu.5, maka dokumen akan menjadi bagian dalam kelompok K karena memiliki skor kekerabatan dengan kelompok K lebih tinggi daripada dengan kelompok K (skor kekerabatan dokumen dengan kelompok K adalah.5). Skor suatu dokumen akan diperbandingkan dengan skor dokumen lain pada kelompok yang sama, misalkan dokumen dokumen yang tergabung dalam kelompok K terdiri atas: - dokumen dengan skor.4, - dokumen dengan skor., - dokumen dengan skor., 9
25 maka dapat disimpulkan bahwa dokumen memiliki kekerabatan paling tinggi dengan kelompok K jika dibandingkan dengan dokumen dan. Contoh di atas merupakan gambaran dari hasil yang akan diperoleh dalam skripsi Perancangan Program Aplikasi Klasifikasi dan Visualisasi eks Menggunakan Algoritma Lingo, yang menjadikan hasil proses pencarian lebih relevan dari hasil proses pencarian yang umum ada saat ini. Hasil yang diperoleh dengan algoritma Lingo lebih baik dibandingkan dengan hasil yang dikembalikan oleh search engine yang umum ada saat ini di mana jumlahnya sangat banyak, di sisi lain tidak adanya urutan kekerabatan (urutan kerelevanan) yang jelas dengan frase yang diinput, sehingga hasil pencarian memakan cukup banyak waktu bagi user untuk mencari sejumlah di antara sekian banyak hasil pencarian yang benarbenar relevan.
BAB 3 ANALISA DAN PERANCANGAN
BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak
Lebih terperinciBAB 4 IMPLEMENTASI DAN EVALUASI
BAB 4 IMPLEMENTASI AN EVALUASI Pada bab ini, disajikan spesifikasi sistem yang digunakan, pengujian program serta hasil pengujian. Pengujian dilakukan dengan melakukan pencarian kata kunci terhadap sejumlah
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval (IR) 2.1.1 Pengertian IR Beberapa ahli mendefinisikan Information Retrieval sebagai berikut: Manning(2007), mendefinisikan bahwa Information Retrieval adalah
Lebih terperinciBAB II TINJAUAN PUSTAKA
11 BAB II TINJAUAN PUSTAKA 2.1 Sistem Temu Kembali Informasi Temu Kembali informasi (IR) adalah Proses, metode, dan prosedur yang digunakan untuk menyeleksi informasi yang relevan yang tersimpan dalam
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA Pada bab ini akan dibahas tinjauan pustaka untuk mendukung penulisan skripsi ini. Teori yang dibahas yaitu mengenai search engine, focused crawler, stemming, Porter stemmer, bahasa
Lebih terperinciUNIVERSITAS BINA NUSANTARA
UNIVERSITAS BINA NUSANTARA Program Ganda Teknik Informatika - Matematika Skripsi Sarjana Program Ganda Semester Ganjil 2005/2006 SKRIPSI PROGRAM GANDA UNIVERSITAS BINA NUSANTARA Sintiche Mayang Suwandi
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap
Lebih terperinciKLASIFIKASI JURNAL BERBAHASA INGGRIS BERDASARKAN ABSTRAK DENGAN ALGORITMA ROCCHIO SKRIPSI MISBAH HASUGIAN
KLASIFIKASI JURNAL BERBAHASA INGGRIS BERDASARKAN ABSTRAK DENGAN ALGORITMA ROCCHIO SKRIPSI MISBAH HASUGIAN 121402017 PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciPengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinciACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH
ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun
Lebih terperinciBAB I PENDAHULUAN Latar Belakang Masalah
BAB I PENDAHULUAN 1.1. Latar Belakang Masalah Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses atau bagaimana mencari informasi, namun
Lebih terperinciRANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan
Lebih terperinciImplementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information
Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information Ratnadira Widyasari 13514025 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Lebih terperinciRecommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity
Recommender System di Perpustakaan Universitas Kristen Petra menggunakan Rocchio Relevance Feedback dan Cosine Similarity Adi Wiboo, Andreas Handoo, Minardi Taliang adi@petra.ac.id, handoo@petra.ac.id,
Lebih terperinciBAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI
BAB III PERANCANGAN APLIKASI & MEKANISME PEMBOBOTAN SICBI 3.1. KONSEP APLIKASI SIMPLE-O adalah aplikasi penilaian esai otomatis berbasis web yang dikembangkan di Indonesia, tepatnya di Departemen Teknik
Lebih terperinciBAB I PERSYARATAN PRODUK
BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media
Lebih terperinciTugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System
Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus
Lebih terperinciText & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Parametric dan zone Index Sebuah dokumen, selain tersusun dari deretan term, juga
Lebih terperinciSISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak
SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas
Lebih terperinciPEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN
PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi
Lebih terperinciText Pre-Processing. M. Ali Fauzi
Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Lebih terperinciVECTOR SPACE MODEL. Tujuan 4/2/13. Budi Susanto
Text & Web Mining - Budi Susanto - TI UKDW 1 VECTOR SPACE MODEL Budi Susanto Text & Web Mining - Budi Susanto - TI UKDW 2 Tujuan Memahami model index berdasar pada bobot untuk binary retrieval model Memahami
Lebih terperinciV HASIL DAN PEMBAHASAN
22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa
Lebih terperinciKOM341 Temu Kembali Informasi
KOM341 Temu Kembali Informasi KULIAH #3 Inverte Inex?? o Apa persamaan pokok bahasan antara Rijbergen Ch.2 engan Manning Ch.2? o Apa perbeaannya? 1 Inverte inex construction perkebunan, pertanian, an kehutanan
Lebih terperinciText Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinci4 HASIL DAN PEMBAHASAN
24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian
Lebih terperinciBAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai
BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di
Lebih terperinciABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha
ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
Lebih terperinciPeningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi BM25
54 Widiasri, M., dkk.: Peningkatan Kinerja Pencarian Dokumen Tugas Akhir Menggunakan Peningkatan Kinerja Pencarian Dokumen Tugas Akhir menggunakan Porter Stemmer Bahasa Indonesia dan Fungsi Peringkat Okapi
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciTINJAUAN PUSTAKA Analisis Biplot Biasa
TINJAUAN PUSTAKA Analisis Biplot Biasa Analisis biplot merupakan suatu upaya untuk memberikan peragaan grafik dari matriks data dalam suatu plot dengan menumpangtindihkan vektor-vektor dalam ruang berdimensi
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
Lebih terperinciBAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen
BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi
Lebih terperinciBAB I PENDAHULUAN. Information retrieval (IR) adalah ilmu yang mempelajari pencarian
BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval (IR) adalah ilmu yang mempelajari pencarian dokumen untuk memenuhi kebutuhan informasi dari dalam koleksi besar media penyimpanan komputer (Manning,
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciSistem Temu-Kembali Informasi Perhitungan Kemiripan
Sistem Temu-Kembali Informasi Perhitungan Kemiripan (Pembobotan Term dan Penskoran dalam Model Ruang Vektor, Penskoran dalam Sistem Pencarian Lengkap) Husni Program Studi Teknik Informatika Universitas
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciPENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI
18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,
Lebih terperinciBAB II LANDASAN TEORI. yang biasanya dinyatakan dalam bentuk sebagai berikut: =
BAB II LANDASAN TEORI 2.1 Matriks Definisi 2.1 (Lipschutz, 2006): Matriks adalah susunan segiempat dari skalarskalar yang biasanya dinyatakan dalam bentuk sebagai berikut: Setiap skalar yang terdapat dalam
Lebih terperincicommit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciBAB 3 PENGENALAN KARAKTER DENGAN GABUNGAN METODE STATISTIK DAN FCM
BAB 3 PENGENALAN KARAKTER DENGAN GABUNGAN METODE STATISTIK DAN FCM 3.1 Gambaran Umum Gambar 3.1 Gambar Keseluruhan Proses Secara Umum 73 74 Secara garis besar, keseluruhan proses dapat dikelompokkan menjadi
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
Lebih terperinciSTMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011
STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI
Lebih terperinciBAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka
Lebih terperinciJurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 1, No. 2, Tahun
Vol. 1, No. 2, Tahun 2012 15 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : http://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Aplikasi Pendeteksi Plagiat dengan
Lebih terperinciPemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era
BAB I PENDAHULUAN 1.1 Latar Belakang Information retrieval atau disingkat dengan IR adalah menemukan bahan (dokumen) dari dokumen terstruktur (biasanya teks) yang memenuhi kebutuhan informasi pada ruang
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)
Lebih terperinciPenerapan Algoritma K-Means untuk Clustering
Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah
Lebih terperinciII TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,
5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinci3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen
3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian
Lebih terperinciPERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency
PERSETUJUAI\ ARTIKEL ILMIAH Artikel ilmiah hasil penelitian mahasiswa: Nama NIM Mashar Eka Putra Dai 53 1409036 Program Studi S1-Sistem Informasi Jurusan Teknik Informatika Fakultas Teknik Judul Karya
Lebih terperinciANALISIS KLASTERING LIRIK LAGU INDONESIA
ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,
Lebih terperinciANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM
ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet bagi organisasi penyedia berita mempunyai dampak positif, yaitu munculnya situs-situs microbloging yang dimanfaatkan secara optimal
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciPENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA.
PENYUSUNAN STRONG S CONCORDANCE UNTUK ALKITAB PERJANJIAN BARU BAHASA INDONESIA Gunawan 1, Devi Dwi Purwanto, Herman Budianto, dan Indra Maryati 1 Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
IMPLEMENTASI VECTOR SPACE MODEL DAN BEBERAPA NOTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Oka Karmayasa dan Ida Bagus Mahendra Program Studi Teknik
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan
Lebih terperinciBAB IV PREPROCESSING DATA MINING
BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan
Lebih terperinciSearch Engines. Information Retrieval in Practice
Search Engines Information Retrieval in Practice All slides Addison Wesley, 2008 Search Engine Architecture Arsitektur dari mesin pencari ditentukan oleh 2 persyaratan efektivitas (kualitas hasil) efisiensi
Lebih terperinci4 HASIL DAN PEMBAHASAN
4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi
Lebih terperinciABSTRAK. Kata Kunci : Latent Semantic Indexing, pencarian, dokumen, Singular Value Decomposition.
ABSTRAK Penelitian ini bertujuan untuk memudahkan pencarian dokumen-dokumen yang memiliki hubungan antar kata, bukan hanya pencarian pada judul dokumen saja akan tetapi dapat juga mencari dari isi dokumen
Lebih terperinciDETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM
DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM I Putu Hariyadi 1, Hartarto Junaedi 2 (1) STMIK Bumigora Mataram, putu.hariyadi@stmikbumigora.ac.id
Lebih terperinciAplikasi Aljabar Vektor dalam Algoritma Page Rank
Aplikasi Aljabar Vektor dalam Algoritma Page Rank Albertus Kelvin / 13514100 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciImplementasi Metode Document Oriented Index Pruning pada Information Retrieval System
Implementasi Metode Document Oriented Index Pruning pada Information Retrieval System Hendri Priyambowo 1, Yanuar Firdaus A.W. S.T, M.T 2, Siti Sa adah S.T. M.T 3 123 Program Studi S1 Teknik Informatika,
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperinci