Organisasi File Semester Ganjil 2014 Fak. Teknik Jurusan Teknik Informatika. Caca E. Supriana, S.Si.,MT. Si

Organisasi File Semester Ganjil 2014 Fak. Teknik Jurusan Teknik Informatika Universitas i Pasundan Caca E. Supriana, S.Si.,MT. Si caca.e.supriana@unpas.ac.id 1

Pendahuluan DBMS harus menyimpan data di tempat tertentu, yaitu : Memori utama Mahal dibandingkan dengan penyimpanan sekunder dan tersier Cepat dalam operasi memori yang cepat Volatile tidak mungkin untuk menyimpan data dari satu run ke yang berikutnya Digunakan untuk menyimpan data saat tertentu Secondary storage ( hard disk ) Lebih murah dibandingkan dengan memori utama lambat dibandingkan dengan memori utama, lebih cepat dibandingkan dengan tape Persistent data dari satu run dapat disimpan ke disk untuk digunakan dalam jangka berikutnya Digunakan untuk menyimpan database Penyimpanan Tersier ( tape) Termurah Paling lambat akses data berurutan Digunakan untuk data arsip 2

Ini berarti bahwa data harus Membaca dari hard disk ke dalam memori ( RAM ) Ditulis dari memori ke hard disk Karena operasi I / O disk maka kinerja query menjadi lambat, bat,tergantung tu g pada bagaimana a a data ds disimpan pada hard disk Komponen terendah dari DBMS melakukan kegiatan manajemen penyimpanan Komponen DBMS lain tidak perlu tahu bagaimana kegiatan tingkat rendah dilakukan 3

Sebuah disk diatur menjadi beberapa blok atau halaman (page) Sb Sebuah halaman adalah dlh unit pertukaran antara disk dan memori utama Sebuah kumpulan halaman dikenal sebagai file DBMS menyimpan data dalam satu atau lebih file pada hard disk 4

Tabel database terdiri dari satu atau lebih tupel ( baris ) Setiap tuple memiliki satu atau lebih atribut Satu atau lebih tuple dari tabel bl ditulis ke dalam halaman pada hard disk Tupel yang lebih besar mungkin membutuhkan lebih dari satu halaman! Tuple pada disk dikenal sebagai record Catatan dipisahkan dengan pembatas record Atribut pada hard disk dikenal sebagai field Fields dipisahkan i oleh lh pembatas lapangan 5

Organisasi File Susunan fisik data dalam file ke dalam record dan halaman (page) pada disk. Organisasi file menentukan metode akses untuk : Menyimpan dan mengambil catatan dari file. Oleh karena itu, organisasifile identik dengan metode akses. 6

Organisasi File Unordered atau Heap files Od Ordered d atau sequential il files Hash files 7

Pemilihan Organisasi File Pemilihan organisasi file berkaitan dengan operasi berikut Scan : mengambil semua record dalam file. Halaman dalam sebuah file diambil dari disk ke buffer pool. Pencarian dengan seleksi yang setara : mengambil semua record yang memenuhi syarat pencarian Pencarian dengan seleksi tertentu : mengambil record yang memenuhi syarat pencarian tertentu Insert : menyisipkan record tertentu ke dalam file. Halaman dalam file tempat record disisipkan diidentifikasi, halaman di ambil dari disk, dimodifikasi dengan memasukan record baru dan ditulis kembali ke disk. Delete : menghapus record tertentu. 8

Heap Files Heap files adalah daftar dari record yang tidak terurut (unordered). Record disimpan dalam urutan yang sama di mana mereka dibuat (create). Insert : cepat karena catatan masuk ditulis pada akhir halaman terakhir dari file. Cari ( search atau memperbarui ) : lambat karena pencarian linear dilakukan pada halaman. Hapus (delete) : lambat karena catatan yang akan. dihapus terlebih dahulu harus dicari. Menghapus catatan menciptakan sebuah lubang (hole) di halaman. Pemampatan file secara berkala yang dibutuhkan untuk mendapatkan kembali ruang terbuang. 9

Sequential Files Sebuah file sekuensial berisi record yang diatur oleh urutan di mana record tersebut masuk. Rk Rekaman diurutkan pada nilai nilai i i dari satu atau lebih field yaitu : Ordering field field di mana catatan diurutkan. Ordering key kunci file ketika digunakan untuk merekam serta menyortir. 10

Sequential lfiles Cari ( atau memperbarui ) : cepat karena pencarian biner dilakukan pada pengurutan record yaitu pengindeksan. Hapus : cepat karena mencari record cepat, memampatkan File secara periodik diperlukan. Insert : kurang baik karena jika kita memasukkan rekord baru di posisi yang benar kita perlu menggeser semua catatan berikutnya dalam file. Atau sebuah overflow file' dibuat yang berisi semua catatan baru sebagai tumpukan. Secara periodik berkas overflow bergabung dengan file utama. Jika berkas overflow dibuat pencarian dan operasi menghapus untuk record dalam overflow file meluap harus linier! 11

Hash File Hash File umumnya digunakan sebagai metode verifikasi ukuran file. Proses ini disebut check sum verifikasi. Ketika sebuah file yang dikirim melalui jaringan, file tersebut harus dipecah menjadi potongan potongan kecil dan dipasang kembali setelah lh mencapai tujuannya. Dalam situasi ini jumlah hash merupakan ukuran data dalam file. Hash kemudian dapat digunakan sebagai alat untuk memvalidasi seluruh file yang berhasil ditransmisikan melalui jaringan. 12

Hash File Sebuah array dari bucket sebuah rekord, dimana r a adalah fungsi hash, h(r) menghitung indeks bucket di mana terdapat record r h menggunakan satu atau lebih fields dalam record yang disebut bidang hash Hash key kunci file bila digunakan oleh fungsi hash Contoh fungsi hash h : Asumsikan bahwa nama terakhir staf digunakan sebagai bidang hash Asumsikan juga bahwa ukuran file hash adalah 26 bucket setiap kotak sesuai dengan masing masing huruf dari alfabet Kemudian fungsi hash dapat didefinisikan dengan menghitung alamat bucket ( index ) berdasarkan huruf pertama dalam nama terakhir. 13

Insert : cepat karena fungsi hash menghitung indeks dari bucket yang dimiliki record, jika bucket yang penuh maka akan mencari bucket lain yang kosong Pencarian : cepat karena fungsi hash menghitung indeks bucket Kinerja dapat menurunkan jika record tidak ditemukan dalam bucket yang disarankan oleh fungsi hash Hapus : cepat sekali lagi untuk alasan yang sama fungsi hashing mampu menemukan record dengan cepat 15

Indexing Bisakah kita melakukan hal lain untuk meningkatkan kinerja query selain memilih organisasi file yang baik? Ya, jawabannya terletak pada pengindeksan Indeks struktur data yang memungkinkan DBMS untuk mencari catatan tertentu dalam file lebih cepat Sangat mirip dengan indeks di akhir buku untuk mencari berbagai topik yang dibahas dalam buku 16

Jenis Indexing Indeks Primer satu indeks utama per file Indeks Clustering satu Indeks pengelompokan per file file data memerintahkan pada field non kunci dan file indeks dibangun di atas bahwa bidang non key Indeks Sekunder banyak indeks sekunder per file Sparse Index hanya memiliki beberapa nilai kunci pencarian dalam file Dense Index memiliki indeks yang sesuai dengan setiap nilai kunci pencarian dalam file 17

Primary Indexes File data berurutan uta memerintahkan e a pada field edkunci Berkas menyimpan semua indeks ( dense ) atau ( sparse ) nilai dari field kunci dan nomor halaman dari data file di mana catatan yang sesuai disimpan B002 1 B003 1 B004 2 B005 2 B007 3 Branch B002 record 1 Branch B003 record Branch B004 record Branch B005 record 2 Branch B007 record 3 4 Branch BranchNo Street City Postcode B002 56 Clover Dr London NW10 6EU B003 163 Main St Glasgow G11 9QX B004 32 Manse Rd Bristol BS99 1NZ B005 22 Deer Rd London SW1 4EH B007 16 Argyll St Aberdeen AB2 3SU 19

Indexed Sequential Access Method ISAM metode akses sekuensial Indexed didasarkan pada indeks utama Metode akses default atau tipe tabel bl di MySQL, MyISAM merupakan perpanjangan dari ISAM Menyisipkan dan menghapus operasi akan mengganggu penyortiran Anda perlu overflow file yang secara periodik perlu digabung dengan file utama 20

Indeks sekunder Sebuah file indeks yang menggunakan bidang non primer Indeks yang meningkatkan k kinerja query yang menggunakan atribut selain primary key Dapat menggunakan indeks yang terpisah untuk setiap atribut yang ingin digunakan dalam clause query WHERE yang dipilih Terdapat overhead untuk mempertahankan sejumlah besar indeks ini 21

Membuat indeks dalam SQL Dapat membuat indeks untuk setiap tabel yang Anda buat dalam SQL Contoh CREATE INDEX branchnoindex on branch(branchno); CREATE INDEX numbercityindex on branch(branchno,city); DROP INDEX branchnoindex; 22

Organisasi file atau metode akses menentukan kinerja operasi pencarian, menyisipkan dan menghapus. Metode akses adalah dlh sarana utama untuk mencapai peningkatan kinerja Struktur Indeks membantu untuk meningkatkan kinerja lebih lanjut 23

Search Key Search key adalah atribut atau set atribut yang digunakan untuk mencari record dalam file DENSE INDEX SPARSE INDEX 24

B Tree B Tree adalah a struktur tu yang sangat populer untuk mengatur dan mempertahankan indeks besar. B Tree dipelajari pada awal tahun 1970 oleh Bayer, McCreight, dan Comer. B tree adalah generalisasi dari pohon biner di mana dua atau lebih cabang dapat diambil dari setiap node. B Tree yang disebut pohon seimbang karena jalan akses ke catatan yang berbeda dengan panjang yang sama. B Tree memiliki kemampuan untuk secara cepat mencari sejumlah besar data. B Tree beradaptasi dengan baik untuk penyisipan dan penghapusan. 26

Properti ib TreeT Sebuah B Tree memiliki sifat sebagai berikut : Setiap jalur dari simpul akar ke simpul daun memiliki panjang yang sama, h, juga disebut ketinggian B tree (yaitu, h adalah jumlah node dari akar ke daun, inklusif). Urutan B Tree adalah k. Setiap node, kecuali akar dan daun, memiliki setidaknya k + 1 anak node dan tidak lebih dari 2k + 1 anak node. Simpul akar dapat memiliki sedikitnya dua node anak, tapi tidak lebih dari 2k + 1 anak node. Setiap node, kecuali akar, setidaknya memiliki k kunci dan tidak lebih dari kunci 2k. Akar mungkin mempunyai sedikitnya satu kunci. Secara umum, setiap node dengan kunci j nonleaf (cabang ) harus memiliki j + 1 anak node. 27

B Tree melahirkan beberapa varian, termasuk B + dikembangkan oleh Prof. Donald Knuth. Sebuah indeks menyediakan akses cepat ke data ketika data dapat dicari dengan nilai yang merupakan kunci indeks. 29

B+ Tree Dalam kasus B + Tree, hanya node di bagian bawah titik pohon catatan, dan semua node lain menunjuk ke node lain. Node yang menunjuk ke catatan disebut node daun : Jika node kosong, maka data ditambahkan di sebelah kiri. Jika node memiliki satu entri, maka kiri i mengambil kunci dengan nilai terkecil dan kanan mengambil yang terbesar. Dalam contoh ini, 30 adalah nilai kecil karena itu mengambil posisi kiri dan 60 adalah nilai yang lebih tinggi maka dibutuhkan posisi kanan. 30

B+ Tree Jika node penuh dan adalah simpul daun, mengklasifikasikan kunci sebagai L ( lowest/terendah ), M (middle/nilai tengah ) dan H ( high/tertinggi ), dan membagi node. Jika node penuh dan bukan merupakan simpul daun, mengklasifikasikan kunci L, M dan H, dan membagi node. 31

Perbedaan B Tree & B+ Tree B Tree B+ Tree Di B tree, node nonleaf Di B + daun pohon dan lebih besar dari node daun kelenjar nonleaf adalah ukuran yang sama Penghapusan di B Tree Di B + tree, entri dihapus rumit selalu muncul di daun, maka mudah untuk menghapus entri Pointer data record yang ada Pointer ke record data hanya di semua tingkat pohon ada di daun 32

Keuntungan dari B Tree Pemanfaatan ruang penyimpanan sekunder lebih baik 50 %. Ruang penyimpanan secara dinamis dialokasikan dan direklamasi, dan tidak ada degradasi layanan ketika utilisasi storage menjadi sangat tinggi. Akses acak memerlukan sangat sedikit langkah dan sebanding dengan hashing dan metode indeks ganda. 33