ALGORITMA THRESHOLDING ADAPTIF BERDASARKAN DETEKSI BLOK TERHADAP CITRA DOKUMEN TERDEGRADASI Agu Zainal Arifin, Arya Yudhi Wijaya, Laili Cahyani Fakulta Teknologi Informai, Intitut Teknologi Sepuluh Nopember (ITS), Surabaya, 60, Indoneia E-mail : cahya_nie@c.it.ac.id ABSTRAK Saat ini, keberadaan citra dokumen yang mengalami degradai dapat menjadi maalah terendiri untuk melakukan uatu penelitian. Banyak metode yang udah dikembangkan. Namun, kebanyakan metode hanya memperhatikan perbaikan kualita aja tanpa memperhatikan efiieni waktu. Tuga akhir ini melakukan implementai ebuah algoritma threholding ecara adaptif terhadap citra dokumen terdegradai. Dengan menggabungkan keuntungan metode global dan lokal, algoritma ini membagi citra dokumen menjadi beberapa blok. Kemudian proe threholding dilakukan pada tiap blok citra untuk mendapatkan hail berupa citra biner. Kinerja dari aplikai ini akan diukur menggunakan aplikai Optical Character Recognition (OCR) dengan menghitung keakuratan pembacaan tek hail threholding. Akhirnya, metode ini menghailkan uatu pemiahan yang baik antara tek dan background. Percobaan juga menunjukkan bahwa metode ini mampu menghailkan kinerja yang lebih unggul dari metode ebelumnya. Rata-rata keakuratan threholding dari emua percobaan mencapai 93%. Kata kunci : Degradai, deteki ukuran blok, threholding, bineriai adaptif. PENDAHULUAN Saat ini beberapa aplikai memerlukan pengenalan karakter, eperti aplikai OCR (optical character recognition). Pada proe pemiahan karakter dan background, threholding citra dokumen melibatkan proe konveri citra graycale menjadi citra biner[]. Proe threholding telah diterima cukup inten elama tiga dekade terakhir. Mekipun banyak algoritma telah diuulkan untuk gambar berintenita eragam, namun threholding agak rumit ketika haru memproe gambar dokumen yang mengalami degradai. Degradai dapat diebabkan oleh beberapa hal, diantaranya background yang komplek, intenita yang tidak eragam, dan bayangan pada citra. Untuk mengatai hal ini, beberapa algoritma threholding telah dikembangkan untuk citra dokumen terdegradai[]. Berdaarkan teknik yang ada aat ini, threholding dapat diklaifikaikan menjadi dua, yaitu threholding global dan threholding lokal (adaptif). Metode threholding global memperkirakan dan menerapkan threhold tunggal untuk eluruh pikel citra. Sahoo dkk.[] telah melakukan perbandingan dengan menggunakan pengukuran bentuk atau uniformity terhadap efektifita metode yang diuulkan oleh Otu[3], Tai, Johannen, dan Kapur dalam mendapatkan hail threholding yang memadai. Namun demikian, metodemetode ini kurang efektif untuk mendapatkan hail yang euai ketika citra memiliki beragam bentuk background. Maka banyak peneliti beruaha untuk mengatai maalah ini dengan menggunakan metode lokal. Dalam metode threholding lokal, nilai threhold ditentukan untuk etiap pikel berdaarkan nilai graycale endiri dan nilai graycale tetangga. Oleh karena itu, pendekatan ini diebut algoritma threholding adaptif. Beberapa algoritma threholding adaptif telah dikembangkan, diantaranya adalah metode Niblack [4] pada tahun 986. Namun, metode Niblack tidak efektif ketika background berii tektur berupa cahaya. Pada tahun 000, Sauvola [5] menyuun metode yang memodifikai metode Niblack dengan melakukan hipotei pada nilai keabuan pikel tek dan pikel background. Pada tahun 004, Sezgin dan Sankur[6] melakukan perbandingan terhadap 40 metode. Hal itu menunjukkan bahwa metode threholding lokal Sauvola dan metode dari Trier melakukan yang terbaik untuk proe threholding dokumen. Kemudian Gato dkk.[7] menemukan metode threholding lokal lainnya untuk citra dokumen berkualita rendah. Dengan menggunakan metode Sauvola, metode Gato melakukan deteki foreground dan melanjutkannya dengan beberapa langkah pot-proceing untuk meningkatkan hail akhir. Mekipun menawarkan hail yang memuakan untuk dokumen terdegradai, pendekatan lokal terebut memiliki biaya komputai yang tinggi karena haru memperkirakan nilai threhold untuk etiap pikel.
Oleh karena adanya manfaat dan keterbataan yang ada pada etiap metode dan kebanyakan hanya memperhatikan perbaikan kualita tanpa memperhatikan efiieni waktu, maka Tuga Akhir ini mengimplementaikan algoritma threholding berdaarkan deteki blok untuk mengatai permaalahan terebut. Deteki blok dilakukan untuk melakukan threholding ecara adaptif dan threholding menggunakan metode global digunakan untuk mendapatkan waktu yang efiien. Sehingga proe threholding citra dokumen terdegradai dapat menghailkan keluaran yang baik dalam waktu efiien. METODE. Proyeki Horiontal Proyeki horiontal dilakukan untuk mengenali karakteritik citra maukan yang akan diproe. Sehingga, hal ini dapat memudahkan proe pemiahan antara pikel karakter dan pikel background. Peramaan. adalah peramaan yang menunjukkan perumuan proyeki horiontal. M H ( y) = f( x, y), (.) x= dimana merupakan intenita keabuan tiap pikel citra berukuran M N dan (x,y) merupakan koordinat tiap pikel. Hail kurva proyeki horiontal dapat dilihat pada Gambar 3.. Secara normal nilai pikel karakter haru lebih rendah daripada nilai dari pikel background. Lembah dan puncak dari hail repreentai kurva proyeki horiontal merupakan akumulai nilai-nilai dari pikel karakter dan background. Sehingga dapat terlihat bahwa daerah karakter dapat dipiahkan dari daerah background. (3.3). Smoothing Filter Smoothing filter dilakukan untuk memperbaiki nilai kontra yang tidak merata ebab adanya noie yang muncul, ehingga dapat menghalangi proe pemiahan antara pikel karakter dan background. Smoothing filter juga dilakukan untuk menjaga informai penting dari dokumen agar tidak banyak yang hilang elama proe threholding. Perumuan moothing filter yang digunakan dapat dilihat pada peramaan. m y+ H ( y) = H( k), (.) m m k= y dimana m merupakan ukuran dari moothing window. Ukuran window ditentukan dengan melakukan perkiraan periode dari kurva yang dihailkan oleh proyeki horiontal H ( y) berdaarkan langkah-langkah ebagai berikut :. R ( y ) merupakan kurva periodik dengan periode τ, yang dapat dirumukan ebagai berikut πy Rτ ( y) = max[ H( y)].[gn[i n( )] + ] τ (.3). Varian dari R τ (y) dan H ( y) didapatkan dengan menghitung peramaan berikut: N [ ( ) ( )] R y H y σ ε = τ (.4) N y= dimana N merupakan jumlah kolom citra. Sedangkan, = τ dan ε N 0<ε < 3. Ukuran moothing window m dapat didefiniikan ebagai nilai ε yang dihailkan pada varian minimal σ ε yang diperoleh. Hail keluaran proe moothing filter ekaligu merupakan keluaran akhir pada preproceing ini berupa matrik Hy ebagai repreentai dari kurva yang lebih halu (mooth) dibandingkan dengan kurva H ( y). Matrik Hy ini yang akan menjadi maukan untuk proe deteki ukuran blok..3 Deteki Ukuran Beberapa tahapan untuk melakukan deteki ukuran blok adalah mencari turunan pertama dari kurva H ( y ), mencari titik ektrim dari turunan pertama, mencari nilai dari inflection point, dan mencari ukuran blok. Langkah awal yang dilakukan adalah mencari turunan pertama dari kurva H ( y ). Pencarian turunan pertama dilakukan untuk mendapatkan gradient atau kemiringan kurva. Hal ini dapat menunjukkan karakteritik dari citra ehingga pada proe berikutnya dapat dilakukan pemiahan antara karakter dan background berdaarkan intenita keabuan citra maukan, baik ebagai wilayah karakter atau background. Turunan pertama dari kurva H ( y ) dirumukan oleh peramaan.5, edangkan kurva hail turunan pertama dapat dilihat pada Gambar. H' dh( y) H( y+ ) H ( y) ( y) = = = H( y+ ) H ( y) dy ( y+ ) y (.5)
Gambar Ilutrai Proe Segmentai Citra. Langkah berikutnya adalah mencari titik ektrim dari turunan pertama, yaitu titik dimana kurva aal berada pada nilai makimum atau minimum. Pada Gambar 3., titik ektrim ditunjukkan ebagai deret Y = { Y j 0 < j < n} yang dapat didefiniikan ebagai titik dimana nilai turunan pertamanya adalah nol. Setelah didapatkan deret Y ebagai titik ektrim, maka langkah elanjutnya yaitu mencari inflection point. Inflection point P = { P j < j < n} didapatkan antara indek Y j dan Y j+. Berikut ini adalah perumuan inflection point yang digunakan untuk proe deteki ukuran blok ' P j = { H }, (.5) max Y j < Y< Y j+ ' dimana H merupakan nilai turunan pertama yang telah didapatkan pada kurva ebelumnya. Nilai turunan yang makimal pada kurva turunan menunjukkan bahwa gradient/kemiringan paling bear. Gradient ini didefiniikan ebagai adanya perubahan kontra yang terjadi pada tingkat keabuan dari pikel-pikel citra. Sehingga terdapat bata yang dijadikan pemiah antara region karakter dan region background. Inflection point merupakan titik bata yang digunakan antara wilayah karakter dan background. Sehingga langkah berikutnya adalah menghitung jarak antara tiap inflection point yang didapatkan. Jarak terebut akan menjadi ukuran blok untuk proe egmentai citra di tahap berikutnya. Jarak ini juga didefiniikan ebagai tinggi tiap wilayah karakter dan background, erta dijadikan ebagai input paramater pada proe egmentai. Perumuan jarak yang dilakukan berdaarkan peramaan.6. D P P. (.6) j = j+ j.4 Segmentai Citra Citra maukan yang berupa citra graycale dibagi menjadi beberapa blok berdaarkan jarak yang telah didapatkan pada proe deteki ukuran blok ebelumnya. Pertama daerah citra maukan dipiahkan ke dalam n bagian ub-region (,,..., ). Tiap bagian ub-region terdiri dari pikel. Tiap bagian ub-region dibagi menjadi kumpulan blok. Tiap blok terdiri dari pikel. Ukuran blok pada tiap bagian ub-region bervariai euai jarak Hail dari egmentai citra adalah citra yang terbagi menjadi ub-region citra. Ilutrai pada Gambar adalah hail egmentai citra. Gambar Ilutrai Proe Segmentai Citra..5 Threholding Citra Proe berikutnya dalam pengimplementaian algoritma threholding adaptif berdaarkan deteki blok ini adalah proe threholding citra. Pada proe deteki blok yang menjadi data maukan adalah hail citra yang telah teregmentai. Proe ini membutuhkan iniialiai nilai mean dan tandar deviai yang digunakan ebagai threhold. Pertama yang dilakukan terhadap citra yang telah terbagi menjadi beberapa blok terebut yaitu menghitung nilai local mean dan local tandar deviai. Local mean dan local tandar deviai dihitung untuk tiap blok erta digunakan untuk menentukan apakah uatu blok perlu diproe dengan threhold adaptif 3
atau tidak. Kemudian nilai local mean dan local tandar deviai pada tiap blok dibandingkan dengan mean threhold dan tandar deviai threhold. Jika nilai local tandar deviai lebih rendah daripada tandar deviai threhold dan local mean lebih tinggi daripada mean threhold, maka etiap pikel dalam blok terebut diubtituikan dengan pikel background(). Sebaliknya, jika tidak maka untuk tiap blok dilakukan proe bineriai citra dengan metode global (metode otu). Metode otu digunakan karena kecepatannya dalam melakukan proe threholding ecara global. 3 UJI COBA DAN EVALUASI Terdapat dua macam uji coba yang dilakukan, yaitu uji coba parameter dan uji coba perbandingan metode. Uji coba parameter dilakukan untuk mendapatkan parameter yang euai untuk algoritma threholding adaptif berdaarkan deteki blok ini, edangkan uji coba perbandingan metode dilakukan untuk mengetahui eberapa unggul algoritma threholding adaptif berdaarkan deteki blok dibandingkan dengan metode yang dikembangkan ebelumnya, yaitu Otu, Niblack, dan Sauvola. Sebagai data maukan untuk uji coba parameter, digunakan 4 macam data citra dokumen dengan degradai yang berbeda eperti ditunjukkan pada Gambar 3. Sedangkan untuk melakukan uji coba perbandingan metode, digunakan 8 macam ampel data citra dokumen terdegradai. Evaluai dilakukan dengan menjadikan citra hail threholding ebagai maukan pada oftware OCR untuk mengukur kemampuan aplikai dalam melakukan pengenalan karakter. Itilah berikut akan menjelakan kriteria pada tiap tabel uji coba berikutnya. DB: karakter (huruf, angka, atau tanda baca) yang terdeteki benar oleh OCR, DS: karakter yang terdeteki namun merupakan kealahan pengenalan oleh OCR, TT: total karakter keeluruhan, PRC: pengukuran ecara preciion, RCL: pengukuran ecara recall, F: rata-rata harmoni antara preciion dan recall. DB PRC=, (3.) ( DB+ DS) DB RCL =, (3.) TT *( PRC * RCL) F = (3.3) ( PRC+ RCL) citra citra citra3 citra4 Gambar 3 Data Citra Uji Coba Parameter 3. Uji Coba Parameter Ada dua buah parameter yang cukup penting untuk digunakan dalam implementai algoritma threholding adaptif berdaarkan deteki blok, yaitu.. Parameter mean threhold. Parameter tandar deviai threhold 3.. Uji Coba dan Evaluai Parameter Mean Uji coba parameter mean yang dilakukan terhadap citra uji dengan menggunakan 0 nilai mean menghailkan kinerja eperti ditunjukkan pada Tabel. Demikian juga pada data citra uji, 3, dan 4 ehingga menghailkan nilai mean threhold optimal yaitu 40. Tabel Evaluai Uji Coba Parameter Mean Citra Uji meant DB DS TT PRC RCL F 00 346 3 359 9.78 96.38 94.0 90 349 359 94.3 97. 95.75 80 355 359 94.4 98.89 96.60 70 355 3 359 96.47 98.89 97.66 60 355 359 96.73 98.89 97.80 50 358 5 359 98.6 99.7 99.7 40 356 359 99.7 99.6 99.44 30 356 359 99.7 99.6 99.44 0 356 359 99.7 99.6 99.44 0 356 359 99.7 99.6 99.44 3.. Uji Coba dan Evaluai Parameter Standar deviai Tabel Evaluai Uji Coba Parameter Standar deviai Citra Uji tdt DB DS TT PRC RCL F 0 58 0 359 96.9 7.87 8.30 8 68 8 359 93.7 74.65 83.0 6 86 359 93.6 79.67 85.89 4 33 4 359 95.7 87.9 9.5 330 9 359 94.56 9.9 93. 0 357 359 99.7 99.44 99.58 8 357 359 99.44 99.44 99.44 6 358 359 99.44 99.7 99.58 4 355 8 359 95.7 98.89 96.99 346 3 359 93.77 96.38 95.05 4
Uji coba parameter tandar deviai yang dilakukan terhadap citra uji dengan menggunakan 0 nilai tandar deviai menghailkan kinerja eperti ditunjukkan pada Tabel. Demikian juga terhadap data citra uji, 3, dan 4 ehingga menghailkan nilai tandar deviai threhold optimal yaitu 0. 3. Uji Coba Perbandingan Metode Terdapat tiga metode yang digunakan ebagai pembanding untuk melakukan uji coba perbandingan metode, yaitu :. Metode global Otu. Metode adaptif Niblack 3. Metode adaptif Sauvola Tabel 3 Evaluai Uji Coba Perbandingan Metode dan Otu Uji Coba Citra I Citra II Citra III Otu Otu Otu DB 9 56 5 49 3 DS 0 6 8 9 0 TT 9 9 5 5 3 3 PRC 00 90.3 86.4 84.5 00 85.7 RCL 00 5.6 98. 94. 00 37.5 F 00 39.8 9.9 89. 00 5. Tabel 4 Evaluai Uji Coba Perbandingan Metode dan Niblack Citra I Citra II Citra III citra adaptif blok Otu Uji Coba Niblack Niblack Niblack citra3 adaptif blok Otu Gambar3 Hail Perbandingan Metode dan Otu citra adaptif blok Niblack citra3 adaptif blok Niblack Gambar3 Hail Perbandingan Metode dan Niblack citra adaptif blok Sauvola citra3 adaptif blok Sauvola Gambar3 Hail Perbandingan Metode dan Sauvola Evaluai terhadap uji coba hail perbandingan metode adaptif blok dan Otu ditunjukkan oleh Tabel 3. Sedangkan perbandingan dengan metode Niblack dan Sauvola ditunjukkan pada Tabel 4 dan 5. DB 9 4 5 5 80 53 DS 0 59 8 7 0 8 TT 9 9 5 5 86 86 PRC 00 65.9 86.4 48. 00 65.4 RCL 00 5 98. 48. 93 6.6 F 00 58. 9.9 48. 96.4 63.5 Tabel 5 Evaluai Uji Coba Perbandingan Metode dan Sauvola Uji Coba Citra I Citra II Citra III Sauvola Sauvola Sauvola DB 9 5 5 5 80 75 DS 0 4 8 0 8 TT 9 9 5 5 86 86 PRC 00 98. 86.4 98 00 80.6 RCL 00 98. 98. 98. 93 87. F 00 98. 9.9 98. 96.4 83.8 Rata-rata F-Meaure yang didapatkan dari uji coba perbandingan metode terhadap 8 citra adalah bb. Threholding : 9.69% Threholding Global Otu: 6.94% Threholding Niblack: 34.46% Threholding Sauvola: 85.79% 4 SIMPULAN Dari hail uji coba yang didapatkan, didapatkan beberapa impulan ebagai berikut:. Aplikai ini mampu melakukan proe threholding berdaarkan deteki blok 5
terhadap citra dokumen terdegradai dengan baik, ehingga menghailkan citra biner yang dapat dikenali oleh aplikai OCR.. Aplikai ini mampu mendeteki ukuran blok untuk proe egmentai terhadap citra dokumen terdegradai. 3. Aplikai ini mampu melakukan threholding ecara adaptif melalui blok-blok yang telah didapatkan. 4. Algoritma threholding adaptif berdaarkan deteki blok memiliki kinerja lebih baik daripada metode Otu, Niblack, dan Sauvola. 5. DAFTAR PUSTAKA []. Pai Yu-Ting, Yi-Fan Chang and Shanq-Jang Ruan, 00. Adaptive threholding algorithm: Efficient computation technique baed on intelligent block detection for degraded document image, Elevier Ltd. []. Sahoo, P.K, S. Soltani, and A. K. C. Wong, 004. Survey over image threholding technique and quantitative performance evaluation. Journal of Electronic Imaging [3]. Nobuyuki Otu, 979. A Threhold Selection Method From Gray Level Hitogram. IEEE Tran. Sytem Man Cybernet. [4]. W. Niblack, 986. An Introduction to Digital Image Proceing. Prentice-Hall. [5]. Sauvola, J., M. Pietikainen. 000. Adaptive Document Image Binarization. Pattern Recognition. [6]. Sezgin, Mehmet, Bulent Sankur. 004. Survey Over Image Threholding Technique and Quantitative Performance Evaluation. Journal of Electronic Imaging. [7]. Gato, B., I. Pratikaki, S. J. Perantoni. 005. Adaptive Degraded Document Image Binarization. Elevier Ltd. [8]. Gonzale, R.C., Wood, R.E., 00. Digital Image Proceing, nd ed. Prentice Hall, Upper Saddle River, NJ, pp. 6