PERBAIKAN ALGORITMA Q-LEARNING DENGAN ANT COLONY DAN PREDIKSI JALUR PADA SIMULASI PERENCANAAN JALUR ROBOT BERGERAK DI LINGKUNGAN DINAMIS IMPROVEMENT Q-LEARNING ALGORITHM USING ANT COLONY AND PREDICTION PATH ON SIMULATION OF MOBILE ROBOT PATH PLANNING IN DYNAMIC ENVIRONMENT Yisti Vita Via 1), Daniel Oranova Siahaan 2) dan Umi Laili Yuhana 3) 1,2,3) Department of Informatics, Faculty of Information Technology, Institut Teknologi Sepuluh Nopember (ITS), Kampus ITS Sukolilo, Surabaya, 60111, Indonesia e-mail: yisti.vita09@mhs.if.its.ac.id 1) ABSTRAK Robot bergerak harus memiliki perencanaan jalur yang baik ketika menjalankan navigasi di lingkungan. Penelitian yang terakhir menangani permasalahan simulasi perencanaan jalur di lingkungan dinamis dengan kehadiran rintangan dan target yang bergerak. Teknik penghindaran rintangan dalam penelitian tersebut cukup baik namun jalur pencapaian target yang dihasilkan masih belum optimal. Penelitian ini memperbaiki algoritma Q-learning pada penelitian sebelumnya dengan menggunakan konsep Ant Colony. Pendekatan metode yang dilakukan bertujuan untuk mengoptimalkan pencapaian target dalam simulasi perencanaan jalur robot bergerak. Prediksi pergerakan rintangan dan target juga digunakan untuk meningkatkan efektifitas selama pencapaian target. Uji coba dilakukan menggunakan skenario lingkungan virtual seperti yang telah digunakan pada penelitian sebelumnya. Hasil uji coba dievaluasi dan dibandingkan dengan metode sebelumnya. Metode ini memberikan hasil yang lebih baik dengan nilai parameter ujicoba yaitu jumlah skenario pelatihan, angka kegagalan, dan waktu pencapaian target, lebih kecil daripada penelitian sebelumnya. Kata kunci: robot bergerak, perencanaan jalur, Ant Colony, Q-learning, prediksi pergerakan. ABSTRACT Mobile robot should be planned well path when running the navigation in the environment. Recent studies dealing with problems of path planning simulation in dynamic environments with the presence of obstacles and a moving target. Obstacle avoidance techniques in the study were quite good but the track achievement of targets produced still not optimal. This study Q-learning algorithms improve on previous research by using the concept of Ant Colony. Approach methods that aim to optimize the achievement of targets in a simulated robot path planning to move. Predict the movement of obstacles and targets are also used to increase effectiveness in order for the achievement of targets. Tests conducted using a virtual environment scenario as it has been used in previous studies. The trial results were evaluated and compared with previous methods. This method gives better results with the test parameter value is the number of training scenarios, failure rate, and the achievement of targets, smaller than previous studies. Keywords: mobile robot, path planning, Ant Colony, Q-learning, prediction path. C-29-1
PENDAHULUAN Pada umumnya navigasi robot bergerak di lingkungan dinamis mempunyai dua permasalahan utama yaitu lokalisasi (Filliat, 2003) dan perencanaan jalur (Mayer, 2003). Lokalisasi merupakan penentuan posisi dan orientasi robot dengan memperhatikan lingkungan. Banyak teknik yang digunakan dalam permasalahan ini, misalnya menggunakan sensor jarak laser, sensor ultrasonik, sensor infra merah, sensor kamera, dan GPS. Sedangkan permasalahan lainnya yaitu perencanaan jalur, di mana robot bergerak memerlukan algoritma perencanaan jalur agar dapat menemukan jalur yang aman dalam menghindari tabrakan dan optimal dalam mencapai target di lingkungan. Beberapa penelitian yang telah dilakukan diklasifikasikan secara luas ke dalam pendekatan klasik dan heuristik. Namun metode klasik tidak lagi mendominasi karena adanya kelemahan dalam menyelesaikan permasalahan perencanaan pergerakan robot (Robot Motion Planning (RMP)) yang bersifat NPcompleteness (Canny, 1988). Sehingga perhatian beralih pada metode heuristik. Metode heuristik telah digunakan pada banyak perencanaan jalur robot bergerak, mulai dari keadaan lingkungan dengan kehadiran rintangan dan target yang statis hingga dinamis. (Beatriz, 2007) menyelesaikan permasalahan perencanaan jalur dengan menggunakan algoritma Ant Colony Optimization (ACO) yang dikembangkan dengan Genetic Algorithm (GA). Akurasi yang dihasilkan lebih meningkat dibandingkan dengan menggunakan ACO saja. Namun dalam penelitian ini, rintangan dan target yang digunakan masih statis. (Garcia, 2009) mengembangkan pencarian jalur yang jauh lebih cepat dari ACO lainnya serta mampu menghindari keadaan stagnasi. Rintangan yang digunakan dalam penelitian ini sudah dinamis tetapi sifatnya masih diam atau tidak bergerak. Demikian halnya dengan target yang digunakan. Penelitian selanjutnya dilakukan oleh (Zeng, 2009). Zeng menggunakan Fuzzy Logistic Description untuk pemodelan lingkungan robot dan ACO untuk pencarian jalurnya. Metode ini bertujuan untuk mengatasi ketidakpastian informasi lingkungan oleh sensor. Rintangan yang digunakan pada penelitian ini sudah bergerak tetapi target masih statis. Penelitian dengan menggunakan rintangan dan target yang mana keduanya bergerak akhirnya dilakukan oleh (Jaradat, 2011). Jaradat menggunakan algoritma Q-learning dengan mengurangi ukuran Q-table dan membatasi jumlah keadaan di lingkungan dinamis. Penghindaran rintangan dalam metode ini cukup baik namun jalur pencapaian target yang dihasilkan masih belum optimal. Penelitian ini bertujuan untuk memperbaiki kelemahan metode pada penelitian Jaradat. Algoritma Q-learning pada penelitian Jaradat hanya fokus untuk menghindari rintangan terdekat. Sedangkan pencapaian jalur yang optimal ke arah target belum dipertimbangkan. Dari tinjauan ini, konsep Ant Colony dapat diterapkan karena mengingat algoritma ini telah banyak digunakan untuk optimasi pencarian jalur terpendek. Di sisi lain Ant Colony masih digunakan pada perencanaan jalur yang mana keadaan target di lingkungannya masih statis. Keadaan lingkungan yang dinamis dalam penelitian ini membutuhkan algoritma Ant Colony yang mampu bekerja dengan sangat cepat. Karakter ini dimiliki oleh ACO yang dikembangkan oleh Garcia. Selain pengembangan algoritma Q- learning dengan konsep Ant Colony, perhitungan prediksi pergerakan jalur rintangan dan target juga merupakan hal yang penting untuk efektifitas dalam pencapaian target. Dengan demikian metode yang diajukan ini di harapkan mampu meningkatkan efektifitas perencanaan jalur agar selama pencapaian target, robot akan lebih sedikit berhadapan dengan rintangan dan bergerak ke arah target lebih cepat. C-29-2
METODE Tahap awal untuk perencanaan jalur robot bergerak adalah memodelkan lingkungan simulasi robot. Dalam penelitian ini model lingkungan digambarkan ke dalam sebuah matriks yang merepresentasikan graf berukuran 50x50 node, dimana nilai 0 pada node menandakan aman dan 1 adalah tidak aman. Setiap node terhubung dengan delapan node lain di sekelilingnya. Hal ini disesuaikan dengan sudut orientasi robot bergerak pada simulasi ini yaitu sebesar 45 derajat. Tahap berikutnya adalah mendesain algoritma perencanaan jalur. Pada Gambar 1 dijelaskan langkah-langkah yang harus dilewati robot bergerak pada tahap pelatihan sebelum robot dilepas untuk bernavigasi sendiri di lingkungan. Gambar 1. Algoritma simulasi perencanaan jalur pada tahap pelatihan. C-29-3
Perhitungan Posisi Robot Terhadap Lingkungan Simulasi robot bergerak diasumsikan dilengkapi sensor yang menerima masukan koordinat posisi semua rintangan dan target di lingkungan. Robot, rintangan, dan target masing-masing disimulasikan menempati posisi node-node tertentu di lingkungan. Setiap node memiliki posisi spesifik terhadap dan yang ditentukan dengan. Posisi robot dituliskan, sedangkan posisi rintangan dan target berturut-turut adalah dan. Penentuan posisi ini diperlukan untuk memodelkan keadaan simulasi robot bergerak selama proses navigasi berlangsung. Gambar 2. Perhitungan posisi robot bergerak dalam lingkungan simulasi. Pemodelan keadaan robot dapat dilihat pada Gambar 2, dengan langkah-langkah sebagai berikut: 1. Menentukan daerah regional masing-masing untuk rintangan dan target apakah berada di,,, atau. 2. Menentukan daerah sudut antara sampai berdasarkan besar sudut antara garis robot ke rintangan dan garis robot ke target. (1). C-29-4
3. Menentukan keadaan posisi robot di setiap waktu secara lengkap meliputi gabungan antara daerah regional target, daerah regional rintangan terdekat, dan jangkauan sudut Menentukan Keadaan Transisi Robot. Keadaan ini dimodelkan menurut persamaan Penentuan keadaan transisi robot dilakukan untuk setiap langkah yang dijalani robot selama proses simulasi navigasi berlangsung. Keadaan transisi robot diputuskan berdasarkan pilihan kondisi apakah (Winning State), (Safe State), (Non-safe States), atau (Failure State). (2). (3). merupakan keadaan transisi robot, adalah jarak robot dan target, jarak robot dan rintangan, jarak minimal aman dari rintangan, dan dan masingmasing adalah jarak kemenangan dari target dan jarak tabrakan dari rintangan. Khusus pada keadaan lingkungan yang tidak aman, penentuan keadaan transisi dilakukan dua kali, yaitu sebelum dan sesudah melakukan aksi penghindaran rintangan. Hal ini bertujuan untuk mengetahui perubahan kondisi lingkungan akibat aksi penghindaran yang telah dilakukan, sehingga fungsi penghargaan dapat diberikan secara tepat. Memprediksi Pergerakan Rintangan dan Target Prediksi pergerakan rintangan dan target dilakukan untuk meningkatkan efektifitas pencapaian target. Pergerakan rintangan dan target diprediksi untuk posisi satu langkah di depan yaitu. Hal ini dilakukan karena mengingat keadaan lingkungan simulasi robot yang cepat berubah karena sifatnya yang dinamis. Dengan berorientasi pada posisi prediksi ini, maka selama pencapaian target, robot akan lebih sedikit berhadapan dengan rintangan dan bergerak ke arah target lebih cepat. Arah pergerakan suatu obyek biasanya cenderung meneruskan arah pergerakan sebelumnya, sehingga dalam hal ini arah gerak dan posisi perpindahan dari ke digunakan sebagai acuan untuk pergerakan posisi dari ke. Secara sederhana prediksi pergerakan rintangan dan target dijelaskan pada Gambar 3. Gambar 3. Prediksi pergerakan rintangan dan target. Posisi prediksi rintangan dan target pada persamaan (6). dihitung dengan menggunakan (4). (5). (6). C-29-5
Menentukan Aksi Penghindaran Rintangan Ketika keadaan lingkungan simulasi dinyatakan tidak aman, maka robot bergerak dipaksa untuk melakukan aksi penghindaran rintangan keluar dari jalur yang sebelumnya sudah terbentuk. Pada tahap pelatihan, arah orientasi penghindaran rintangan dilakukan dengan membandingkan dua aksi belok ke kanan dan ke kiri. Aksi yang dipilih adalah aksi belok yang mendekatkan robot ke arah target. Sudut penghindaran bergantung pada posisi target dan jangkauan rintangan, dengan orientasi minimal sebesar 45 derajat. Berbeda dengan aksi penghindaran pada tahap pengujian, robot memilih aksi belok ke kanan atau ke kiri berdasarkan nilai pada Q-table. Robot mengecek baris yang sesuai dengan keadaan yang tengah terjadi di Q-table dan mengambil keputusan belok ke kanan atau ke kiri berdasarkan pada Q-value yang tersimpan. Jika aksi belok kanan memiliki Q-value tertinggi, maka robot belok ke kanan. Sebaliknya, jika aksi belok kiri memiliki Q-value tertinggi, maka robot belok ke kiri. Dan jika kedua aksi memiliki Q-value yang sama, maka robot akan belok ke salah satu arah tersebut secara random. Mencari Jalur Terpendek Pencapaian Target Pencarian jalur terpendek dilakukan jika kondisi lingkungan simulasi robot bergerak sudah dinyatakan aman. Algoritma yang digunakan pada tahap ini adalah ACO yang sudah dikembangkan oleh Garcia dengan formula probabilistik seperti pada persamaan (7). Dalam hal ini adalah jarak Euclidian antara posisi node robot dengan posisi prediksi target, dan adalah nilai yang memperkuat pengaruh, range yang berlaku untuk adalah [0, ]. (7). Menentukan Fungsi Penghargaan Aksi Robot Fungsi penghargaan merupakan evaluasi untuk aksi yang diambil robot bergerak pada suatu keadaan simulasi tertentu. Indikator ini digunakan untuk menghitung fungsi nilai pada Q-table. Pemberian nilai penghargaan atas aksi robot dilakukan setelah penentuan keadaan transisi robot yang kedua. Berdasarkan definisi keadaan transisi ini, fungsi penghargaan dapat dituliskan sebagai berikut: (8). Menghitung Fungsi Nilai pada Q-table Fungsi nilai dihitung dengan menggunakan persamaan ( 9). Nilai ini kemudian disimpan di dalam Q-table dengan mengupdate Q-value pada tabel tersebut. Q-value terus diperbarui selama pelatihan berdasarkan pasangan keadaan-aksi yang terjadi di lingkungan oleh robot. Nilai-nilai inilah yang akan digunakan robot bergerak sebagai peraturan navigasi pada tahap pengujian. (9). C-29-6
adalah keadaan di waktu, adalah aksi yang dilakukan robot di waktu. adalah penghargaan dari aksi yang baru saja dilakukan. adalah Q- value maksimum yang terhitung dari pengambilan semua aksi yang mungkin pada keadaan baru di waktu sebelumnya. adalah faktor pengurang. Fungsi nilai dihitung selama pelatihan robot dengan membongkar menjadi skenario yang berbeda-beda dari lingkungan dinamis. Informasi yang tersimpan di tabel digunakan oleh robot untuk mencapai target ketika robot bekerja di lingkungan yang nyata. HASIL DAN PEMBAHASAN Pelaksanaan uji coba dilakukan dua tahap yaitu tahap pelatihan dan pengujian. Masing-masing tahapan uji coba menggunakan skenario lingkungan virtual seperti yang telah digunakan pada penelitian sebelumnya (Jaradat, 2011). Skenario pengujian memi liki jumlah rintangan yang beragam, beberapa statis dan beberapa dinamis. Posisi rintangan statis dan posisi awal rintangan dinamis dipilih secara random. Pergerakan setiap rintangan dinamis ditentukan dengan model random walk. Sedangkan pergerakan target ditentukan dengan fungsi sinusoidal. Parameter sudut belok untuk aksi belok kanan dan kiri diatur 45 derajat untuk semua skenario. Parameter lainnya adalah kecepatan robot, target dan rintangan. Kecepatan rintangan dan target bervariasi untuk setiap skenario. Kecepatan robot adalah konstan dan diatur untuk semua skenario uji coba. Perbandingan hasil pengujian dapat dilihat pada Gambar 4(a) dan 4(b). (a) (b) Gambar 4. Hasil pengujian simulasi perencanaan jalur robot bergerak menggunakan (a) metode Q-learning dan (b) metode yang diajukan. KESIMPULAN DAN SARAN Dari hasil uji coba menunjukkan bahwa metode yang diajukan mampu membuat robot bergerak mencapai target dengan lebih cepat dibandingkan dengan metode sebelumnya. Performansi teknik penghindaran rintangan yang dilakukan hampir sama baik dengan metode sebelumnya. Sebagai pengembangan pada penelitian selanjutnya dapat dilakukan optimasi untuk memperkecil peluang robot menemui kondisi lingkungan yang tidak aman. Semakin kecil frekuensi robot berada di keadaan yang tidak aman maka akan semakin kecil kemungkinan terjadinya tabrakan. C-29-7
DAFTAR PUSTAKA Beatriz, A., Sossa, H., Vazquez, R., (2007). Evolving Ant Colony System for Optimizing Path Planning in Mobile Robots, IEEE, Mexico City. Canny, J. F., (1988). The Complexity of Robot Motion Planning, MIT Press, Cambridge. Filliat, G., Mayer, J., (2003). Map Based Navigation in Mobile Robots: I. A Review of Localization Strategies, Cognitive System Research, 4: 243-82. Garcia, P., Montiel, O., Castillo, O., Sepulveda, R., Melin, P., (2009). Path Planning for Autonomous Mobile Robot Navigation with Ant Colony Optimization and Fuzzy Cost Function Evaluation, ScienceDirect, Applied Soft Computing 9, 1102-1110. Jaradat, M., Al-Rousan, M., Quadan, L., (2011). Reinforcement Based Mobile Robot Navigation in Dynamic Environment, ScienceDirect, Robotics and Computer-Integrated Manufacturing, Jordan, 135-149. Mayer, J., Filliat, G., (2003). Map Based Navigation in Mobile Robots: II. A Review of Map Learning and Path Planning Strategies, Cognitive System Research, 4: 283-317. Zeng, B., Yimin, Y., Yisan, X., (2009). Mobile Robot Navigation in Unknown Dynamic Environment Based on Ant Colony Algorithm, IEEE, China. C-29-8