PROSES KEPUTUSAN MARKOVIAN TEKNIK RISET OPERASI

Contoh TIA 310 3

Contoh TIA 310 4

TIA 310 5

TIA 310 6

TIA 310 7

TIA 310 8

Cara Perhitungan 0.2 x 7 + 0.5 x 6 + 0.3 x 3 = 5.3 0 x 0 + 0.5 x 5 + 0.5 x 1 = 3 0 x 0 + 0 x 0 + 1 x -1 = -1 0.3 x 6 + 0.6 x 5 + 0.1 x -1 = 4.7 0.1 x 7 + 0.6 x 4 + 0.3 x 0 = 3.1 0.05 x 6 + 0.4 x 3 + 0.55 x -2 = 0..4 9

-0.6 TIA 310 10

Cara Perhitungan 5.3 + 0.2 x 5.3 + 0.5 x 3.1 + 0.3 x 3 + 0 x 5.3 + 0.5 x 3.1 + 0.5 x 0.4 0.4 = 8.03 = 4.75-1 + 0 x 5.3 + 0 x 3.1 + 1 x 0.4 = -0.6 4.7 + 0.3 x 5.3 + 0.6 x 3.1 + 0.1 x 0.4 = 8.19 3.1 + 0.1 x 5.3 + 0.6 x 3.1 + 0.3 x 0.4 = 5.61 0.4 + 0.05 x 5.3 + 0.4 x 3.1 + 0.555 x 0.4 = 2.13

TIA 310 12

Cara Perhitungan 5.3 + 0.2 x 8.19 + 0.5 x 5.61 + 0.3 x 2.13 = 10.38 3 + 0 x 8.19 + 0.5 x 5.61 + 0.5 x 2.13 = 6.87-1 + 0 x 8.19 + 0 x 5.61 + 1 x 2.13 = 1.13 4.7 + 0.3 x 8.19 + 0.6 x 5.61 + 0.1 x 2.13 = 10.74 3.1 + 0.1 x 8.19 + 0.6 x 5.61 + 0.3 x 2.13 = 7.92 0.4 + 0.05 x 8.19 + 0.4 x 5.61 + 0.55 x 2.13 = 4.23

Metode Enumerasi Lengkap Contoh 1: Masalah petani dengann horison perencanaan periode tak hingga Di sini ada 8 kebijakan stasioner, yaitu: Kebijakan Stasioner s Tindakan 1 Tidak menggunakan pupuk sama sekali 2 Menggunakan pupuk tanpa bergantung pada keadaan 3 Gunakan pupuk ketika keadaan 1 4 Gunakan pupuk ketika keadaan 2 5 Gunakan pupuk ketika keadaan 3 6 Gunakan pupuk ketika keadaan 1 atau 2 7 Gunakan pupuk ketika keadaan 1 atau 3 8 Gunakan pupuk ketika keadaan 2 atau 3 TIA 310 19

Metode Enumerasi Lengkap Matriks P k dan R k untuk kebijakan 3 sampai 8 diturunkan dari matriks untuk kebijakan 1 dan 2. Karena itu kita memiliki 0,2 0,5 0,3 P 1 = 0 0,5 0,5 R 1 = 0 0 1 0,3 0,6 0,1 P 2 = 0,1 0,6 0,3 R 2 = 0,05 0,4 0,55 7 6 3 0 5 1 0 0-1 6 5-1 7 4 0 6 3-2 0,3 0,6 0,1 P 3 = 0 0,5 0,5 R 3 = 0 0 1 6 5-1 0 5 1 0 0-1 0,2 0,5 0,3 P 4 = 0,1 0,6 0,3 R 4 = 0 0 1 7 6 3 7 4 0 0 0-1 20

Metode Enumerasi Lengkap 0,2 0,5 0,3 P 5 = 0 0,5 0,5 R 5 = 0,05 0,4 0,55 0,3 0,6 0,1 P 6 = 0,1 0,6 0,3 R 6 = 0 0 1 0,3 0,6 0,1 P 7 = 0 0,5 0,5 R 7 = 0,05 0,4 0,55 7 6 3 0 5 1 6 3-2 6 5-1 7 4 0 0 0-1 6 5-1 0 5 1 6 3-2 0,2 0,5 0,3 P 8 = 0,1 0,6 0,3 R 8 = 0,05 0,4 0,55 7 6 3 7 4 0 6 3-2 Nilai-nilai v ik karena itu dapat dihitung seperti diberikan dalam tabel berikut ini: 21

Metode Enumerasi Lengkap s i = 1 i = 2 i = 3 1 5,3 3-1 2 4,7 3,,1 0,4 3 4,7 3-1 4 5,3 3,,1-1 5 5,3 3 0,4 6 4,7 3,,1-1 7 4,7 3 0,4 8 5,3 3,,1 0,4 Perhitungan dari probabilitas stasioner tersebut dicapai dengan menggunakan persamaan: π s P s = π s π 1 + π 2 + + π m = 1 22

Metode Enumerasi Lengkap Sebagai ilustrasi, pertimbangkan s = 2. Persamaan yang berkaitan adalah: 0,3π 1 + 0,1π 2 + 0,05π 3 = π 1 0,6π 1 + 0,6π 2 + 0,4π 3 = π 2 0,1π 1 + 0,3π 2 + 0,55π 3 = π 3 π 1 + π 2 + π 3 = 1 Berdasarkan hasil eliminasi dan substitusi didapatkan : π 12 = 6/59, π 22 = 31/59, π 32 = 22/ /59 Dalam kasus ini, pendapatan tahunan yang diperkirakan adalah: 3 2 2 2 E i vi i1 6x4, 7 31x31, 22 x0, 4 2, 256 Tabel berikut ini meringkaskan π k stasioner. 1 59 dan E k untuk semua kebijakan 23

Metode Enumerasi Lengkap s π 1 s 1 0 2 6/59 3 0 4 0 π s 2 π s 3 E s 0 1-1 31/59 22/59 2,256 0 1-1 0 1-1 5 5/154 69/154 80/154 1,724 6 0 0 1-1 7 5/137 62/137 70/137 1,734 8 12/135 69/135 54/135 2,216 Tabel terakhir ini menunjukkan bahwa kebijakan 2 menghasilkan pendapatan tahunan yang diperkirakan terbesar. Akibatnya, kebijakan jangka panjang optimum menyatakan penggunaan pupuk tanpa bergantung pada keadaan sistem. 24

Metode Iterasi Kebijakan Tanpa Diskonto Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani dengan 4 arah tindakan (bukan dua) ): tidak menggunakan pupuk, menggunakan pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan menggunakan pupuk tiga kali. Dalam kasus ini, petani tersebut secara keseluruhan memiliki 4 3 = 256 kebijakan stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan ini dapat sangat besar. Karena itu dikembangkan metode iterasi kebijakan sebagai berikut. Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang diperkirakan di tahap n dinyatakan dengan persamaan rekursif: fn m i v p f j, i i j 1 ij n 1 1,2,..., m Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita untuk mempelajari perilaku asimtut dari proses ini. 25

Metode Iterasi Kebijakan Tanpa Diskonto Pada intinya, kita mendefinisikan η sebagai jumlah tahap yang tersisa untuk dipertimbangkan. Ini adalah berbalikan dengan n dalam persamaan di atas, yang mendefinisikan tahap ke-n. Jadi, persamaan rekursif itu dapat ditulis: m f i vi pij f1 j, i 1,2,...,m j1 Catat bahwa f η adalah pendapatan kumulatif yang diperkirakan dengan diketahui η adalah jumlah tahap yang tersisa untuk dipertimbangkan. Dengan definisi baru ini, perilaku asimtut dari proses ini dapat diketahui dengan menganggap η. Dengan diketahui bahwa π = (π 1, π 2,, π m ) adalah vektor probabilitas steady state dari matriks transisi P = p ij dan E = π 1 v 1 + π 2 v 2 + π m v m adalah pendapatan yang diperkirakan per tahun seperti dihitung di bagian sebelumnya, dapat diperlihatkan bahwa untuk η yang sangat besar, f η (i) = ηe +f(i) 26

Metode Iterasi Kebijakan Tanpa Diskonto dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari f η (i) dengan diketahui keadaan i. Karena f η (i) adalah pengembalian optimum kumulatif untuk η tahap dengan diketahui keadaan i dan E adalah pengembaliann yang diperkirakan per tahap, kita dapat secara intuitif melihat mengapa f η (i) sama dengan ηe ditambah faktor koreksi f(i) yang memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa η sang besar. Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis: E f i m Dengan menyederhanakan persamaan di atas, kita memperoleh: E f i vi pij 1 E f j, i 1, 2,...,m v i i1 m i1 p ij.. 1 E f j, i 1, 2,...,m yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana variabel yang tidak diketahui itu adalah f(1), f(2),, f(m), dan E. 27

Metode Iterasi Kebijakan Tanpa Diskonto Tujuan akhir adalah menentukan kebijakan optimum yang menghasilkan nilai E maksimum. Karena terdapat m persamaan dengan m+1 variabel yang tidak diketahui, nilai E optimum tidak dapat ditentukan dalam satu langkah. Sebaliknya, suatu pendekatan iteratif dimanfaatkan yang, dengan memulai di satu kebijakan secara sembarang, lalu akan menentukan suatu kebijakan baru yang menghasilkan nilai E yang lebih baik. Proses iteratif tersebut berakhir ketika dua kebijakan yang berturut- turut adalah identik. Proses iteratif ini terdiri dari dua komponen dasar, yang disebut langkah penentuan nilai (value determination) dan langkah perbaikan kebijakan (policy improvement). 1. Langkah penentuan nilai. Pilihlah satu kebijakan s secara sembarang. Gunakan matriks P s dan R s yang berkaitan dan secara sembarang asumsikan bahwa f s (m) = 0, pecahkan persamaan E s v s i m j 1 p ij s f s j f s i, i 1,2,..., m ( b.1) dengan variabel yang tidak diketahui E s, f s (1),, dan f s (m-1). Lanjutkan ke tahap perbaikan kebijakan. 28

Metode Iterasi Kebijakan Tanpa Diskonto 2. Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang menghasilkan: m k k maxvi pij f s j, i 1, 2,..., m k j1 [Nilai-nilai f s (j), j = 1, 2,, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan nilai.] Keputusan optimum yang dihasilkan k untuk keadaan 1, 2,, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan = t dan kembali ke langkah penentuan nilai. Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita dalam langkah ini adalah memperoleh max{e}. Seperti diketahui: E v i m j1 p ij f j f i 29

Metode Iterasi Kebijakan Tanpa Diskonto Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah perbaikan kebijakan. Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan. Iterasi 1 Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk. Matriks yang berkaitan adalah: Persamaan dalam langkah iterasi nilai adalah: E + f(1) 0,2f(1) 0,5f(2) 0,3f(3) = 5,3 E + f(2) - 0,5f(2) 0,5f(3) = 3 E + f(3) - f(3) = -1 0,2 0,5 0,3 7 6 3 P = 0 0,5 0,5 R = 0 5 1 0 0 1 0 0-1 Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut menghasilkan pemecahan: E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0 30

Metode Iterasi Kebijakan Tanpa Diskonto Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan diperlihatkan dalam tabel berikut ini. Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan. Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembal dilakukan. Iterasi 2 i k=1 1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 2 3,0+0x12,88+0,5x8+0,5x0 = 7 v ik + p i1k f(1) + p i2k f(2) + p i3k f(3) Pemecahan optimal 3-1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 2 Matriks yang berkaitan dengan kebijakan baru ini adalah: 0,3 0,6 0,1 6 5-1 P = 0,1 0,6 0,3 R = 7 4 0 0,05 0,4 0,55 6 3-2 Matriks ini menghasilkan persamaan-persamaan berikut: k=2 f(i) k* 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 2 E + f(1) 0,3f(1) 0,6f(2) 0,1f(3) = 4,7 TIA 310 31

Metode Iterasi Kebijakan Tanpa Diskonto E + f(2) 0,1f(1) 0,6f(2) 0,3f(3) = 3,1 E + f(3) 0,05f(1) 0,4f(2) 0,55f(3) = 0,4 Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan: E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0 Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini: v ik + p i1k f(1) + p i2k f(2) + p i3k f(3) Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 8,54 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2 2 3,0+0x6,75+0,5x3,79+0,5x0 = 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 6,05 2 3-1,0+0x6,75+0x3,79+1x0 = -1 0,4+ +0,05x6,75+0,4x3,79+0,55x0 = 2,25 2,25 2 Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap. 32

Metode Iterasi Kebijakan Dengan Diskonto Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap terhingga dapat ditulis sebagai: f i m k k maxvi pij k j1 f 1 (Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui). j Dapat dibuktikan bahwa sementara η (model tahap tak hingga), f η (i) = f(i), dengan f(i) adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari f η (i) sementara η tidak bergantung dari nilai η. Ini berlawanan dengan kasus tanpa diskonto, di mana f η (i) = ηe + f(i), seperti disebutkan di atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara η. 33

Metode Iterasi Kebijakan Dengan Diskonto Langkah kebijakan iterasi dimodifikasi sebagai berikut. 1. Langkah penentuan nilai. Untuk sebuah kebijakan sembarang s dengan matriks P s dan R s, pecahkan m persamaan: f s i v s i m j 1 p ij s f s j, i 1,2,..., m ( b.2 ) dalam m nilai yang tidak diketahui f s (1), f s (2),, f s (m). (Catat bahwa di sini terdapat m persamaan dengan tepat m variabel yang tidak diketahui) 2. Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan alternatif k yang menghasilkan m k k max vi pij f 1 j, i 1, 2,..., m k j 1 di mana f s (j) adalah nilai-nilai yang diperoleh dari langkah penentuan nilai. Jika kebijakan yang dihasilkan t adalah sama dengan s, berhenti; t optimum. Jika tidak sama, tetapkan s = t dan kembali ke langkah penentuan nilai 34

Metode Iterasi Kebijakan Dengan Diskonto Contoh: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6 Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P 1 dan R 1 dalam contoh terdahulu) menghasilkan persamaan: f(1) 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3 f(2) 0,6[ 0,5f(2) + 0,5f(3)] = 3 f(3) 0,6[ f(3)] = -1 Pemecahan dari persamaan-persamaann ini menghasilkan: f(1) = 6,6, f(2) = 3,21, f(3) = -2,5 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: v ik + 0,6[p i1k f(1) + p i2k f(2) + p i3k f(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+ +0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2 2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+ +0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 2 3-1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54 2 35

Metode Iterasi Kebijakan Dengan Diskonto Langkah penentuan nilai yang menggunakan P 2 dan R 2 dalam contoh sebelumnya menghasilkan persamaan-persamaan berikut: f(1) 0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,,7 f(2) 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1 f(3) 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4 Pemecahan dari persamaan-persamaan ini menghasilkan: f(1) = 8,88, f(2) = 6,62, f(3) = 3,57 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: v ik + 0,6[p i1k f(1) + p i2k f( (2) + p i3k f(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 8,95 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 8,95 1 2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 5,99 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 6,62 2 3-1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37 3,37 2 36

Metode Iterasi Kebijakan Dengan Diskonto Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah penentuan nilai dimasuki kembali dengan menggunakan P 8 dan R 8 dalam conto sebelumnya menghasilkan persamaan-persamaan berikut: f(1) 0,6[0,2f(1) + 0,5f(2) + 0,3f(3) )] = 5,3 f(2) 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1 f(3) 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4 Pemecahan dari persamaan-persamaan ini menghasilkan: f(1) = 8,98, f(2) = 6,63, f(3) = 3,38 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: v ik + 0,6[p i1k f(1) + p i2 f(2) + p i3k f(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 1 2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 2 3-1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 3,37 2 37

Metode Iterasi Kebijakan Dengan Diskonto Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1). 38

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Masalah keputusan Markov tahap tak hingga, baik dengan maupun tanpa diskonto, dapat dirumuskan dan dipecahkan sebagai sebuah program linear. Masalah Keputusan Markov tanpa diskonto. Di bagian seblumhya, sudah diperlihatkan bahwa masalah Markov tahap tak hingga tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan kebijakan optimal s*, yang bersesuaian dengan: m s s s s s s s s s max i vi P, 1 2... m 1, i 0, i 1, 2,..., m ss i1 dengan S adalah kumpulan dari semua kebijakan yang mungkin dalam masalah itu. Batasan dari masalah ini memastikan bahwa π is, i = 1, 2,, m mewakili probabilitas steady-state dari rantai Markov P s. Secara spesifik, setiap kebijakan s dinyatakan dengan sekelompok tindakan yang tetap (stasioner). Kita harus memodifikasi variabel yang tidak diketahui dari masalah ini sedemikian rupa sehingga pemecahan optimal akan secara otomatis menentukan tindakan optimal k ketika sistem tersebut berada dalam keadaan i. Kumpulan dari semua tindakan optimal ini lalu akan mendefinisikan s*, kebijakan optimal. 39

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Tujuan ini dicapai sebagai berikut. Anggaplah q ik = probabilitas kondisional dari memilih alternatif k dengan diketahui sistem tersebut berada dalam keadaan i Jadi, masalah ini dapat diekspresikan sebagai maksimumka n dengan batasan m j i pij, j 1, 2,..., m i 1 1 2... m 1 1 2 K qi qi... qi 1, i 1, 2,..., m k i 0, qi 0, i dan k E m K i i1 k 1 q k i v k i Catat bahwa p ij adalah fungsi dari kebijakan yang dipilih dan karena itu merupakan fungsi dari alternatif spesifik k dari kebijakan tersebut. 40

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Masalah ini dapat dikonversikan menjadi sebuah program linear dengan membuat substitusi yang tepat yang melibatkan q ik. Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya jika q ik = 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi jumlah menjadi v ik, di mana k* adalah alternatif optimal yang dipilih. Untungnya, program linear yang kita kembangkan di sini memperhitungkan kondisi ini secara otomatis. Definisikan w ik = π i q ik, untuk semua i dan k Berdasarkan definisinya, w ik mewakili probabilitas gabungan untuk berada dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita mengetahui bahwa: i K k 1 w ik K k k q i vi k 1 41

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Karena itu q k i K w k 1 ik w ik Jadi kita melihat bahwa batasan m i 1 i 1 dapat ditulis sebagai m K i 1 k 1 w ik 1 K k 1 k q i Juga batasan secara otomatis tersirat berdasarkan cara kita mendefinisikan q k i dalam bentuk w ik. Jadi masalah ini dapat ditulis sebagai 1 maksimumka n E m K i i1 k 1 q k i v k i 42

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov dengan batasan m m K w p k jk ij w ik i 1 i 1 k 1 m K wik 1 i 1 k 1 w ik 0, i 1, 2,..., m ; k 0, j 1, 2,..., K 1, 2,..., m Model yang dihasilkan ini merupakan sebuah program linear dalam w ik. Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi q ik = 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini memeliki m persamaan independen (satu persamaan yang berkaitan dengan π = πp adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar. Tetapi, dapat diperlihatkan bahwa w ik harus positif secara ketat untuk setidaknya satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa: k q i TIA 310 K w k 1 ik w ik 43

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif yang bersesuaian dengan w ik >0) K i w 1 k Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto: maksimumkan E = 5,3w 11 + 4,7w 12 + 3w 21 + 3,1w 22 w 31 + 0,4w 32 dengan batasan w 11 + w 12 (0,2w 11 + 0,3w 12 + 0,1w 22 + 0,05w 32 ) = 0 w 21 + w 22 (0,5w 11 + 0,6w 12 + 0,5w 21 + 0,6w 22 + 0,4w 32 ) = 0 w 31 + w 32 (0,3w 11 + 0,1w 12 + 0,5w 21 + 0,3w 22 + w 31 + 0,55w 32 ) = 0 w 11 + w 12 + w 21 + w 22 + w 31 + w 32 = 1 w ik 0, untuk semua i dan k Pemecahan optimalnya adalah w 11 = w 12 = w 31 = 0 dan w 12 = 6/59, w 22 = 31/59, dan w 32 = 22/59. Hasil ini berarti bahwa q 12 = q 2 2 = q 32 = 1. Jadi, kebijakan optimal menyatakan dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256. ik * wik TIA 310 44

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Adalah menarik bahwa nilai-nilai positif dari w ik tepat setara dengan nilai-nilai π i yang berkaitan dengan kebijakan optimal dalam prosedur enumerasi lengkap. Observasi ini menunjukkan hubungan langsung di antara kedua metode pemecahan ini. Masalah Keputusan Markov dengan diskonto. Masalah ini diekspresikan dengan persamaan rekursif f k k i max v p f j, i 1, 2,..., m k i Persamaan ini adalah setara dengan f m dengan ketentuan bahwa f(i) mencapai nilai minimum untuk setiap i. Sekarang pertimbangkan fungsi tujuan m j1 ij k k i v p f j, i dan k i j1 ij min imumkan m i1 b i f i 45

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov dengan b i (> 0 untuk semua i) adalah sebuah konstanta sembarang. Dapat diperlihatkan bahwa optimisasi dari fungsi ini dengan dikenakan pertidaksamaan yang diberikan akan menghasilkan nilai minimum dari f(i), seperti yang diinginkan. Jadi masalah ini dapat ditulis sebagai m min imumkan b f i i1 i dengan batasan i m k pij j1 f(i) tidak dibatasi, i = 1, 2,, m. f Sekarang, masalah dual dari masalah ini adalah f j v k i, i dan k 46

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov maksimumkan m K i1 k 1 k v i w ik dengan batasan K m K k w jk pij wik b j, j 1, 2,...,m k 1 i1 k 1 w ik 0, untuk i = 1, 2,, m; k = 1,2,, K Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti kasus tanpa diskonto, sehingga w ik dapat diinterpretasikan dengan cara serupa. Contoh: Contoh petani tadi dengan faktor diskonto α = 0,6. Jika kita menganggap b 1 = b 2 = b 3 = 1, masalah dual dari LP ini dapat ditulis sebagai TIA 310 47

Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov maksimumkan 5,3w 11 + 4,7w 12 + 3w 21 + 3,1w 22 w 31 + 0,4w 32 dengan batasan w 11 + w 12 0,6[0,2w 11 + 0,3w 12 + 0,1w 22 + 0,05w 32 ] = 1 w 21 + w 22 0,6[0,5w 11 + 0,6w 12 + 0,5w 21 + 0,6w 22 + 0,4w 32 ] = 1 w 31 + w 32 0,6[0,3w 11 +0,1w 12 +0,5w 21 + 0,3w 22 + w 31 + 0,55w 32 ] = 1 w ik 0, untuk semua i dan k Pemecahan optimalnya adalah w 12 = w 21 = w 31 = 0 dan w 11 = 1,5678, w 22 = 3,3528, dan w 32 = 2,8145. Pemecahan ini memperlihatkan bahwa pemecahan optimal adalah {1,2,2}, seperti yang diperoleh pada contoh terdahulu.. 48