Eye Movements for Reward Maximization

Nathan Sprague Dana Ballard

Computer Science Department Computer Science Department

University Of Rochester University of Rochester

Rochester, NY 14627 Rochester, NY 14627

sprague@cs.rochester.edu dana@cs.rochester.edu

Reviewer Denny Anggara

Abstrak

Studi pelacakan mata terbaru dalam tugas-tugas alami menunjukkan bahwa ada hubungan erat antara gerakan mata dan tindakan motor yang diarahkan pada tujuan. Namun, sebagian besar model gerakan mata manusia yang ada saat ini menyediakan akun bottom up yang menghubungkan perhatian visual dengan atribut adegan visual. Tujuan makalah ini adalah untuk memperkenalkan model baru gerakan mata manusia yang secara langsung menghubungkan gerakan mata dengan tuntutan perilaku yang sedang berlangsung. Ide dasarnya adalah bahwa gerakan mata berfungsi untuk mengurangi ketidakpastian tentang variabel lingkungan yang relevan dengan tugas. Nilai ditetapkan untuk gerakan mata dengan memperkirakan biaya yang diharapkan dari ketidakpastian yang akan dihasilkan jika gerakan tidak dibuat. Jika ada beberapa gerakan mata kandidat, yang dengan nilai harapan tertinggi dipilih. Model ini diilustrasikan menggunakan gambar grafis humanoid yang menavigasi di trotoar di lingkungan perkotaan virtual. Simulasi menunjukkan protokol kami lebih unggul daripada mekanisme penjadwalan round robin yang sederhana.

1. Introduction

Makalah ini memperkenalkan kerangka kerja baru untuk memahami penjadwalan gerakan mata manusia. Mata manusia ditandai oleh fovea kecil, resolusi tinggi. Pentingnya visi foveal berarti bahwa gerakan mata balistik cepat yang disebut saccade dibuat dengan laju sekitar tiga per detik untuk mengarahkan pandangan ke bidang yang relevan dari bidang visual. Karena lokasi fovea memberikan petunjuk yang kuat untuk informasi apa yang diproses oleh sistem visual, memahami penjadwalan dan penargetan gerakan mata adalah kunci untuk memahami organisasi penglihatan manusia.

Salah satu cara yang jelas untuk memodelkan pemilihan gerakan mata adalah dengan menggunakan strategi pembelajaran penguatan secara langsung. Namun, algoritma pembelajaran penguatan standar sangat cocok untuk menangani tindakan yang memiliki konsekuensi langsung untuk suatu tugas. Tindakan seperti gerakan mata lebih sulit untuk dimasukkan ke dalam kerangka pembelajaran penguatan karena mereka memiliki konsekuensi tidak langsung: mereka tidak mengubah keadaan lingkungan; mereka hanya berfungsi untuk mendapatkan informasi. Kami menunjukkan cara mengatasi kesulitan ini sambil mempertahankan gagasan memaksimalkan pahala dalam penjadwalan gerakan mata. Ide dasarnya adalah bahwa gerakan mata berfungsi untuk mengurangi ketidakpastian tentang variabel lingkungan yang relevan dengan perilaku. Nilai ditetapkan untuk gerakan mata dengan memperkirakan biaya yang diharapkan dari ketidakpastian yang akan dihasilkan jika gerakan tidak dibuat. Jika ada beberapa gerakan mata kandidat, yang memiliki potensi kerugian tertinggi dipilih.

Kami mendemonstrasikan ide-ide ini melalui contoh manusia virtual yang menavigasi melalui lingkungan yang diberikan. Agen dihadapkan dengan beberapa tujuan bersamaan termasuk berjalan di sepanjang trotoar, mengambil sampah, dan menghindari rintangan. Dia harus menjadwalkan simulasi gerakan mata untuk memaksimalkan ganjarannya di set tujuan. Kami memodelkan gerakan mata sebagai tindakan sensorik abstrak yang berfungsi untuk mengambil tugas informasi yang relevan dari lingkungan. Fokus kami adalah pada penjadwalan temporal; kami tidak peduli dengan penargetan spasial gerakan mata. Tujuan makalah ini adalah untuk menyusun kembali pertanyaan tentang bagaimana gerakan mata dijadwalkan, dan untuk mengusulkan jawaban yang mungkin. Percobaan pada manusia nyata akan diperlukan untuk menentukan apakah model ini secara akurat menggambarkan perilaku manusia.

2. Learning Visually Guided Behaviors

Model kontrol visual kami dibangun di sekitar konsep perilaku visual. Di sini kita meminjam penggunaan perilaku dari komunitas robotika untuk merujuk ke modul kontrol sensorik aksi yang bertanggung jawab untuk menangani satu tujuan yang didefinisikan secara sempit. Keuntungan utama dari pendekatan berbasis perilaku adalah komposisionalitas: masalah kontrol yang kompleks dapat diselesaikan dengan sekuensing dan menggabungkan perilaku sederhana. Untuk tujuan pemodelan kinerja manusia, diasumsikan bahwa setiap perilaku memiliki kemampuan untuk mengarahkan mata, melakukan pemrosesan visual yang tepat untuk mengambil informasi yang diperlukan untuk kinerja tugas perilaku, dan memilih tindakan yang sesuai.

Ada sejumlah algoritma untuk mempelajari Q (s; a) [8, 9] yang paling sederhana adalah mengambil tindakan acak di lingkungan dan menggunakan aturan pembaruan Q-learning:

Berikut ini adalah parameter tingkat pembelajaran, dan merupakan istilah yang menentukan berapa banyak diskon untuk hadiah di masa mendatang. Selama setiap pasangan tindakan-negara sering dikunjungi dalam batas, aturan pembaruan ini dijamin akan menyatu dengan fungsi nilai optimal.

Manfaat mengetahui fungsi nilai untuk setiap perilaku adalah bahwa nilai-Q dapat digunakan untuk menangani masalah arbitrase. Di sini kita mengasumsikan bahwa perilaku berbagi ruang aksi. Untuk memilih tindakan kompromi, diasumsikan bahwa fungsi Q untuk tugas gabungan kira-kira sama dengan penjumlahan fungsi Q untuk tugas komponen:

Interaksi dunia nyata bahwa model ini dimaksudkan untuk mengatasi paling baik diekspresikan melalui variabel status kontinu daripada diskrit. Dasar-dasar teoritis dari pembelajaran penguatan nilai berdasarkan kontinu tidak begitu mantap seperti untuk kasus negara diskrit. Namun hasil empiris menunjukkan bahwa hasil yang baik dapat diperoleh dengan menggunakan fungsi approximator seperti CMAC bersama dengan Sarsa (0).

3. A Composite Task: Sidewalk Navigation

Komponen dari tugas navigasi trotoar adalah tetap berada di trotoar, menghindari rintangan, dan mengambil sampah. Ini dipilih sebagai contoh yang baik dari tugas dengan banyak tujuan dan tuntutan yang saling bertentangan.

Masing-masing dari tiga perilaku memiliki ruang keadaan dua dimensi. Untuk menghindari rintangan ruang keadaan terdiri dari jarak dan sudut, relatif terhadap agen, ke rintangan terdekat. Perilaku pengumpulan sampah menggunakan parameterisasi yang sama untuk item sampah terdekat. Untuk perilaku mengikuti trotoar ruang keadaan adalah sudut garis tengah trotoar relatif terhadap agen, serta jarak yang ditanda tangani ke pusat trotoar, di mana nilai-nilai positif menunjukkan bahwa agen berada di sebelah kiri pusat, dan nilai negatif menunjukkan bahwa agennya ada di kanan. Semua perilaku menggunakan log jarak untuk

Gambar 1: Nilai-Q dan kebijakan untuk ketiga perilaku tersebut. Angka a) -c) ditampilkan
max a Q (s; a) untuk tiga perilaku: a) penghindaran rintangan, b) trotoar berikut dan c) pengumpulan sampah. Angka d) -f) menunjukkan kebijakan terkait untuk ketiga perilaku tersebut. Daerah kosong menunjukkan area yang tidak cukup sering terlihat selama pelatihan untuk menghitung nilai yang dapat diandalkan.

Perilaku menggunakan rutinitas sensorik sederhana untuk mengambil informasi negara yang relevan dari lingkungan. perilaku penelusuran trotoar untuk piksel di perbatasan trotoar dan rumput, dan menemukan garis yang paling menonjol menggunakan transformasi hough. Rutin pengumpulan sampah menggunakan pencocokan berdasarkan warna untuk menemukan lokasi item sampah. Rutinitas penghindaran hambatan mengacu pada model dunia secara langsung untuk menghitung peta kedalaman kasar dari area di depan, dan dari itu mengekstrak posisi rintangan terdekat.

4. Eye Movements and Internal Models

Diskusi di atas mengasumsikan bahwa MDP memiliki informasi negara yang sempurna. Untuk memodelkan kapasitas sensorik terbatas, asumsi ini harus dilemahkan. Tanpa informasi yang sempurna, tugas komponen paling akurat digambarkan sebagai MDP yang dapat diamati sebagian.

Penting untuk mengetahui bahwa prosedur yang diuraikan di atas untuk memilih tindakan dan mengalokasikan persepsi hanya perkiraan. Karena Q-tabel dilatih di bawah asumsi informasi negara yang sempurna, mereka akan agak tidak akurat dalam kondisi observasi parsial. Perhatikan juga bahwa perilaku sebenarnya menggunakan beberapa filter Kalman. Misalnya jika perilaku penghindaran hambatan melihat dua kendala, maka akan menginisialisasi filter untuk masing-masing. Namun, hanya objek terdekat yang digunakan untuk menentukan keadaan untuk tujuan pemilihan tindakan dan penjadwalan gerakan mata.

Gambar 2: a) Tampilan overhead agen virtual selama tujuh langkah waktu dari tugas navigasi trotoar. dua kubus yang lebih gelap adalah rintangan, dan kubus yang lebih terang adalah serasah. Sinar yang diproyeksikan dari agen mewakili gerakan mata; sinar abu-abu sesuai dengan penghindaran rintangan, sinar hitam sesuai dengan trotoar berikut, dan putih sesuai dengan koleksi sampah. b) Taksir estimasi selama tujuh langkah waktu yang sama. Baris atas menunjukkan perkiraan agen dari lokasi hambatan. Sumbu-sumbu di sini sama dengan yang disajikan pada Gambar 1. Daerah-daerah abu-abu terang sesuai dengan 90% batas kepercayaan sebelum persepsi apa pun terjadi. Saat ini, daerah hitam sesuai dengan batas kepercayaan 90% setelah gerakan mata telah dilakukan. Baris kedua dan ketiga menunjukkan informasi yang sesuai untuk tugas pengumpulan sampah dan trotoar berikut.

5. Result

Untuk menguji keefektifan dari pendekatan minimalisasi kerugian, kami membandingkannya dengan dua mekanisme penjadwalan alternatif: round robin, yang secara berurutan berputar melalui tiga perilaku, dan acak, yang membuat pemilihan acak seragam pada setiap langkah waktu. Robin kecil mungkin diharapkan dapat bekerja dengan baik dalam tugas ini, karena optimal dalam hal meminimalkan waktu tunggu yang lama di ketiga perilaku tersebut.

Ketiga strategi tersebut dibandingkan dalam tiga kondisi yang berbeda. Dalam kondisi default, tepat satu perilaku diberikan akses ke persepsi pada setiap langkah waktu. Dua kondisi lainnya menyelidiki kinerja sistem di bawah peningkatan beban perseptual. Selama uji coba ini, 33% atau 66% langkah dipilih secara acak untuk tidak memiliki tindakan persepsi sama sekali.

Untuk kondisi default, rata-rata hadiah per langkah adalah 0,034 lebih tinggi untuk penjadwalan minimisasi kerugian daripada untuk penjadwalan round robin. Dua faktor membuat perbedaan ini lebih penting daripada yang pertama kali muncul. Yang pertama adalah skala hadiah untuk tugas ini tidak dimulai dari nol: ketika mengambil tindakan acak sepenuhnya, agen menerima rata-rata 4,06 unit hadiah per langkah. Oleh karena itu keuntungan dari pendekatan minimisasi kerugian adalah 3,6% penuh atas round robin, relatif terhadap kinerja awal.

Faktor kedua yang perlu dipertimbangkan adalah banyaknya gerakan mata yang dilakukan manusia selama satu hari: perkiraan konservatif adalah 150.000. Manfaat rata-rata dari penjadwalan yang tepat pada gerakan mata tunggal mungkin kecil, tetapi manfaat kumulatifnya sangat besar. Untuk

Gambar 3: Perbandingan penjadwalan loss minimization dengan round robin dan strategi acak. Untuk setiap kondisi agen diuji untuk 500 uji coba yang berlangsung 20 detik masing-masing. Dalam 33% dan 66% kondisi persentase gerakan mata yang sesuai secara acak diblokir, dan tidak ada input sensorik yang diizinkan. Bar kesalahan mewakili interval kepercayaan 95%. Garis putus-putus pada 5,037 menunjukkan hadiah rata-rata yang diterima ketika ketiga perilaku diberikan akses ke persepsi pada setiap langkah waktu. Ini bisa dilihat sebagai peningkatan atas hadiah yang mungkin membuat titik ini lebih konkrit, perhatikan bahwa selama satu jam navigasi trotoar, agen akan kehilangan sekitar 370 unit hadiah jika dia menggunakan round robin daripada pendekatan minimisasi kerugian. Dalam mata uang hadiah ini sama dengan 92 tabrakan tambahan dengan rintangan, 184 sampah yang terlewatkan, atau dua menit tambahan dikeluarkan dari trotoar.

Welcome to My Blog!

Search This Blog

Eye Movements for Reward Maximization

Popular posts from this blog

IoT-based Smart Grid System Design for Smart Home

Monitoring Jaringan

Delete Temporary Files Windows 10 Version 21H1