Nathan Sprague Dana Ballard
Computer Science
Department Computer Science
Department
University Of
Rochester University of Rochester
Rochester, NY
14627 Rochester, NY 14627
Reviewer Denny Anggara
Abstrak
Studi
pelacakan mata terbaru dalam tugas-tugas alami menunjukkan bahwa ada hubungan
erat antara gerakan mata dan tindakan motor yang diarahkan pada tujuan. Namun,
sebagian besar model gerakan mata manusia yang ada saat ini menyediakan akun
bottom up yang menghubungkan perhatian visual dengan atribut adegan visual.
Tujuan makalah ini adalah untuk memperkenalkan model baru gerakan mata manusia
yang secara langsung menghubungkan gerakan mata dengan tuntutan perilaku yang
sedang berlangsung. Ide dasarnya adalah bahwa gerakan mata berfungsi untuk
mengurangi ketidakpastian tentang variabel lingkungan yang relevan dengan
tugas. Nilai ditetapkan untuk gerakan mata dengan memperkirakan biaya yang
diharapkan dari ketidakpastian yang akan dihasilkan jika gerakan tidak dibuat.
Jika ada beberapa gerakan mata kandidat, yang dengan nilai harapan tertinggi dipilih.
Model ini diilustrasikan menggunakan gambar grafis humanoid yang menavigasi di
trotoar di lingkungan perkotaan virtual. Simulasi menunjukkan protokol kami
lebih unggul daripada mekanisme penjadwalan round robin yang sederhana.
1. Introduction
Makalah
ini memperkenalkan kerangka kerja baru untuk memahami penjadwalan gerakan mata
manusia. Mata manusia ditandai oleh fovea kecil, resolusi tinggi. Pentingnya
visi foveal berarti bahwa gerakan mata balistik cepat yang disebut saccade
dibuat dengan laju sekitar tiga per detik untuk mengarahkan pandangan ke bidang
yang relevan dari bidang visual. Karena lokasi fovea memberikan petunjuk yang
kuat untuk informasi apa yang diproses oleh sistem visual, memahami penjadwalan
dan penargetan gerakan mata adalah kunci untuk memahami organisasi penglihatan
manusia.
Salah
satu cara yang jelas untuk memodelkan pemilihan gerakan mata adalah dengan
menggunakan strategi pembelajaran penguatan secara langsung. Namun, algoritma
pembelajaran penguatan standar sangat cocok untuk menangani tindakan yang
memiliki konsekuensi langsung untuk suatu tugas. Tindakan seperti gerakan mata
lebih sulit untuk dimasukkan ke dalam kerangka pembelajaran penguatan karena
mereka memiliki konsekuensi tidak langsung: mereka tidak mengubah keadaan
lingkungan; mereka hanya berfungsi untuk mendapatkan informasi. Kami
menunjukkan cara mengatasi kesulitan ini sambil mempertahankan gagasan
memaksimalkan pahala dalam penjadwalan gerakan mata. Ide dasarnya adalah bahwa
gerakan mata berfungsi untuk mengurangi ketidakpastian tentang variabel
lingkungan yang relevan dengan perilaku. Nilai ditetapkan untuk gerakan mata
dengan memperkirakan biaya yang diharapkan dari ketidakpastian yang akan
dihasilkan jika gerakan tidak dibuat. Jika ada beberapa gerakan mata kandidat,
yang memiliki potensi kerugian tertinggi dipilih.
Kami
mendemonstrasikan ide-ide ini melalui contoh manusia virtual yang menavigasi
melalui lingkungan yang diberikan. Agen dihadapkan dengan beberapa tujuan
bersamaan termasuk berjalan di sepanjang trotoar, mengambil sampah, dan
menghindari rintangan. Dia harus menjadwalkan simulasi gerakan mata untuk
memaksimalkan ganjarannya di set tujuan. Kami memodelkan gerakan mata sebagai
tindakan sensorik abstrak yang berfungsi untuk mengambil tugas informasi yang
relevan dari lingkungan. Fokus kami adalah pada penjadwalan temporal; kami
tidak peduli dengan penargetan spasial gerakan mata. Tujuan makalah ini adalah
untuk menyusun kembali pertanyaan tentang bagaimana gerakan mata dijadwalkan,
dan untuk mengusulkan jawaban yang mungkin. Percobaan pada manusia nyata akan
diperlukan untuk menentukan apakah model ini secara akurat menggambarkan
perilaku manusia.
2. Learning Visually Guided Behaviors
Model
kontrol visual kami dibangun di sekitar konsep perilaku visual. Di sini kita
meminjam penggunaan perilaku dari komunitas robotika untuk merujuk ke modul
kontrol sensorik aksi yang bertanggung jawab untuk menangani satu tujuan yang
didefinisikan secara sempit. Keuntungan utama dari pendekatan berbasis perilaku
adalah komposisionalitas: masalah kontrol yang kompleks dapat diselesaikan
dengan sekuensing dan menggabungkan perilaku sederhana. Untuk tujuan pemodelan
kinerja manusia, diasumsikan bahwa setiap perilaku memiliki kemampuan untuk mengarahkan
mata, melakukan pemrosesan visual yang tepat untuk mengambil informasi yang
diperlukan untuk kinerja tugas perilaku, dan memilih tindakan yang sesuai.
Ada
sejumlah algoritma untuk mempelajari Q (s; a) [8, 9] yang paling sederhana
adalah mengambil tindakan acak di lingkungan dan menggunakan aturan pembaruan
Q-learning:
Berikut
ini adalah parameter tingkat pembelajaran, dan merupakan istilah yang
menentukan berapa banyak diskon untuk hadiah di masa mendatang. Selama setiap
pasangan tindakan-negara sering dikunjungi dalam batas, aturan pembaruan ini
dijamin akan menyatu dengan fungsi nilai optimal.
Manfaat
mengetahui fungsi nilai untuk setiap perilaku adalah bahwa nilai-Q dapat
digunakan untuk menangani masalah arbitrase. Di sini kita mengasumsikan bahwa
perilaku berbagi ruang aksi. Untuk memilih tindakan kompromi, diasumsikan bahwa
fungsi Q untuk tugas gabungan kira-kira sama dengan penjumlahan fungsi Q untuk
tugas komponen:
Interaksi
dunia nyata bahwa model ini dimaksudkan untuk mengatasi paling baik
diekspresikan melalui variabel status kontinu daripada diskrit. Dasar-dasar
teoritis dari pembelajaran penguatan nilai berdasarkan kontinu tidak begitu
mantap seperti untuk kasus negara diskrit. Namun hasil empiris menunjukkan
bahwa hasil yang baik dapat diperoleh dengan menggunakan fungsi approximator
seperti CMAC bersama dengan Sarsa (0).
3. A Composite Task: Sidewalk Navigation
Komponen
dari tugas navigasi trotoar adalah tetap berada di trotoar, menghindari
rintangan, dan mengambil sampah. Ini dipilih sebagai contoh yang baik dari
tugas dengan banyak tujuan dan tuntutan yang saling bertentangan.
Masing-masing
dari tiga perilaku memiliki ruang keadaan dua dimensi. Untuk menghindari
rintangan ruang keadaan terdiri dari jarak dan sudut, relatif terhadap agen, ke
rintangan terdekat. Perilaku pengumpulan sampah menggunakan parameterisasi yang
sama untuk item sampah terdekat. Untuk perilaku mengikuti trotoar ruang keadaan
adalah sudut garis tengah trotoar relatif terhadap agen, serta jarak yang
ditanda tangani ke pusat trotoar, di mana nilai-nilai positif menunjukkan bahwa
agen berada di sebelah kiri pusat, dan nilai negatif menunjukkan bahwa agennya
ada di kanan. Semua perilaku menggunakan log jarak untuk
Gambar
1: Nilai-Q dan kebijakan untuk ketiga perilaku tersebut. Angka a) -c)
ditampilkan
max a Q (s; a) untuk tiga perilaku: a) penghindaran rintangan, b) trotoar berikut dan c) pengumpulan sampah. Angka d) -f) menunjukkan kebijakan terkait untuk ketiga perilaku tersebut. Daerah kosong menunjukkan area yang tidak cukup sering terlihat selama pelatihan untuk menghitung nilai yang dapat diandalkan.
max a Q (s; a) untuk tiga perilaku: a) penghindaran rintangan, b) trotoar berikut dan c) pengumpulan sampah. Angka d) -f) menunjukkan kebijakan terkait untuk ketiga perilaku tersebut. Daerah kosong menunjukkan area yang tidak cukup sering terlihat selama pelatihan untuk menghitung nilai yang dapat diandalkan.
Perilaku
menggunakan rutinitas sensorik sederhana untuk mengambil informasi negara yang
relevan dari lingkungan. perilaku penelusuran trotoar untuk piksel di perbatasan
trotoar dan rumput, dan menemukan garis yang paling menonjol menggunakan
transformasi hough. Rutin pengumpulan sampah menggunakan pencocokan berdasarkan
warna untuk menemukan lokasi item sampah. Rutinitas penghindaran hambatan
mengacu pada model dunia secara langsung untuk menghitung peta kedalaman kasar
dari area di depan, dan dari itu mengekstrak posisi rintangan terdekat.
4. Eye Movements and Internal Models
Diskusi
di atas mengasumsikan bahwa MDP memiliki informasi negara yang sempurna. Untuk
memodelkan kapasitas sensorik terbatas, asumsi ini harus dilemahkan. Tanpa
informasi yang sempurna, tugas komponen paling akurat digambarkan sebagai MDP
yang dapat diamati sebagian.
Penting
untuk mengetahui bahwa prosedur yang diuraikan di atas untuk memilih tindakan
dan mengalokasikan persepsi hanya perkiraan. Karena Q-tabel dilatih di bawah
asumsi informasi negara yang sempurna, mereka akan agak tidak akurat dalam
kondisi observasi parsial. Perhatikan juga bahwa perilaku sebenarnya
menggunakan beberapa filter Kalman. Misalnya jika perilaku penghindaran
hambatan melihat dua kendala, maka akan menginisialisasi filter untuk
masing-masing. Namun, hanya objek terdekat yang digunakan untuk menentukan
keadaan untuk tujuan pemilihan tindakan dan penjadwalan gerakan mata.
Gambar 2: a) Tampilan overhead
agen virtual selama tujuh langkah waktu dari tugas navigasi trotoar. dua kubus
yang lebih gelap adalah rintangan, dan kubus yang lebih terang adalah serasah.
Sinar yang diproyeksikan dari agen mewakili gerakan mata; sinar abu-abu sesuai
dengan penghindaran rintangan, sinar hitam sesuai dengan trotoar berikut, dan
putih sesuai dengan koleksi sampah. b) Taksir estimasi selama tujuh langkah
waktu yang sama. Baris atas menunjukkan perkiraan agen dari lokasi hambatan.
Sumbu-sumbu di sini sama dengan yang disajikan pada Gambar 1. Daerah-daerah
abu-abu terang sesuai dengan 90% batas kepercayaan sebelum persepsi apa pun
terjadi. Saat ini, daerah hitam sesuai dengan batas kepercayaan 90% setelah
gerakan mata telah dilakukan. Baris kedua dan ketiga menunjukkan informasi yang
sesuai untuk tugas pengumpulan sampah dan trotoar berikut.
5.
Result
Untuk menguji keefektifan dari
pendekatan minimalisasi kerugian, kami membandingkannya dengan dua mekanisme
penjadwalan alternatif: round robin, yang secara berurutan berputar melalui
tiga perilaku, dan acak, yang membuat pemilihan acak seragam pada setiap
langkah waktu. Robin kecil mungkin diharapkan dapat bekerja dengan baik dalam
tugas ini, karena optimal dalam hal meminimalkan waktu tunggu yang lama di
ketiga perilaku tersebut.
Ketiga strategi tersebut
dibandingkan dalam tiga kondisi yang berbeda. Dalam kondisi default, tepat satu
perilaku diberikan akses ke persepsi pada setiap langkah waktu. Dua kondisi
lainnya menyelidiki kinerja sistem di bawah peningkatan beban perseptual.
Selama uji coba ini, 33% atau 66% langkah dipilih secara acak untuk tidak
memiliki tindakan persepsi sama sekali.
Untuk kondisi default,
rata-rata hadiah per langkah adalah 0,034 lebih tinggi untuk penjadwalan
minimisasi kerugian daripada untuk penjadwalan round robin. Dua faktor membuat
perbedaan ini lebih penting daripada yang pertama kali muncul. Yang pertama
adalah skala hadiah untuk tugas ini tidak dimulai dari nol: ketika mengambil
tindakan acak sepenuhnya, agen menerima rata-rata 4,06 unit hadiah per langkah.
Oleh karena itu keuntungan dari pendekatan minimisasi kerugian adalah 3,6%
penuh atas round robin, relatif terhadap kinerja awal.
Faktor kedua yang perlu
dipertimbangkan adalah banyaknya gerakan mata yang dilakukan manusia selama
satu hari: perkiraan konservatif adalah 150.000. Manfaat rata-rata dari
penjadwalan yang tepat pada gerakan mata tunggal mungkin kecil, tetapi manfaat
kumulatifnya sangat besar. Untuk
Gambar
3: Perbandingan penjadwalan loss minimization dengan round robin dan strategi
acak. Untuk setiap kondisi agen diuji untuk 500 uji coba yang berlangsung 20
detik masing-masing. Dalam 33% dan 66% kondisi persentase gerakan mata yang
sesuai secara acak diblokir, dan tidak ada input sensorik yang diizinkan. Bar
kesalahan mewakili interval kepercayaan 95%. Garis putus-putus pada 5,037
menunjukkan hadiah rata-rata yang diterima ketika ketiga perilaku diberikan
akses ke persepsi pada setiap langkah waktu. Ini bisa dilihat sebagai
peningkatan atas hadiah yang mungkin membuat titik ini lebih konkrit, perhatikan bahwa selama
satu jam navigasi trotoar, agen akan kehilangan sekitar 370 unit hadiah jika
dia menggunakan round robin daripada pendekatan minimisasi kerugian. Dalam mata
uang hadiah ini sama dengan 92 tabrakan tambahan dengan rintangan, 184 sampah
yang terlewatkan, atau dua menit tambahan dikeluarkan dari trotoar.