Kognisi Visual

Computer vision adalah salah satu cabang ilmu Artificial Intelligence yang bertujuan meniru kemampuan sistem visual manusia untuk mengenali objek dan lingkungan dalam ruang 3D. Computer vision menjadi dasar untuk memberikan kemampuan kognisi visual pada mesin. Ilmu tentang computer vision, selain didukung oleh beberapa pengetahuan dasar pengolahan citra (image processing), sedikit banyak dipengaruhi oleh pengetahuan tentang cara manusia mempersepsikan dunia nyata. Seluruh pengetahuan itu memiliki tujuan akhir untuk meniru cara manusia memahami objek-objek tiga dimensi yang ditemui dalam kehidupan sehari-hari.

Bidang ilmu computer vision sangat dipengaruhi oleh hasil penelitian David Marr [1]. David Marr adalah seorang peneliti di MIT (Massachusetts Institute of Technology, US) yang menggabungkan bidang fisiologi dan kecerdasan buatan, untuk memformulasikan teori di bidang computational neuroscience, sebuah ilmu yang mempelajari bagaimana informasi diproses oleh otak manusia, kemudian menerapkan komputasi pemrosesan informasi tersebut dengan perangkat yang diciptakan oleh manusia (komputer). Vision atau sistem penglihatan adalah salah satu bagian yang dipelajari bidang ini.

Marr mendeskripsikan “vision” dalam bukunya [2] sebagai berikut:

Vision is an information-processing task. The study of vision must therefore include not only the study of how to extract from images the various aspects of the world that are useful to us, but also an inquiry into the nature of the internal representations by which we capture this information and thus make it available as a basis for decisions about our thoughts and our actions.

Menurut Marr, proses vision pada manusia terdiri dari beberapa tahap, dimulai dari mendapatkan deskripsi secara utuh citra yang dilihat, kemudian diikuti dengan mendeskripsikan seluruh objek 3D yang ada pada citra tersebut. Proses pemrosesan informasi ini terjadi pada berbagai lapisan yang saling melengkapi [3]:

  • Lapisan komputasi (computational level): apa yang dilakukan oleh sistem terhadap sebuah input citra tertentu, dan mengapa sistem melakukan hal tersebut
  • Lapisan algoritma / representasi: bagaimana sistem melakukan hal tersebut. Secara khusus, representasi apakah yang dimunculkan sistem terhadap input citra tersebut dan proses apakah yang dilakukan sistem untuk memanipulasi representasi tersebut
  • Lapisan implementasi: bagaimana sistem merealisasikan dua tahapan di atas secara fisik (pada kasus sistem penglihatan biologis, struktur syaraf apakah yang terlibat dan apakah aktivitas yang terjadi pada saat sistem penglihatan bekerja)

Marr mendeskripsikan vision lebih jauh sebagai pemrosesan citra dua dimensi pada retina manusia menjadi keluaran yang berupa deskripsi tiga dimensi dari objek-objek yang ada pada citra tersebut. Tahapan-tahapan pemrosesan tersebut antara lain:

  • Pembuatan sketsa awal (primal sketch) dari adegan yang sedang dilihat: deskripsi dari fitur-fitur pada adegan tersebut, seperti titik, garis, daerah atau area, dan sebagainya.
  • Pembuatan sketsa 2.5 D pada adegan yang sedang dilihat: mulai melibatkan tekstur objek-objek yang sudah terdeteksi di tahapan sebelumnya. Tekstur ini meliputi bayangan dan gelap terang dari sisi sebuah objek 3D, sehingga menciptkan kesan kedalaman (depth) dari objek yang terlihat.
  • Pembuatan model 3D secara utuh: visualisasi objek-objek 3D yang terlihat pada adegan tersebut, sehingga manusia mampu memahami dan membedakan secara visual benda yang satu dengan benda yang lain.

Mengapa kita memerlukan persepsi 3D? Perhatikan gambar di atas baik-baik [4]. Dua gambar di atas menunjukkan sebuah adegan yang diambil dari sudut pandang (point of view) yang berbeda. Pada gambar pertama (kiri atas), kita berasumsi bahwa kertas coklat yang terletak di atas map memiliki ukuran sudut yang sama (90 derajat), sehingga kertas tersebut berbentuk persegi panjang. Ternyata hal tersebut keliru, karena salah satu sudut memiliki ukuran lebih dari 90 derajat dan sudut yang lain kurang dari 90 derajat, sehingga berbentuk trapesium.

Gambar yang lain (bawah) menunjukkan perbedaan tinggi badan hanya karena faktor kedalaman (posisi berdiri dua orang tersebut, ditinjau dari sumbu Z semu dengan arah masuk ke dalam gambar). Pada gambar kiri bawah, orang dengan baju hitam terlihat seolah-olah jauh lebih pendek dari yang berbaju putih. Setelah mereka bertukar posisi (kanan bawah), perbedaan tinggi badan mereka tidak terlalu jauh sebagaimana gambar kiri bawah.

Gambar di atas memberikan informasi kepada kita bahwa faktor kedalaman sangat diperlukan untuk memberikan informasi yang utuh tentang sebuah objek 3D. Untuk mendapatkan informasi 3D dari citra 2D, sebagaimana yang terjadi pada mata manusia, diperlukan sebuah proses komputasi yang tidak sederhana.

Referensi:

[1] http://kybele.psych.cornell.edu/~edelman/marr/marr.html
[2] http://mitpress.mit.edu/catalog/author/default.asp?aid=18323
[3] http://en.wikipedia.org/wiki/David_Marr_(neuroscientist)
[4] O. Faugeras, Q. T. Luong, and T. Papadopoulo, The geometry of multiple images vol. 2: MIT press, 2001.

Link bermanfaat: 

  1. Computational Cognitive and Perception (MIT)
  2. Computational Cognitive Science (MIT) 
  3. Perception and Cognition Laboratory (University of California San Diego)
  4. Mind Picture and Image (Tampere University) 
  5. Visual Cognition Research Group (Helsinki University)