Soutiendra publiquement ses travaux de thèse intitulés
Foveal Retinotopy and Dual Pathways: A Computational Model for Active Visual Search
dirigés par Monsieur Laurent PERRINET et Monsieur Emmanuel DAUCE
Soutenance prévue
Composition du jury proposé
Name | Affiliation | Role |
---|---|---|
M. Ronan SICRE | IRIT (UMR 5505) – Université de Toulouse III | Rapporteur |
M. Jean‑Julien AUCOUTURIER | FEMTO‑ST (UMR 6174) – Université de Bourgogne Franche‑Comté | Rapporteur |
Mme Teresa SERRANO‑GOTARREDONA | IMSE‑CNM‑CSIC – Universidad de Sevilla | Examinatrice |
M. Franck RUFFIER | Lab‑STICC (UMR 6285) – ENSTA|IP Paris | Examinateur |
M. Matthieu GILSON | INT (UMR 7289) – Aix Marseille Université | Président |
M. Laurent PERRINET | INT (UMR 7289) – Aix Marseille Université | Directeur de thèse |
M. Emmanuel DAUCÉ | Centrale Méditerranée | Co‑directeur de thèse |
—————————— | —————————————————— | ———————– |
Recherche visuelle, Voie visuel ventrale, Voie visuel dorsale, Réseau neuronal convolutifs profonds, Rétinotopie fovéale, Vision active
Cette thèse étudie la recherche visuelle à travers le prisme des deux voies visuelles identifiées dans les systèmes biologiques : la voie ventrale, impliquée dans la reconnaissance des objets, et la voie dorsale, responsable de la localisation spatiale et de la planification des saccades. S’inspirant à la fois des neurosciences et de la vision artificielle, nous proposons un cadre computationnel intégrant des réseaux neuronal convolutifs profonds (DCNN) dans une architecture biologiquement plausible, fondée sur la rétinotopie fovéale. Des travaux antérieurs ont démontré que l’intégration de la planification des saccades améliorait les performances de catégorisation de chiffres dans un environnement contrôlé. S’appuyant sur cette base, l’objectif principal de cette thèse est d’étendre ce cadre théorique à des images naturelles dans des contextes plus écologiquement valides. Nos contributions sont les suivantes : (1) Nous proposons un nouveau cadre de travail pour l’entraînement et l’évaluation des DCNN, basé sur la sémantique sous-jacente aux labels initialement définis dans la communauté de la recherche computationnelle, ce qui permet de définir des tâches écologiques spécifiques ; (2) nous rapprochons les modèles artificiels des substrats biologiques en soulignant le rôle crucial de la retinotopie fovéales pour une catégorisation robuste et une localisation précise. (3) Nous approfondissons la connaissance de l’interaction entre la catégorisation et la localisation en proposant un ensemble de résultats structuré autour de cette relation, afin de guider la conception d’un modèle plausible de la voie dorsale ; (4) Enfin, en nous appuyant sur ces résultats, nous proposons une première modélisation de la voie dorsale visant à développer des systèmes de vision active à la fois interprétables, grâce à des représentations modulables et spatialement structurées, et efficaces, grâce à la planification de saccades permettant de réduire les coûts de calcul liés à l’inférence. Dans l’ensemble, cette thèse apporte plusieurs éléments : elle enrichit le modèle de vision artificielle des deux voies majeures impliquées dans la recherche visuelle, elle permet de développer des outils de vision active interprétables et elle fournit un cadre pour étudier les hypothèses biologiques relatives à la spécialisation fonctionnelle des aires cérébrales dédiées à la vision chez l’être humain.
Visual search, Dual visual pathways, Deep Convolutional Neuronal, Network, Foveal retinotopy, Active vision
This thesis investigates visual search through the lens of the dual visual pathways found in biological systems : the ventral (“what”) pathway, involved in object recognition, and the dorsal (“where”) pathway, responsible for spatial localisation and saccadic planning. Drawing from both neuroscience and computer vision, we propose a computational framework that integrates deep convolutional neural networks (DCNNs) within a biologically inspired architecture grounded in foveal retinotopy. As a proof of concept, prior work has demonstrated that incorporating saccadic planning improves digit categorisation performance in a controlled environment. Building upon this foundation, the primary objective of this thesis is to extend the computational framework to natural images in more ecologically valid settings. Our contributions are as follows : (1) We introduce a novel framework for training and evaluating DCNNs using semantically grounded, task-specific labels ; (2) We bridge the gap between artificial models and biological substrates by emphasizing the role of foveal retinotopy in robust object categorisation and precise localisation ; (3) We disentangle the interplay between categorisation and localisation by proposing a novel “localisation-frame” dataset, aimed at guiding the design of a biologically plausible dorsal stream model ; and (4) We present an initial model of the dorsal pathway, leveraging the new dataset to develop interpretable and efficient active vision systems—where interpretability is achieved through modular and spatially structured representations, and efficiency is reflected in reduced computational cost during inference with saccade planning. Overall, this thesis extends the dual-stream computational paradigm for visual search, contributes tools for explainable active vision, and offers a platform to explore hypotheses about functional specialisation in the human visual cortex.