Depuis quelques semaines, une tendance inattendue s’impose sur les réseaux sociaux : utiliser ChatGPT pour deviner l’emplacement d’une photo. Routes anonymes, façades banales, coins de rue sans repères évidents… Certains internautes affirment que les nouveaux modèles d’OpenAI sont capables de localiser précisément un endroit à partir d’une simple image.
Cette pratique, appelée géoguessing, a explosé avec l’arrivée des modèles O3 et O4-mini, présentés comme des modèles de raisonnement avancé. Mais ces performances sont-elles réellement supérieures aux anciens modèles comme GPT-4o ? Et surtout, faut-il s’inquiéter pour la vie privée ?
O3 et O4-mini : des modèles conçus pour raisonner visuellement
OpenAI a récemment dévoilé O3 et O4-mini, deux modèles pensés pour aller plus loin que la simple génération de texte. Leur particularité repose sur le raisonnement multi-étapes : une requête est décomposée en sous-problèmes analysés successivement.
Appliqué aux images, ce raisonnement visuel permet à ChatGPT de :
- repérer des détails architecturaux,
- analyser la signalétique, les langues ou typographies,
- reconnaître des éléments culturels (mobilier urbain, plaques, routes),
- croiser ces indices avec des connaissances générales ou des recherches contextuelles.
Contrairement à une idée répandue, les métadonnées EXIF ne sont pas utilisées dans ces tests. Plusieurs utilisateurs ont volontairement supprimé toute information cachée avant de soumettre leurs images, confirmant que le modèle se base uniquement sur ce qu’il « voit » et sur son raisonnement.
Pour mieux comprendre l’évolution de ChatGPT sur ce point, vous pouvez aussi consulter ce dossier sur ChatGPT Atlas, qui détaille comment l’IA exploite la recherche et la navigation intelligente.
Géoguessing avec ChatGPT : quand ça fonctionne vraiment
Lorsqu’une image contient des repères évidents, O3 se montre redoutablement efficace. Des monuments emblématiques, des skylines reconnaissables ou des infrastructures célèbres sont identifiés rapidement.
Dans certains tests :
- une autoroute avec l’horizon de Minneapolis a été localisée en un peu plus d’une minute,
- le Panthéon de Paris a été reconnu instantanément, avec un détail surprenant : le modèle a même identifié une phase de rénovation datant de 2015.
Dans ces situations, ChatGPT rivalise clairement avec les meilleurs joueurs humains de géoguessing. La capacité à justifier chaque hypothèse renforce d’ailleurs la crédibilité de ses réponses.
Là où le raisonnement commence à dérailler
Les choses se compliquent dès que l’on quitte les lieux iconiques. Sur des photos de quartiers ordinaires ou de petites villes, le raisonnement devient beaucoup plus fragile.
Un simple coin de rue à Springfield (Illinois) a suffi à mettre O3 en difficulté. Le modèle a :
- correctement identifié la ville et la rue,
- analysé le style architectural d’une église en briques,
- proposé plusieurs hypothèses plausibles.
Mais après plusieurs minutes, le raisonnement s’est effondré. Confusion entre plusieurs villes nommées Springfield, glissements vers le Missouri, le Kansas ou même l’Omaha voisin. Le modèle a fini par abandonner l’analyse, incapable de trancher.
Ce comportement illustre une limite importante : le raisonnement détaillé ne garantit pas une réponse juste. Plus l’image est banale, plus l’IA multiplie les hypothèses… jusqu’à perdre le fil.
O3 contre GPT-4o : pas de révolution spectaculaire
Contrairement à l’effet d’annonce, les performances d’O3 en géoguessing ne surpassent pas clairement celles de GPT-4o. Dans plusieurs cas :
- GPT-4o identifie les mêmes lieux aussi rapidement,
- les erreurs sont comparables,
- la différence se joue surtout sur la transparence du raisonnement, pas sur la précision finale.
Ce constat rejoint les analyses publiées par la presse tech : O3 peut réussir là où GPT-4o échoue, mais l’inverse est tout aussi vrai. Pour une vue urbaine complexe, aucun modèle n’est infaillible.
Si le sujet vous intéresse, ce dossier sur l’avenir des modèles GPT permet de mieux comprendre vers où se dirige OpenAI en matière de raisonnement avancé.
Vie privée et sécurité : un vrai sujet, mais pas une panique immédiate
La capacité d’une IA à deviner un lieu à partir d’une image soulève évidemment des questions de confidentialité. Théoriquement, une photo anodine pourrait permettre d’identifier :
- un lieu de résidence,
- un lieu de travail,
- un endroit fréquenté régulièrement.
Cependant, dans la pratique, les erreurs restent fréquentes. Une image légèrement floue, un cadrage imparfait ou un environnement générique suffisent à tromper le modèle.
Cela ne signifie pas que le risque est nul, mais qu’il n’est pas fondamentalement nouveau. Les capacités actuelles d’O3 ne dépassent pas radicalement ce qui existait déjà avec GPT-4o.
Pour une approche plus globale de la protection numérique, ce guide sur les outils de protection de la vie privée apporte des pistes concrètes.
Ce que dit OpenAI sur le raisonnement visuel
OpenAI rappelle que ces modèles sont conçus pour des usages positifs et encadrés, notamment :
- l’accessibilité,
- l’aide à la recherche,
- l’identification de lieux en situation d’urgence.
L’entreprise insiste également sur le respect de ses politiques de confidentialité, même si le débat reste ouvert sur l’évolution future de ces technologies.
Conclusion : impressionnant, mais loin d’être infaillible
Le géoguessing avec ChatGPT est spectaculaire dans certains cas, frustrant dans d’autres. Les modèles O3 et O4-mini montrent un vrai progrès dans la capacité de raisonnement visuel, mais sans révolutionner la précision globale.
Tant que l’IA continuera à se tromper régulièrement sur des lieux ordinaires, il n’y a pas lieu de céder à la panique. Le jour où un modèle sera capable d’identifier presque systématiquement un lieu obscur à partir d’une seule image, le débat sur la vie privée prendra une toute autre dimension.
En attendant, ChatGPT reste avant tout un outil fascinant à observer, plus qu’une menace omnisciente.