Jeudi 24 Avril 2025
Hier, à l'occasion de la célébration du Jour de la Terre, IBM et l'Agence spatiale européenne (ESA) ont annoncé le lancement de TerraMind, un modèle de fondation d'IA générative spécialement conçu pour examiner, comprendre et prévoir les évolutions de notre planète à partir de données géospatiales multimodales.
Cet avènement se situe dans le cadre de FAST-EO (Foundation Models for Advanced Space-based Earth Observation), une initiative européenne menée par un consortium de premier plan, regroupant le DLR (Centre aérospatial allemand), le Forschungszentrum Jülich, IBM Research Europe et KP Labs, avec l'appui scientifique et financier du Φ-lab de l'ESA, le laboratoire d'innovation dédié aux sciences de la Terre.

L'ambition de FAST-EO est de rendre plus accessible l'utilisation des modèles de fondation au sein de la communauté de l'observation de la Terre (EO) et d'encourager leur adoption dans des domaines cruciaux, tels que la gestion durable des ressources naturelles, la protection de la biodiversité, la prévention des catastrophes climatiques ou encore l'étude des systèmes agro-environnementaux.
C'est dans ce contexte que TerraMind prend forme. Le modèle a été pré-entraîné au Forschungszentrum Jülich sur "TerraMesh", l'ensemble de données géospatiales le plus vaste jamais constitué. Ce corpus comprend plus de 9 millions d'échantillons englobant neuf modalités distinctes : des images optiques et radar provenant des satellites Copernicus Sentinel-1 et -2, aux représentations textuelles de l'environnement, en passant par la géomorphologie et les données climatiques historiques.
S'appuyant sur une architecture codeur-décodeur basée sur des transformateurs symétriques, TerraMind peut traiter simultanément des entrées de type pixel, jeton et séquence. Il peut, par exemple, combiner les évolutions de la couverture végétale avec des tendances météorologiques passées et des descriptions d'utilisation des sols afin d'identifier des risques émergents ou de modéliser l'évolution d'un écosystème.
Une innovation majeure : le Thinking-in-Modalities (TiM)
Au-delà de sa capacité à traiter un volume considérable de données hétérogènes, TerraMind introduit une avancée méthodologique : le Thinking-in-Modalities (TiM). Selon ses créateurs, il s'agit du premier modèle de fondation véritablement génératif et multimodal appliqué à l'observation de la Terre. Cette approche lui permet de générer de manière autonome des données artificielles en cas d'entrées manquantes, une situation fréquente en télédétection en raison de la couverture nuageuse, de la résolution variable des capteurs ou des interruptions temporelles dans les séries d'observation.
L'originalité du procédé réside dans un raisonnement contextualisé entre modalités. Inspiré des chaînes de pensée utilisées dans les LLMs, le mécanisme TiM permet au modèle de combiner, d'extrapoler et de reconstruire des données à partir des corrélations apprises entre images, textes, variables physiques ou géographiques. Lors du fine-tuning ou de l'inférence, cette aptitude à enrichir un contexte partiel permet non seulement d'améliorer la résistance du modèle, mais aussi d'affiner ses réponses dans des situations spécifiques.
L'application de cette technique à des enjeux tels que la prévision des pénuries d'eau, qui nécessitent des variables aussi diverses que le climat, l'occupation des sols, la végétation, l'hydrographie ou encore les pratiques agricoles, illustre son potentiel opérationnel, là où les approches traditionnelles se heurtaient à des silos de données ou à des lacunes temporelles.
Une efficacité optimisée
Malgré son envergure, avec plus de 500 milliards de tokens utilisés lors de la phase d'entraînement, TerraMind est un modèle particulièrement économe. Grâce à son architecture et à une compression efficace des représentations, il consomme dix fois moins de ressources que les modèles comparables sur des tâches similaires. Cet écart ouvre des perspectives concrètes de déploiement à grande échelle, y compris dans des environnements limités en capacités de calcul ou de connectivité.
Il est également le plus performant. TerraMind a été évalué par l'ESA sur PANGAEA, un benchmark standard de la communauté : il a dépassé de 8 % ou plus 12 modèles de fondation d'observation de la Terre populaires sur des tâches réelles, comme la classification de la couverture terrestre, la détection des changements, la surveillance de l'environnement et l'analyse multi-capteurs et multi-temporelle.
Le modèle s'inscrit dans la continuité de la stratégie d'IBM en matière d'IA climatique et environnementale, en complément des modèles IBM-NASA Prithvi et Granite. Sa disponibilité sur IBM Geospatial Studio et Hugging Face renforce son accessibilité et son interopérabilité.
Pour Nicolas Longepe, Earth Observation Data Scientist à l'ESA :
"Ce projet est un exemple parfait de collaboration réussie entre la communauté scientifique, les grandes entreprises technologiques et les experts pour exploiter le potentiel de la technologie au service des sciences de la Terre. La synergie entre les experts des données d'observation de la Terre, les spécialistes de Machine learning, les scientifiques des données et les ingénieurs en calcul haute performance (HPC) est magique".