Spacemedia : Import automatisé d’images spatiales sur Wikimedia Commons
18/11/2023 , A202

Présentation de mon outil d'import automatisé d'image spatiales (images satellites, lanceurs, exploration) vers Wikimedia Commons. L'outil a déjà importé plus de 70 000 images, essentiellement en 2023. Présentation de l'architecture, du workflow, des difficultés techniques inhérentes à l'ingestion de grandes quantités de données provenant de sources hétérogènes, de la recherche de doublons parmi 100 millions d'images, ainsi que des problématiques de licence utilisées par les agences spatiales.


Je développe depuis 2020 un outil me permettant d'importer automatiquement des milliers d'images en provenance de la NASA, de l'ESA, de l'U.S Space Force, ainsi que de nombreux observatoires astronomiques ou personnes passionnées d'espace (liste en constante évolution). Après une longue mise au point, cet outil m'a déjà permis d'importer plus de 70 000 images, essentiellement cette année.

Je vous propose de vous présenter ici ce projet un peu atypique dans la galaxie d'outils de Wikimedia Commons, de part son langage (Java), son architecture back/front (Cloud VPS + Toolforge), les difficultés rencontrées (détecter les doublons parmi 100 millions d'images, calculer des hashes sur des images de plusieurs Go, gérer les changements d'API, de sites internet, de licences, etc.).

J'aborderai en détail le workflow permettant à l'outil d'importer les images avec le maximum d'informations et métadonnées pertinentes afin de réduire les opérations de vérification manuelle, mes différentes méthodes de suivi de son activité (frontend, réseaux sociaux) ainsi que les perspectives de l'outil à plus ou moins long terme.

Contributeur wikimédien Toulousain depuis 2012 (et plus généralement de tout ce qui gravite autour de l'open data / open content depuis 2010).

J'ai importé un peu plus de 8000 photos sur Commons, qu'ils s'agissent des miennes (monuments historiques, voyages, aéronautique, spatial...) ou d'imports d'institutions publiques (archives, musées...). J'ai d'ailleurs présenté en 2018 au CdL l'import du fonds André Cros en provenance des archives de Toulouse.

Pour les agences spatiales, le volume est trop important et le rythme de mise à jour trop rapide pour faire ces imports à la main. Je me suis donc lancé dans la réalisation d'un outil ambitieux d'import entièrement automatique des images spatiales (satellites, lanceurs, astronomie, exploration du système solaire...). C'est cet outil que je vous propose cette année de vous présenter.