REX : un projet de 24 millions € et beaucoup de piscines

Par:
francoistonic

mer, 16/07/2025 - 07:07

L'Etat Français a dépensé 24 millions d'euros dans un outil de détection de piscine pour permettre au FISC de détecter les constructions non déclarées. C'est un montant assez délirant que je n'arrive pas à m'expliquer tant sur le fond que sur la forme. J'ai donc tenté de refaire ce projet en quelques jours… Est-ce trop cher et peu rentable ?

Ce prototype a été monté par Jean-Philippe Encausse en septembre 2022 (voir en bas du rex)

Soyons pragmatique

Essayons de raisonner sur de grandes échelles pour mieux comprendre :

  • 5-10 ingénieurs confirmés, pendant 1an coute 1M€ (reste 23 à trouver)
  • Les projets d'IA de ce type sur lesquels j'ai travaillé était plutôt autour des 500K€ max
  • Ce ne sont pas les requêtes cloud, machine learning ou cartographie qui chargeraient autant le prototype :
    • Geocoding : 2000$ = 500K requêtes
    • StaticMap: 838$ = 500K requêtes
  • Peut-être que le SI du FISC est catastrophique, nécessitant une surcouche d'API ?

Alors oui si le cahier des charges stipule une précision de 99%, le rédacteur n'a rien compris au fonctionnement de l'IA. Surtout qu'avec cette approche par satellite on perd déjà toutes les piscines sous les arbres (sauf à utiliser un lidar), en intérrieur, l'ambiguité avec les bassins, etc … (30% de taux d'erreur d'après les syndicats)

Il y aurait d'autres manières de faire :

  • Imposer aux Piscinistes de déclarer leurs clients
  • Proposer une aide de l'Etat sur la sécurité des piscines (et donc de les déclarer)

En étant un peu créatif il y aurait plein d'autres manière de faire, mais jouons le jeu de l'IA.

Récupérer les données géographiques

J'ai pris 2 heures pour voir comment récupérer l'image d'un terrain sur Google Maps. Merci à Laurent CAVALLINI dont l'article était un bon point de départ.

Geocoding

Etant donné une adresse je souhaite obtenir les coordonnées GPS. Les API de Google et du Gouvernement fonctionnent très bien et pratiquement gratuitement. Il suffit de faire une simple requête HTTP. J'ai eu quelques petit soucis avec celle du gouvernement qui me retournait par moment des coordonnées GPS arrondies.

Cadastre et Parcelle

Je souhaite obtenir le/les polygone(s) correspondant à une parcelle déclarée au cadastre. L'API du gouvernement fonctionne très bien ! Son temps de réponse est de quelques secondes par moment, mais on ne va pas se plaindre, c'est gratuit et anonyme ! En faisant quelques tests je me suis rendu compte que certaines parcelles n'était probablement pas à jour.

Image satellite

Je souhaite obtenir l'image correspondant à l'adresse / aux coordonnées sur GoogleMaps. Pour se faire nous allons calculer le centroide du polygon puis intérroger Google Static Map avec le tracé. Les cartes font 640×640 en Zoom x20 mais il est possible de contacter Google pour obtenir une meilleur définition et donc une amélioration de la reconnaissance par la suite.

Nettoyage

L'objectif est de mettre en avant la zone qui nous intéresse sans être perturbé par une piscine qui serait dans l'image mais chez le voisin. 

Encore une optimisation possible à cette étape en faisant de la datascience à l'ancienne:

  • saturer la couleur bleu intelligement
  • détecter les amas de couleur

Je n'ai pas eu le temps de creuser mais ce serait une étape indispensable pour améliorer le dataset même si les outils d'AutoML font déjà un peu ce travail à l'aveugle.

Machine Learning

Maintenant, il faut produire un certain nombre d'image positive (avec piscine) et négative pour les injecter dans un outil d'intelligence artificielle. Le truc chouette avec CustomVision est qu'en plus de l'API il y a une interface visuelle pour déclencher des entrainements ou recatégoriser des contenus.

Aller plus loin

Voilà ce qu'il est possible de faire en quelques heures. Pour le moment, le projet fonctionne mais pour aller plus loin il faudrait :

  • Avoir une petite interface web pour donner une adresse et répondre Piscine / Pas Piscine
  • Recartégoriser les résutlats en branchant un outil de Mechanical Turk
  • Améliorer le DataSet en essayant de pré-identifier les piscine. Ou à l'inverse virer tout ce qui n'est pas piscine
  • Utiliser des données satélitaire custom de Google (ou d'un autre)
  • Se brancher au SI du FISC et itérer sur toutes les habitations françaises.

Pour moi ça ne peut pas couter 24 millions d'euros, ou sinon il faut m'expliquer. Car, au pire du pire du pire, il faudrait juste brancher ce petit projet à un Mechanical Turk pour obtenir l'avis d'Humain (vous savez les captchas de Google). Les Mechanical Turk coûtent quelques centimes d'euros et, pour être certain du résultat, vous pouvez interroger 10x chaque image on restera extrêmement loin des 24 millions d'euros. Et il n'y a pas de contrainte de temps de réponse. Enfin la beauté de l'exercice, c'est que ça alimentera l'IA qui sera de plus en plus performante.

Source : https://blog.encausse.net/2022/09/05/realiser-un-projet-de-24-millions-deuros-en-quelques-jours/