Observatoire Data Publica Datactivist

Simon Chignard

Président – Observatoire Data Publica

Samuel Goëta

Cofondateur Datactivist

Ne jetez pas le bébé de l’open data avec l’eau du bain de l’IAG

Selon Simon Chignard, président de l’observatoire Data Publica, et Samuel Goëta, cofondateur de Datactivist et membre du collectif Data Publica, les IA génératives sont à l’opposé du cadre posé par les politiques de l’open data. Or, ce cadre de règles juridiques et de limites doit permettre de repenser une autre IA, moins opaque, moins exploitative.

Aussi imparfaites et inachevées soient-elles, les politiques d’open data ont posé un cadre : des données structurées, documentées et, si possible, éditorialisées.

La « chasse aux PDF » a écarté des portails open data des trésors de textes, mais aussi d’images ou de vidéos (pensons aux enregistrements et au contenu des délibérations des conseils municipaux).

Plus important encore, les politiques d’open data ont posé un cadre protecteur de la vie privée et du droit d’auteur, avec des licences claires. Enfin, l’open data s’efforce aussi d’organiser, avec un succès mitigé, une traçabilité des usages.

Bref, l’open data est une politique publique organisée, avec ses règles juridiques, ses pratiques, mais aussi ses limites.

L’engouement pour les IA génératives (IAG) ne faiblit pas au sein des collectivités. Une priorité chassant l’autre : quelle place reste-t-il pour l’ouverture des données ?

Posons d’abord un constat : l’open data, tel qu’on le connaît depuis quinze ans, est aux antipodes des pratiques de l’industrie de l’IA générative, en particulier pour les données d’entraînement.

Les données d’entraînement des IA génératives sont à l’opposé de ce cadre.

Les documents PDF, les pages web, les données non structurées en constituent la matière première.

Une étude récente – le Foundation Model Transparency Index (Oxford CRFM, octobre 2023) – révèle l’opacité des principaux modèles d’IA générative (GPT-4, Llama, Gemini, Claude et Mistral), tous obtenant un score de zéro sur la transparence des données d’entraînement !

La ­chercheuse Kate Crawford, dans son « Contre-atlas de l’IA » (Poche, 2023), décrit cette situation comme un nouveau Far West et un « pillage de l’espace public ».

(1) Source : baromètre 2025 de l’Observatoire Data Publica (https://observatoire.data-publica.eu/)