Touradj Ebrahimi: «Les images actuelles sont destinées aux humains et... aux machines»

En 1940, c’est Walt Disney qui était le lauréat de la médaille SMPTE. Cette année, c’est le chercheur suisse Touradj Ebrahimi, professeur à l’EPFL, qui recevra cette distinction à Los Angeles le mois prochain. Explications d’un magicien de l’imagerie numérique.

Philippe Clot

Publié le 29 septembre 2022 à 09:14

Le professeur Touradj Ebrahimi voulait devenir mathématicien. Mais son père exigeait qu’il soit ingénieur civil. «J’ai trouvé une voie médiane en optant pour l’ingénierie électrique.»

© Fred Merz | lundi13

La médaille SMPTE, créée en 1935, c’est un peu comme le Prix Nobel des professionnels des technologies de l’image. Elle récompense les réalisations et innovations techniques importantes dans le monde plus important et plus numérique que jamais de la photographie, de la vidéo et des contenus immersifs. Son lauréat, le professeur suisse Touradj Ebrahimi, directeur du Groupe de traitement du signal multimédia à l’EPFL, nous explique les raisons de cette reconnaissance mondiale.

- Votre domaine de recherche, c’est le traitement des signaux multimédias. Ma première question est simple: qu’est-ce que c’est?
- Touradj Ebrahimi: C’est un domaine très vaste. Je suis personnellement spécialisé dans le traitement des informations visuelles: images et vidéos bien sûr, mais de plus en plus aussi des contenus immersifs, par exemple le «metaverse», ou le contenu diffusé dans les casques de réalité virtuelle ou dans les moniteurs holographiques.

- Et tout ce qui est visuel est bien sûr très important aujourd’hui.
- Oui, j’ai eu la chance de travailler très tôt sur le codage des images et des vidéos. Et il s’est trouvé que ce type de recherche était fondamental pour la communication multimédia: du cinéma professionnel aux photos que tout le monde prend avec un smartphone, en passant par les vidéos en streaming. Derrière tous ces genres d’images, il y a le même défi: comment peut-on représenter ces informations de la manière la plus économique possible? Le but consiste à maîtriser au maximum le coût des infrastructures nécessaires pour diffuser et visualiser ces images mais aussi économiser la consommation énergétique qu’elles impliquent. La batterie d’un smartphone doit par exemple pouvoir prendre des centaines de photos et diffuser une longue vidéo sans qu’elle soit trop rapidement déchargée.

>> Lire aussi: L'EPFL, 50 ans en 50 points forts

- Mais c’est pour des développements plus avant-gardistes que vous venez de recevoir la médaille SMPTE.
- En effet. Jusqu’à récemment, ce travail de codage d’information visuelle était toujours destiné à l’être humain. Or l’être humain a un système visuel imparfait, ce qui est une chance pour ma spécialité. Car grâce à cette perception visuelle imparfaite, nous pouvons diminuer la taille des fichiers en enlevant les informations inutiles. Pendant presque trente ans, le thème dominant de nos recherches consistait à développer des pistes pour profiter au maximum de l’imperfection visuelle de notre espèce sans que les images perdent en qualité perceptible.

- Et désormais, l’être humain n’est plus le seul «consommateur» d’images.
- Il y a aussi les machines… Oui et c’est pour cela que j’ai reçu cette médaille. De plus en plus, au bout de la chaîne, le dernier destinataire d’images est en effet une machine. C’est le développement de l’intelligence artificielle depuis une dizaine d’années qui explique cette évolution. Parmi les nombreux systèmes d’intelligence artificielle actifs aujourd’hui quotidiennement dans notre société, il y a des analyses d’information visuelle. Les nouvelles voitures, par exemple, sont de plus en plus équipées de caméras qui permettent d’assister le conducteur humain pour un freinage d’urgence ou contourner un obstacle.

- Mais quelles sont les contraintes de cette nouvelle «clientèle» non humaine de fichiers visuels?
- Nous avons découvert que les informations inutiles pour l’œil et le cerveau humains étaient bel et bien nécessaires et pertinentes pour la «vision» des machines.

Touradj Ebrahimi — Le lauréat de la médaille SMPTE 2022 insiste sur l’importance capitale de l’éthique dans la recherche en général et dans son domaine en particulier.
Â© Fred Merz | Lundi13

- Vous avez donc dû découvrir comment compresser images, vidéos et autres fichiers visuels de manière différente?
- J’ai participé en effet au lancement d’un nouveau type de codage, qui s’appelle JPEG AI (AI pour intelligence artificielle), un standard de codage adapté aux machines et très efficace pour les réseaux de neurones artificiels. Mais c’est encore plus subtil que ça: il ne suffisait pas de garder un type de format de fichier pour les humains et d’inventer à côté un autre format pour les machines. Diviser le monde en deux aurait été incompatible avec l’économie. Un exemple parmi d’autres: quand vous prenez un selfie avec votre téléphone, cette image sera utilisée non seulement pour être mise sur un réseau social mais pourra aussi être utile à votre smartphone pour se déverrouiller par reconnaissance faciale comme c’est de plus en plus le cas.

- La même technologie est donc utilisée pour le public humain et pour les machines.
- C’est ça la beauté de JPEG AI. Ce standard est très efficace sur le plan de la compression tout en étant versatile, ce qui évite de choisir entre deux formats avant de prendre une photo ou de tourner une vidéo.

- Mais qui dit intelligence artificielle dit aussi manipulation de l’information et notamment des images.
- Oui, la machine peut manipuler, changer, voire créer des contenus qui ne proviennent pas des capteurs de l’appareil. Le grand public connaît ces manipulations sous le nom de «deepfake». Est-il possible avec ce nouveau format de contrer ce danger de manipulation, d’utilisation abusive des fichiers visuels? Nous avons riposté à ce danger en développant des technologies dites de provenance: quand vous prenez des images, vous insérez des informations impossibles à changer dans le fichier. Et chaque fois que quelqu’un accède à ce contenu et qu’il change quelque chose, les informations s’ajoutent comme dans un carnet de vaccination.

- Donc le récepteur du contenu peut tout savoir sur la genèse de ces images ou de ces films?
- Pas tout, car il faut respecter la sphère privée des gens! On ne doit pas savoir qui est intervenu sur ces contenus. L’anonymat est garanti. Cet aspect de confidentialité est une brique que j’ai contribué à ajouter au JPEG AI, et cette «brique» s’appelle JPEG Fake Media. Mais il y a encore une troisième «brique», en train d’être développée, qui a aussi contribué à l’obtention de cette médaille… Cela concerne le stockage de l’information, qui est toujours plus problématique, notamment parce qu’il consomme toujours plus d’énergie. La solution que nous développons s’appelle JPEG DNA (DNA pour ADN). Pourquoi cette allusion à l’ADN? Parce qu’on peut utiliser le même principe que le monde vivant pour stocker toutes sortes d’informations.

- Quel avantage peut-on attendre de cet ADN synthétique pour remplacer le stockage magnétique des fichiers numériques?
- L’ADN, contrairement aux supports de mémoires de masse actuelles, nécessite très peu de volume. Avec de l’ADN synthétisé, nous pourrions stocker toutes les données numériques déjà produites depuis les années 1950 dans… un mètre cube! Donc au niveau de la densité d’informations, l’ADN synthétique est une révolution totale. Autre atout, parmi d’autres encore, de l’ADN, c’est sa longévité. Les archives numériques n’ont en moyenne qu’une durée de vie de vingt ans. La fiabilité de l’ADN se chiffre en dizaines de milliers d’années. Enfin, le stockage de l’information représente désormais 7% de l’énergie électrique dans le monde. C’est énorme et cela continue à augmenter de manière exponentielle. L’ADN en tant que support de stockage ne demande qu’une température ambiante stable. L’économie d’énergie serait donc énorme.

>> Lire aussi: Fascinés et fragiles face au numérique

- Qu’est-ce qui reste à résoudre pour utiliser cette technologie miracle qui n’est pas encore maîtrisée?
- L’information numérique est binaire. Elle se compose de 0 et de 1. L’information ADN est codée avec quatre bases. Elle est quaternaire. La question est donc: comment peut-on représenter de l’information numérique avec quatre bases tout en tenant compte des contraintes biochimiques? Il reste encore beaucoup de difficultés à surmonter.

- Quelle est votre philosophie de chercheur?
- Je m’efforce d’imaginer, d’anticiper les nouveaux problèmes qui se poseront une fois que les solutions à des problèmes actuels auront été trouvées! Exemple: en 1995 à l’EPFL, j’avais aidé une grande firme à créer des processeurs dans lesquels on mettait de l’intelligence pour la vidéosurveillance. A l’époque, la vidéosurveillance était balbutiante. Mais ma contribution avait été de trouver la solution pour préserver la protection de la sphère privée. Et je suis fier d’avoir anticipé cet aspect-là, un aspect positif. La technologie, personne ne peut freiner son développement. Mais les chercheurs doivent l’accompagner avec de l’éthique et un sens de la responsabilité.

Également interessant