• Disiz Yyov
  • Posts
  • Cette femme s'est fait escroquer 830 000€ par un deepfake de Brad Pitt

Cette femme s'est fait escroquer 830 000€ par un deepfake de Brad Pitt

Voici comment détecter les deepfakes et se protéger des arnaques avec l'IA 👇

Même si les ¾ d’entre vous seront peut-être déjà au courant, je rappelle le contexte de cette histoire.

Anne, une femme française de 53 ans a eu une relation à distance qui a duré plus d’un an avec un escroc qui se faisait passer pour Brad Pitt

Loin de se rendre compte de la supercherie, Anne a cru en l’amour jusqu’à la fin.

L’arnaqueur lui envoyait des photos de Brad Pitt, des poèmes, lui montrait des membres de sa famille… Bref, tout était bien ficelé. Mais de là à envoyer 830 000€ ? Comment c’est possible ?

En fait, “Brad Pitt” lui a fait croire qu’il avait besoin d’argent pour guérir d’un cancer. Il envoyait des selfies de lui à l’hôpital, des photos avec un médecin…, tout pour la berner.

Mais, on pourrait se dire, qui croirait vraiment que Brad Pitt aurait besoin d’argent ?

Il prétendait qu’avec son divorce un peu compliqué avec Angelina Jolie, il ne pouvait pas accéder à ses fonds.

Et donc, Anne, tout juste divorcée de son ex mari, (qui était d’ailleurs un entrepreneur millionnaire), venait tout juste de recevoir plus de 800 000 € sur son compte.

Pensant aider son "nouvel amoureux" à surmonter sa maladie, elle a transféré cette somme astronomique sans vraiment y réfléchir.

D’ailleurs, cette femme n’a rien demandé de tout ce bruit sur la toile, c’est le reportage de TF1 qui a secoué l’audience mais ils ont dû supprimé l’épisode tant la pression était intense pour Anne, déjà en dépression.

L’homme qui l’a arnaquée a d’ailleurs été identifié et devrait être arrêté d’ici quelques jours pour être entendu.

Bon. Cette histoire est surtout là pour nous rappeler que face aux arnaques, au réalisme de l’intelligence artificielle et du deepfake, personne n’est à l’abri.

Et si ce n’est pas toujours une histoire d’amour comme celle-ci, ça peut aussi être de faux appels de vos proches, des vidéos de vos enfants…etc

C’est pour ça que l’éducation sur l’intelligence artificielle et ses dangers va devenir un sujet de plus en plus important dans les années à venir.

Et d’ailleurs, une histoire similaire avec un faux Brad Pitt a d’ailleurs déjà eu lieu …

Je vous laisse les détails ici si vous voulez en savoir plus !

Ok, mais c’est quoi le deepfake ?

C’est fin 2017 qu’un utilisateur de Reddit appelé Deepfakes a commencé à utiliser l’apprentissage profond pour créer de fausses vidéos de célébrités.

Et ça, c’était le point de départ d’une nouvelle vague de vidéos truquées en ligne.

La DARPA, une agence de recherche liée à l’armée américaine, finance également des recherches pour détecter ces vidéos truquées.

Mais en réalité, l’application de l’intelligence artificielle pour créer des vidéos a commencé bien avant Deepfakes.

Des outils comme Face2Face et la recherche de l’Université de Washington sur la "synthèse d’Obama" (synchronisation labiale à partir de l’audio) produisent des vidéos truquées encore plus difficiles à détecter.

La menace est si réelle que Jordan Peele a créé une vidéo d’avertissement pour le public.

Cette vidéo a été réalisée avec Adobe After Effects et FakeApp (une application de Deepfakes).

Concept de base

Le concept des Deepfakes est très simple. Supposons qu’on veuille transférer le visage d'une personne A dans une vidéo d'une personne B.

  1. Étape 1 : Collecte des images
    Nous collectons des centaines, voire des milliers de photos des deux personnes. Ensuite, nous construisons un encodeur pour encoder toutes ces images en utilisant un réseau de neurones convolutif (CNN) d’apprentissage profond. Nous utilisons ensuite un décodeur pour reconstruire l’image.

  2. Autoencodeur
    Cet autoencodeur (composé de l’encodeur et du décodeur) contient plus d’un million de paramètres, mais il n’est pas capable de mémoriser toutes les images. Par conséquent, l’encodeur doit extraire les caractéristiques les plus importantes pour recréer l’entrée originale. Cela peut être comparé à un portrait-robot : les caractéristiques sont les descriptions données par un témoin (encodeur), et l’artiste du portrait-robot (décodeur) les utilise pour reconstruire l’image du suspect.

  3. Décodage des caractéristiques
    Nous utilisons des décodeurs distincts pour la personne A et la personne B. Ensuite, nous entraînons l’encodeur et les décodeurs (en utilisant la rétropropagation) afin que l’entrée corresponde étroitement à la sortie. Ce processus est chronophage : avec une carte graphique GPU, il faut environ 3 jours pour obtenir des résultats corrects (après avoir traité les images plus de 10 millions de fois).

Après l'entraînement, on traite la vidéo image par image pour échanger le visage d'une personne avec celui d'une autre. Avec la détection de visage, on extrait le visage de la personne A et on l’envoie dans l'encodeur. Cependant, au lieu de l'envoyer à son décodeur d'origine, on utilise le décodeur de la personne B pour reconstruire l'image. Autrement dit, on dessine la personne B avec les caractéristiques de la personne A dans la vidéo d'origine. Ensuite, on intègre le visage nouvellement créé dans l'image originale.

Intuitivement, l'encodeur détecte l'angle du visage, le teint de peau, les expressions faciales, l’éclairage et d'autres informations importantes pour reconstruire la personne A. Lorsque l'on utilise le second décodeur pour reconstruire l'image, on dessine la personne B mais dans le contexte de la personne A. Dans l'image ci-dessous, l'image reconstruite présente les traits du visage de Trump tout en conservant l'expression faciale de la vidéo cible.

Image
Avant l'entraînement, on doit préparer des milliers d’images pour les deux personnes. On peut prendre un raccourci en utilisant une bibliothèque de détection de visage pour extraire automatiquement des photos de leurs vidéos. Il est essentiel de passer du temps à améliorer la qualité des images faciales, car cela influence fortement le résultat final.

  • Supprimez toutes les images contenant plus d'une personne.

  • Assurez-vous d’avoir une grande quantité de séquences vidéo. Extrayez des images faciales avec différentes poses, angles de visage et expressions faciales.

  • Éliminez les images de mauvaise qualité : floues, teintées, petites, mal éclairées ou obstruées.

  • Une certaine ressemblance entre les deux personnes, comme une forme de visage similaire, peut aider.

On ne veut pas que notre autoencodeur se contente de mémoriser les données d’entraînement et de reproduire directement la sortie. Il faut se rappeler que toutes les possibilités ne sont pas réalisables. On introduit un processus de débruitage (denoising) pour créer des variantes dans les données et entraîner l’autoencodeur à apprendre de manière intelligente. Le terme "débruitage" peut être trompeur. Le concept principal est de déformer certaines informations tout en s'attendant à ce que l’autoencodeur ignore intelligemment ces anomalies mineures et recrée l'original. Autrement dit, on apprend à retenir ce qui est important et à ignorer les variantes inutiles. En répétant l'entraînement plusieurs fois, le bruit s’annule et finit par être oublié. Ce qui reste, ce sont les véritables motifs que l’on cherche à conserver.

Pour nos images faciales, on sélectionne une grille de points de 5 × 5 et on les déplace légèrement par rapport à leurs positions d'origine. On utilise un algorithme simple pour déformer l’image en fonction de ces points décalés. Même si l’image déformée ne semble pas parfaitement correcte, c’est justement le bruit que l’on souhaite introduire. Ensuite, on utilise un algorithme plus complexe pour reconstruire une image cible en fonction des points décalés. L’objectif est que les images créées ressemblent le plus possible aux images cibles.

Cela peut sembler étrange, mais cela force l'autoencodeur à apprendre les caractéristiques les plus importantes.

Pour mieux gérer les différentes poses, angles du visage et positions, on applique également une augmentation des images pour enrichir les données d'entraînement. Pendant l'entraînement, on fait pivoter, zoomer, déplacer et retourner les images faciales de manière aléatoire, mais dans une plage spécifique.

GAN (Generative Adversarial Network)

Dans un GAN, on introduit un réseau profond discriminant (un classificateur basé sur un réseau de neurones convolutif, ou CNN) pour distinguer si les images faciales sont originales ou générées par ordinateur. Lorsqu'on soumet des images réelles à ce discriminant, on l’entraîne à mieux reconnaître les images authentiques. Lorsqu'on lui soumet des images générées, on utilise ce retour pour entraîner notre autoencodeur à produire des images plus réalistes. Cela crée une sorte de compétition qui, avec le temps, rend les images générées indiscernables des images réelles.

De plus, notre décodeur génère à la fois des images et des masques. Comme ces masques sont appris à partir des données d'entraînement, ils permettent de mieux intégrer l’image générée et de créer une transition plus fluide avec l’image cible. Ils gèrent également mieux les visages partiellement obstrués. Dans de nombreuses vidéos truquées, lorsque le visage est partiellement bloqué par une main, la vidéo peut clignoter ou devenir floue. Avec un masque amélioré, on peut exclure la zone obstruée du visage généré et utiliser la partie correspondante de l’image cible à la place.

Même si les GAN sont puissants, leur entraînement prend beaucoup de temps et nécessite un haut niveau d’expertise pour être correctement réalisé. Par conséquent, ils ne sont pas aussi populaires qu’ils pourraient l’être.

Démonstration

Regardons quelques bonnes vidéos Deepfakes et voyons si vous pouvez les détecter. Jouez-les au ralenti et soyez attentif à ces points :

  1. Y a-t-il un flou excessif par rapport aux zones non faciales de la vidéo ?

  2. La vidéo clignote-t-elle ?

  3. Y a-t-il un changement de teinte de peau près des bords du visage ?

  4. Y a-t-il un double menton, des doubles sourcils ou des contours doublés sur le visage ?

  5. Lorsque le visage est partiellement obstrué par des mains ou d’autres objets, devient-il flou ou clignote-t-il ?

Ces indices peuvent vous aider à identifier les vidéos truquées, même celles de haute qualité.

Synchronisation des lèvres à partir de l’audio

La vidéo réalisée par Jordan Peele est l’une des plus difficiles à identifier comme étant truquée. Cependant, en regardant de plus près, la lèvre inférieure d’Obama apparaît plus floue par rapport aux autres parties du visage. Par conséquent, au lieu de remplacer entièrement le visage, je pense qu’il s’agit d’une vraie vidéo d’Obama dont la bouche a été modifiée pour synchroniser les mouvements avec un audio falsifié.

Ici, on va parler de la technologie de synchronisation labiale développée par l'Université de Washington (UW).

Cette technologie remplace l'audio d'une allocution présidentielle hebdomadaire par un autre audio (audio d'entrée).

Pendant ce processus, elle re-synthétise la bouche et la zone du menton afin que leurs mouvements soient synchronisés avec l'audio falsifié.

Bref, je ne rentrerai pas + dans les détails car c’est quand même assez compliqué pour des débutants dans le domaine mais si vous restez sur votre faim, dites-le moi dans le sondage ci-dessous et je vous donnerai plus de détails si vous en avez besoin !

Dans tous les cas, la recherche de l’université de Washington est ici, c’est super intéressant à lire !

En tout cas, tout ça, c’est bon à savoir et à comprendre, mais surtout, il faudra sans cesse rester vigilant.

Les impacts sociaux de ces images et vidéos peuvent être énormes.

Ne publiez jamais de vidéos truquées juste pour vous amuser !

Ça peut entraîner des problèmes juridiques et nuire à votre réputation en ligne. J’explore ce sujet en raison de mon intérêt pour le méta-apprentissage et la détection d’adversaires mais c’est mieux d’utiliser votre énergie pour des projets plus innovants.

Par contre, les vidéos truquées continueront d’exister et de s’améliorer. Mon objectif n’est pas de créer de meilleures vidéos truquées, mais de mieux comprendre comment appliquer les GAN pour reconstruire des images.

Peut-être qu’un jour, ces techniques pourront être utiles, par exemple, pour détecter des tumeurs.

Qu'as-tu pensé de cette newsletter ? 🧠

Connexion ou S'abonner pour participer aux sondages.

Reply

or to participate.