Les DeepFakes en 5 minutes
Comprenez comment les DeepFakes fonctionnent et créez les vôtres!
On dirait qu'ils ont toujours été là, mais les deepfakes sont apparus pour la première fois en 2018, il y a seulement trois ans! Depuis lors, il ont évolué d'une manière que personne ne pourrait jamais imaginer. Comme vous pouvez le voir, il est maintenant facile de donner un aspect réel à une vidéo de quelqu’un portant un discours, sans même qu’il y soit vraiment! La réalité est que vous ne pouvez plus croire ce que vous voyez, et les DeepFakes ont un grand rôle à jouer à cet égard. En fait, la technologie DeepFake permet de mettre littéralement des mots dans la bouche de n'importe qui tout en créant une fausse vidéo de la personne qui le dit. C'est à la fois une nouvelle technologie impressionnante et un outil dangereux.
Qu'est-ce qu'un DeepFake et comment ça fonctionne?
Un deepfake est un média synthétique dans lequel l'identité d'une personne dans une image, une trappe sonore, ou une vidéo est remplacée par quelqu'un d'autre. Soit leur voix, leur visage ou même les deux. Les DeepFakes utilisent des algorithmes d'apprentissage automatique pour manipuler ou générer le contenu visuel et / ou audio de ces vidéos afin d'imiter la voix et / ou le visage de quelqu'un d'autre.
Avec les progrès des GPU (cartes graphiques) au cours des dernières années, les chercheurs ont pu développer des techniques d'apprentissage profond rendant ces applications possibles, telles que les auto-encodeurs et les GANs.
Maintenant, vous vous demandez peut-être ce que c’est que les GANs et auto-encodeurs, et comment fonctionnent-ils? Eh bien, la réponse n’est pas aussi simple. Les applications Deepfake fonctionnent de différentes manières. Tout comme dans ce gif, certains essaient de cartographier le visage d'une personne cible, comme mettre le visage d'Elon Musk sur une vidéo cible d'un bébé jouant.
Comment sont fabriqués les DeepFakes?
Comme la plupart des applications basées sur l'IA, il utilise des architectures de réseau neuronal profond pour y parvenir. Comme je l'ai dit, les deepfakes utilisent des auto-encodeurs et des GANs, ce qui est particulièrement utile pour les applications de vision par ordinateur comme celle-ci.
En gros, ça se compose d'un encodeur, qui réduit une image à un espace latent de dimension inférieure et d'un décodeur, qui reconstruit l'image à partir de la représentation latente. L'encodeur est utilisé pour encoder la personne que nous voulons imiter dans l'espace latent. Cet espace latent contient alors les principales caractéristiques de la personne, soit leurs traits du visage et de leur posture corporelle pour reproduire ses mouvements du visage et du corps. En sélectionnant seulement les informations voulues, on peut ainsi extraire exactement ce qu’on veut d’une vidéo, trappe audio ou images pour utiliser ces informations dans le prochain réseau: le décodeur.
Ensuite, le décodeur, un modèle formé spécifiquement pour la vidéo cible est utilisé pour décoder cet espace latent. Cela signifie que les informations détaillées de la cible seront superposées aux caractéristiques faciales et corporelles sous-jacentes de la vidéo originale, représentées dans l'espace latent précédemment encodé. Ce processus est appelé un auto-encodeur et il est placé dans une architecture qu’on surnomme GAN afin d’être entraîné. Ici, l’entraînement est utilisé pour améliorer les résultats et “apprendre” comment optimiser et utiliser cet espace latent qu’on utilisera ensuite en production. L’architecture GAN, que j’ai couverte dans de nombreuses autres publications si cela vous intéresse, permet au deepfake d'évoluer et de s'améliorer constamment de manière réaliste jusqu’à ce qu’on juge qu’il est suffisamment bon pour être déployé.
Créez votre propre DeepFake!
Heureusement pour nous, il existe de nombreux outils en ligne disponibles pour produire des deepfakes.
Il existe DeepFaceLab qui est entièrement gratuit avec le code accessible au public et de nombreuses ressources disponibles pour former votre propre deepfake sur vos images et vidéos. Vous pouvez faire beaucoup de choses en utilisant leur code, comme remplacer un visage dans une image ou une vidéo, remplacer la tête entière et même manipuler la voix d'une personne spécifique.
Consultez leur GitHub pour plus d'informations, tout est clairement expliqué, et vous pouvez même exécuter le code directement sur google colab si vous n'avez pas la puissance de calcul pour entraîner un tel réseau sur votre propre ordinateur. Ils ont même partagé un tutoriel vidéo complet pour vous aider à créer vos propres deepfakes!
Bien entendu, toutes les ressources citées ici sont entièrement gratuites. Vous devriez certainement essayer si les deepfakes vous intéressent!
Comme je l'ai dit, il s'agit d'une ‘nouvelle’ technologie à la fois formidable et dangereuse. S'il vous plaît, n'abusez pas de cette technologie et restez éthiquement acceptable! Le but ici est d'aider à améliorer cette technologie, pas de l’utiliser pour de mauvaises raisons. De plus, il existe de nombreuses techniques pour détecter les deepfakes, qui feront l'objet d'une future publication!
Merci d’avoir lu cet article!
Venez discuter avec nous dans notre communauté Discord: ‘Learn AI Together’ et partagez vos projets, vos articles, vos meilleurs cours, trouvez des coéquipiers pour des compétitions Kaggle et plus encore!
Si vous aimez mon travail et que vous souhaitez rester à jour avec l'IA, vous devez absolument me suivre sur mes autres médias sociaux (LinkedIn, Twitter) et vous abonner à ma newsletter hebdomadaire sur l'IA!
Pour supporter mon travail:
La meilleure façon de me soutenir est de souscrire à ma newsletter tel que mentionné précédemment ou de vous abonner à ma chaîne sur YouTube si vous aimez le format vidéo en anglais.
Soutenez mon travail financièrement sur Patreon
Références
DeepFaceLab: https://github.com/iperov/DeepFaceLab