Louis-François Bouchard

View Original

Meilleur article - Mention honorable de CVPR 2022: "Dual-Shutter Optical Vibration Sensing"

Cette année, j'ai eu la chance d'être à CVPR en personne et d'assister à la remise des prix du meilleur article avec cet article fantastique que j'ai devait couvrir ici intitulée “Dual-Shutter Optical Vibration Sensing” par Mark Sheinin, Dorian Chan, Matthew O'Toole, Srinivasa Narasimhan.

En une phrase : ils reconstruisent le son à l'aide de caméras et d'un faisceau laser sur n'importe quelle surface vibrante, ce qui leur permet d'isoler des instruments de musique, de se concentrer sur un haut-parleur spécifique, de supprimer les bruits ambiants et bien d'autres applications étonnantes.

Plongeons dans la façon dont ils y parviennent et écoutons les résultats surprenants.

Vous devriez regarder la vidéo sous-titrée en français pour entendre les résultats, ou aller sur leur site Web et écouter les exemples. Le lien est en description en fin d’article.

Dans le premier exemple montré dans la vidéo, vous pouvez clairement entendre les deux guitares individuelles sur chaque piste audio.

Cela a été fait en utilisant non pas le son enregistré, mais un laser et deux caméras équipées respectivement de capteurs de roulement et global. Il semble que s'attaquer à cette tâche par la vision la rend beaucoup plus facile que d'essayer de diviser les pistes audio suite à l'enregistrement audio. De plus ,  cela signifie également que nous pouvons enregistrer n'importe quoi à travers des fenêtres et à partir de n'importe quel objet vibrant. Ici (voir la vidéo), ils ont utilisé leur méthode sur les haut-parleurs eux-mêmes pour isoler les haut-parleurs gauche et droit,  alors qu'un microphone enregistrera automatiquement les deux et mélangera les pistes audio.

En règle générale, ce type de technologie d'espionnage, appelée vibrométrie visuelle, nécessite des conditions d'éclairage parfaites et des caméras à grande vitesse qui ressemblent à un tireur d'élite camouflé pour capturer des vibrations à grande vitesse allant jusqu'à 63 kHz. Ici, ils obtiennent des résultats similaires avec des capteurs construits pour seulement 60 et 130 Hz ! Et mieux encore : ils peuvent traiter plusieurs objets à la fois !

C'est, malgré tout, une tâche très difficile nécessitant beaucoup d'ingénierie et de bonnes idées pour y arriver. Ils ne se contentent pas d'enregistrer les instruments et d'envoyer la vidéo à un modèle qui crée et sépare automatiquement l'audio. Ils doivent d'abord comprendre le laser qu'ils reçoivent et le traiter correctement.

Ils orientent alors un laser sur la surface à écouter. Ensuite, ce laser rebondit de la surface dans un plan de focal (voir image ci-bas). Ce plan de mise au point est l'endroit où nous prendrons nos informations, pas les instruments ou les objets eux-mêmes. Nous analyserons donc uniquement les minuscules vibrations des objets d'intérêt à travers la réponse laser en créant une représentation comme celle-ci :

“Schéma de notre système à double obturateur. Nous ajoutons une lentille cylindrique pour diffuser le speckle dans une colonne de plan image, qui est ensuite relayée sur deux caméras à obturateurs roulants et globaux.” Image tirée du papier.

Ce motif de réponse laser bidimensionnel capturé par nos caméras, appelé speckle, est ensuite traité à la fois globalement et localement à l'aide de nos deux caméras. Notre caméra locale, ou caméra à obturateurs roulant, capturera des images à seulement 60 images par seconde et prendra plusieurs photos pour les rouler sur l'axe y et obtenir une représentation 63khz parsemée de bruits et inexacte.

En rouge le signal de la caméra à obturateur roulant et en bleu les images de références de l'obturateur global. Image tirée du papier.

C'est là que la caméra à obturateur global est nécessaire en raison du caractère aléatoire de l'imagerie speckle dû à la rugosité de la surface et des mouvements de l'objet. Il prendra essentiellement une capture d'écran globale de la même image de speckle que nous avons utilisée avec notre premier appareil vidéo et utilisera cette nouvelle image comme cadre de référence pour isoler uniquement les vibrations pertinentes des captures de l'obturateur roulant. La caméra à obturateur roulant échantillonnera la scène rangée par rangée avec une fréquence élevée, tandis que la caméra à obturateur global échantillonnera la scène entière pour servir de cadre de référence, et nous répétons ce processus pour toute la vidéo.

Et voilà !

C'est ainsi qu'ils sont capables de séparer le son d'un enregistrement, d'extraire un seul instrument, de supprimer le bruit ambiant ou même de reconstruire la parole à partir des vibrations d'un sac de chips (voir la vidéo).

Bien sûr, ceci n'est qu'un simple aperçu de ce super article, et je vous invite fortement à le lire pour plus d'informations, lien ci-dessous. Félicitations aux auteurs pour la mention honorable. J'étais heureux d'assister à l'événement et de voir la présentation en direct. Je suis super excité de voir les futures publications que cet article va motiver.

Je vous invite également à revérifier tous les sacs de chips que vous pourriez laisser près d'une fenêtre ; certaines personnes pourraient écouter ce que vous dites !

Merci d'avoir lu tout l'article. Faites-moi savoir comment vous appliqueriez cette technologie et si vous voyez des risques potentiels ou des cas d'utilisation intéressants!

Et un grand merci à CVPR pour m'avoir invité à l'événement. C'était vraiment cool d'être à la Nouvelle-Orléans avec tous les chercheurs et entreprises du domaine.

Je vous verrai la semaine prochaine avec un autre article incroyable!

References

►Sheinin, Mark and Chan, Dorian and O’Toole, Matthew and Narasimhan, Srinivasa G., 2022, Dual-Shutter Optical Vibration Sensing, Proc. IEEE CVPR.
►Page du projet: https://imaging.cs.cmu.edu/vibration/
►Ma Newsletter (en anglais): https://www.louisbouchard.ai/newsletter/