Les voix de l'IA sont difficiles à repérer même si vous savez qu'il pourrait s'agir d'un deepfake

En 2019, le directeur d’une entreprise britannique tombe dans le piège d’une arnaque. Il a reçu un faux message vocal de son manager lui demandant de transférer 220 000 € (240 000 $) à un fournisseur. Un an plus tard, un directeur de banque à Hong Kong a reçu un appel d’une personne qui lui semblait familière. Parce qu’ils entretenaient une relation d’affaires, le banquier a transféré 400 000 $ avant de se rendre compte que quelque chose n’allait pas. Les escroqueries comme celles-ci utilisant la technologie de clonage vocal de l’intelligence artificielle (IA) sont de plus en plus fréquentes, et la détection des fausses voix deviendra de plus en plus difficile à mesure que l’IA s’améliore rapidement, même par des personnes formées utilisant des outils spéciaux.

Une étude récente publiée dans Plos One portant sur 529 participants a révélé que les humains ont du mal à distinguer avec précision les messages vocaux réels et faux. L’étude a révélé que les participants échouaient dans 25 % des cas lorsqu’ils tentaient de détecter des deepfakes vocaux, et que même la formation avait un impact minime. La moitié des participants ont reçu une formation préalable en écoutant cinq exemples de voix synthétisées, mais leurs performances n'étaient que 3 % supérieures à celles du groupe non formé.

L'étude menée par des chercheurs de l'University College London (Royaume-Uni) visait également à comprendre si le défi était plus facile ou plus difficile en fonction des caractéristiques des différentes langues. Ils ont donc réalisé les tests en anglais et en mandarin. Les résultats indiquent que les deux groupes ont évalué de la même manière l’authenticité des messages. Ils ont considéré des attributs tels que le naturel et l’absence de voix robotique comme des facteurs importants. "Les participants anglophones et mandarin ont fréquemment cité des prononciations incorrectes et des intonations atypiques dans les clips audio comme facteurs influençant leur processus de prise de décision", a déclaré Kimberly Mai, auteur principal de l'étude.

Les participants ont mentionné les mêmes caractéristiques, quelle que soit l’exactitude de la réponse. C'est parce que l'audio est subjectif. Contrairement à la détection des deepfakes visuels, où l’authenticité peut être jugée en observant des objets et des arrière-plans, la nature subjective de la parole fait varier davantage les perceptions. "Lorsque vous regardez une image potentiellement fausse d'une personne, vous pouvez compter le nombre de doigts ou voir si ses vêtements et accessoires correspondent", a déclaré Mai.

Pour comparer les capacités humaines et technologiques, les chercheurs ont également testé deux systèmes de détection automatisés. Le premier utilisait un logiciel formé sur une base de données indépendante, atteignant une précision de 75 %, similaire aux réponses humaines. Le deuxième détecteur, formé à la fois sur les versions vocales originales et synthétisées, a atteint une précision de 100 % dans l'identification des sons faux et réels. Mai affirme que les programmes avancés surpassent les humains en raison de leur capacité à reconnaître les nuances acoustiques subtiles, ce que les humains ne peuvent pas faire.

Les sons complexes, comme la parole humaine, sont constitués de différentes fréquences. La fréquence fait référence au nombre de fois qu’une onde sonore se répète en une seconde. "Pendant leur phase de formation, les détecteurs automatisés analysent des milliers d'échantillons vocaux et découvrent les particularités des niveaux de fréquence spécifiques et les irrégularités rythmiques que les humains sont incapables de discerner", a déclaré Mai.

Les détecteurs automatisés se sont révélés plus efficaces que les humains dans cette tâche, mais ils présentent également des limites. Premièrement, ils ne sont pas disponibles pour un usage quotidien. De plus, leurs performances diminuent lorsque les niveaux audio fluctuent et dans des environnements bruyants. Mais le principal défi est de suivre les progrès de l’intelligence artificielle générative, qui produit des contenus de plus en plus réalistes et synthétisés beaucoup plus rapidement. Dans le passé, la formation d’un programme pour créer des deepfakes nécessitait des heures d’enregistrement, mais maintenant cela peut être accompli en quelques secondes.

Selon Fernando Cucchietti, expert dans le domaine, les résultats de l'étude présentent certaines limites. Les conditions expérimentales étaient étroitement contrôlées et non représentatives des défis réels posés par cette technologie. "Ils ne sont pas vraiment pratiques dans les situations où les deepfakes peuvent causer des problèmes, comme lorsque vous connaissez personnellement la personne imitée", a déclaré Cuchietti, responsable de l'analyse et de la visualisation des données au Centre de superinformatique de Barcelone au Centre des médias scientifiques d'Espagne. Cependant, Cucchietti souligne que ces résultats s'alignent sur d'autres études menées dans des environnements contrôlés et que « ... les résultats sont moins influencés par des facteurs tels que des préjugés ou des idées préconçues, comme le montrent les études sur la désinformation ».