Les systèmes d’authentification vocale deviennent désormais un risque, non une garantie
La voix au bout du fil n’est plus une preuve d’identité.
Jusqu’à récemment, concevoir une intelligence artificielle capable de tenir une vraie conversation téléphonique relevait de la prouesse technique, il fallait combiner reconnaissance vocale, traitement du langage et synthèse de la parole, reliés par des logiciels fragiles. Ce temps est révolu.
L’arrivée de modèles d’IA comme le RealTime API d’OpenAI permet aujourd’hui de créer, en quelques minutes seulement, un agent capable d’écouter, réfléchir et répondre instantanément.
Mais cette fluidité ouvre la porte à un nouveau type d’escroquerie: le «vishing», ou hameçonnage vocal dopé à l’IA. En 2024, le groupe britannique Arup a été victime d’une fraude de 25 millions de dollars via deepfake vocal. Cisco a subi une attaque similaire. Ce qui nécessitait autrefois une expertise poussée est désormais à la portée de tous.
Quelques lignes d’instructions suffisent pour créer une IA se faisant passer pour un responsable RH ou un agent anti-fraude. Grâce à sa capacité à raisonner et à s’adapter en temps réel, la manipulation devient dynamique et personnalisée.
La menace s’aggrave avec les plateformes comme ElevenLabs ou Cartesia, capables de cloner une voix avec quelques secondes d’audio. Les voix de personnalités publiques, abondamment disponibles en ligne, peuvent être reproduites sans leur consentement. Le FBI a d’ailleurs mis en garde contre de faux appels se réclamant de hauts responsables américains.
Une solution simple existe: définir avec ses proches, familles et collègues, un mot-code ou une phrase secrète qui ne peut être imitée ni devinée. Si jamais vous recevez un appel ou un message urgent, demander le mot de sécurité est un moyen rapide de vérifier l’identité de la personne.
Comme nous avons appris à douter d’un email, il faudra apprendre à douter d’une voix.
Sources : The Financial Times / Scientific American


