El comienzo de año trae consigo un riesgo que los expertos en audio y ciberseguridad consideran prioritario: la clonación de voces utilizando inteligencia artificial para cometer fraudes y extorsiones.
Un informe de la Universidad de San Buenaventura (USB), con sede en Bogotá, advierte que la cifra aumentó un 30% en diciembre y brinda orientaciones prácticas sobre cómo protegerse en enero.
“Una voz transmite confianza inmediata, por eso resulta tan atractiva para los estafadores”, explica Marcelo Herrera, profesor de ingeniería de audio de la USB.
Los datos internacionales muestran que esta amenaza ya no es única. El Informe de amenazas de otoño de 2025 de Ironscales reveló que el 85% de las empresas experimentaron al menos un incidente deepfake el año pasado, y más de la mitad informaron pérdidas de más de 280.000 dólares por ataque.
A su vez, Gartner informó que el 62% de las empresas encontraron intentos similares y que en el 44% de los casos se utilizó sonido sintético imitando la voz humana.
De manera similar, McAfee señaló que 1 de cada 10 personas fue blanco directo de una estafa de clonación de voz el año pasado.
En Colombia este fenómeno también da señales inquietantes. A diciembre de 2025, la Policía Nacional había reportado 64 denuncias por extorsión en Bolívar, 24 de las cuales están relacionadas con soluciones digitales que involucran voces e imágenes clonadas generadas mediante inteligencia artificial.
Durante el mismo período, el GAULA registró 36 detenciones en relación con estos casos. La estrategia nacional de seguridad digital del país advierte que el país tuvo el segundo mayor número de ataques digitales en América Latina en 2025, representando el 17% de los ataques regionales.
Además, la Ley N° 2502 de 2025 aumentó las penas por falso testimonio cuando se utilice inteligencia artificial para hacerse pasar por otras personas.
En conjunto, todos estos datos confirman que la amenaza de la clonación de voces mediante inteligencia artificial es real, creciente y ya está teniendo un impacto visible en ciudadanos y empresas de varias regiones del país.
Te contamos cómo funcionan los deepfakes
Los estafadores suelen empezar con un mensaje corto imitando la voz de un familiar o superior, utilizando fragmentos descargados de redes sociales, estados de WhatsApp o grabaciones antiguas. Utilizando apenas unos segundos de sonido, entrenan modelos de inteligencia artificial capaces de reproducir timbre y ritmo con una fidelidad sorprendente.
La estafa sigue un patrón claro: primero, generan un efecto emocional –miedo, confusión o urgencia– a través de escenarios sobre accidentes, cierres de bancos, detenciones o solicitudes de ayuda inmediata. Luego intentan que la víctima actúe rápidamente enviándole dinero, compartiendo contraseñas o proporcionando información personal.
«El delincuente sabe que el cerebro reacciona de manera diferente cuando cree escuchar a alguien cercano en peligro, por eso crea historias cortas y de suspenso», explica Herrera.
En un formato de audio clonado es habitual que las voces suenen demasiado limpias, con silencios sin atmósfera, frases que no fluyen o cambios bruscos de entonación.
También se produce respiración perfecta o finales entrecortados, signos que pueden pasar desapercibidos si la víctima está nerviosa. Los delincuentes suelen impedir cualquier verificación: desconectan la conexión, envían otro sonido o insisten en que ya no pueden hablar.
Además, esta temporada combinan la clonación de voz con otros métodos: perfiles falsos, números desconocidos o enlaces destinados a suplantar entidades.
Diciembre, con más viajes, compras, estrés y llamadas urgentes, es terreno fértil para el fraude. En este contexto, un sonido que suene creíble, incluso si tiene defectos sutiles, puede ser suficiente para que alguien reaccione sin tener que pensarlo dos veces.
Cinco pasos para actuar en segundos y evitar caer en estas estafas
- Consulta por otro canal. Cuelga y contacta a una persona real en otro número.
- Pregunta algo que sólo un contacto real pueda responder. La inteligencia artificial imita voces, no recuerdos.
- Escuche el sonido con auriculares. “Se nota mucha manipulación cuando escuchas el final de cada oración”, dice Herrera.
- Tómate veinte segundos antes de actuar. Esta pausa corta la manipulación emocional.
- Nunca envíes dinero sin verificación múltiple. Si hay presión, probablemente sea una estafa.
Finalmente, Herrera recomienda acordar una palabra clave de emergencia conocida y definir protocolos internos dentro de las empresas para verificar pagos y cambios de cuentas. También es necesario comprobar el contexto de la conversación: si el mensaje es contrario a la rutina del interlocutor, lo más probable es que se trate de un intento de fraude. Capturar el sonido e informarlo ayuda a evitar que otras personas se caigan. “Lo que protege no es la tecnología, sino una tranquilidad que se puede comprobar”, concluye.
16
