
Probablemente te haya pasado a ti. Subes un PDF a un chatbot de inteligencia artificial, con la esperanza de que resuma un informe, extraiga una tabla o encuentre una información específica para ti en segundos. Y a veces lo consigue. Pero a veces el resultado es inquietante: columnas mezcladas, notas a pie de página incrustadas en medio del texto, tablas transformadas en un bloque ilegible o respuestas que no reflejan fielmente lo escrito en el documento. La paradoja es obvia. Los sistemas que ya muestran avances significativos en matemáticas y programación continúan tropezando con algo tan mundano como un PDF. Y hay más en esto que simplemente no llegar a tiempo.
Cambio de mentalidad. Aunque para nosotros es un documento con párrafos, títulos y tablas claramente definidos, la situación puede ser completamente diferente para el sistema que lo procesa. PDF es principalmente una forma de describir visualmente cómo se debe representar una página. Y cuando un chatbot como Gemini o ChatGPT intenta trabajar con él, no siempre accede a una estructura ordenada, sino a una serie de instrucciones gráficas que primero debe reconstruir antes de poder responder de forma coherente. Y esta diferencia se comprende mejor cuando observamos cómo un PDF «almacena» información.
Cómo se organiza realmente la información. A diferencia de una página web, donde el contenido sigue un orden lógico definido en código, un PDF puede almacenar texto como fragmentos independientes que se colocan en posiciones específicas de la página. A menudo, el archivo contiene coordenadas e instrucciones de ubicación. pero no necesariamente relaciones explícitas entre una oración y la siguiente. Esto significa que el orden en el que “aparece” el texto al extraerlo no siempre coincide con el orden en que lo leemos. Si su documento contiene varias columnas, tablas o elementos superpuestos, el sistema necesita descubrir cómo encajan. Y esta conclusión no siempre es trivial.
¿Qué pasa con HTML?. El contenido está organizado en un sitio web. en una jerarquía explícita– Hay etiquetas que indican qué es un título, un párrafo, una tabla y la relación de estos elementos entre sí. Esta estructura es parte del archivo en sí y facilita su lectura, indexación y procesamiento para otros sistemas. Como hemos visto, esta capa semántica puede no existir o no estar claramente definida en un PDF. Por tanto, en la práctica, extraer información de un sitio web suele ser un proceso más predecible, mientras que extraer de un archivo PDF es más complicado.
Entonces, ¿qué pasa con el OCR? Es la primera solución que se me ocurre. Si el problema es que el texto no está bien estructurado o ni siquiera «dibujado» como una imagen, el reconocimiento óptico de caracteres debería convertirlo en algo legible por máquina. Y hasta cierto punto lo hace. El OCR se ha utilizado para convertir imágenes de palabras en texto durante décadas, pero convertir una imagen en texto no es lo mismo que reconstruir la lógica del documento. Cuando los elementos son diferentes, el sistema puede reconocer cada palabra sin saber exactamente cómo encajan. El resultado no es un fracaso en la lectura de caracteres, sino en la organización de la información.
¿Por qué no renunciamos al PDF? La respuesta es más pragmática que tecnológica. Según lo informado por The Verge citando al responsable Asociación PDFEl formato se ha vuelto popular precisamente porque permite que un documento tenga el mismo aspecto actual que dentro de diez o veinte años, independientemente del dispositivo o software con el que se abra. Una página web puede cambiar según el navegador, una hoja editable puede cambiarse o sobrescribirse, pero un PDF conserva su apariencia e integridad visual. Esta estabilidad es exactamente la que necesitan los abogados, ingenieros, administraciones públicas y todas las organizaciones que necesitan mantener registros fiables. El desafío no es reemplazar el formato, sino aprender a interpretarlo mejor.
Imágenes | con Nano Bana
En | Tres IA se enfrentaron en «juegos de guerra». El 95% de ellos recurrió a armas nucleares y ninguno se rindió jamás.
(función() { ventana._JS_MODULES = ventana._JS_MODULES || {}; var headElement = document.getElementsByTagName(‘cabeza’)[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement(‘script’); instagramScript.src=» instagramScript.async = verdadero; instagramScript.defer = verdadero; headElement.appendChild(instagramScript); } })(); –
la noticia
La IA resuelve ecuaciones y divide el código, pero continúa fallando en los archivos PDF: la explicación muestra sus limitaciones
fue publicado originalmente en
Por Javier Márquez.




