Modelos Multimodales Superan el Análisis Estructurado en el Procesamiento de Facturas
Un estudio comparativo revela que los modelos multimodales de IA, como **GPT-5** y **Gemini 2.5**, procesan facturas con mayor precisión que los métodos basados en texto, lo que podría revolucionar la automatización de tareas administrativas.

La Visión Multimodal Triunfa sobre el Texto
Un nuevo estudio publicado en arXiv compara la eficacia de ocho modelos de lenguaje multimodales (LLMs) en el procesamiento de facturas. Los modelos, pertenecientes a las familias GPT-5, Gemini 2.5 y Gemma 3, fueron evaluados utilizando tres conjuntos de datos de facturas disponibles públicamente.
La investigación se centró en dos estrategias: el procesamiento directo de imágenes mediante las capacidades multimodales de los LLMs y un enfoque de análisis estructurado que convierte las facturas a formato Markdown antes del procesamiento. Sorprendentemente, el procesamiento directo de imágenes superó al análisis estructurado en la mayoría de los casos.
Implicaciones para la Automatización
Este descubrimiento tiene importantes implicaciones para la automatización de procesos administrativos. La capacidad de los LLMs multimodales para procesar facturas directamente a partir de imágenes simplifica el flujo de trabajo y reduce la necesidad de pasos de preprocesamiento. Esto abre la puerta a una mayor eficiencia y a la reducción de errores en la gestión de documentos.
El estudio también destaca la variabilidad en el rendimiento entre los diferentes modelos y las características de los documentos, lo que subraya la importancia de seleccionar la herramienta adecuada para cada tarea específica. La investigación proporciona información valiosa para el desarrollo de sistemas automatizados de procesamiento de documentos.
El Futuro del Procesamiento de Documentos
El avance de los modelos multimodales promete transformar la forma en que interactuamos con la información visual. A medida que estos modelos sigan mejorando, podemos esperar una mayor automatización y eficiencia en áreas como la contabilidad, la gestión de contratos y otros procesos que involucran documentos complejos.