Visión por computadora aplicada a tickets de gasolinera

Los tickets térmicos de gasolinera se descoloran rápido. La foto que el cliente toma desde el coche está mal iluminada, en ángulo, y a veces con el dedo encima del logo. Para el OCR tradicional, ese ticket es ilegible.

TicketFact resuelve este problema con visión por computadora multimodal moderna, no con Tesseract.

Por qué OCR clásico no alcanza

Vision por computadora — Modelos de IA visual.

Tesseract y motores parecidos asumen documentos escaneados a 300dpi, fondo blanco, contraste alto. Fallan con:

Tickets térmicos descoloridos (el papel se vuelve gris claro en pocos meses).
Fotos en gasolinera de noche, con flash que crea reflejos.
Tickets arrugados, doblados o con manchas de combustible.
Logos a color que confunden el motor de reconocimiento.

Qué cambia con visión multimodal

Codigo de programacion — Desarrollo de software.

Modelos como GPT-4 Vision, Claude Sonnet o Gemini entienden el contexto del documento, no solo los píxeles. Saben que ese número de 13 dígitos es un RFC, ese monto al final es el total con IVA, esa hora es la transacción.

La diferencia clave: el modelo no lee caracteres, lee tickets. Si una cifra está borrosa, infiere por la suma de las anteriores.

Buenas prácticas al integrar visión por computadora

Tablero de analytics — Visualizacion de datos.

Guarda la imagen original junto con el CFDI. Sirve como evidencia ante el SAT y para auditorías.
Score de confianza por campo. Si la confianza del RFC es menor a 95 por ciento, pides confirmación al usuario antes de timbrar.
Caché por emisor. Cuando ya facturaste 100 tickets de la misma gasolinera, el modelo aprende el layout y procesas más rápido y barato.
Fallback humano. Si el modelo se queda sin confianza, escala a un operador. Mejor 30 segundos extra que un CFDI mal emitido.

A qué otros sectores aplica

Estacionamientos y casetas (mismos tickets térmicos).
Restaurantes con consumo corporativo.
Autoservicios y tiendas de conveniencia.
Hoteles con consumo de pasajero a facturar a empresa.

La combinación de visión multimodal + WhatsApp + PAC es una de las arquitecturas más útiles de los últimos años para reducir fricción en facturación al cliente final.

Por qué OCR clásico no alcanza

Qué cambia con visión multimodal

Buenas prácticas al integrar visión por computadora

A qué otros sectores aplica

¿Te gustó? Hablemos de tu proyecto

Elige día y hora

¡Cita reservada!