Que los tokens no te arruinen: Consejos para ahorrar en IA

La IA barata va llegando a su fin. El impuesto del token es ya un dolor de cabeza.

Cada vez más, los principales proveedores de LLMs están subiendo las tarifas y creando nuevos planes más onerosos. Algunos proveedores hacen la trampa de mantener los precios, pero a cambio consumes muchos más tokens y mucho más rápido, llegando a pagar un 30% por hacer lo mismo. Otros han sostenido sus tarifas mucho tiempo, pero no pueden más y se ven obligados a encarecer sus servicios para ser sostenibles. Han generado una necesidad barata para conseguir una masa de yonkis que pagarán lo que sea por conseguir su soma (la droga que se consumía en la novela "Un mundo Feliz", de Aldous Huxley).

El escenario que se avecina

El escenario que se avecina es el inicio de la IA de dos velocidades: la de aquellos que pueden pagar (y entre éstos, los que más pagan mejor IA tendrán) y la de aquellos que solo pueden pagar un servicio mediocre o verse abocados a sobrevivir sin IA.

Es cierto que las IAs chinas están cada vez más cerca del nivel de las IAs estadounidenses, sus costes son irrisorios y muchas abrazan el espíritu del software libre. Pueden ser una alternativa real, competente y económica, pero la sombra de la sospecha de la vigilancia y de la privacidad es muy fría y alargada. Además, estas IAs ya están empezando a imitar a sus homólogos yanquis, y empiezan a subir sus tarifas.

Esta IAmenaza se cierne sobre la economía, la sociedad, la cultura, la tecnología, las empresas y el trabajo. Llegamos a un punto de inflexión global, un revulsivo que podría cambiar los cimientos del mundo tal y como lo hemos conocido hasta ahora.

Estrategia

Para mitigar los efectos de una IA de lujo, os recomiendo utilizar la IA de forma más inteligente, siguiendo una estrategia basada en varios pilares:

Reducir el consumo de tokens.
Usar modelos open source o modelos más baratos.
Monitorización del consumo.

Consejos

Los consejos que se exponen a continuación pueden ayudarte a mejorar el uso de la IA y, al mismo tiempo, reducir la factura de los tokens.

Prompts cortos, precisos y eficientes. Convertirte en un gurú de los prompts. Sé codicioso con cada token que facilites y con cada token que obtengas. Limita la longitud de las respuestas, el ámbito y la información que realmente necesitas. Reduce el trabajo inútil o ineficiente. Elimina explicaciones cuando no aportan valor. Elimina razonamientos cuando no son necesarios. Sé directo y exige respuestas directas y cortas. El formato es la clave. Ejemplos: JSON, listas, bullets, respuestas breves y limitadas (por ejemplo, responde en una frase, en 100 palabras, etc.). Prueba el uso de Ingeniería de Prompts Minimalistas (Prompt Pruning). Prueba también a configurar el parámetro max_tokens en las llamadas por API.
Contextos resumidos. Evita el envío de documentos o enviar contextos muy extensos. Comprende bien el contexto para ofrecerlo resumido, preciso y sin ambigüedades. Expón los fragmentos relevantes, de forma directa y sin repeticiones innecesarias. Evitar distracciones que hagan ruido.
El inglés es el idioma más barato. Las IAs primigenias han sido entrenadas en inglés (o en chino), y está demostrado que el número de tokens utilizado en un prompt es mucho menor en la lengua de Shakespeare. El uso del español puede llegar a ser un 60% más caro.
Usa diferentes modelos de forma eficiente. Olvida el LLM más potente para todo. No existen las balas de plata. No vayas a comprar pan a la esquina llevando un Ferrari. Utiliza modelos simples para respuestas simples (modelos nano, flash o haiku). Utiliza modelos entrenados para temas específicos (por ejemplo, medicina, ingeniería, etc.). Utiliza los modelos complejos unicamente para cuando se necesiten razonamientos complejos. El modelo adecuado para la respuesta adecuada.
Reducir el número de iteraciones. Cada iteración con el LLM sobrecarga la ventana de contexto, lo que, además del coste por token, también produce respuestas más lentas, mayor coste computacional y el fenómeno "drift", mediante el cual la IA puede olvidar instrucciones iniciales o empezar a contradecirse. Un buen consejo es conseguir varias respuestas en una misma petición, en lugar de ir iterando una tras otra. Mediante un buen uso del prompting se obtiene respuestas precisas en un número menor de iteraciones. Una buena referencia sería usar un máximo de 3-5 iteraciones.
Usar RAG en lugar de contextos masivos. Resulta mucho más barato y eficiente utilizar RAG, ya que busca solo lo relevante antes de llamar al modelo, reduciendo los tokens de entrada de forma drástica (por ejemplo con un PDF de 100 páginas).
Procesamiento por lotes. Procesar multitud de peticiones de forma individual encarece por el uso ineficaz de la infraestructura. Algunos proveedores ofrecen descuentos en servicios de batching, que permiten procesar paquetes grandes de peticiones, abaratando mucho los costes. Si no es urgente, agrupa muchas peticiones en un lote masivo. Ejemplos. embeddings, evaluaciones, resúmenes asíncronos, enriquecimiento de datos.
Cachear resultados. Cuando existen resultados repetitivos (como los de una FAQ, consultas repetitivas, embeddings...) es recomendable guardarlos en caché. Las páginas web llevan décadas cacheando resultados, con lo que se consigue un ahorro importante de costes.
Optimizar los modelos y la infraestructura. Cuando ya tienes un volumen alto de inferencias, es conveniente optimizar cosas como la cuantización del modelo, la destilación o los ajustes de inferencia. Modelos pequeños para producción, cuantización para despliegues estables y destilación para casos recurrentes.
Observar en detalle los costes. Analiza el coste por persona, por prompt, por equipo. Obtén dashboards de tokens entrada/salida y coste por endpoint.
Definir políticas de uso y límites duros. Establece un límite de presupuesto, rate limits por tokens y reglas de escalado. Establece topes por equipo, bloqueos automáticos al superar un umbral de consumo. Separa los entornos de producción y de desarrollo.
Usar modelos locales. Utilizar un modelo local tiene la ventaja de utilizar el modelo de forma gratuita, sin necesidad de estar conectado a internet, lo que implica privacidad total. Está opción te otorga soberanía sobre la IA. Por contra, necesitarás un buen equipo (a ser posible, dotado de GPU), ya que la capacidad del mismo limita el modelo que puedas utilizar, la velocidad con la que se procesa (en general, más lenta) y necesitarás algunos conocimientos técnicos para operar con ello. Por ello, si no cuentas con un gran equipo, puedes utilizar los modelos locales para consultas simples. Para esta opción, recomiendo usar Ollama, llama.cpp o LMStudio.

Conclusión

En todo escenario hay lecciones que aprender, y si la lección es dura el aprendizaje es más reseñable. Ahora que la IA nos empieza a doler en el bolsillo, surge la necesidad de economizar al máximo nuestro uso.

Los consejos anteriores seguro que ayudarán mucho a reducir la tarifa sin resignarse a utilizar la IA. Lo inteligente aquí es saber cómo utilizar la IA de la forma más inteligente, óptima y eficiente.

Si conoces algún otro consejo, te leo en los comentarios.

Buscar este blog

IAmenazas