Si has usado ChatGPT, Claude o cualquier otro LLM en tu negocio, te han cobrado en tokens, lo hayas notado o no. Los tokens son la unidad de medida de todo lo que la IA hace. Son la forma en que el modelo lee lo que escribes, cómo produce su respuesta y cómo cualquier proveedor de API en el mundo calcula tu factura a fin de mes.
A la mayoría de los dueños de negocios que usan herramientas de IA nunca les han explicado qué es un token. Eso está bien si solo usas la suscripción de consumidor de ChatGPT. Se vuelve costoso cuando empiezas a integrar IA en tu operación, soporte al cliente, flujos de contenido o cualquier producto. Este artículo explica los tokens en términos de negocio, no de ingeniería, para que tomes decisiones informadas sobre qué modelo usar, cuánto costará y dónde recortar el desperdicio.
Un token es la pieza más pequeña de texto que un modelo de lenguaje puede procesar de una vez. No es una palabra, ni es un carácter. Es algo intermedio. En inglés, un token promedia aproximadamente 4 caracteres o cerca de 0.75 palabras. Por lo tanto, 1,000 tokens equivalen aproximadamente a 750 palabras, que es más o menos una página a espacio sencillo.
Ejemplos concretos de tokenización:
Cada LLM viene con su propio tokenizador, un pequeño programa que divide el texto en tokens antes de que el modelo lo procese. Diferentes tokenizadores producen conteos ligeramente distintos para el mismo texto. OpenAI usa los tokenizadores cl100k u o200k. Anthropic usa el suyo propio. Las diferencias suelen ser pequeñas, pero existen.
Cada API moderna de LLM cobra por millón de tokens, abreviado MTok. Los tokens de entrada (el texto que envías al modelo) se cobran a una tarifa. Los tokens de salida (el texto que el modelo genera) se cobran a una tarifa más alta. Los tokens de salida cuestan entre 2 y 5 veces más que los de entrada según el proveedor. La proporción mediana del sector en 2026 es de aproximadamente 4 veces salida a entrada.
Aquí están los precios concretos de los proveedores principales en 2026, expresados como dólares de entrada / dólares de salida por millón de tokens:
La diferencia entre el modelo más barato y el modelo frontera más caro es de aproximadamente 100 veces. Elegir el modelo correcto para cada trabajo es la palanca más grande que un negocio tiene sobre el costo de IA.
La razón por la que los tokens de salida cuestan de 2 a 5 veces más que los de entrada tiene que ver con cómo funcionan realmente los modelos transformer. Cuando envías un prompt al modelo, el prompt completo se procesa en una sola pasada por la red neuronal. El modelo lo lee una vez, en paralelo, y ese paso es relativamente barato.
Generar la salida funciona distinto. El modelo produce un token a la vez, de forma autoregresiva. Para generar el token número 100, el modelo debe ejecutar una pasada completa sobre los 99 tokens que ya generó, más el prompt original. Generar el token 200 significa pasar sobre 199. Esto se acumula. Una respuesta de 1,000 tokens requiere aproximadamente 1,000 pasadas por el modelo, mientras que esos mismos 1,000 tokens de entrada solo requerirían una. Por eso la salida es más cara.
La ventana de contexto es el número máximo de tokens, sumando entrada y salida, que un modelo puede manejar en una sola petición. Si excedes la ventana, la petición falla o el contenido más viejo se descarta en silencio. Las ventanas de contexto han crecido drásticamente en 2026:
Para dar una idea: una ventana de 1 millón de tokens puede contener todos los correos que escribiste en los últimos tres años, más un contrato legal de 500 páginas, más un año de mensajes internos de Slack, todo en una sola petición. La implicación de negocio: flujos de trabajo que antes requerían sistemas complejos de recuperación ahora caben en un solo prompt.
Anthropic Claude — Razonamiento frontera, contexto de 200K a 1M, el modelo más fuerte en código y razonamiento sobre documentos largos. Es el motor detrás de Cursor, Replit y GitHub Copilot. Los usuarios de Claude tienden a ser técnicos y empresariales.
OpenAI ChatGPT (GPT-4.1, o1) — La mayor cuota de mercado por amplio margen, el ecosistema más extenso, la marca de IA por defecto para el consumidor. Fuerte en todo, con el modelo de razonamiento o1 liderando en matemáticas complejas y benchmarks científicos.
Perplexity — Categoría diferente. No entrena su propio modelo frontera. En su lugar, enruta consultas a Claude o GPT y agrega búsqueda web en vivo con citas. 170 millones de visitas mensuales y el producto sustituto de búsqueda de más rápido crecimiento en el espacio de IA.
Los tokens no son una abstracción. Son la unidad en tu factura. Un negocio que ignora la matemática de tokens pagará de 5 a 10 veces de más por la misma salida. Un negocio que entiende los tokens puede correr la misma carga con calidad frontera por una fracción de lo que paga su competencia.
Tres movimientos de optimización de costo que todo negocio debe hacer:
Aproximadamente 1,000 tokens equivalen a unas 750 palabras en inglés, lo que es más o menos una página a espacio sencillo. La proporción exacta depende del tokenizador del modelo y del idioma. El inglés promedia unos 4 caracteres por token. El español, el portugués y otras lenguas romances tokenizan alrededor de un 10 a 20 por ciento más grande que el inglés debido a los caracteres acentuados y la longitud promedio de las palabras.
Los tokens de entrada se procesan una sola vez en una pasada a través del modelo. Los tokens de salida se generan de forma autoregresiva: el modelo hace una pasada completa por cada token que produce. Ese costo de cómputo adicional es la razón por la que la salida cuesta de 2 a 5 veces más que la entrada en todos los proveedores principales. La proporción mediana del sector en 2026 es de aproximadamente 4 veces salida a entrada.
Una ventana de contexto es el número máximo de tokens, sumando entrada y salida, que un modelo puede procesar en una sola petición. Claude Opus 4.6 y Sonnet 4.6 incluyen 1 millón de tokens de contexto al precio estándar. OpenAI GPT-4.1 admite hasta 1,050,000 tokens. Google Gemini 2.5 incluye 1 millón. Todo lo que excede la ventana debe resumirse, recuperarse selectivamente o truncarse.
Sí. Tres técnicas comprobadas: cachear los prompts de sistema largos y repetidos, lo que baja los tokens de entrada cacheados a aproximadamente el 10 por ciento del precio normal en Anthropic y OpenAI. Usar el API de batch para tareas que no requieren respuesta inmediata, con un 50 por ciento de descuento en ambos. Elegir modelos más pequeños y baratos como GPT-4.1 Nano o Gemini 2.5 Flash para tareas de rutina y reservar los modelos frontera para los trabajos que realmente los necesitan.
Sí. El texto en español tokeniza aproximadamente entre un 10 y un 20 por ciento más grande que el equivalente en inglés. Los caracteres acentuados como á, é, í, ó, ú a menudo consumen un token extra, y las palabras en español son en promedio más largas que las del inglés. El mismo párrafo traducido del inglés al español costará un poco más en tokens de API. Tenlo en cuenta al presupuestar cargas bilingües.
"Si no entiendes los tokens, no entiendes lo que la IA te está cobrando en realidad. Todo dueño de negocio que usa ChatGPT o Claude debería saber cómo leer una factura de tokens."
- Diego Medina F, Fundador de MerchandisePROS
Obtén tu auditoría digital gratuita y descubre dónde las herramientas de IA y las señales AEO están dejando dinero sobre la mesa. Puntuación en 60 segundos, informe PDF en tu bandeja de entrada.
Obtener Mi Auditoría Gratis Consulta Gratis