Hola,
En arquitectura de sistemas hay una “ley no escrita” pero inmutable: nadie da nada gratis. Si optimizas agresivamente para una variable, estás pagando el precio en otra. Y en el mundo de la IA generativa, acabamos de toparnos con el ejemplo más brutal de este principio.
Llevamos todo el 2025 obsesionados con el tamaño de la ventana de contexto. 128k, 1 millón, 2 millones de tokens… Los proveedores nos vendían la idea de que podíamos volcar bibliotecas enteras en el prompt. Pero la realidad en producción nos dio un portazo en la cara: la latencia. Debido a la naturaleza cuadrática del mecanismo de atención, procesar esos contextos gigantescos hacía que el Time-To-First-Token (el tiempo que tardas en ver la primera palabra de la respuesta) se disparara a cifras inasumibles.
Fue entonces cuando apareció REFRAG, una técnica capaz de acelerar hasta 30 veces la respuesta sin perder calidad. Sobre el papel, es el sueño de cualquier ingeniero. Pero cuando levantas el capó y miras el mecanismo, te das cuenta de que la eficiencia tiene un precio oculto: nuestra libertad para cambiar de proveedor. Continue reading






