v0.1 demostró que comprimir conversaciones en un grafo de conocimiento funciona. Pero el pipeline era complejo: dos modelos, cuatro llamadas LLM por turno, 14GB de VRAM. En v0.2 fine-tuneé mi propio modelo para que haga chat y extracción con un solo prompt — el pipeline se redujo a la mitad, la VRAM bajó a 6GB, y Acervo se volvió stateless. En este post: el proceso de fine-tuning, las lecciones que no encontré en ningún tutorial, y por qué un solo modelo cambió todo.