Site Logo

Blog personal donde comparto ideas, proyectos y temas que me apasionan: desarrollo web, inteligencia artificial, tecnología, Warhammer, juegos de rol, pintura y más. Un espacio para explorar tanto lo profesional como lo personal.

  • Published on
    v0.1 proved that compressing conversations into a knowledge graph works. But the pipeline was complex: two models, four LLM calls per turn, 14GB of VRAM. In v0.2 I fine-tuned my own model to do chat and extraction with a single prompt — the pipeline was cut in half, VRAM dropped to 6GB, and Acervo became stateless. In this post: the fine-tuning process, the lessons I couldn't find in any tutorial, and why a single model changed everything.
  • Published on
    v0.1 demostró que comprimir conversaciones en un grafo de conocimiento funciona. Pero el pipeline era complejo: dos modelos, cuatro llamadas LLM por turno, 14GB de VRAM. En v0.2 fine-tuneé mi propio modelo para que haga chat y extracción con un solo prompt — el pipeline se redujo a la mitad, la VRAM bajó a 6GB, y Acervo se volvió stateless. En este post: el proceso de fine-tuning, las lecciones que no encontré en ningún tutorial, y por qué un solo modelo cambió todo.
  • Published on
    Every time you talk to an LLM, you send the entire previous conversation. Turn 1: 200 tokens. Turn 100: the context fills up and it starts forgetting. RAG helps but brings kilos of raw text. Acervo is a different approach: extract structured knowledge from each conversation, compress it into a graph, and reconstruct context on demand — regardless of the session. In this post: the problem, why RAG isn't enough, how I came up with the idea, and what we built in the first version.
  • Published on
    Cada vez que hablás con un LLM, le mandás toda la conversación anterior. Turno 1: 200 tokens. Turno 100: el contexto se llena y empieza a olvidar. RAG ayuda pero trae kilos de texto crudo. Acervo es otro approach: extraer conocimiento estructurado de cada conversación, comprimirlo en un grafo, y reconstruir el contexto a demanda — sin importar la sesión. En este post: el problema, por qué RAG no alcanza, cómo se me ocurrió la idea, y qué construimos en la primera versión.