Interactive essay local

LLMs modernos: cómo funcionan las aplicaciones inteligentes actuales

01
De texto a comportamiento

Qué es un LLM moderno

Un LLM moderno no es una base de datos ni una regla gigante escrita a mano. Es un sistema probabilístico entrenado para transformar contexto en la siguiente pieza de salida útil.

En una aplicación real, el modelo suele vivir dentro de una arquitectura: prompts, herramientas, memoria, retrieval, evaluaciones y guardrails.

La demo reduce el flujo a cuatro etapas: texto, tokens, modelo y salida. Todo corre localmente como simulación visual.

Micro-demo: texto → tokens → modelo → salida

Simulación visual local. No hay inferencia real.

01

texto

pregunta simple

02

tokens

segmentos discretos

03

modelo

pesos + atención

04

salida

respuesta guiada

02
La unidad económica de la IA

Tokens, contexto y costo

El token es la unidad práctica de entrada y salida. Determina cuánto contexto entra, cuánto cuesta una interacción y qué parte de una conversación puede olvidar el sistema.

Una ventana de contexto grande no elimina el diseño de producto: prompts inflados, documentos largos y datos importantes al inicio pueden quedar truncados.

Esta demo usa un tokenizer toy para ver costo estimado, truncamiento y streaming simulado.

Tokenización, ventana y costo

Tokenizer toy + streaming simulado.

ResumeenunafrasequéesunLLMmoderno.

Contexto usado

Tokens

10

Costo

$0.00004

Drop

0

Stream

0%

03
Jerarquía operacional

Instrucciones, system prompts y tools

Las apps robustas separan instrucciones de sistema, reglas de desarrollo, mensajes de usuario, resultados de herramientas y respuesta final.

Cuando el usuario intenta sobreescribir reglas superiores, el stack debe preservar la intención original del producto.

Aquí puedes activar herramientas mock y ver cómo cambia el pipeline local.

Jerarquía de mensajes + tools

System/developer limitan lo que el usuario puede forzar.

system

No inventar. Respetar tools.

developer

Responder seguro y conciso.

user

calcula 18 + 24

assistant

Tool calculator → resultado local simulado: 42. Respuesta: el cálculo solicitado da 42.

intent detectiontool calltool resultanswer
04
Del texto libre a contratos

Structured outputs

Muchas aplicaciones no necesitan prosa: necesitan objetos válidos, campos completos y errores explicables.

Structured outputs convierten al LLM en un componente compatible con sistemas transaccionales, formularios y automatizaciones.

La demo compara una salida libre con JSON validado por un schema simple.

Salida libre vs JSON validado

Schema local simple; errores visibles.

María Gómez, CTO de Acme, quiere una demo el martes. Email [email protected]

{
  "type": "lead",
  "source": "María Gómez, CTO de Acme, quiere una demo ",
  "answer": "extraído",
  "confidence": 0.86
}
JSON válido
05
Memoria documental bajo demanda

Embeddings y RAG

RAG proyecta consultas y documentos a un espacio vectorial para recuperar contexto relevante antes de responder.

El retrieval real combina semántica, búsqueda lexical, metadatos, ranking y políticas de seguridad.

Esta visualización 2D muestra top-k, filtros e híbrido lexical/semántico.

Embeddings 2D + retrieval top-k

Cosine similarity toy con opción hybrid.

Manual RAGCostos de tokensPrompt injectionLoops de agentesEval harness
1. Manual RAG

score 0.93 · docs

2. Eval harness

score 0.72 · evals

3. Loops de agentes

score 0.71 · agents

06
Planificar, actuar, observar

Agents y loops

Un agente agrega iteración: decide pasos, usa herramientas, observa resultados y revisa su plan.

El riesgo principal no es que piense demasiado, sino que actúe sin límites claros o quede atrapado en loops.

La demo simula max steps, fallos de herramientas y retry controlado.

Agent loop

Plan → act → observe → revise → answer.

  1. 1. plan
  2. 2. act
  3. 3. observe: ok
  4. 4. revise
  5. 5. answer
07
Preferencias, hechos y olvido

Memoria

La memoria útil distingue entre contexto de trabajo y hechos persistentes. No todo debe guardarse; no todo debe olvidarse.

Una buena app redacta PII, supersede facts viejos y explica conflictos.

Esta demo muestra escritura, recuperación, olvido y reemplazo local.

Working memory vs long-term memory

Redacción y supersede local.

Working memory

Conversación actual: nombre del usuario

Long-term store

memoria: nombre del usuario

08
Elegir el modelo correcto

Model routing

Las aplicaciones maduras no usan siempre el modelo más caro. Enrutan según tarea, costo, latencia, calidad y modalidad.

El routing puede ahorrar presupuesto y mejorar UX sin cambiar la interfaz del usuario.

La matriz de decisión es mock, pero captura la lógica operacional.

Router de modelos

Decisión por costo, latencia o calidad.

fast

score 9.5

cheap

standby

reasoning

standby

vision

standby

embedding

standby

09
La regresión invisible

Evaluaciones

Los prompts cambian, los modelos cambian y los documentos cambian. Sin evals, una mejora aparente puede degradar casos críticos.

Un harness mínimo combina exact match, validez JSON, rúbricas y flags de alucinación.

Aquí puedes comparar prompt A/B con tests locales precargados.

Mini eval harness A/B

Exact match, JSON validity, hallucination flag y score agregado.

TestExactJSONHallucinationScore
jsonpasspassclean1
hallucinationpasspassclean1
formatpasspassclean1

Score agregado: 1

10
Diseñar para fallas esperables

Riesgos: alucinación, prompt injection, privacidad

Los riesgos de LLMs no son abstractos: respuestas inventadas, documentos maliciosos, fuga de PII y herramientas demasiado permisivas.

La mitigación nace en la arquitectura: sandbox de retrieval, allowlists, filtros de PII, citas y límites de tools.

La demo contrasta una respuesta vulnerable con una protegida.

Ataques y mitigaciones

Contraste vulnerable vs protegido.

Vulnerable

Acepta contexto malicioso y puede inventar o filtrar datos.

Protegido

Bloquea o degrada la acción con explicación.

11
Blueprint de arquitectura

Cómo construir una app real

Una app real combina objetivo, datos, herramientas, memoria, evaluaciones, modelo y riesgo. No es solo una llamada a un endpoint.

El blueprint debe hacer explícitos componentes, flujo, riesgos y checklist operativo.

Este capstone reordena módulos según el tipo de producto elegido.

Capstone: constructor de arquitectura

Blueprint mock generado localmente.

Canal

Paso 1

Classifier

Paso 2

RAG

Paso 3

Human review

Paso 4

Metrics

Paso 5

Guardrails

Paso 6

Checklist

Definir datos permitidos · tool allowlist · eval set mínimo · monitoreo · fallback humano.