Interactive essay local
LLMs modernos: cómo funcionan las aplicaciones inteligentes actuales
De texto a comportamiento
Qué es un LLM moderno
Un LLM moderno no es una base de datos ni una regla gigante escrita a mano. Es un sistema probabilístico entrenado para transformar contexto en la siguiente pieza de salida útil.
En una aplicación real, el modelo suele vivir dentro de una arquitectura: prompts, herramientas, memoria, retrieval, evaluaciones y guardrails.
La demo reduce el flujo a cuatro etapas: texto, tokens, modelo y salida. Todo corre localmente como simulación visual.
Micro-demo: texto → tokens → modelo → salida
Simulación visual local. No hay inferencia real.
01
texto
pregunta simple
02
tokens
segmentos discretos
03
modelo
pesos + atención
04
salida
respuesta guiada
La unidad económica de la IA
Tokens, contexto y costo
El token es la unidad práctica de entrada y salida. Determina cuánto contexto entra, cuánto cuesta una interacción y qué parte de una conversación puede olvidar el sistema.
Una ventana de contexto grande no elimina el diseño de producto: prompts inflados, documentos largos y datos importantes al inicio pueden quedar truncados.
Esta demo usa un tokenizer toy para ver costo estimado, truncamiento y streaming simulado.
Tokenización, ventana y costo
Tokenizer toy + streaming simulado.
Contexto usado
Tokens
10
Costo
$0.00004
Drop
0
Stream
0%
Jerarquía operacional
Instrucciones, system prompts y tools
Las apps robustas separan instrucciones de sistema, reglas de desarrollo, mensajes de usuario, resultados de herramientas y respuesta final.
Cuando el usuario intenta sobreescribir reglas superiores, el stack debe preservar la intención original del producto.
Aquí puedes activar herramientas mock y ver cómo cambia el pipeline local.
Jerarquía de mensajes + tools
System/developer limitan lo que el usuario puede forzar.
No inventar. Respetar tools.
Responder seguro y conciso.
calcula 18 + 24
Tool calculator → resultado local simulado: 42. Respuesta: el cálculo solicitado da 42.
Del texto libre a contratos
Structured outputs
Muchas aplicaciones no necesitan prosa: necesitan objetos válidos, campos completos y errores explicables.
Structured outputs convierten al LLM en un componente compatible con sistemas transaccionales, formularios y automatizaciones.
La demo compara una salida libre con JSON validado por un schema simple.
Salida libre vs JSON validado
Schema local simple; errores visibles.
María Gómez, CTO de Acme, quiere una demo el martes. Email [email protected]
{
"type": "lead",
"source": "María Gómez, CTO de Acme, quiere una demo ",
"answer": "extraído",
"confidence": 0.86
}Memoria documental bajo demanda
Embeddings y RAG
RAG proyecta consultas y documentos a un espacio vectorial para recuperar contexto relevante antes de responder.
El retrieval real combina semántica, búsqueda lexical, metadatos, ranking y políticas de seguridad.
Esta visualización 2D muestra top-k, filtros e híbrido lexical/semántico.
Embeddings 2D + retrieval top-k
Cosine similarity toy con opción hybrid.
score 0.93 · docs
score 0.72 · evals
score 0.71 · agents
Planificar, actuar, observar
Agents y loops
Un agente agrega iteración: decide pasos, usa herramientas, observa resultados y revisa su plan.
El riesgo principal no es que piense demasiado, sino que actúe sin límites claros o quede atrapado en loops.
La demo simula max steps, fallos de herramientas y retry controlado.
Agent loop
Plan → act → observe → revise → answer.
- 1. plan
- 2. act
- 3. observe: ok
- 4. revise
- 5. answer
Preferencias, hechos y olvido
Memoria
La memoria útil distingue entre contexto de trabajo y hechos persistentes. No todo debe guardarse; no todo debe olvidarse.
Una buena app redacta PII, supersede facts viejos y explica conflictos.
Esta demo muestra escritura, recuperación, olvido y reemplazo local.
Working memory vs long-term memory
Redacción y supersede local.
Conversación actual: nombre del usuario
memoria: nombre del usuario
Elegir el modelo correcto
Model routing
Las aplicaciones maduras no usan siempre el modelo más caro. Enrutan según tarea, costo, latencia, calidad y modalidad.
El routing puede ahorrar presupuesto y mejorar UX sin cambiar la interfaz del usuario.
La matriz de decisión es mock, pero captura la lógica operacional.
Router de modelos
Decisión por costo, latencia o calidad.
score 9.5
standby
standby
standby
standby
La regresión invisible
Evaluaciones
Los prompts cambian, los modelos cambian y los documentos cambian. Sin evals, una mejora aparente puede degradar casos críticos.
Un harness mínimo combina exact match, validez JSON, rúbricas y flags de alucinación.
Aquí puedes comparar prompt A/B con tests locales precargados.
Mini eval harness A/B
Exact match, JSON validity, hallucination flag y score agregado.
| Test | Exact | JSON | Hallucination | Score |
|---|---|---|---|---|
| json | pass | pass | clean | 1 |
| hallucination | pass | pass | clean | 1 |
| format | pass | pass | clean | 1 |
Score agregado: 1
Diseñar para fallas esperables
Riesgos: alucinación, prompt injection, privacidad
Los riesgos de LLMs no son abstractos: respuestas inventadas, documentos maliciosos, fuga de PII y herramientas demasiado permisivas.
La mitigación nace en la arquitectura: sandbox de retrieval, allowlists, filtros de PII, citas y límites de tools.
La demo contrasta una respuesta vulnerable con una protegida.
Ataques y mitigaciones
Contraste vulnerable vs protegido.
Acepta contexto malicioso y puede inventar o filtrar datos.
Bloquea o degrada la acción con explicación.
Blueprint de arquitectura
Cómo construir una app real
Una app real combina objetivo, datos, herramientas, memoria, evaluaciones, modelo y riesgo. No es solo una llamada a un endpoint.
El blueprint debe hacer explícitos componentes, flujo, riesgos y checklist operativo.
Este capstone reordena módulos según el tipo de producto elegido.
Capstone: constructor de arquitectura
Blueprint mock generado localmente.
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Definir datos permitidos · tool allowlist · eval set mínimo · monitoreo · fallback humano.