LLMOps na prática: do prompt ao pipeline de avaliação
LLMs evoluem rápido — e cada ajuste de prompt, modelo ou retrieval pode gerar regressões após o deploy. Sem um processo de avaliação contínua, times promovem versões “teoricamente melhores” que pioram a qualidade, aumentam o p95 ou estouram custos. Este guia mostra, de forma prática, como implementar um pipeline mínimo de avaliação em LLMOps para monitorar qualidade, latência e custo com critérios objetivos, dados comparáveis e decisões reprodutíveis ao longo do ciclo de vida do produto. Para base conceitual de produção de IA, vale o paralelo com testes e governança de ML descritos em Hidden Technical Debt e no ML Test Score do Google.
Por que avaliar continuamente (e não só antes do deploy)
- Drift de dados e objetivos: o contexto de negócio e as bases mudam; sem reavaliação periódica, a performance decai em intents frequentes e casos críticos. O HELM, da Stanford, mostra a importância de avaliações holísticas e atualizadas em múltiplas dimensões.
- Trade-offs invisíveis: melhorar cobertura pode degradar groundedness ou latência. Frameworks como HELM e pesquisas de avaliação de LLMs indicam a necessidade de olhar várias métricas ao mesmo tempo.
- Conformidade e confiança: relatórios e system cards recentes destacam como equipes documentam testes de segurança/qualidade antes e depois do lançamento — um padrão que ajuda produto e auditorias.
Leituras da Tekne para complementar: LLMs no dia a dia do analista: 4 automações rápidas e o nosso Bootcamp de ML & IA para estruturar o pipeline em produção.
O que medir (as três dimensões críticas)
Qualidade — utilidade e correção para a tarefa. Em classificações, use métricas clássicas (acurácia/F1). Em geração aberta, use rubricas discretas (0–5) e LLM-as-a-Judge com auditoria humana; pesquisas recentes discutem consistência, vieses e limites dessa abordagem. Monitore alucinação (%), groundedness (uso de fontes), toxidade/PII e consistência entre execuções.
Latência — acompanhe p50/p95 por etapa (retrieval, geração, rerank) e time-to-first-token, definindo SLAs por tipo de chamada. Essa visibilidade é essencial para decisões de rollout e canary. (vide práticas de avaliação em system cards).
Custo — meça custo por requisição e custo por tarefa concluída (ex.: ticket resolvido), além de tokens por resposta e retries/rate-limit. Regra útil: otimizar custo por acerto útil (qualidade ≥ limiar, latência dentro do SLA). Referencie o seu baseline e metas de produto (ver ML Test Score para inspiração de “gates”).
Pipeline mínimo de avaliação (do prompt ao deploy)
- Amostra representativa — 150–500 exemplos de logs anonimizados, estratificados por intenção, dificuldade e impacto. Monte um golden set (respostas canônicas) e um gray set (abertos avaliados por rubrica). Essa prática é coerente com a visão de avaliação holística de benchmarks recentes.
- Padronize variantes — versione prompt templates, parâmetros (temperatura, top-p), retrievers/vector stores (por exemplo, PGVector) e orquestração (LangChain/LangGraph) para comparações justas.
- Medição de qualidade — tarefas fechadas: use métricas determinísticas (acurácia/F1). Geração aberta: rubricas com LLM-as-a-Judge + auditoria humana em 10–20% das amostras; pesquisas recentes mostram ganhos de escala, mas pedem checagens de confiabilidade.
- Tempo e custo — registre timestamps por etapa e tokens; gere relatórios de p95 e custo por acerto por cenário. Essa disciplina facilita canary e rollback baseados em evidência. (vide boas práticas de avaliação em system cards).
- Comparação justa — execute A/B offline na mesma amostra; fixe seeds e mantenha versionamento de tudo (modelo, prompt, retriever). O ML Test Score serve de referência para criar checklists e monitorias de preparação para produção.
- Gates de promoção — só promova se Qualidade ≥ meta, p95 ≤ SLA e custo/acerto ≤ teto. Registre baseline e candidate com evidências, inspirando-se em práticas de governança em produção discutidas em literatura de ML e documentos de avaliação de modelos.
- Deploy em etapas — faça shadow (0% tráfego) e, depois, canary (5–20%). Monitore métricas on-line (CSAT, reabertura de ticket, bloqueios de moderação) para capturar efeitos de mundo real.
- Ciclo de melhoria — erros recorrentes viram novos casos do conjunto de avaliação; atualize rubricas quando mudarem objetivos de produto. Benchmarks vivos como HELM ilustram a importância desse caráter “living benchmark”.
Metas realistas de partida
- Qualidade: ≥ 4,0/5 no golden; alucinação ≤ 3% em consultas críticas.
- Latência: p95 ≤ 1,8× p50 e ≤ 2,5 s para respostas curtas (ajuste por caso de uso).
- Custo: −20% vs. baseline por tarefa mantendo qualidade dentro do limiar.
Use essas metas como ponto de partida e refine com dados históricos e impacto de negócio; a ideia de metas/gates vem do espírito de testes sistemáticos em produção.
Quando acionar rollback
- Queda ≥ 5–10% no score de qualidade vs. baseline em duas janelas consecutivas.
- p95 fora do SLA por três picos seguidos (tráfego comparável).
- Custo por acerto acima do teto por dois dias.
Eventos críticos: PII leak, toxidade acima do limiar ou alucinação grave em conteúdo regulado (consistente com diretrizes presentes em system cards recentes).
Boas práticas & guardrails
- Observabilidade — log estruturado com request id, intent, prompt id, fontes usadas; isso reduz “dívida técnica” clássica em ML.
- Privacidade e ética — anonimização, filtros de PII e limites para dados sensíveis.
- Controle de variabilidade — seeds e temperatura estáveis em avaliação; few-shot fixo; caching de respostas/embeddings.
- Documentação viva — changelog de prompts/modelos, histórico de decisões e gates.
- Stack sugerido — PGVector (vetores/embeddings) e LangChain/LangGraph (orquestração/observabilidade) contam com documentação robusta e suporte da comunidade.
Conclusão e próximo passo
LLMOps eficaz começa com avaliação simples, contínua e comparável. Ao estabelecer amostras representativas, rubricas claras e gates objetivos de promoção/rollback, você evita regressões sem travar a inovação. Para acelerar a implantação desse pipeline com práticas de MLOps e GenAI, conheça o Bootcamp de ML & IA da Tekne e explore posts relacionados como LLMs no dia a dia do analista.