Pular para o conteúdo principal
Portfolio logo Patrick Tavares

Voltar para todos os posts

O Platô da IA Generativa e a Falha dos Agentes Autônomos

Publicado em por Patrick Tavares · 6 min de leitura

O mercado de IA está gastando bilhões para descobrir o que qualquer engenheiro de software já sabia: estatística não substitui lógica.

Como engenheiro de ML, vejo um abismo crescendo entre as demos impressionantes em redes sociais e a realidade brutal da produção. Acreditamos que mais dados e mais parâmetros comprariam inteligência infinita, mas batemos no teto. O custo de treinamento escala de forma exponencial enquanto o ganho de performance é meramente logarítmico.

Em termos financeiros, a conta parou de fechar.

O Esgotamento dos Dados e o Teto da Lei de Potências

As Scaling Laws prometiam que mais parâmetros + mais dados = mais inteligência. A realidade divergiu.

O custo marginal de treino cresce exponencialmente enquanto os ganhos de performance seguem uma curva logarítmica. Formalmente:

Performancelog(Compute)masCosteScale\text{Performance} \propto \log(\text{Compute}) \quad \text{mas} \quad \text{Cost} \propto e^{\text{Scale}}

O problema fundamental: esgotamos a Internet útil.

Projeções atualizadas da Epoch AI em 2025 1 confirmam que o estoque de texto de alta qualidade gerado por humanos é um recurso finito próximo do esgotamento. Entramos na era do Peak Data. Dados sintéticos, antes pensados como a saída de emergência, provaram ser um ativo tóxico.

Pesquisas publicadas na Nature 2 e na ICLR 3 demonstram que até mesmo uma contaminação de 0,1% com outputs sintéticos pode desencadear o “Colapso do Modelo”: uma perda catastrófica de variância onde os modelos esquecem as “caudas” da distribuição e convergem para um output repetitivo, medíocre e “bege”.

O pivô da indústria? Inference-Time Compute. Como não podemos tornar os modelos significativamente mais inteligentes através do pré-treinamento, estamos forçando-os a “pensar” por mais tempo durante a geração da resposta.

O Custo da Inferência

Se o1/o3 usa 100×100\times mais tokens internos para “pensar”, os custos operacionais explodem:

Custo Total=Custo Base×kreasoning×nrequests\text{Custo Total} = \text{Custo Base} \times k_{\text{reasoning}} \times n_{\text{requests}}

Onde kreasoning1k_{\text{reasoning}} \gg 1. A correção de mercado de 2025 foi impulsionada pelo relatório da Sequoia 4, que revelou um abismo de $600 bilhões entre o investimento em infraestrutura e a receita real gerada por aplicações de IA. O custo por inferência de modelos de “raciocínio” tornou o ROI negativo para 90% das tarefas administrativas automatizáveis.

A Ilusão da Autonomia

Agentes autônomos falharam não porque os modelos são “burros”. Falharam porque LLMs são motores estocásticos operando em domínios que exigem determinismo.

O Loop de Alucinação

Agentes baseados puramente em prompts sofrem de composição de erro (error compounding):

P(erro final)=1i=1n(1pi)P(\text{erro final}) = 1 - \prod_{i=1}^{n} (1 - p_i)

Onde pip_i é a probabilidade de erro em cada passo. Para n=10n=10 passos com pi=0.05p_i = 0.05, a chance de ao menos um erro é 40%\approx 40\%.

Em tarefas de longo horizonte (booking de viagens, deploys de infraestrutura, análise financeira), isso é inaceitável.

Em 2025, o Gartner removeu “Agentes Autônomos” do pico do Hype Cycle, movendo-os diretamente para o “Vale da Desilusão” 5. O motivo? As taxas de sucesso em tarefas de longo horizonte (mais de 15 passos) estagnaram abaixo de 30%, independentemente do modelo base. O (determinístico) “Fluxo de Trabalho Agêntico” substituiu a promessa do (estocástico) “Agente Autônomo”.

Exemplo: Agente Ingênuo vs. Agente Robusto

Puramente LLM

Agente Ingênuo
class NaiveAgent:
def __init__(self, llm):
self.llm = llm
self.history = []
def execute_task(self, task):
# Loop de autonomia total
for step in range(max_steps):
prompt = f"History: {self.history}\nTask: {task}\nNext step:"
action = self.llm.generate(prompt) # Estocástico
result = self.environment.execute(action)
self.history.append((action, result))
if self.llm.generate(f"Task complete? {result}") == "Yes":
break
# Problema: sem validação, sem rollback, sem constraints

Híbrido: LLM + Grafo de Estados

Agente Robusto
from enum import Enum
from typing import Optional
class TaskState(Enum):
PLANNING = 1
VALIDATION = 2
EXECUTION = 3
VERIFICATION = 4
ROLLBACK = 5
class RobustAgent:
def __init__(self, llm, state_graph, validator):
self.llm = llm
self.state_graph = state_graph # FSM Determinística
self.validator = validator # Regras hard-coded
self.current_state = TaskState.PLANNING
def execute_task(self, task):
plan = self.llm.generate(f"Create plan for: {task}")
# VALIDAÇÃO DETERMINÍSTICA
if not self.validator.is_safe(plan):
return self.handle_unsafe_plan()
for action in plan.steps:
# Transição de estado controlada
if self.current_state != TaskState.EXECUTION:
self.current_state = self.state_graph.transition(
self.current_state,
action
)
# Execução com checkpoint
checkpoint = self.environment.save_state()
result = self.environment.execute(action)
# Verificação pós-execução
if not self.validator.verify(result, expected=action.postcondition):
self.environment.restore(checkpoint)
self.current_state = TaskState.ROLLBACK
break

A diferença? O segundo sistema trata o LLM como um gerador de hipóteses, não como um executor de decisões críticas.

Por Que Isso Importa

A Anthropic admitiu em 20226 que o Claude em modo agente precisa de “IA Constitucional”; significando restrições explícitas e hard-coded. A OpenAI limitou agentes GPT-4o a domínios específicos (suporte ao cliente, análise de dados)7. O motivo oficial? Segurança e latência. O motivo real? Eles não confiam nos próprios modelos para tarefas críticas.

O problema não é capacidade técnica. É que você não pode construir sistemas de produção em cima de motores estocásticos sem guardrails determinísticos.

O Que Vem Depois: Sistemas Híbridos (Simbólico + Neural)

A solução não é “modelos maiores”. É menos LLM, mais estrutura.

A Arquitetura do Futuro

LLM (Geração de Hipóteses) -> Motor Simbólico (Validação: Provedores de Teoremas, Solucionadores de Restrições, Máquinas de Estado) -> Execução Determinística

François Chollet e o ARC-AGI 2 mostraram em 2025 que, mesmo com oráculos de busca e reasoning massivo, modelos autoregressivos não conseguem superar o teto de generalização lógica para problemas nunca antes vistos 8. Inteligência real requer abstração compositiva, algo que a arquitetura Transformer, por design, apenas imita via densa memorização estatística.

A solução? Sistemas que combinam:

  1. LLMs para flexibilidade (parsing de linguagem natural, geração criativa)
  2. Lógica formal para correção (verificadores simbólicos, máquinas de estado determinísticas)
  3. Grafos de conhecimento para consistência (raciocínio sobre entidades e relações)

A Realidade Econômica

O Goldman Sachs estimou em 20249 que a indústria gastou $200B+ em infraestrutura de IA (H100s, data centers) esperando retornos de $1T+. O gap entre expectativa e realidade está aumentando, não diminuindo.

O motivo? GenAI é excelente em tarefas de baixo risco e baixo valor agregado (resumo, rascunhos, chatbots). Essas tarefas não justificam o custo da infraestrutura.

Tarefas de alto valor (decisões estratégicas, diagnóstico médico, engenharia de sistemas) exigem confiabilidade que LLMs puros não podem oferecer.

Conclusão

O platô não é temporário. É estrutural.

Modelos maiores não vão resolver o problema do raciocínio determinístico. Mais dados sintéticos aceleram o colapso do modelo. Agentes autônomos sem restrições são um bug de design, não uma feature faltando.

O futuro da IA útil está em sistemas híbridos: LLMs como componentes, não como sistemas completos. Você não construiria um banco de dados crítico puramente em JavaScript. Por que construiria um sistema de decisão crítico puramente em amostragem autoregressiva?

A “Grande Desilusão” era previsível. Engenharia de software não é uma competição de benchmarks. É sobre confiabilidade, custo e manutenibilidade.

Demos no Twitter (X) não pagam contas de infraestrutura.


Referências:

Footnotes

  1. Villalobos et al. (2024). “Will we run out of data? Limits of LLM scaling based on human-generated data”. Epoch AI. arXiv:2211.04325

  2. Shumailov et al. (2024). “AI models collapse when trained on recursively generated data”. Nature 631, 755–759.

  3. Dohmatob et al. (2025). “Strong Model Collapse”. ICLR 2025 Spotlight

  4. Cahn, D. (2024). “AI’s $600B Question”. Sequoia Capital Report.

  5. Gartner. (2025). “Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027”. Gartner Press Release.

  6. Brown, J. (2022). “Constitutional AI: Harmlessness from AI Feedback”. Anthropic Research. arXiv:2212.08073

  7. OpenAI. (2024). “Introducing GPT-4o: Our Most Capable and Efficient Model Yet”. OpenAI Blog.

  8. Knoop, M. (2025). “ARC Prize 2025 Results & Analysis”. ARC Prize Blog

  9. Nathan, A. (2024). “Gen AI: Too Much Spend, Too Little Benefit?”. Goldman Sachs Equity Research Report.