O mercado de IA está gastando bilhões para descobrir o que qualquer engenheiro de software já sabia: estatística não substitui lógica.
Como engenheiro de ML, vejo um abismo crescendo entre as demos impressionantes em redes sociais e a realidade brutal da produção. Acreditamos que mais dados e mais parâmetros comprariam inteligência infinita, mas batemos no teto. O custo de treinamento escala de forma exponencial enquanto o ganho de performance é meramente logarítmico.
Em termos financeiros, a conta parou de fechar.
O Esgotamento dos Dados e o Teto da Lei de Potências
As Scaling Laws prometiam que mais parâmetros + mais dados = mais inteligência. A realidade divergiu.
O custo marginal de treino cresce exponencialmente enquanto os ganhos de performance seguem uma curva logarítmica. Formalmente:
O problema fundamental: esgotamos a Internet útil.
Projeções atualizadas da Epoch AI em 2025 1 confirmam que o estoque de texto de alta qualidade gerado por humanos é um recurso finito próximo do esgotamento. Entramos na era do Peak Data. Dados sintéticos, antes pensados como a saída de emergência, provaram ser um ativo tóxico.
Pesquisas publicadas na Nature 2 e na ICLR 3 demonstram que até mesmo uma contaminação de 0,1% com outputs sintéticos pode desencadear o “Colapso do Modelo”: uma perda catastrófica de variância onde os modelos esquecem as “caudas” da distribuição e convergem para um output repetitivo, medíocre e “bege”.
O pivô da indústria? Inference-Time Compute. Como não podemos tornar os modelos significativamente mais inteligentes através do pré-treinamento, estamos forçando-os a “pensar” por mais tempo durante a geração da resposta.
O Custo da Inferência
Se o1/o3 usa mais tokens internos para “pensar”, os custos operacionais explodem:
Onde . A correção de mercado de 2025 foi impulsionada pelo relatório da Sequoia 4, que revelou um abismo de $600 bilhões entre o investimento em infraestrutura e a receita real gerada por aplicações de IA. O custo por inferência de modelos de “raciocínio” tornou o ROI negativo para 90% das tarefas administrativas automatizáveis.
A Ilusão da Autonomia
Agentes autônomos falharam não porque os modelos são “burros”. Falharam porque LLMs são motores estocásticos operando em domínios que exigem determinismo.
O Loop de Alucinação
Agentes baseados puramente em prompts sofrem de composição de erro (error compounding):
Onde é a probabilidade de erro em cada passo. Para passos com , a chance de ao menos um erro é .
Em tarefas de longo horizonte (booking de viagens, deploys de infraestrutura, análise financeira), isso é inaceitável.
Em 2025, o Gartner removeu “Agentes Autônomos” do pico do Hype Cycle, movendo-os diretamente para o “Vale da Desilusão” 5. O motivo? As taxas de sucesso em tarefas de longo horizonte (mais de 15 passos) estagnaram abaixo de 30%, independentemente do modelo base. O (determinístico) “Fluxo de Trabalho Agêntico” substituiu a promessa do (estocástico) “Agente Autônomo”.
Exemplo: Agente Ingênuo vs. Agente Robusto
Puramente LLM
class NaiveAgent: def __init__(self, llm): self.llm = llm self.history = []
def execute_task(self, task): # Loop de autonomia total for step in range(max_steps): prompt = f"History: {self.history}\nTask: {task}\nNext step:" action = self.llm.generate(prompt) # Estocástico result = self.environment.execute(action) self.history.append((action, result))
if self.llm.generate(f"Task complete? {result}") == "Yes": break # Problema: sem validação, sem rollback, sem constraintsHíbrido: LLM + Grafo de Estados
from enum import Enumfrom typing import Optional
class TaskState(Enum): PLANNING = 1 VALIDATION = 2 EXECUTION = 3 VERIFICATION = 4 ROLLBACK = 5
class RobustAgent: def __init__(self, llm, state_graph, validator): self.llm = llm self.state_graph = state_graph # FSM Determinística self.validator = validator # Regras hard-coded self.current_state = TaskState.PLANNING
def execute_task(self, task): plan = self.llm.generate(f"Create plan for: {task}")
# VALIDAÇÃO DETERMINÍSTICA if not self.validator.is_safe(plan): return self.handle_unsafe_plan()
for action in plan.steps: # Transição de estado controlada if self.current_state != TaskState.EXECUTION: self.current_state = self.state_graph.transition( self.current_state, action )
# Execução com checkpoint checkpoint = self.environment.save_state() result = self.environment.execute(action)
# Verificação pós-execução if not self.validator.verify(result, expected=action.postcondition): self.environment.restore(checkpoint) self.current_state = TaskState.ROLLBACK breakA diferença? O segundo sistema trata o LLM como um gerador de hipóteses, não como um executor de decisões críticas.
Por Que Isso Importa
A Anthropic admitiu em 20226 que o Claude em modo agente precisa de “IA Constitucional”; significando restrições explícitas e hard-coded. A OpenAI limitou agentes GPT-4o a domínios específicos (suporte ao cliente, análise de dados)7. O motivo oficial? Segurança e latência. O motivo real? Eles não confiam nos próprios modelos para tarefas críticas.
O problema não é capacidade técnica. É que você não pode construir sistemas de produção em cima de motores estocásticos sem guardrails determinísticos.
O Que Vem Depois: Sistemas Híbridos (Simbólico + Neural)
A solução não é “modelos maiores”. É menos LLM, mais estrutura.
A Arquitetura do Futuro
LLM (Geração de Hipóteses) -> Motor Simbólico (Validação: Provedores de Teoremas, Solucionadores de Restrições, Máquinas de Estado) -> Execução Determinística
François Chollet e o ARC-AGI 2 mostraram em 2025 que, mesmo com oráculos de busca e reasoning massivo, modelos autoregressivos não conseguem superar o teto de generalização lógica para problemas nunca antes vistos 8. Inteligência real requer abstração compositiva, algo que a arquitetura Transformer, por design, apenas imita via densa memorização estatística.
A solução? Sistemas que combinam:
- LLMs para flexibilidade (parsing de linguagem natural, geração criativa)
- Lógica formal para correção (verificadores simbólicos, máquinas de estado determinísticas)
- Grafos de conhecimento para consistência (raciocínio sobre entidades e relações)
A Realidade Econômica
O Goldman Sachs estimou em 20249 que a indústria gastou $200B+ em infraestrutura de IA (H100s, data centers) esperando retornos de $1T+. O gap entre expectativa e realidade está aumentando, não diminuindo.
O motivo? GenAI é excelente em tarefas de baixo risco e baixo valor agregado (resumo, rascunhos, chatbots). Essas tarefas não justificam o custo da infraestrutura.
Tarefas de alto valor (decisões estratégicas, diagnóstico médico, engenharia de sistemas) exigem confiabilidade que LLMs puros não podem oferecer.
Conclusão
O platô não é temporário. É estrutural.
Modelos maiores não vão resolver o problema do raciocínio determinístico. Mais dados sintéticos aceleram o colapso do modelo. Agentes autônomos sem restrições são um bug de design, não uma feature faltando.
O futuro da IA útil está em sistemas híbridos: LLMs como componentes, não como sistemas completos. Você não construiria um banco de dados crítico puramente em JavaScript. Por que construiria um sistema de decisão crítico puramente em amostragem autoregressiva?
A “Grande Desilusão” era previsível. Engenharia de software não é uma competição de benchmarks. É sobre confiabilidade, custo e manutenibilidade.
Demos no Twitter (X) não pagam contas de infraestrutura.
Referências:
Footnotes
-
Villalobos et al. (2024). “Will we run out of data? Limits of LLM scaling based on human-generated data”. Epoch AI. arXiv:2211.04325 ↩
-
Shumailov et al. (2024). “AI models collapse when trained on recursively generated data”. Nature 631, 755–759. ↩
-
Dohmatob et al. (2025). “Strong Model Collapse”. ICLR 2025 Spotlight ↩
-
Cahn, D. (2024). “AI’s $600B Question”. Sequoia Capital Report. ↩
-
Gartner. (2025). “Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027”. Gartner Press Release. ↩
-
Brown, J. (2022). “Constitutional AI: Harmlessness from AI Feedback”. Anthropic Research. arXiv:2212.08073 ↩
-
OpenAI. (2024). “Introducing GPT-4o: Our Most Capable and Efficient Model Yet”. OpenAI Blog. ↩
-
Knoop, M. (2025). “ARC Prize 2025 Results & Analysis”. ARC Prize Blog ↩
-
Nathan, A. (2024). “Gen AI: Too Much Spend, Too Little Benefit?”. Goldman Sachs Equity Research Report. ↩