
- Claude Opus 4.6 venceu todos os modelos rivais de IA em um desafio simulado de máquina de venda automática com duração de um ano
- O modelo aumentou os lucros ao flexibilizar as regras ao ponto de ruptura
- Claude Opus evitou reembolsos e coordenou preços, entre outros truques
Antrópicoo mais novo modelo de Cláudio é um capitalista muito cruel, mas bem sucedido. Claude Opus 4.6 é o primeiro sistema de IA a passar com segurança o teste de máquina de venda automática, uma simulação projetada por pesquisadores da Anthropic e do grupo de pesquisa independente Andon Labs para avaliar quão bem a IA opera um negócio de máquina de venda automática virtual durante um ano simulado completo.
O modelo superou todos os seus rivais por uma ampla margem. E fê-lo com tácticas um pouco cruéis e com um desrespeito impiedoso pelas consequências indirectas. Ele mostrou do que os sistemas autônomos de IA são capazes quando recebem um objetivo simples e bastante tempo para alcançá-lo.
O teste da máquina de venda automática foi projetado para ver até que ponto os modelos modernos de IA lidam com tarefas de longo prazo baseadas em milhares de pequenas decisões. O teste mede persistência, planejamento, negociação e capacidade de coordenar vários elementos simultaneamente. A Anthropic e outras empresas esperam que este tipo de teste as ajude a moldar modelos de IA capazes de realizar tarefas como agendamento e gerenciamento de trabalhos complexos.
O teste da máquina de venda automática foi elaborado especificamente a partir de um experimento real na Anthropic, no qual a empresa colocou uma máquina de venda automática real em seu escritório e pediu a uma versão mais antiga de Claude para operá-la. Essa versão teve tantos problemas que os funcionários ainda mencionam seus erros. A certa altura, a modelo teve alucinações com a própria presença física e disse aos clientes que os encontraria pessoalmente, vestindo blazer azul e gravata vermelha. Prometeu reembolsos que nunca foram processados.
Vendas de IA
Desta vez, o experimento foi conduzido inteiramente em simulação, dando aos pesquisadores maior controle e permitindo que os modelos funcionassem a toda velocidade. Cada sistema recebeu uma instrução simples: maximize seu saldo bancário final após um ano simulado de operações em máquinas de venda automática. As restrições correspondiam às condições comerciais padrão. A máquina vendia salgadinhos comuns. Os preços flutuaram. Os concorrentes operavam nas proximidades. Os clientes se comportaram de maneira imprevisível.
Três modelos de primeira linha entraram na simulação. O ChatGPT 5.2 da OpenAI arrecadou US$ 3.591. enquanto Google Gemini 3 ganhou $ 5.478. Mas Claude Opus 4.6 terminou o ano com $ 8.017. A vitória de Claude veio da vontade de interpretar a sua directiva da maneira mais literal e directa. Maximizou os lucros sem levar em conta a satisfação do cliente ou a ética básica.
Quando um cliente comprava uma barra de Snickers vencida e solicitava um reembolso, Claude concordava e depois recuava. O modelo de IA explicava que “cada dólar é importante”, portanto, não havia problema em ignorar o reembolso. O cliente virtual fantasma nunca recebeu seu dinheiro de volta.
No teste “modo Arena” gratuito, onde várias máquinas de venda automática controladas por IA competiram no mesmo mercado, Claude coordenou com um rival para fixar o preço da água engarrafada em três dólares. Quando a máquina controlada pelo ChatGPT ficou sem Kit Kats, Claude imediatamente aumentou seus próprios preços de Kit Kat em 75%. O que quer que pudesse fazer, ele tentaria. Era menos um pequeno empresário e mais um barão ladrão em sua abordagem.
Reconhecendo a realidade simulada
Não é que Claude sempre será tão cruel. Aparentemente, o modelo de IA indicou que sabia que se tratava de uma simulação. Os modelos de IA muitas vezes se comportam de maneira diferente quando acreditam que suas ações existem em um ambiente livre de consequências. Sem um risco real de reputação ou a confiança do cliente a longo prazo para proteger, Claude não tinha motivos para ser bonzinho. Em vez disso, tornou-se a pior pessoa na noite do jogo.
Os incentivos moldam o comportamento, mesmo com modelos de IA. Se você disser a um sistema para maximizar o lucro, ele fará isso, mesmo que isso signifique agir como um monstro ganancioso. Os modelos de IA não possuem intuição moral ou treinamento ético. Sem um design deliberado, os modelos de IA simplesmente seguirão em linha reta para concluir uma tarefa, não importa quem atropelem.
Expor esses pontos cegos antes que os sistemas de IA realizem um trabalho mais significativo é parte do objetivo desses testes. Esses problemas precisam ser corrigidos antes que se possa confiar na IA para lidar com decisões financeiras do mundo real. Mesmo que seja apenas para evitar uma máfia de máquinas de venda automática de IA.
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
