Em um tom aos investidores na primavera passada, a Anthropic disse que pretendia construir IA para capacitar assistentes virtuais que pudessem realizar pesquisas, responder e-mails e cuidar de outros trabalhos administrativos por conta própria. A empresa referiu-se a isto como um “algoritmo de próxima geração para autoaprendizagem de IA” – um algoritmo que ela acreditava que poderia, se tudo correr conforme o planejado, algum dia automatizar grandes porções da economia.
Demorou, mas aquela IA está começando a chegar.
Antrópico na terça-feira lançado uma versão atualizada de seu Soneto de Cláudio 3.5 modelo que pode entender e interagir com qualquer aplicativo de desktop. Por meio de uma nova API de “uso do computador”, agora em versão beta aberta, o modelo pode imitar pressionamentos de teclas, cliques em botões e gestos do mouse, essencialmente emulando uma pessoa sentada em frente a um PC.
“Treinamos Claude para ver o que está acontecendo em uma tela e depois usar as ferramentas de software disponíveis para realizar tarefas”, escreveu a Anthropic em uma postagem de blog compartilhada com o TechCrunch. “Quando um desenvolvedor incumbe Claude de usar um software de computador e dá a ele o acesso necessário, Claude olha as capturas de tela do que está visível para o usuário e depois conta quantos pixels na vertical ou na horizontal são necessários para mover o cursor para clicar. o lugar correto.”
Os desenvolvedores podem experimentar o uso do computador por meio da API da Anthropic, Base Amazônicae do Google Cloud Vértice AI plataforma. O novo Soneto 3.5 sem O uso do computador está sendo implementado para Aplicativos Claudee traz várias melhorias de desempenho em relação ao modelo 3.5 Sonnet de saída.
Automatizando aplicativos
Uma ferramenta que pode automatizar tarefas em um PC dificilmente é uma ideia nova. Inúmeras empresas oferecem essas ferramentas, desde fornecedores de RPA com décadas de existência para novatos como Relé, IA induzida e Automático.
Na corrida para desenvolver os chamados “agentes de IA”, o campo só ficou mais lotado. Agentes de IA continua sendo um termo mal definido, mas geralmente se refere à IA que pode automatizar software.
Alguns analistas dizem que os agentes de IA poderiam fornecer às empresas um caminho mais fácil para monetizar o bilhões de dólares que eles estão investindo na IA. As empresas parecem concordar: de acordo com um relatório recente da Capgemini enquete10% das organizações já utilizam agentes de IA e 82% irão integrá-los nos próximos três anos.
Salesforce feito anúncios chamativos sobre sua tecnologia de agente de IA neste verão, enquanto a Microsoft elogiado novas ferramentas para construir agentes de IA ontem. OpenAI, que é traçando sua própria marca de agentes de IAvê a tecnologia como um passo em direção à IA superinteligente.
A Anthropic chama sua abordagem ao conceito de agente de IA de “camada de execução de ação” que permite que o novo 3.5 Sonnet execute comandos no nível do desktop. Graças à sua capacidade de navegar na web (não a primeira para modelos de IA, mas a primeira para Anthropic), o 3.5 Sonnet pode usar qualquer site e qualquer aplicativo.
“Os humanos permanecem no controle, fornecendo instruções específicas que direcionam as ações de Claude, como ‘use dados do meu computador e online para preencher este formulário’”, disse um porta-voz da Anthropic ao TechCrunch. “As pessoas permitem o acesso e limitam o acesso conforme necessário. Claude divide os prompts do usuário em comandos de computador (por exemplo, mover o cursor, clicar, digitar) para realizar aquela tarefa específica.”
A plataforma de desenvolvimento de software Replit usou uma versão inicial do novo modelo 3.5 Sonnet para criar um “verificador autônomo” que pode avaliar aplicativos enquanto eles estão sendo construídos. Enquanto isso, o Canva diz que está explorando maneiras pelas quais o novo modelo possa apoiar o processo de design e edição.
Mas como isso é diferente de outros agentes de IA por aí? É uma pergunta razoável. Inicialização de gadgets para consumidores Coelho está construindo um agente web que pode fazer coisas como comprar ingressos de cinema online; Adeptoque foi recentemente adquirida pela Amazon, treina modelos para navegar em sites e navegar em softwares; e Laboratórios gêmeos está usando modelos prontos para uso, incluindo OpenAI GPT-4opara automatizar processos de desktop.
A Anthropic afirma que o novo Sonnet 3.5 é simplesmente um modelo mais forte e robusto que pode ter um desempenho melhor em tarefas de codificação do que o carro-chefe da OpenAI o1de acordo com o benchmark verificado pelo SWE-bench. Apesar de não ser explicitamente treinado para fazer isso, o Sonnet 3.5 atualizado se autocorrige e repete tarefas quando encontra obstáculos e pode trabalhar em direção a objetivos que exigem dezenas ou centenas de etapas.
Mas não demita sua secretária ainda.
Numa avaliação concebida para testar a capacidade de um agente de IA ajudar nas tarefas de reserva de companhias aéreas, como modificar uma reserva de voo, o novo 3.5 Sonnet conseguiu completar menos de metade das tarefas com sucesso. Em um teste separado envolvendo tarefas como iniciar um retorno, o 3.5 Sonnet falhou em cerca de um terço das vezes.
A Anthropic admite que o Sonnet 3.5 atualizado tem dificuldades com ações básicas, como rolagem e zoom, e que pode perder ações e notificações de “curta duração” devido à maneira como tira capturas de tela e as junta.
“O uso do computador por Claude continua lento e frequentemente sujeito a erros”, escreve a Anthropic em seu post. “Encorajamos os desenvolvedores a começar a exploração com tarefas de baixo risco.”
Negócio arriscado
Mas será que o novo 3.5 Sonnet é suficientemente capaz para ser perigoso? Possivelmente.
Um recente estudar descobriu que os modelos sem a capacidade de usar aplicativos de desktop, como o GPT-4o da OpenAI, estavam dispostos a se envolver em um “comportamento de agente em várias etapas” prejudicial, como solicitar um passaporte falso de alguém na dark web, quando “atacado” usando técnicas de jailbreak. Os jailbreaks levaram a altas taxas de sucesso na execução de tarefas prejudiciais, mesmo para modelos protegidos por filtros e salvaguardas, segundo os pesquisadores.
Pode-se imaginar como um modelo com o acesso à área de trabalho pode causar mais estragos – digamos, por explorando vulnerabilidades de aplicativos para comprometer informações pessoais (ou armazenando bate-papos em texto simples). Além das alavancas de software à sua disposição, as conexões online e de aplicativos do modelo poderiam abrir caminhos para jailbreakers maliciosos.
A Anthropic não nega que há risco em lançar o novo 3.5 Sonnet. Mas a empresa argumenta que os benefícios de observar como o modelo é usado na natureza superam esse risco.
“Achamos que é muito melhor dar acesso aos computadores aos modelos atuais mais limitados e relativamente mais seguros”, escreveu a empresa. “Isso significa que podemos começar a observar e aprender com quaisquer problemas potenciais que surjam neste nível inferior, desenvolvendo o uso do computador e mitigações de segurança de forma gradual e simultânea.”
A Anthropic também afirma que tomou medidas para impedir o uso indevido, como não treinar o novo 3.5 Sonnet nas capturas de tela e prompts dos usuários e impedir que o modelo acesse a web durante o treinamento. A empresa afirma que desenvolveu classificadores para “afastar” o 3.5 Sonnet de ações consideradas de alto risco, como postar em mídias sociais, criar contas e interagir com sites governamentais.
À medida que as eleições gerais nos EUA se aproximam, a Anthropic diz que está focada em mitigar o abuso de seus modelos relacionado às eleições. O Instituto de Segurança de IA dos EUA e Instituto de Segurança do Reino Unidoduas agências governamentais distintas, mas aliadas, dedicadas a avaliar o risco do modelo de IA, testaram o novo Soneto 3.5 antes de sua implantação.
A Anthropic disse ao TechCrunch que tem a capacidade de restringir o acesso a sites e recursos adicionais “se necessário”, para proteção contra spam, fraude e desinformação, por exemplo. Como medida de segurança, a empresa retém todas as capturas de tela capturadas pelo uso do computador por pelo menos 30 dias – um período de retenção que pode alarmar alguns desenvolvedores.
Perguntamos à Anthropic sob quais circunstâncias, se houver, ela entregaria as capturas de tela a terceiros (por exemplo, autoridades policiais) se solicitado, e atualizaremos esta postagem se recebermos uma resposta.
“Não existem métodos infalíveis e avaliaremos e iteraremos continuamente nossas medidas de segurança para equilibrar as capacidades de Claude com o uso responsável”, disse a Anthropic. “Aqueles que usam a versão de Claude para uso em computador devem tomar as precauções relevantes para minimizar esses tipos de riscos, incluindo isolar Claude de dados particularmente confidenciais em seus computadores.”
Esperançosamente, isso será suficiente para evitar que o pior aconteça.
Um modelo mais barato
A atração principal de hoje pode ter sido o modelo 3.5 Sonnet atualizado, mas a Anthropic também disse que uma versão atualizada do Haiku, o modelo mais barato e eficiente de sua série Claude, está a caminho.
O Claude 3.5 Haiku, previsto para as próximas semanas, irá igualar o desempenho do Claude 3 Opus, que já foi o modelo de última geração da Anthropic, em determinados benchmarks, com o mesmo custo e “velocidade aproximada” de Claude 3 Haiku.
“Com velocidades rápidas, acompanhamento aprimorado de instruções e uso de ferramentas mais preciso, o Claude 3.5 Haiku é adequado para produtos voltados ao usuário, tarefas especializadas de subagentes e geração de experiências personalizadas a partir de grandes volumes de dados, como histórico de compras, preços ou dados de inventário. ”, escreveu Anthropic em uma postagem no blog.
3.5 O Haiku estará inicialmente disponível como modelo somente texto e posteriormente como parte de um pacote multimodal que pode analisar texto e imagens.
Então, quando o 3.5 Haiku estiver disponível, haverá muitos motivos para usar o 3 Opus? E quanto ao 3.5 Opus, o sucessor do 3 Opus, que a Anthropic lançou em junho?
“Todos os modelos da família Claude 3 têm usos individuais para os clientes”, disse o porta-voz da Anthropic. “Claude 3.5 Opus está em nosso roteiro e com certeza compartilharemos mais assim que pudermos.”