• Qua. Set 18th, 2024

Primeiras impressões do ChatGPT o1: Uma IA projetada para pensar demais

Byadmin

Set 13, 2024
Primeiras impressões do ChatGPT o1: Uma IA projetada para pensar demais

A OpenAI lançou seu novos modelos o1 na quinta-feira, dando aos usuários do ChatGPT sua primeira chance de experimentar modelos de IA que param para “pensar” antes de responder. Houve muito entusiasmo em torno desses modelos, codinome “strawberry” dentro do OpenAI. Mas o strawberry faz jus ao entusiasmo?

Mais ou menos.

Comparados ao GPT-4o, os modelos o1 parecem um passo à frente e dois passos para trás. O ChatGPT o1 se destaca no raciocínio e na resposta a perguntas complexas, mas o modelo é aproximadamente quatro vezes mais caro de usar do que o GPT-4o. O modelo mais recente da OpenAI não tem as ferramentas, os recursos multimodais e a velocidade que tornaram o GPT-4o tão impressionante. Na verdade, a OpenAI até admite que “GPT-4o ainda é a melhor opção para a maioria dos prompts”, em sua página de ajuda, e observa em outros lugares que o GPT o1 tem dificuldades em tarefas mais simples.

“É impressionante, mas acho que a melhoria não é muito significativa”, disse Ravid Shwartz Ziv, um professor da NYU que estuda modelos de IA. “É melhor em certos problemas, mas você não tem essa melhoria geral.”

Por todos esses motivos, é importante usar o GPT o1 apenas para as perguntas que ele realmente foi projetado para ajudar: as grandes. Para ser claro, a maioria das pessoas não está usando IA generativa para responder a esses tipos de perguntas hoje, em grande parte porque os modelos de IA de hoje não são muito bons nisso. No entanto, o o1 é um passo provisório nessa direção.

Pensando em grandes ideias

O ChatGPT o1 é único porque ele “pensa” antes de responder, dividindo grandes problemas em pequenos passos e tentando identificar quando acerta ou erra um desses passos. Esse “raciocínio multietapas” não é inteiramente novo (pesquisadores o propõem há anos, e o You.com usa-o para consultas complexas) mas não era prático até recentemente.

“Há muita empolgação na comunidade de IA”, disse o CEO da Workera e professor de Stanford Kian Katanforoosh, que dá aulas sobre aprendizado de máquina, em uma entrevista. “Se você puder treinar um algoritmo de aprendizado por reforço pareado com algumas das técnicas de modelo de linguagem que a OpenAI tem, você pode criar tecnicamente um pensamento passo a passo e permitir que o modelo de IA ande para trás a partir de grandes ideias que você está tentando trabalhar.”

O ChatGPT o1 também é excepcionalmente caro. Na maioria dos modelos, você paga por tokens de entrada e tokens de saída. No entanto, o ChatGPT o1 adiciona um processo oculto (os pequenos passos em que o modelo divide grandes problemas), que adiciona uma grande quantidade de computação que você nunca vê completamente. A OpenAI está escondendo alguns detalhes desse processo para manter sua vantagem competitiva. Dito isso, você ainda é cobrado por eles na forma de “tokens de raciocínio”. Isso enfatiza ainda mais por que você precisa ter cuidado ao usar o ChatGPT o1, para não ser cobrado uma tonelada de tokens por perguntar onde fica a capital de Nevada.

A ideia de um modelo de IA que ajuda você a “andar para trás a partir de grandes ideias” é poderosa. Na prática, o modelo é muito bom nisso.

Em um exemplo, pedi ao ChatGPT o1 preview para ajudar minha família a planejar o Dia de Ação de Graças, uma tarefa que poderia se beneficiar de um pouco de lógica e raciocínio imparciais. Especificamente, eu queria ajuda para descobrir se dois fornos seriam suficientes para cozinhar um jantar de Ação de Graças para 11 pessoas, e queria conversar sobre se deveríamos considerar alugar um Airbnb para ter acesso a um terceiro forno.

Após 12 segundos de “pensamento”, o ChatGPT me escreveu uma resposta de mais de 750 palavras, dizendo que dois fornos devem ser suficientes com alguma estratégia cuidadosa e permitirão que minha família economize em custos e passe mais tempo junta. Mas ele detalhou seu pensamento para mim em cada etapa do caminho e explicou como ele considerou todos esses fatores externos, incluindo custos, tempo em família e gerenciamento de fornos.

O ChatGPT o1 me disse como priorizar o espaço do forno na casa que está hospedando o evento, o que foi inteligente. Estranhamente, ele sugeriu que eu considerasse alugar um forno portátil para o dia. Dito isso, o modelo teve um desempenho muito melhor do que o GPT-4o, que exigiu várias perguntas de acompanhamento sobre quais pratos exatos eu estava trazendo, e então me deu conselhos básicos que achei menos úteis.

Perguntar sobre o jantar de Ação de Graças pode parecer bobo, mas você pode ver como essa ferramenta seria útil para dividir tarefas complicadas.

Também pedi ao ChatGPT o1 para me ajudar a planejar um dia agitado no trabalho, onde eu precisava viajar entre o aeroporto, várias reuniões presenciais em vários locais e meu escritório. Ele me deu um plano muito detalhado, mas talvez fosse um pouco demais. Às vezes, todas as etapas adicionadas podem ser um pouco esmagadoras.

Para uma pergunta mais simples, o ChatGPT o1 faz demais – ele não sabe quando parar de pensar demais. Perguntei onde você pode encontrar cedros na América, e ele me deu uma resposta de mais de 800 palavras, descrevendo todas as variações de cedros no país, incluindo seus nomes científicos. Ele até teve que consultar as políticas da OpenAI em algum momento, por algum motivo. O GPT-4o fez um trabalho muito melhor respondendo a essa pergunta, me entregando cerca de três frases explicando que você pode encontrar as árvores em todo o país.

Moderando as expectativas

De certa forma, a Strawberry nunca corresponderia ao hype. Relatórios sobre os modelos de raciocínio da OpenAI datam de novembro de 2023, bem na época em que todos procuravam uma resposta sobre o motivo pelo qual o conselho da OpenAI demitiu Sam Altman. Isso gerou rumores no mundo da IA, deixando alguns especulando que a Strawberry era uma forma de AGI, a versão iluminada da IA ​​que a OpenAI aspira criar.

Altman confirmado o1 não é AGI para esclarecer quaisquer dúvidas, não que você ficaria confuso depois de usar a coisa. O CEO também cortou as expectativas em torno deste lançamento, twittando que “o1 ainda é falho, ainda é limitado e ainda parece mais impressionante no primeiro uso do que depois que você passa mais tempo com ele”.

O resto do mundo da IA ​​está se adaptando a um lançamento menos emocionante do que o esperado.

“O hype meio que saiu do controle da OpenAI”, disse Rohan Pandey, engenheiro de pesquisa da startup de IA ReWorkd, que cria web scrapers com modelos da OpenAI.

Ele espera que a capacidade de raciocínio do o1 seja boa o suficiente para resolver um conjunto de nicho de problemas complicados onde o GPT-4 fica aquém. É provável que seja assim que a maioria das pessoas na indústria esteja vendo o ChatGPT o1, mas não exatamente como o passo revolucionário que o GPT-4 representou para a indústria.

“Todos estão esperando por uma mudança de função de etapa para capacidades, e não está claro que isso representa isso. Acho que é simples assim”, disse o CEO da Brightwave, Mike Conover, que anteriormente cocriou o modelo de IA Dolly da Databricks, em uma entrevista.

Qual é o valor aqui?

Os princípios subjacentes usados ​​para criar o o1 remontam a anos. O Google usou técnicas semelhantes em 2016 para criar o AlphaGo, o primeiro sistema de IA a derrotar um campeão mundial do jogo de tabuleiro, aponta o ex-Googler e CEO da empresa de capital de risco S32, Andy Harrison. O AlphaGo treinou jogando contra si mesmo inúmeras vezes, essencialmente se autodidata até atingir capacidade sobre-humana.

Ele observa que isso traz à tona um antigo debate no mundo da IA.

“O acampamento um acha que você pode automatizar fluxos de trabalho por meio desse processo agêntico. O acampamento dois acha que se, se você tivesse inteligência e raciocínio generalizados, você não precisaria do fluxo de trabalho e, como um humano, a IA apenas faria um julgamento”, disse Harrison em uma entrevista.

Harrison diz que está no acampamento um, e que o acampamento dois exige que você confie na IA para tomar a decisão certa. Ele não acha que chegamos lá ainda.

No entanto, outros pensam no o1 menos como um tomador de decisões e mais como uma ferramenta para questionar seu pensamento sobre grandes decisões.

Katanforoosh, o CEO da Workera, descreveu um exemplo em que ele iria entrevistar um cientista de dados para trabalhar em sua empresa. Ele diz ao ChatGPT o1 que ele tem apenas 30 minutos e quer avaliar um certo número de habilidades. Ele pode trabalhar de trás para frente com o modelo de IA para entender se ele está pensando sobre isso corretamente, e o ChatGPT o1 entenderá as restrições de tempo e outras coisas.

A questão é se essa ferramenta útil vale o alto preço. À medida que os modelos de IA continuam a ficar mais baratos, o o1 é um dos primeiros modelos de IA em muito tempo que vimos ficar mais caro.

Source

By admin

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *