• Qui. Set 19th, 2024

Meta revela o maior modelo de IA do Llama 3, reivindicando ganhos em linguagem e matemática

Meta revela o maior modelo de IA do Llama 3, reivindicando ganhos em linguagem e matemática

O modelo está definido para ser gratuito, desafiando o ChatGPT-4 baseado em assinatura

Nova Iorque:

A Meta Platforms lançou na terça-feira a maior versão de seus modelos de inteligência artificial Llama 3, em sua maioria gratuitos, ostentando habilidades multilíngues e métricas gerais de desempenho que ficam atrás de modelos pagos de rivais como a OpenAI.

O novo modelo Llama 3 pode conversar em oito idiomas, escrever códigos de computador de alta qualidade e resolver problemas matemáticos mais complexos do que as versões anteriores, disse a empresa controladora do Facebook em postagens de blog e um artigo de pesquisa anunciando o lançamento.

Com 405 bilhões de parâmetros, ou variáveis ​​que o algoritmo leva em consideração para gerar respostas às consultas dos usuários, ele supera a versão anterior lançada no ano passado, embora ainda seja menor do que os principais modelos oferecidos pelos concorrentes.

O modelo GPT-4 da OpenAI, por outro lado, tem um trilhão de parâmetros e a Amazon está preparando um modelo com 2 trilhões de parâmetros.

Promovendo o Llama 3 em vários canais, o CEO Mark Zuckerberg disse que esperava que os futuros modelos Llama ultrapassassem os concorrentes proprietários no ano que vem. O chatbot Meta AI alimentado por esses modelos estava a caminho de se tornar o assistente de IA mais popular até o final deste ano, com centenas de milhões de pessoas já o usando, disse ele.

O lançamento ocorre no momento em que as empresas de tecnologia estão correndo para mostrar que seus portfólios crescentes de modelos de linguagem de grande porte, que consomem muitos recursos, podem gerar ganhos significativos o suficiente em áreas problemáticas conhecidas, como raciocínio avançado, para justificar as somas gigantescas que foram investidas neles.

O principal cientista de IA da Meta disse acreditar que tais modelos atingirão limites de raciocínio e que outros tipos de sistemas de IA serão necessários para produzir avanços.

Além do seu modelo principal de 405 bilhões de parâmetros, a Meta também está lançando versões atualizadas de seus modelos mais leves, Llama 3, de 8 bilhões e 70 bilhões de parâmetros, inicialmente introduzidos na primavera, disse a empresa.

Todos os três novos modelos são multilíngues e podem lidar com solicitações maiores de usuários por meio de uma “janela de contexto” expandida, o que, segundo o chefe de IA generativa da Meta, Ahmad Al-Dahle, melhoraria a experiência de geração de código de computador em particular.

“Esse foi o feedback número um que recebemos da comunidade”, disse Al-Dahle à Reuters em uma entrevista, observando que janelas de contexto maiores dão aos modelos algo semelhante a uma memória maior que auxilia no processamento de solicitações de várias etapas.

Separadamente, Al-Dahle disse que sua equipe conseguiu melhorar o desempenho do modelo Llama 3 em tarefas como resolução de problemas de matemática usando IA para gerar alguns dos dados com os quais foram treinados.

A Meta libera seus modelos Llama amplamente gratuitos para uso por desenvolvedores, uma estratégia que Zuckerberg diz que valerá a pena na forma de produtos inovadores, menos dependência de possíveis concorrentes e maior engajamento nas principais redes sociais da empresa. Alguns investidores levantaram as sobrancelhas para os custos envolvidos, no entanto.

A empresa também se beneficia se os desenvolvedores optarem por usar seus modelos gratuitos em vez dos pagos, o que prejudicaria os modelos de negócios de seus rivais. Com seu anúncio, a Meta alardeou ganhos em testes-chave de matemática e conhecimento que podem tornar essa perspectiva mais atraente.

Embora seja notoriamente difícil medir o progresso no desenvolvimento de IA, os resultados dos testes fornecidos pela Meta parecem sugerir que seu maior modelo, o Llama 3, estava quase igualando e, em alguns casos, superando o Claude 3.5 Sonnet da Anthropic e o GPT-4o da OpenAI, que são amplamente considerados os dois modelos de fronteira mais poderosos do mercado.

No benchmark MATH de problemas matemáticos de nível competitivo, por exemplo, o modelo da Meta obteve uma pontuação de 73,8, comparado aos 76,6 do GPT-4o e aos 71,1 do Claude 3.5 Sonnet.

O modelo obteve pontuação de 88,6 no MMLU, uma referência que abrange dezenas de disciplinas em matemática, ciências e humanidades, enquanto o GPT-4o obteve pontuação de 88,7 e o Claude 3.5 Sonnet obteve pontuação de 88,3.

Em seu artigo, os pesquisadores do Meta também sugeriram as próximas versões “multimodais” dos modelos, que serão lançadas ainda este ano e que sobrepõem recursos de imagem, vídeo e fala ao modelo de texto principal do Llama 3.

Os primeiros experimentos indicam que esses modelos podem ter um desempenho “competitivo” com outros modelos multimodais, como o Gemini 1.5 do Google e o Claude 3.5 Sonnet da Anthropic, disseram eles.

(Com exceção do título, esta história não foi editada pela equipe da NDTV e é publicada a partir de um feed distribuído.)

Source

By admin

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *