• Sex. Nov 15th, 2024

Feijoada Politica

Notícias

Zuckerberg promove a mais recente visão de vídeo AI da Meta com o CEO da Nvidia, Jensen Huang

Byadmin

Jul 30, 2024
Zuckerberg promove a mais recente visão de vídeo AI da Meta com o CEO da Nvidia, Jensen Huang

A Meta teve um impacto palpável no ano passado com Segmente qualquer coisaum modelo de aprendizado de máquina que poderia identificar e delinear de forma rápida e confiável praticamente qualquer coisa em uma imagem. A sequência, que o CEO Mark Zuckerberg estreou no palco na segunda-feira no SIGGRAPH, leva o modelo para o domínio do vídeo, mostrando o quão rápido o campo está se movendo.

Segmentação é o termo técnico para quando um modelo de visão olha para uma imagem e seleciona as partes: “isto é um cachorro, esta é uma árvore atrás do cachorro”, esperançosamente, e não “esta é uma árvore crescendo de um cachorro”. Isso vem acontecendo há décadas, mas recentemente ficou muito melhor e mais rápido, com o Segment Anything sendo um grande passo à frente.

Segmento Qualquer Coisa 2 (SA2) é uma continuação natural, pois se aplica nativamente ao vídeo e não apenas a imagens estáticas; embora você possa, é claro, executar o primeiro modelo em cada quadro de um vídeo individualmente, esse não é o fluxo de trabalho mais eficiente.

“Cientistas usam essas coisas para estudar, tipo, recifes de corais e habitats naturais, coisas assim. Mas ser capaz de fazer isso em vídeo e ter zero shot e dizer o que você quer, é muito legal”, disse Zuckerberg em uma conversa com o CEO da Nvidia, Jensen Huang.

O processamento de vídeo é, claro, muito mais exigente computacionalmente, e é uma prova dos avanços feitos em toda a indústria em eficiência que o SA2 pode executar sem derreter o datacenter. Claro, ainda é um modelo enorme que precisa de hardware sério para funcionar, mas a segmentação rápida e flexível era praticamente impossível até um ano atrás.

Créditos da imagem: Meta

O modelo, assim como o primeiro, será aberto e gratuito, e não há nenhuma menção a uma versão hospedada, algo que essas empresas de IA às vezes oferecem. Mas há uma demonstração gratuita.

Naturalmente, tal modelo leva uma tonelada de dados para treinar, e a Meta também está lançando um grande banco de dados anotado de 50.000 vídeos que ela criou apenas para esse propósito. No artigo que descreve o SA2, outro banco de dados de mais de 100.000 vídeos “disponíveis internamente” também foi usado para treinamento, e este não está sendo tornado público — pedi à Meta mais informações sobre o que é isso e por que não está sendo lançado. (Nosso palpite é que ele é originário de perfis públicos do Instagram e do Facebook.)

Exemplos de dados de treinamento rotulados.
Créditos da imagem: Meta

A Meta tem sido líder no domínio de IA “aberta” por alguns anos, embora na verdade (como Zuckerberg opinou na conversa) tenha feito isso por um longo tempo, com ferramentas como PyTorch. Mas, mais recentemente, LLaMa, Segment Anything e alguns outros modelos que ela disponibiliza gratuitamente se tornaram um padrão relativamente acessível para desempenho de IA nessas áreas, embora sua “abertura” seja uma questão de debate.

Zuckerberg mencionou que a abertura não é inteiramente fruto da bondade dos corações da Meta, mas isso não significa que suas intenções sejam impuras:

“Isso não é apenas como um pedaço de software que você pode construir — você precisa de um ecossistema em torno dele. Ele quase nem funcionaria tão bem se não o tornássemos de código aberto, certo? Não estamos fazendo isso porque somos pessoas altruístas, embora eu ache que isso será útil para o ecossistema — estamos fazendo isso porque achamos que isso tornará a coisa que estamos construindo a melhor.”

De qualquer forma, certamente será bem utilizado. Confira o GitHub aqui.

Source

By admin

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *