Inteligência artificial Os sistemas (IA) poderão devorar todo o conhecimento gratuito da Internet já em 2026, alertou um novo estudo.
Modelos de IA, como GPT-4que alimenta o ChatGPT, ou Cláudio 3 Opus dependem dos muitos biliões de palavras partilhadas online para se tornarem mais inteligentes, mas novas projecções sugerem que esgotarão a oferta de dados disponíveis publicamente em algum momento entre 2026 e 2032.
Isso significa que, para construir modelos melhores, as empresas de tecnologia precisarão começar a procurar dados em outros lugares. Isto pode incluir a produção de dados sintéticos, o recurso a fontes de qualidade inferior ou, de forma mais preocupante, a exploração de dados privados em servidores que armazenam mensagens e e-mails. Os pesquisadores publicaram suas descobertas em 4 de junho no servidor de pré-impressão arXiv.
“Se os chatbots consumirem todos os dados disponíveis e não houver mais avanços na eficiência dos dados, esperaria ver uma estagnação relativa no campo”, disse o primeiro autor do estudo. Pablo Villalobos, pesquisador do instituto de pesquisa Epoch AI, disse ao Live Science. “Modelos [will] só melhoram lentamente ao longo do tempo, à medida que novos insights algorítmicos são descobertos e novos dados são produzidos naturalmente.”
Os dados de treinamento alimentam o crescimento dos sistemas de IA – permitindo-lhes pescar padrões cada vez mais complexos para enraizarem-se em suas redes neurais. Por exemplo, o ChatGPT foi treinado com cerca de 570 GB de dados de texto, totalizando cerca de 300 bilhões de palavras, retirados de livros, artigos online, Wikipedia e outras fontes online.
Algoritmos treinados em dados insuficientes ou de baixa qualidade produzem resultados incompletos. Gemini AI do Google, que recomendou de forma infame que as pessoas adicione cola em suas pizzas ou coma pedrasobteve algumas de suas respostas em postagens do Reddit e artigos do site satírico The Onion.
Para estimar a quantidade de texto disponível online, os investigadores usaram o índice web do Google, calculando que existiam actualmente cerca de 250 mil milhões de páginas web contendo 7.000 bytes de texto por página. Em seguida, utilizaram análises de acompanhamento do tráfego do protocolo de Internet (IP) — o fluxo de dados através da web — e da atividade dos utilizadores online para projetar o crescimento deste stock de dados disponíveis.
Os resultados revelaram que a informação de alta qualidade, obtida de fontes fiáveis, se esgotaria antes de 2032, o mais tardar — e que os dados linguísticos de baixa qualidade seriam consumidos entre 2030 e 2050. Os dados de imagem, por sua vez, serão completamente consumidos entre 2030. e 2060.
Foi demonstrado que as redes neurais melhorar previsivelmente à medida que seus conjuntos de dados aumentam, um fenômeno chamado lei de escala neural. É, portanto, uma questão em aberto se as empresas podem melhorar a eficiência do seu modelo para compensar a falta de dados novos, ou se fechar a torneira fará com que as melhorias do modelo estabilizem.
No entanto, Villalobos disse que parece improvável que a escassez de dados iniba dramaticamente o crescimento futuro do modelo de IA. Isso ocorre porque existem várias abordagens possíveis que as empresas poderiam usar para contornar o problema.
“As empresas estão cada vez mais tentando usar dados privados para treinar modelos, por exemplo Próxima mudança de política da Meta“, acrescentou, no qual a empresa anunciou que usará interações com chatbots em suas plataformas para treinar sua IA generativa a partir de 26 de junho. “Se conseguirem fazê-lo e se a utilidade dos dados privados for comparável à da web pública dados, então é bastante provável que as principais empresas de IA tenham dados mais do que suficientes para durar até o final da década. Nesse ponto, outros gargalos, como o consumo de energia, o aumento dos custos de treinamento e a disponibilidade de hardware, podem se tornar mais urgentes do que a falta de dados”.
Outra opção é usar dados sintéticos gerados artificialmente para alimentar os modelos famintos – embora isso só tenha sido usado anteriormente com sucesso em sistemas de treinamento em jogos, codificação e matemática.
Alternativamente, se as empresas tentarem colher propriedade intelectual ou informações privadas sem permissão, alguns especialistas prevêem desafios legais no futuro.
“Os criadores de conteúdo protestaram contra o uso não autorizado de seu conteúdo para treinar modelos de IA, com alguns processando empresas como Microsoft, OpenAI e IA de estabilidade“, Rita Matulionyteespecialista em tecnologia e direito de propriedade intelectual e professor associado da Macquarie University, Austrália, escreveu em A Conversa. “Ser remunerado pelo seu trabalho pode ajudar a restaurar parte do desequilíbrio de poder que existe entre os criativos e as empresas de IA.”
Os investigadores observam que a escassez de dados não é o único desafio à melhoria contínua da IA. As pesquisas do Google baseadas no ChatGPT consomem quase 10 vezes mais eletricidade que uma pesquisa tradicional, de acordo com a Agência Internacional de Energia. Isso fez com que os líderes tecnológicos tentar desenvolver startups de fusão nuclear para abastecer seus famintos data centers, embora o método nascente de geração de energia seja ainda longe de ser viável.