António Branco é o coordenador de um projeto que já fez mexer LLM virados para o português, ainda que “nas duas variantes”, o europeu e o do Brasil. O professor da Faculdade de Ciências da Universidade de Lisboa explica que “uma língua pode ter vários LLM”, dando o exemplo da língua inglesa, “a mais trabalhada, e que terá milhares de LLM.”
A diversidade de LLM é positiva também em Portugal, defende. “É bom que haja vários LLM. Nós já libertámos vários e estamos a continuar a trabalhar ao longo do projeto para lançar mais”, explica o coordenador do projeto de onde já saíram as famílias de modelos Albertina, Gervásio ou o Serafim. Ou seja, dentro das famílias de cada um “há vários Albertina, com tamanhos e características diferentes”, exemplifica.
Cada um tem funções e aptidões específicas. “O LLM Albertina é da família dos encoders [codificadores], que são especialmente aptos para tarefas de classificação. O Gervásio é da família dos decoders, a família dos GPT, que são especialmente aptos para gerar textos.” E o Serafim “é uma terceira família, mais técnica, que em inglês se chama sentence embedder.” Em linguagem comum, este LLM analisa as “representações semânticas para frases”, os contextos em que uma palavra pode aparecer (por exemplo, a palavra banco tanto pode ser uma instituição financeira como um sítio para sentar). António Branco considera que estes LLM são “absolutamente cruciais para a tarefa de procura de informação” que seja adequada ao contexto.
Os três LLM (ou famílias de LLM) que estão a ser desenvolvidos neste projeto têm mais algumas características. “São de pesos abertos, ou seja, quem quiser alterar e trabalhar com eles pode, a licença é o mais aberta possível e, portanto, ninguém fica obrigado a pagar-nos, pode usar para investigação ou pode usar em termos comerciais”, enumera. O Albertina, por exemplo, já deu frutos. “Uma startup fez, a partir do Albertina, um modelo para usar na área da saúde, para diagnóstico médico, a que chamaram Medi-Albertina.” Como se trata de um sistema de classificação, a partir de uma lista de sintomas, consegue dar uma classificação “de qual é a doença mais provável associada aos sintomas”.
O projeto destes modelos está integrado no consórcio Accelerate.ai, que tem financiamento do PRR e é liderado pela empresa de IA portuguesa Defined.ai. Ao Observador, fonte da empresa comentou o anúncio do LLM Amália como “um excelente passo na direção de posicionar Portugal no caminho certo para se tornar um líder em IA”. “Estamos muito contentes com o anúncio e, claro, estamos disponíveis para apoiar no que for necessário para que o projeto seja bem-sucedido.”
Outro modelo de LLM que já nasceu em Portugal é o GlórIA, desenvolvido por investigadores no LINCS da Nova FCT por David Semedo, Ricardo Lopes e João Magalhães. O modelo usa apenas dados em português europeu e foi “desenvolvido com mais de 35 mil milhões de tokens”, ou expressões que as máquinas conseguem processar, criado em parceria com a Arquivo.pt, o arquivo português da internet. O Observador contactou os responsáveis pelo desenvolvimento do modelo, sem sucesso nas respostas.
É sabido que uma boa parte dos LLM mais usados — o GPT-4, o ‘motor’ do ChatGPT, o Llama da Meta ou os modelos LLM da startup Claude — foram desenvolvidos por empresas norte-americanas, com gigantescas quantidades de dados. E, ainda que estas opções tenham sido treinadas com dados de vários idiomas e consigam compreender e interagir em muitas línguas, há muitos países a desenvolver LLM para ter resultados mais fidedignos no seu idioma.
Aqui ao lado, em Espanha, existe, desde setembro de 2022, um modelo de IA chamado MarIA, que é capaz de gerar textos e resumir informação em espanhol. Na altura, o governo de Pedro Sánchez considerou que ter um sistema capaz de compreender as nuances da língua iria “contribuir para o desenvolvimento de uma economia digital em espanhol”. A MarIA foi treinada com mais de 135,7 mil milhões de palavras que constavam em páginas web recolhidas pela Biblioteca Nacional espanhola, ocupando um total de 570 GB de informação.
Já em abril deste ano, o executivo de Pedro Sánchez assinou um memorando de entendimento com a norte-americana IBM para a colaboração na IA e na supercomputação. Entre as atividades previstas está o desenvolvimento de modelos LLM mas também de modelos de menores dimensões, em espanhol, catalão ou galego.
A Bulgária também tem o seu próprio LLM, chamado BgGPT, que funciona em búlgaro. Lançado esta semana, o modelo foi desenvolvido pelo INSAIT, o Instituto para a Ciência Computacional, IA e Tecnologia. Segundo o anúncio feito pelo instituto tecnológico, o BgGPT estará disponível em três tamanhos (2,6 mil milhões de parâmetros, 9 mil milhões e 27 mil milhões) e foi “desenvolvido em cima da família Gemma-2, da Google, mas com mais extensões, incluindo nova investigação”.
???? Groundbreaking news! INSAIT launches new state-of-the-art language models for Bulgarian, setting a standard for national open LLMs worldwide!
???? The unprecedented performance of BgGPT models is enabled by new research from INSAIT which shows how to train an LLM with new… pic.twitter.com/ug50d1gsVd
— INSAIT Institute (@INSAITinstitute) November 19, 2024
Para que a população consiga interagir com o LLM, foi lançado um chatbot. “Esta é a primeira vez a nível mundial que um sistema desta qualidade foi lançado por uma instituição governamental”, acrescentou o INSAIT no anúncio.
No espaço dos falantes de português, o Brasil também tem planos para o desenvolvimento de um LLM. O governo de Lula anunciou, no fim de junho, um financiamento de 1.100 milhões de reais, o equivalente a 181,8 milhões de euros para a criação de um LLM em português do Brasil, que recebeu o nome de Amazónia. O LLM, desenvolvido pela startup WideLabs, faz parte de um plano maior do Brasil para a IA, com um orçamento que prevê o investimento de 23 mil milhões de reais ao longo dos próximos quatro anos, o equivalente a 3,8 mil milhões de euros.