
- O Engram da DeepSeek separa a memória estática da computação, aumentando a eficiência em grandes modelos de IA
- O método reduz as necessidades de memória de alta velocidade, permitindo que os modelos DeepSeek usem pesquisas
- Engram oferece suporte à pré-busca assíncrona em várias GPUs com sobrecarga mínima de desempenho
DeepSeek, em colaboração com a Universidade de Pequim, introduziu um novo método de treinamento chamado Engram, projetado para dissociar o armazenamento de memória dos processos computacionais.
Tradicional grandes modelos de linguagem exigem memória de alta largura de banda para recuperação de conhecimento e computação básica, criando um gargalo tanto no desempenho quanto no custo.
Esse gargalo da HBM é amplamente reconhecido como um dos principais motivos pelos quais os preços da DRAM aumentaram 5 vezes em apenas 10 semanas, à medida que a demanda por hardware aumentou para suportar grandes modelos de IA.
Validação e abordagem técnica
Os pesquisadores disseram que os modelos existentes desperdiçam profundidade sequencial em operações triviais, que de outra forma poderiam apoiar o raciocínio de nível superior.
O Engram permite que os modelos “procurem” informações essenciais com eficiência, sem sobrecarregar a memória da GPU, liberando capacidade para tarefas de raciocínio mais complexas.
O sistema foi testado em um modelo de 27 bilhões de parâmetros e mostrou melhorias mensuráveis em todos os benchmarks padrão da indústria.
Ao realizar a recuperação de conhecimento por meio de N-gramas com hash, o Engram fornece acesso à memória estática independente do contexto atual.
As informações recuperadas são então ajustadas usando um mecanismo de controle sensível ao contexto para se alinhar ao estado oculto do modelo.
Esse design permite que os modelos lidem com entradas de contexto longas com mais eficiência e ofereça suporte à pré-busca no nível do sistema com sobrecarga mínima de desempenho.
O método Engram complementa outras abordagens eficientes em hardware, incluindo soluções como os aceleradores de inferência de IA da Phison.
O Engram minimiza a quantidade de memória de alta velocidade necessária usando pesquisas de informações estáticas, tornando o uso da memória mais eficiente.
Phison oferece uma maneira econômica de expandir a memória total usando SSDs, suportando grandes modelos de IA, como sistemas Engram ou Mixture-of-Experts.
Combinadas, essas abordagens permitem que os sistemas de IA otimizem o uso rápido da memória e, ao mesmo tempo, aumentem de maneira econômica a capacidade geral da memória.
Ele também funciona junto com os padrões emergentes CXL (Compute Express Link), que visam superar gargalos de memória GPU em cargas de trabalho de IA em grande escala.
O método separa o armazenamento de padrões estáticos da computação dinâmica, aprimorando o backbone do Transformer sem aumentar FLOPs ou contagens de parâmetros.
DeepSeek formalizou uma regra de expansão em forma de U para otimizar a alocação de parâmetros entre o módulo de computação condicional MoE e o módulo de memória Engram.
Os testes mostram que a realocação de cerca de 20-25% do orçamento de parâmetros esparsos para o Engram produz um desempenho melhor do que os modelos MoE puros, mantendo ganhos estáveis em diferentes escalas.
A expansão do slot de memória fornece melhorias previsíveis sem custo computacional adicional.
Isto confirma a escalabilidade da memória condicional como um eixo independente para modelos esparsos.
O mecanismo de recuperação determinística do Engram permite que a capacidade de memória seja escalonada linearmente em várias GPUs, ao mesmo tempo que oferece suporte à pré-busca assíncrona durante a inferência.
Ele alivia a reconstrução do conhecimento estático das camadas inferiores, liberando mecanismos de atenção para focar no contexto global.
O cache hierárquico de embeddings usados com frequência aumenta a eficiência e o módulo funciona com os existentes GPU e arquiteturas de memória de sistema, evitando potencialmente atualizações dispendiosas do HBM.
Esta técnica pode aliviar a pressão sobre hardware de memória caro, particularmente em regiões como a China, onde o acesso da HBM está atrás de concorrentes como SamsungSK Hynix e Micron.
A validação inicial do Engram sugere que os modelos podem expandir a escala dos parâmetros e a capacidade de raciocínio, ao mesmo tempo que gerenciam as demandas de memória com mais eficiência.
Esta abordagem pode ajudar a aliviar as restrições de memória na infraestrutura de IA, reduzindo potencialmente DRAM DDR5 oscilações de preços.
Através SCMP
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
