A nova técnica Engram da DeepSeek pode reduzir os custos de memória de IA, ao mesmo tempo que aumenta o poder de raciocínio e alivia a pressão global de DRAM

O Engram da DeepSeek separa a memória estática da computação, aumentando a eficiência em grandes modelos de IA
O método reduz as necessidades de memória de alta velocidade, permitindo que os modelos DeepSeek usem pesquisas
Engram oferece suporte à pré-busca assíncrona em várias GPUs com sobrecarga mínima de desempenho

DeepSeek, em colaboração com a Universidade de Pequim, introduziu um novo método de treinamento chamado Engram, projetado para dissociar o armazenamento de memória dos processos computacionais.

Tradicional grandes modelos de linguagem exigem memória de alta largura de banda para recuperação de conhecimento e computação básica, criando um gargalo tanto no desempenho quanto no custo.

Validação e abordagem técnica

Os pesquisadores disseram que os modelos existentes desperdiçam profundidade sequencial em operações triviais, que de outra forma poderiam apoiar o raciocínio de nível superior.

O Engram permite que os modelos “procurem” informações essenciais com eficiência, sem sobrecarregar a memória da GPU, liberando capacidade para tarefas de raciocínio mais complexas.

O sistema foi testado em um modelo de 27 bilhões de parâmetros e mostrou melhorias mensuráveis em todos os benchmarks padrão da indústria.

Ao realizar a recuperação de conhecimento por meio de N-gramas com hash, o Engram fornece acesso à memória estática independente do contexto atual.

As informações recuperadas são então ajustadas usando um mecanismo de controle sensível ao contexto para se alinhar ao estado oculto do modelo.

Esse design permite que os modelos lidem com entradas de contexto longas com mais eficiência e ofereça suporte à pré-busca no nível do sistema com sobrecarga mínima de desempenho.

O método Engram complementa outras abordagens eficientes em hardware, incluindo soluções como os aceleradores de inferência de IA da Phison.

O Engram minimiza a quantidade de memória de alta velocidade necessária usando pesquisas de informações estáticas, tornando o uso da memória mais eficiente.

Phison oferece uma maneira econômica de expandir a memória total usando SSDs, suportando grandes modelos de IA, como sistemas Engram ou Mixture-of-Experts.

Combinadas, essas abordagens permitem que os sistemas de IA otimizem o uso rápido da memória e, ao mesmo tempo, aumentem de maneira econômica a capacidade geral da memória.

Ele também funciona junto com os padrões emergentes CXL (Compute Express Link), que visam superar gargalos de memória GPU em cargas de trabalho de IA em grande escala.

O método separa o armazenamento de padrões estáticos da computação dinâmica, aprimorando o backbone do Transformer sem aumentar FLOPs ou contagens de parâmetros.

DeepSeek formalizou uma regra de expansão em forma de U para otimizar a alocação de parâmetros entre o módulo de computação condicional MoE e o módulo de memória Engram.

Os testes mostram que a realocação de cerca de 20-25% do orçamento de parâmetros esparsos para o Engram produz um desempenho melhor do que os modelos MoE puros, mantendo ganhos estáveis em diferentes escalas.

A expansão do slot de memória fornece melhorias previsíveis sem custo computacional adicional.

Isto confirma a escalabilidade da memória condicional como um eixo independente para modelos esparsos.

O mecanismo de recuperação determinística do Engram permite que a capacidade de memória seja escalonada linearmente em várias GPUs, ao mesmo tempo que oferece suporte à pré-busca assíncrona durante a inferência.

Ele alivia a reconstrução do conhecimento estático das camadas inferiores, liberando mecanismos de atenção para focar no contexto global.

GPU e arquiteturas de memória de sistema, evitando potencialmente atualizações dispendiosas do HBM.

Esta técnica pode aliviar a pressão sobre hardware de memória caro, particularmente em regiões como a China, onde o acesso da HBM está atrás de concorrentes como SamsungSK Hynix e Micron.

A validação inicial do Engram sugere que os modelos podem expandir a escala dos parâmetros e a capacidade de raciocínio, ao mesmo tempo que gerenciam as demandas de memória com mais eficiência.

Esta abordagem pode ajudar a aliviar as restrições de memória na infraestrutura de IA, reduzindo potencialmente DRAM DDR5 oscilações de preços.

Através SCMP

Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!

E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.

Source link

A nova técnica Engram da DeepSeek pode reduzir os custos de memória de IA, ao mesmo tempo que aumenta o poder de raciocínio e alivia a pressão global de DRAM

ByMurilo Barbosa Castro

By Murilo Barbosa Castro

Related Post

Afastem-se, Apple e Samsung – este smartwatch Huawei tem um recurso de diabetes pioneiro no mundo, mas há um problema

Esqueça o Dia dos Namorados – a BBC acaba de lançar as primeiras imagens do perturbado drama policial romântico que estou mais animado para este ano

Experimentei o aplicativo gratuito Hello Mario da Nintendo – e não consigo acreditar como ele é divertido (sim, é para crianças)

You missed

Afastem-se, Apple e Samsung – este smartwatch Huawei tem um recurso de diabetes pioneiro no mundo, mas há um problema

Esqueça o Dia dos Namorados – a BBC acaba de lançar as primeiras imagens do perturbado drama policial romântico que estou mais animado para este ano

Experimentei o aplicativo gratuito Hello Mario da Nintendo – e não consigo acreditar como ele é divertido (sim, é para crianças)

Lista completa de mudanças de elenco até agora