
- HBF oferece dez vezes a capacidade HBM, permanecendo mais lento que DRAM
- As GPUs acessarão conjuntos de dados maiores por meio de memória HBM-HBF em camadas
- As gravações em HBF são limitadas, exigindo que o software se concentre nas leituras
A explosão das cargas de trabalho de IA colocou uma pressão sem precedentes nos sistemas de memória, forçando as empresas a repensar a forma como entregam dados aos aceleradores.
A memória de alta largura de banda (HBM) serviu como um cache rápido para GPUs, permitindo Ferramentas de IA para ler e processar dados de valor-chave (KV) com eficiência.
No entanto, o HBM é caro, rápido e de capacidade limitada, enquanto o flash de alta largura de banda (HBF) oferece um volume muito maior em velocidades mais lentas.
Como o HBF complementa o HBM
O design da HBF permite GPU para acessar um conjunto de dados mais amplo e ao mesmo tempo limitar o número de gravações, cerca de 100.000 por módulo, o que requer software para priorizar leituras em vez de gravações.
O HBF será integrado ao HBM próximo aos aceleradores de IA, formando uma arquitetura de memória em camadas.
O professor Kim Joungho, do KAIST, compara o HBM a uma estante de livros em casa para um estudo rápido, enquanto o HBF funciona como uma biblioteca com muito mais conteúdo, mas com acesso mais lento.
“Para que uma GPU execute inferência de IA, ela deve ler dados variáveis chamados cache KV do HBM. Em seguida, ela interpreta isso e cospe palavra por palavra, e acho que utilizará o HBF para esta tarefa”, disse o professor Kim.
“O HBM é rápido, o HBF é lento, mas sua capacidade é cerca de 10 vezes maior. Porém, embora o HBF não tenha limite no número de leituras, ele tem um limite no número de gravações, cerca de 100.000. Portanto, quando OpenAI ou Google escrever programas, eles precisam estruturar seu software para que ele se concentre na leitura.”
Espera-se que o HBF seja lançado com o HBM6, onde múltiplas pilhas HBM se interconectam em uma rede, aumentando a largura de banda e a capacidade.
O conceito prevê futuras iterações como o HBM7 funcionando como uma “fábrica de memória”, onde os dados podem ser processados diretamente do HBF sem desvios pelas redes de armazenamento tradicionais.
O HBF empilha várias matrizes 3D NAND verticalmente, semelhante ao empilhamento DRAM da HBM, e as conecta com vias de silício (TSVs).
Uma única unidade HBF pode atingir capacidade de 512 GB e largura de banda de até 1.638 TBps, excedendo em muito as velocidades SSD NVMe PCIe 4.0 padrão.
SK Hynix e Sandisk demonstraram diagramas mostrando camadas NAND superiores conectadas através de TSVs a um dado lógico básico, formando uma pilha funcional.
Os protótipos de chips HBF requerem fabricação cuidadosa para evitar distorções nas camadas inferiores, e pilhas NAND adicionais aumentariam ainda mais a complexidade das conexões TSV.
Samsung Electronics e Sandisk planejam anexar HBF ao Nvidia, AMDe produtos de IA do Google nos próximos 24 meses.
A SK Hynix lançará um protótipo ainda este mês, enquanto as empresas também trabalham na padronização por meio de um consórcio.
Espera-se que a adoção do HBF acelere na era HBM6, e a Kioxia já criou um protótipo de um módulo HBF de 5 TB usando PCIe Gen 6 x8 a 64 Gbps. O professor Kim prevê que o mercado de HBF poderá ultrapassar o HBM até 2038.
Através Sisajornal (originalmente em coreano)
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
