
A indústria de tecnologia fala cada vez mais que as GPUs são fundamentais para a infraestrutura de IA, mas o fator limitante que decide quais modelos você pode executar é, na verdade, a memória.
Em uma ampla entrevista, o CEO da Phison, Pua Khein Seng, que inventou a primeira unidade flash USB de chip único do mundo, disse TechRadar Pro o foco na computação desviou a atenção de uma restrição mais básica que aparece em todos os lugares, desde laptops que executam inferência local até hiperescaladores que constroem data centers de IA.
“Nos modelos de IA, o verdadeiro gargalo não é o poder computacional – é a memória”, disse Pua. “Se você não tiver memória suficiente, o sistema trava.”
Compensando os limites de DRAM
Isso é o que está por trás do trabalho aiDAPTIV+ de Phison, que a empresa discutiu publicamente em CES 2026e essencialmente é uma maneira de estender o processamento de IA para sistemas GPU integrados usando flash NAND como pool de memória.
Pua descreve isso como usando SSD capacidade de compensar os limites de DRAM e manter as GPUs focadas na computação em vez de esperar pela memória.
“Nossa invenção usa SSDs como complemento da memória DRAM”, diz ele. “Usamos isso como expansão de memória.”
Um objetivo prático é melhorar a capacidade de resposta durante a inferência, especialmente o Time to First Token, o atraso entre o envio de um prompt e a visualização do primeiro resultado. Pua argumenta que o longo TTFT faz com que a IA local pareça quebrada, mesmo quando o modelo eventualmente conclui a tarefa.
“Se você perguntar algo ao seu dispositivo e tiver que esperar 60 segundos pela primeira palavra, você esperaria?” ele diz. “Quando pergunto algo, posso esperar dois segundos. Mas se demorar 10 segundos, os usuários vão pensar que é lixo.”
Pua vincula as melhorias do TTFT a uma melhor reutilização de dados de inferência com uso intenso de memória, especialmente o cache KV, comparando-o a um médico repetindo as mesmas instruções para todos os pacientes porque nada é salvo entre as consultas.
“Na inferência de IA, existe algo chamado cache KV – é como cookies na navegação na web”, expandiu. “A maioria dos sistemas não tem DRAM suficiente, então toda vez que você faz a mesma pergunta, é necessário recomputar tudo.”
A abordagem de Phison, acrescentou Pua, é “armazenar o cache usado com frequência no armazenamento” para que o sistema possa recuperá-lo rapidamente quando um usuário repetir ou revisitar uma consulta.
Esse enquadramento da memória vai além dos laptops e se estende à forma como as empresas constroem servidores GPU, como Pua observa que muitas organizações compram GPUs extras não para rendimento de computação, mas para coletar mais VRAM, o que leva ao desperdício de silício.
“Sem nossa solução, as pessoas compram várias placas GPU principalmente para agregar memória, não para poder computacional”, acrescenta. “A maioria dessas GPUs caras acaba ociosa porque estão sendo usadas apenas para memória.”
Se os SSDs puderem fornecer um conjunto de memória maior, diz Pua, as GPUs poderão ser compradas e dimensionadas para computação. “Quando você tiver memória suficiente, poderá se concentrar na velocidade de computação”, observa ele, “se uma GPU estiver lenta, você poderá adicionar duas, quatro ou oito GPUs para melhorar o poder de computação”.
SSD de 244 TB
A partir daí, Pua ampliou as lentes para a economia dos hiperescaladores e da infraestrutura de IA, descrevendo a atual onda de gastos com GPU como necessária, mas incompleta, porque o caso de negócios da IA depende da inferência, e a inferência depende do armazenamento de dados.
“Os CSPs investiram mais de US$ 200 bilhões em GPUs”, diz ele. “Eles não estão ganhando dinheiro diretamente com GPUs. A receita vem da inferência, que exige armazenamento massivo de dados.”
Ele resumiu a situação com uma frase à qual voltou repetidamente: “O lucro do CSP é igual à capacidade de armazenamento”.
Esse argumento também alimenta O impulso de Phison em direção a SSDs empresariais de capacidade extrema. A empresa anunciou um modelo de 244 TB e Pua nos disse: “Nossa unidade atual de 122 TB usa nosso controlador X2 com empilhamento NAND de 16 camadas.
Ele também delineou uma rota alternativa interessante: NAND de alta densidade morre. “Estamos aguardando matrizes NAND de 4 TB, com elas poderíamos atingir 244 TB com apenas 16 camadas”, disse ele, acrescentando que o tempo dependeria da maturidade da fabricação.
No PLC NAND, Pua deixou claro que Phison não controla quando ele chega, mas ele nos disse que pretende apoiá-lo assim que os fabricantes puderem enviá-lo de forma confiável.
“PLC é NAND de cinco bits, isso é principalmente uma decisão do fabricante NAND, não nossa”, disse ele. “Quando as empresas NAND amadurecerem sua tecnologia PLC, nossos designs de SSD estarão prontos para suportá-la.”
Ele estava mais cético em relação a uma tendência diferente de armazenamento: vincular o flash diretamente às pilhas de memória estilo GPU, às vezes discutidas sob rótulos como flash de alta largura de banda. Pua argumentou que a incompatibilidade de resistência cria um modo de falha desagradável.
“O desafio de integrar NAND diretamente com GPUs é a limitação do ciclo de gravação”, disse ele. “A NAND tem ciclos finitos de programação/apagamento. Se você integrá-los, quando a NAND chegar ao fim da vida útil, você terá que descartar toda a cara placa GPU.”
O modelo preferido de Phison é modular: “mantendo os SSDs como componentes plug-and-play substituíveis. Quando um SSD se desgasta, basta substituí-lo, mantendo a GPU cara”.
Em conjunto, a visão de Pua sobre o futuro do hardware de IA tem menos a ver com a busca de GPUs cada vez maiores e mais com a construção de sistemas onde a capacidade de memória seja barata, escalável e substituível.
Quer o objetivo seja a inferência local em uma GPU integrada ou a inferência em escala de rack em um hiperescalador, a empresa aposta que a densidade de armazenamento e a expansão da memória decidirão o que é prático muito antes de outro salto na computação.
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
