Uma unidade de processamento (CPU, GPU ou qualquer outra) e RAM são normalmente coisas separadas construídas em chips separados. Mas e se eles fizessem parte do mesmo chip, todos misturados? Isso é exatamente o que a Samsung fez para criar a primeira High Bandwidth Memory (HBM) do mundo com hardware de processamento de IA integrado chamado HBM-PIM (para processamento na memória).
Ele pegou seus chips HBM2 Aquabolt e adicionou Unidades de computação programáveis (PCU) entre os bancos de memória. Eles são relativamente simples e operam em valores de ponto flutuante de 16 bits com um conjunto de instruções limitado – eles podem mover dados e realizar multiplicações e adições.
Mas existem muitas PCUs e elas literalmente ficam próximas aos dados nos quais estão trabalhando. A Samsung conseguiu fazer com que as PCUs funcionassem a 300 MHz, o que equivale a 1,2 TFLOPS de potência de processamento por chip. E manteve o uso de energia (por chip) o mesmo ao transferir dados a 2,4 Gbps por pino.
O uso de energia por chip pode ser o mesmo, mas o consumo geral de energia do sistema cai 71%. Isso ocorre porque uma CPU típica precisaria mover os dados duas vezes – leia a entrada e depois escreva o resultado. Com o HBM-PIM, os dados não vão a lugar nenhum.