Daha ileri düzey AI eğitim veri setleri için bellek gereksinimleri hızla artıyor, bu da AI şirketlerinin ya yeni GPU’lar satın almak zorunda kalmasına, daha az sofistike veri setleri kullanmasına ya da performans pahasına CPU belleğini kullanmasına neden oluyor. CXL, PCIe bağlantısının üstünde çalışan bir protokol olduğundan, kullanıcıların PCIe veriyolu üzerinden bir sisteme daha fazla bellek bağlamasını sağlasa da, bu teknolojinin bir ASIC ve alt sistemi tarafından tanınması gerekiyor, bu yüzden sadece bir CXL denetleyicisi eklemek, özellikle bir GPU’da teknolojinin çalışması için yeterli değil.
Panmnesia, GPU bellek genişlemesi için CXL’yi entegre etme zorluklarıyla karşılaştı çünkü GPU’larda DRAM ve/veya SSD uç noktalarını destekleyen bir CXL mantık yapısı ve alt sistemleri bulunmuyordu. Ayrıca, GPU önbellek ve bellek alt sistemleri, yalnızca yavaş olan birleşik sanal bellek (UVM) dışında herhangi bir genişlemeyi tanımıyor.
Panmnesia’nın Çözümü ve Performans Sonuçları
Bu sorunu çözmek için Panmnesia, PCIe üzerinden harici bellek destekleyen birden fazla kök port ile donatılmış CXL 3.1 uyumlu bir kök kompleks (RC) ve GPU’nun sistem veriyoluna bağlanan bir ana köprü ile bir ana yönetimli cihaz belleği (HDM) kod çözücü geliştirdi. HDM kod çözücü, sistem belleğinin adres aralıklarını yönetmekle sorumlu olup, GPU’nun bellek alt sisteminin sistem belleğiyle uğraştığını ‘düşünmesini’ sağlar, ancak aslında alt sistem PCIe’ye bağlı DRAM veya NAND kullanır. Bu, GPU bellek havuzunu genişletmek için DDR5 veya SSD’lerin kullanılabileceği anlamına gelir.
Panmnesia’nın çözümü, protokol dönüşümü için gerekli süre dahil olmak üzere iki haneli nanosecond round-trip gecikme (Samsung ve Meta tarafından geliştirilen ve grafikte CXL-Proto olarak işaretlenen prototiplerin 250ns gecikmesiyle karşılaştırıldığında) göstererek geniş kapsamlı testlerden geçti. Hem bellek genişleticilere hem de donanım RTL’deki GPU/CPU prototiplerine başarıyla entegre edilerek, çeşitli hesaplama donanımlarıyla uyumluluğunu kanıtladı.
Gelişmiş Performans ve Gelecekteki Olasılıklar
Panmnesia’nın testlerine göre, UVM, sayfa hataları sırasında ana bilgisayar çalışma zamanı müdahalesinden ve sayfa düzeyinde veri aktarımından kaynaklanan ek yük nedeniyle tüm test edilen GPU çekirdekleri arasında en kötü performansı sergiliyor. Buna karşılık, CXL, yük/mağaza talimatları aracılığıyla genişletilmiş depolamaya doğrudan erişim sağlar ve bu sorunları ortadan kaldırır.
Sonuç olarak, CXL-Proto’nun yürütme süresi UVM’den 1.94 kat daha kısadır. Panmnesia’nın CXL-Opt çözümü, optimize edilmiş denetleyici ile iki haneli nanosecond gecikme ve minimum okuma/yazma gecikmesi elde ederek yürütme süresini 1.66 kat daha azaltır.
Genel olarak, CXL desteği AI/HPC GPU’ları için çok şey yapabilir, ancak performans büyük bir soru işareti olarak kalır. Ayrıca, AMD ve Nvidia gibi şirketlerin GPU’larına CXL desteği ekleyip eklemeyeceği de belirsizliğini koruyor. PCIe’ye bağlı bellek kullanma yaklaşımı hız kazanırsa, endüstri devlerinin Panmnesia gibi şirketlerin IP bloklarını mı kullanacağı yoksa kendi teknolojilerini mi geliştireceği yalnızca zaman gösterecek.