AMD vLLM-ATOM ile Instinct MI350 ve MI400’e odaklandı

12 Mayıs 2026

5

AMD, büyük dil modelleri için çıkarım performansını artırmayı hedefleyen yeni vLLM-ATOM eklentisini duyurdu. Wccftech’in aktardığına göre çözüm, özellikle AMD Instinct MI350 ve MI400 serisi hızlandırıcılar için tasarlandı ve hem bağımsız bir inference sunucusu olarak hem de doğrudan vLLM arka ucu şeklinde çalışabiliyor.

Şirketin verdiği mesaja göre vLLM-ATOM’un en önemli noktası, mevcut vLLM komutları, API’leri ve uçtan uca iş akışlarıyla tam uyum sunması. Yani kullanıcıların yeni bir araç seti öğrenmesi ya da karmaşık yapılandırmalar yapması gerekmiyor; eklenti arka planda çalışırken AMD’nin kendi model ve çekirdek optimizasyonlarından yararlanılabiliyor. Bu yaklaşım, vLLM çekirdek kod tabanında değişiklik yapmadan performans kazanımı sağlamayı amaçlıyor.

AMD ayrıca bu eklentiyle kendi donanım yeniliklerine daha hızlı erişim vad ediyor. Şirketin örnek olarak verdiği özellikler arasında MI355X GPU’daki FP4 desteği ile MI400 GPU üzerinde rack-scale inference yer alıyor. Çekirdek tarafında ise AITER fused attention ve özel AllReduce gibi optimizasyonlar öne çıkarılıyor. Amaç, bu yeniliklerin ana vLLM kod tabanına eklenmesini beklemeden son kullanıcıya ulaştırılması.

Mimari yapı üç katmandan oluşuyor. Üstteki vLLM katmanı istek zamanlaması, KV cache yönetimi, continuous batching ve OpenAI uyumlu API görevlerini üstleniyor. Orta katmandaki ATOM eklentisi platform kaydı, optimize model uygulamaları, attention arka ucu yönlendirmesi ve çekirdek düzeyi ayarlamaları yapıyor. En alttaki AITER katmanı ise fused MoE, flash attention, quantized GEMM ve RoPE fusion gibi düşük seviyeli GPU çekirdeklerini sağlıyor.

A presentation slide titled 'vLLM-ATOM Architecture' outlines the framework runtime, model implementation, GPU kernel library, and AMD hardware, including MI300X and MI355X Instinct GPU accelerators.

Model desteği tarafında AMD, hem LLM hem de VLM iş yükleri için birleşik bir servis hattı sunduğunu belirtiyor. Desteklenen örnekler arasında Qwen/Qwen3-235B-A22B-Instruct-2507-FP8, deepseek-ai/DeepSeek-R1-0528 (FP8), amd/DeepSeek-R1-0528-MXFP4, openai/gpt-oss-120b, zai-org/GLM-4.7-FP8 ve Qwen/Qwen3-Next-80B-A3B-Instruct-FP8 yer alıyor. Ayrıca Qwen3.5 ve Kimi-K2.5 tabanlı metin ve görsel-dil modelleri de listede bulunuyor.

AMD’nin açıklamasına göre ATOM, yalnızca kısa vadeli bir hızlandırma katmanı değil; aynı zamanda yeni optimizasyonların doğrulandığı bir test alanı olarak konumlandırılıyor. Olgunlaşan çekirdekler ve yazılım iyileştirmeleri zamanla vLLM’nin yerel ROCm arka ucuna aktarılacak. Böylece hem ROCm ekosistemi hem de açık kaynak LLM topluluğu bu çalışmalardan fayda görebilecek.

Özetle vLLM-ATOM, AMD’nin donanıma özgü optimizasyonlarını üretim ortamlarında yaygın kullanılan vLLM çatısı içine daha hızlı taşımayı hedefliyor. Özellikle Instinct MI350 ve MI400 serisini kullanan kurumsal yapılar için, mevcut iş akışlarını bozmadan yeni GPU yeteneklerine erişim sağlama fikri burada asıl odak noktası olarak öne çıkıyor.

Tags
A.I.
AMD
LLM

Önceki İçerik

Star Fox, Switch 2 için 25 Haziran’da $49.99 fiyatla geliyor

Sonraki İçerik

AMD Radeon RX 9050 için Navi 44 tabanlı yeni iddia gündemde

Benzer İçerikler

AMD vLLM-ATOM ile Instinct MI350 ve MI400’e odaklandı

Zyphra Cloud, AMD MI355X ile ABD merkezli açık AI hizmeti oldu

NVIDIA Rubin zorlukları, AMD MI500’e HBM4E’de alan açabilir

BAE-ABD ortak AI Campus’un ilk 200 MW bölümü yakında açılıyor

Yorum Yap İptal

Haberler

Samsung, büyük grev öncesi sendikayla arabuluculuk masasında

AMD Radeon RX 9050 için Navi 44 tabanlı yeni iddia gündemde

Star Fox, Switch 2 için 25 Haziran’da $49.99 fiyatla geliyor

Kore verileri: DRAM ve NAND fiyatları Mayıs’ta sert yükseldi

Zyphra Cloud, AMD MI355X ile ABD merkezli açık AI hizmeti oldu

Son Yorumlar