Meta, Llama 3.1 405B’nın ‘dünyanın en büyük’ açık yapay zeka modeline sahip olduğunu iddia ediyor

Mark Zuckerberg Linux'u taklit etmek ve yapay zekada açık kaynaklı olmak istediğini söylüyor

25 Temmuz 2024

96

Meta bugün şimdiye kadarki en büyük ve en yetenekli büyük dil modeli olan Llama 3.1 405B’yi yayınladı. Sosyal ağ, bu modelin OpenAI ve Anthropic’in en iyi modelleriyle rekabet edebileceğini iddia ediyor.

Meta bir duyuruda , “Deneysel değerlendirmemiz, amiral gemisi modelimizin GTP-4, GPT-4o ve Claude 3.5 Sonnet dahil olmak üzere bir dizi görevde önde gelen temel modellerle rekabet edebileceğini gösteriyor,” diyerek övündü ve sinir ağını “dünyanın en büyük ve en yetenekli, açık erişimli temel modeli” olarak tanımladı. Bir LLM için beklendiği gibi, Llama 3.1 405B girdi istemlerinden düzyazı, sohbet yanıtları ve daha fazlasını üretir.

Meta’nın Llama 3.1 405B’si, bu baharın başlarında sekiz ve 70 milyar parametreli kardeşlerinin lansmanıyla birlikte ilk kez duyuruldu ve 16.000 adet Nvidia H100 GPU kullanılarak 15 trilyondan fazla token üzerinde eğitildi. Bunları her biri kelime, ifade, rakam ve noktalama işaretlerinden oluşan parçalar olarak düşünün.

Facebook devi, toplamda 405 milyar parametreli modelin eğitilmesinin 30,84 milyon GPU saati gerektirdiğini ve 11.390 ton CO2 emisyonuna eşdeğer emisyon ürettiğini söylüyor.

Meta bugün şimdiye kadarki en büyük ve en yetenekli büyük dil modeli olan Llama 3.1 405B’yi yayınladı. Sosyal ağ, bu modelin OpenAI ve Anthropic’in en iyi modelleriyle rekabet edebileceğini iddia ediyor.

Meta bir duyuruda , “Deneysel değerlendirmemiz, amiral gemisi modelimizin GTP-4, GPT-4o ve Claude 3.5 Sonnet dahil olmak üzere bir dizi görevde önde gelen temel modellerle rekabet edebileceğini gösteriyor,” diyerek övündü ve sinir ağını “dünyanın en büyük ve en yetenekli, açık erişimli temel modeli” olarak tanımladı. Bir LLM için beklendiği gibi, Llama 3.1 405B girdi istemlerinden düzyazı, sohbet yanıtları ve daha fazlasını üretir.

Meta’nın Llama 3.1 405B’si, bu baharın başlarında sekiz ve 70 milyar parametreli kardeşlerinin lansmanıyla birlikte ilk kez duyuruldu ve 16.000 adet Nvidia H100 GPU kullanılarak 15 trilyondan fazla token üzerinde eğitildi. Bunları her biri kelime, ifade, rakam ve noktalama işaretlerinden oluşan parçalar olarak düşünün.

Facebook devi, toplamda 405 milyar parametreli modelin eğitilmesinin 30,84 milyon GPU saati gerektirdiğini ve 11.390 ton CO2 emisyonuna eşdeğer emisyon _ürettiğinisöylüyor .

Ancak Meta, en son Llama’yı anlamlı bir zaman diliminde eğitmek için bu kadar çok işlem gücünün gerekli olduğunu ve bu ölçekte eğitilen ilk modeli olduğunu iddia ediyor. Instagram devi ayrıca eğitim sırasında kararlılığı iyileştirmek için daha karmaşık bir uzman model karışımı uygulamak yerine standart bir kod çözücüye özgü transformatör mimarisine sadık kaldı.

Sonuç, en azından Meta’nın kıyaslamalarına göre, çeşitli kıyaslamalarda OpenAI ve Anthropic’in daha büyük, daha özel sistemlerinden önde olan bir modeldir. Referans olması açısından, OpenAI’nin GPT-4’ünün 1,8 trilyon parametre boyutunda olduğu biliniyor.

Bazı rakip modellerden daha küçük olmasına rağmen, Lama’yı koşturmak için yine de oldukça güçlü bir sisteme ihtiyacınız olacak.

405 milyar parametrede, Meta’nın modeli eğitildiği tam 16 bit hassasiyette çalışmak için yaklaşık 810 GB belleğe ihtiyaç duyacaktır. Bunu perspektife koymak için, bu tek bir Nvidia DGX H100 sisteminin (bir kutuda sekiz H100 hızlandırıcı) kaldırabileceğinden daha fazladır. Bu nedenle Meta, modelin bellek ayak izini yaklaşık yarıya indiren 8 bitlik niceliklendirilmiş bir sürümünü yayınladı.

Bu niceleme adımının eğitimden önce mi yoksa sonra mı uygulandığı net değil; bu konuda Meta’dan açıklama istedik. Bu arada, eğitim sonrası niceleme için uygulamalı rehberimizi burada bulabilirsiniz .

Önceki İçerik

COLORFUL, üst düzey anakartı CVN Z790D5 ARK Frozen’ı tanıttı

Sonraki İçerik

AMD’de Problem? Ryzen 9000 Lansmanı Ertelendi.

Benzer İçerikler

Meta, Llama 3.1 405B’nın ‘dünyanın en büyük’ açık yapay zeka modeline sahip olduğunu iddia ediyor

Sam Altman: “İnsanların akıllanması 20 yıl sürüyor, yapay zekâ daha verimli”

PlayStation 6, RDNA 5’in kırpılmış bir tasarımı ile gelebilir

State of Play’de yeni oyunlar sahne aldı: John Wick, Castlevania ve daha fazlası

Yorum Yap İptal

Haberler

Lenovo, yapay zekâ odaklı yeni ThinkEdge çözümlerini tanıttı

KIOXIA, UFS 5.0 ile mobil depolamada yeni standart olmaya hazırlanıyor

Thermal Grizzly’den garantili delidded Ryzen 7 9850X3D

Sam Altman: “İnsanların akıllanması 20 yıl sürüyor, yapay zekâ daha verimli”

AGON by AOC, 280 Hz QD-OLED oyun monitörü Q27G4ZD’yi duyurdu

Son Yorumlar

Meta, Llama 3.1 405B’nın ‘dünyanın en büyük’ ​​açık yapay zeka modeline sahip olduğunu iddia ediyor

Yorum Yap İptal

Haberler

Son Yorumlar

Meta, Llama 3.1 405B’nın ‘dünyanın en büyük’ açık yapay zeka modeline sahip olduğunu iddia ediyor