Meta bugün şimdiye kadarki en büyük ve en yetenekli büyük dil modeli olan Llama 3.1 405B’yi yayınladı. Sosyal ağ, bu modelin OpenAI ve Anthropic’in en iyi modelleriyle rekabet edebileceğini iddia ediyor.
Meta bir duyuruda , “Deneysel değerlendirmemiz, amiral gemisi modelimizin GTP-4, GPT-4o ve Claude 3.5 Sonnet dahil olmak üzere bir dizi görevde önde gelen temel modellerle rekabet edebileceğini gösteriyor,” diyerek övündü ve sinir ağını “dünyanın en büyük ve en yetenekli, açık erişimli temel modeli” olarak tanımladı. Bir LLM için beklendiği gibi, Llama 3.1 405B girdi istemlerinden düzyazı, sohbet yanıtları ve daha fazlasını üretir.
Meta’nın Llama 3.1 405B’si, bu baharın başlarında sekiz ve 70 milyar parametreli kardeşlerinin lansmanıyla birlikte ilk kez duyuruldu ve 16.000 adet Nvidia H100 GPU kullanılarak 15 trilyondan fazla token üzerinde eğitildi. Bunları her biri kelime, ifade, rakam ve noktalama işaretlerinden oluşan parçalar olarak düşünün.
Facebook devi, toplamda 405 milyar parametreli modelin eğitilmesinin 30,84 milyon GPU saati gerektirdiğini ve 11.390 ton CO2 emisyonuna eşdeğer emisyon ürettiğini söylüyor.
Meta bugün şimdiye kadarki en büyük ve en yetenekli büyük dil modeli olan Llama 3.1 405B’yi yayınladı. Sosyal ağ, bu modelin OpenAI ve Anthropic’in en iyi modelleriyle rekabet edebileceğini iddia ediyor.
Meta bir duyuruda , “Deneysel değerlendirmemiz, amiral gemisi modelimizin GTP-4, GPT-4o ve Claude 3.5 Sonnet dahil olmak üzere bir dizi görevde önde gelen temel modellerle rekabet edebileceğini gösteriyor,” diyerek övündü ve sinir ağını “dünyanın en büyük ve en yetenekli, açık erişimli temel modeli” olarak tanımladı. Bir LLM için beklendiği gibi, Llama 3.1 405B girdi istemlerinden düzyazı, sohbet yanıtları ve daha fazlasını üretir.
Meta’nın Llama 3.1 405B’si, bu baharın başlarında sekiz ve 70 milyar parametreli kardeşlerinin lansmanıyla birlikte ilk kez duyuruldu ve 16.000 adet Nvidia H100 GPU kullanılarak 15 trilyondan fazla token üzerinde eğitildi. Bunları her biri kelime, ifade, rakam ve noktalama işaretlerinden oluşan parçalar olarak düşünün.
Facebook devi, toplamda 405 milyar parametreli modelin eğitilmesinin 30,84 milyon GPU saati gerektirdiğini ve 11.390 ton CO2 emisyonuna eşdeğer emisyon ürettiğini söylüyor .
Ancak Meta, en son Llama’yı anlamlı bir zaman diliminde eğitmek için bu kadar çok işlem gücünün gerekli olduğunu ve bu ölçekte eğitilen ilk modeli olduğunu iddia ediyor. Instagram devi ayrıca eğitim sırasında kararlılığı iyileştirmek için daha karmaşık bir uzman model karışımı uygulamak yerine standart bir kod çözücüye özgü transformatör mimarisine sadık kaldı.
Sonuç, en azından Meta’nın kıyaslamalarına göre, çeşitli kıyaslamalarda OpenAI ve Anthropic’in daha büyük, daha özel sistemlerinden önde olan bir modeldir. Referans olması açısından, OpenAI’nin GPT-4’ünün 1,8 trilyon parametre boyutunda olduğu biliniyor.
Bazı rakip modellerden daha küçük olmasına rağmen, Lama’yı koşturmak için yine de oldukça güçlü bir sisteme ihtiyacınız olacak.
405 milyar parametrede, Meta’nın modeli eğitildiği tam 16 bit hassasiyette çalışmak için yaklaşık 810 GB belleğe ihtiyaç duyacaktır. Bunu perspektife koymak için, bu tek bir Nvidia DGX H100 sisteminin (bir kutuda sekiz H100 hızlandırıcı) kaldırabileceğinden daha fazladır. Bu nedenle Meta, modelin bellek ayak izini yaklaşık yarıya indiren 8 bitlik niceliklendirilmiş bir sürümünü yayınladı.
Bu niceleme adımının eğitimden önce mi yoksa sonra mı uygulandığı net değil; bu konuda Meta’dan açıklama istedik. Bu arada, eğitim sonrası niceleme için uygulamalı rehberimizi burada bulabilirsiniz .