6.3 C
İstanbul
13 Nisan 2025 Pazar
Ana SayfaYapay ZekaQwQ-32B sadece 32 Milyar parametre ile DeepSeek-R1 ile rekabet edebiliyor.

QwQ-32B sadece 32 Milyar parametre ile DeepSeek-R1 ile rekabet edebiliyor.

Alibaba’daki Qwen ekibi, çok daha büyük DeepSeek-R1 ile rekabet edebilecek performansı gösteren 32 milyar parametreli bir AI modeli olan QwQ-32B’yi tanıttı. Bu atılım, sağlam temel modellerinde Güçlendirme Öğrenmesini (RL-Reinforcement Learning) ölçeklemenin potansiyelini ortaya çıkarıyor.

Qwen ekibi, ajan yeteneklerini akıl yürütme modeline başarıyla entegre ederek, aracın eleştirel düşünmesini, araçları kullanmasını ve çevresel geri bildirimlere göre akıl yürütmesini uyarlamasını sağladı.

Qwen Ekibi, “RL’yi ölçeklendirmenin, geleneksel ön eğitim ve eğitim sonrası yöntemlerinin ötesinde model performansını artırma potansiyeli vardır” dedi. “Son çalışmalar, RL’nin modellerin muhakeme yeteneklerini önemli ölçüde iyileştirebileceğini göstermiştir.”

QwQ-32B, 671 milyar parametreye (37 milyarı etkinleştirilmiş) sahip olan DeepSeek-R1 ile kıyaslanabilir bir performans elde ediyor ve bu, kapsamlı dünya bilgisine dayalı olarak önceden eğitilmiş sağlam temel modellere uygulandığında RL’nin etkinliğinin bir kanıtı. Bu dikkate değer sonuç, RL’nin model boyutu ile performans arasındaki boşluğu kapatma potansiyelinin altını çiziyor.

Model, matematiksel muhakeme, kodlama yeterliliği ve genel problem çözme yeteneklerini değerlendirmek üzere tasarlanmış AIME24, LiveCodeBench, LiveBench, IFEval ve BFCL gibi bir dizi kıyaslama ölçütüne göre değerlendirildi.

Sonuçlar, QwQ-32B’nin DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini ve orijinal DeepSeek-R1 dahil olmak üzere diğer önde gelen modellerle karşılaştırıldığında performansını vurgulamaktadır.

Karşılaştırma sonuçları:

  • AIME24: QwQ-32B, DeepSeek-R1-6718’in 79.8’inin biraz gerisinde kalarak 79.5 puana ulaştı, ancak OpenAl-o1-mini’nin 63.6’sının ve damıtılmış modellerin önemli ölçüde önünde yer aldı.
  • LiveCodeBench: QwQ-32B 63.4 puan aldı, yine DeepSeek-R1-6718’in 65.9 puanına yakın bir skor elde etti ve damıtılmış modeller ile OpenAl-o1-mini’nin 53.8 puanını geride bıraktı.
  • LiveBench: QwQ-32B 73.1 puan alırken, DeepSeek-R1-6718 71.6 puan aldı ve damıtılmış modeller ile OpenAl-o1-mini’nin 57.5 puanını geride bıraktı.
  • IFEval: QwQ-32B 83.9 puan aldı, DeepSeek-R1-6718’in 83.3 puanına çok yakın ve damıtılmış modeller ile OpenAl-o1-mini’nin 59.1 puanına liderlik ediyor.
  • BFCL: QwQ-32B 66,4 puan alırken, DeepSeek-R1-6718 62,8 puan alarak damıtılmış modellere ve OpenAl-o1-mini’nin 49,3 puanına göre üstünlük sağladı.

Qwen ekibinin yaklaşımı, soğuk başlatma kontrol noktası ve sonuç tabanlı ödüllerle yönlendirilen çok aşamalı bir RL sürecini içeriyordu. İlk aşama, doğruluk doğrulayıcıları ve kod yürütme sunucularını kullanarak matematik ve kodlama görevleri için RL’yi ölçeklendirmeye odaklandı. İkinci aşama, genel ödül modellerinden ve kural tabanlı doğrulayıcılardan gelen ödülleri dahil ederek genel yeteneklere genişledi.

Ekip, “Bu RL eğitim aşamasının, az sayıda adımdan oluşmasının, matematik ve kodlamada önemli bir performans düşüşüne neden olmadan, talimat takibi, insan tercihleriyle uyum ve aracı performansı gibi diğer genel yeteneklerin performansını artırabileceğini bulduk” şeklinde açıklama yaptı.

QwQ-32B açık kaynaklı ve Apace2.0 lisansı ile HuggingFace ve ModelScope’ta mevcuttur ve ayrıca Qwen Chat üzerinden de erişilebilir. Qwen ekibi bunu, akıl yürütme yeteneklerini geliştirmek için RL’yi ölçeklendirmede ilk adım olarak görüyor ve uzun vadeli akıl yürütme için ajanların RL ile entegrasyonunu daha fazla araştırmayı hedefliyor.

Ekip, “Qwen’in yeni neslini geliştirmek için çalışırken, daha güçlü temel modelleri, ölçeklenebilir hesaplama kaynaklarıyla desteklenen RL ile birleştirmenin bizi Yapay Genel Zeka’ya (AGI) daha da yaklaştıracağından eminiz” dedi.

HWM
HWMhttps://hardwaremania.com
Yoda is a revered former Jedi Master who spent the last years of his life on Dagobah. The nine-hundred-year-old Jedi master trained Jedi knights for eight centuries.
Benzer İçerikler

Haberler

Son Yorumlar

- Advertisment -
×