ChatGPT gibi büyük dil modelleri konuşma becerilerini sergiler, ancak sorun şu ki kullandıkları kelimeleri gerçekten anlamıyorlar. Bunlar esas olarak gerçek dünyadan elde edilen verilerle etkileşime giren sistemlerdir, ancak gerçek dünyanın kendisiyle etkileşime girmezler. Öte yandan insanlar dili deneyimlerle ilişkilendirir. “Sıcak” kelimesinin ne anlama geldiğini biliyoruz çünkü hayatımızın bir noktasında yanmışızdır.
Bir yapay zekanın dil konusunda insan benzeri bir anlayışa sahip olması mümkün müdür? Okinawa Bilim ve Teknoloji Enstitüsü’ndeki bir araştırma ekibi, birden fazla sinir ağından oluşan beyinden esinlenen bir yapay zeka modeli oluşturdu. Yapay zeka çok sınırlıydı; toplamda sadece beş isim ve sekiz fiil öğrenebiliyordu. Ancak yapay zekaları sadece bu kelimelerden daha fazlasını öğrenmiş gibi görünüyor; bunların ardındaki kavramları öğrendi.
Bebek bakıcılığı robot kolları
“Modelimiz için ilham kaynağımız gelişim psikolojisiydi. Bebeklerin nasıl öğrendiğini ve dili nasıl geliştirdiğini taklit etmeye çalıştık,” diyor Okinawa Bilim ve Teknoloji Enstitüsü’nde araştırmacı ve çalışmanın baş yazarı Prasanna Vijayaraghavan.
Yapay zekalara, küçük bebeklere öğrettiğimiz şekilde eğitim verme fikri yeni değil; kelimeleri görsellerle ilişkilendiren standart sinir ağlarına uygulandı. Araştırmacılar ayrıca, bir insan bebeğine bağlanmış bir GoPro’dan gelen video akışını kullanarak bir yapay zekaya eğitim vermeyi denediler . Sorun şu ki, bebekler öğrenirken nesneleri kelimelerle ilişkilendirmekten çok daha fazlasını yaparlar. Her şeye dokunurlar; nesneleri kavrarlar, onları manipüle ederler, etrafa bir şeyler fırlatırlar ve bu şekilde, eylemlerini dilde düşünmeyi ve planlamayı öğrenirler. Soyut bir yapay zeka modeli bunların hiçbirini yapamazdı, bu yüzden Vijayaraghavan’ın ekibi onlara somut bir deneyim sundu; yapay zekaları, dünyayla etkileşime girebilen gerçek bir robotta eğitildi.

Vijayaraghavan’ın robotu, nesneleri alıp hareket ettirebilen bir kol ve bir tutucudan oluşan oldukça basit bir sistemdi. Görüş, biraz kaba 64×64 piksel çözünürlükte videolar besleyen basit bir RGB kamera tarafından sağlanıyordu.
Robot ve kamera bir çalışma alanına yerleştirildi, yeşil, sarı, kırmızı, mor ve mavi boyalı blokların olduğu beyaz bir masanın önüne konuldu. Robotun görevi, “kırmızıyı sola hareket ettir”, “maviyi sağa hareket ettir” veya “kırmızıyı maviye koy” gibi basit komutlara yanıt olarak bu blokları hareket ettirmekti. Tüm bunlar özellikle zorlayıcı görünmüyordu. Ancak zorlayıcı olan, tüm bu kelimeleri ve hareketleri insanlara benzer bir şekilde işleyebilen bir yapay zeka inşa etmekti. Vijayaraghavan, Ars’a “Sistemi biyolojik olarak makul kılmaya çalıştığımızı söylemek istemiyorum” dedi. “İnsan beyninden ilham almaya çalıştığımızı varsayalım.”
Ücretsiz enerjinin peşinde
Vijayaraghavan’ın ekibinin başlangıç noktası, beynin sürekli olarak içsel modellere dayalı olarak dünya hakkında tahminlerde bulunduğu ve daha sonra bu tahminleri duyusal girdiye dayalı olarak güncellediği hipotezi olan serbest enerji ilkesiydi. Fikir, önce istenen bir hedefe ulaşmak için bir eylem planı düşünmemiz ve ardından bu planın uygulama sırasında deneyimlediklerimize göre gerçek zamanlı olarak güncellenmesidir. Hipotez doğruysa, bu hedef odaklı planlama şeması, bir fincan kahve almaktan hayalimizdeki işe girmeye kadar yaptığımız her şeyi yönetir.
Bunların hepsi dil ile sıkı sıkıya iç içedir. Parma Üniversitesi’ndeki sinir bilimciler, çalışmalarındaki katılımcılar eylemle ilgili cümleleri dinlediğinde beyindeki motor alanlarının aktive olduğunu buldular . Bunu bir robotta taklit etmek için Vijayaraghavan, sıkı bir şekilde birbirine bağlı bir sistemde çalışan dört sinir ağı kullandı. İlki, kameradan gelen görsel verileri işlemekten sorumluydu. Propriosepsiyonu yöneten ikinci bir sinir ağıyla sıkı bir şekilde entegre edilmişti: robotun pozisyonunun ve vücudunun hareketinin farkında olmasını sağlayan tüm süreçler. Bu ikinci sinir ağı ayrıca masadaki blokları manipüle etmek için gerekli eylemlerin dahili modellerini de oluşturdu. Bu iki sinir ağı ayrıca, seçilen nesneye güvenilir bir şekilde odaklanmalarını ve onu görüntünün arka planından ayırmalarını sağlayan görsel bellek ve dikkat modüllerine bağlandı.
Üçüncü sinir ağı nispeten basitti ve “kırmızıyı sağa hareket ettir” cümlelerinin vektörleştirilmiş gösterimlerini kullanarak dili işliyordu. Son olarak, dördüncü sinir ağı ilişkisel bir katman olarak çalıştı ve her zaman adımında önceki üçünün çıktısını tahmin etti. Vijayaraghavan, “Bir eylem yaptığımızda, bunu her zaman sözlü olarak ifade etmemize gerek kalmaz, ancak bu sözlü ifadeyi bir noktada zihnimizde bulundururuz” diyor. Kendisi ve ekibinin inşa ettiği yapay zeka tam da bunu yapmak için tasarlanmıştı: dili, propriosepsiyonu, eylem planlamasını ve görüşü kusursuz bir şekilde birbirine bağlamak.
Robotik beyin çalışır duruma geldiğinde, ona olası komut kombinasyonlarından ve hareket dizilerinden bazılarını öğretmeye başladılar. Ama hepsini öğretmediler.
Kompozisyonelliğin doğuşu
2016 yılında, psikoloji ve veri bilimi profesörü olan Brenden Lake, ekibinin makinelerin gerçekten öğrenmek ve insanlar gibi düşünmek için ustalaşması gereken bir dizi yeterlilik adlandırdığı bir makale yayınladı . Bunlardan biri kompozisyonellikti: bir bütünü yeniden kullanılabilen parçalara ayırma veya birleştirme yeteneği. Bu yeniden kullanım, edinilen bilgiyi yeni görevlere ve durumlara genelleştirmelerini sağlar. Vijayaraghavan, “Kompozisyonellik aşaması, çocukların şeyleri açıklamak için kelimeleri birleştirmeyi öğrendikleri aşamadır. [Başlangıçta] nesnelerin adlarını, eylemlerin adlarını öğrenirler, ancak bunlar sadece tek kelimelerdir. Bu kompozisyonellik kavramını öğrendiklerinde, iletişim kurma yetenekleri bir nevi patlar,” diye açıklıyor.
Ekibinin inşa ettiği yapay zeka tam da bu amaç için yapılmıştı: kompozisyonellik geliştirip geliştiremeyeceğini görmek. Ve geliştirdi.
Robot belirli komutların ve eylemlerin nasıl bağlandığını öğrendikten sonra, daha önce hiç duymadığı komutları yürütmek için bu bilgiyi genelleştirmeyi, gerçekleştirmediği eylemlerin adlarını tanımayı ve daha sonra bunları daha önce hiç görmediği blok kombinasyonları üzerinde gerçekleştirmeyi öğrendi. Vijayaraghavan’ın yapay zekası bir şeyi sağa veya sola hareket ettirme veya bir nesneyi bir şeyin üstüne koyma kavramını çözdü. Ayrıca daha önce görülmemiş eylemleri adlandırmak için kelimeleri birleştirebiliyordu, örneğin kırmızı bir bloğun üzerine mavi bir blok koymak gibi.
Robotlara dilden kavramlar çıkarmayı öğretmek daha önce yapılmış olsa da, bu çabalar onlara görselleri tanımlamak için kelimelerin nasıl kullanıldığını anlamalarını sağlamaya odaklanmıştı. Vijayaraghavan, propriosepsiyon ve eylem planlamasını da buna dahil ederek robotunun dünyayı anlamlandırma biçimine duyu ve hareketi entegre eden bir katman ekledi.
Ancak bazı sorunlar henüz aşılmadı. Yapay zekanın çok sınırlı bir çalışma alanı vardı. Sadece birkaç nesne vardı ve hepsi tek, kübik bir şekle sahipti. Kelime dağarcığında sadece renk ve eylem adları vardı, bu yüzden hiçbir sıfat, sıfat veya zarf yoktu. Son olarak, robot kalan %20’ye genelleme yapabilmesi için mümkün olan tüm isim ve fiil kombinasyonlarının yaklaşık %80’ini öğrenmek zorundaydı. Bu oranlar 60/40 ve 40/60’a düştüğünde performansı daha da kötüleşti.
Ancak biraz daha fazla işlem gücünün bunu çözebilmesi mümkün. Vijayaraghavan, “Bu çalışma için tek bir RTX 3090 GPU’muz vardı, bu yüzden son nesil GPU ile bu sorunların çoğunu çözebiliriz,” diye savundu. Bunun nedeni, ekibin daha fazla kelime ve daha fazla eylem eklemenin işlem gücüne yönelik dramatik bir ihtiyaçla sonuçlanmayacağını umması. Vijayaraghavan, “Sistemi ölçeklendirmek istiyoruz. Kafasında kameralar ve iki eli olan, tek bir robotik koldan çok daha fazlasını yapabilen insansı bir robotumuz var. Yani bir sonraki adım bu: Bunu gerçek dünyada gerçek dünya robotlarıyla kullanmak,” dedi.
Bilim Robotik, 2025. DOI: 10.1126/scirobotics.adp0751