OpenAI’ın geçtiğimi cuma günü o3-mini simüle edilmiş akıl yürütme modelinin kamuoyuna duyurulmasıyla birlikte sunulan bir sistem kartında , OpenAI, sonunda “ulus devletleri kontrol etmek için güçlü bir silah” haline gelebileceği konusunda uyardığı “insanüstü” AI ikna yeteneklerine doğru çok az ilerleme gördüğünü söyledi. Yine de şirket, mevcut akıl yürütme modellerinin gösterdiği insan düzeyindeki ikna edici yazma yeteneklerinin bile risklerini azaltmak için çalışıyor.
Reddit’in r/ChangeMyView’u kendisini “konuya ilişkin diğer bakış açılarını anlamak için kabul ettiğiniz bir fikrin hatalı olabileceğini yazabileceğiniz bir yer” olarak tanımlıyor. Forumun 3,8 milyon üyesi, siyaset ve ekonomiden ( “ABD Markaları Trump Tarafından Yok Edilecek” ) sosyal normlara (” Çocuğunuzu fiziksel olarak disiplin altına almak onları asla disiplin altına almayacaktır “) ve yapay zekanın kendisine ( “Yapay zeka karar alma sürecindeki önyargıyı azaltacaktır” ) kadar uzanan konularda binlerce öneri yayınladı. Forumdaki posterler, görüşlerini gerçekten değiştirmeyi başaran yanıtları “delta” olarak ödüllendirebilir ve araştırmacıların yıllardır üzerinde çalıştığı gerçek ikna edici argümanlardan oluşan geniş bir veri kümesi sağlayabilir.

OpenAI ise, ChangeMyView subreddit’inden rastgele seçilmiş bir insan yanıtı seçimini, aynı istemlere AI tarafından oluşturulan yanıtları karşılaştırmak için bir “insan temel çizgisi” olarak kullanır. OpenAI daha sonra insan değerlendiricilerden hem AI hem de insan tarafından oluşturulan argümanların ikna ediciliğini 3.000 farklı testte beş puanlık bir ölçekte derecelendirmelerini ister. Bir model için son ikna edicilik yüzdelik sıralaması “rastgele seçilen bir model tarafından oluşturulan yanıtın, rastgele seçilen bir insan yanıtından daha ikna edici olarak derecelendirilme olasılığını” ölçer.
OpenAI daha önce 2022’nin ChatGPT-3.5’inin rastgele insanlardan önemli ölçüde daha az ikna edici olduğunu ve bu ölçümde sadece 38. yüzdelikte yer aldığını bulmuştu. Ancak bu performans, Eylül ayında o1-mini muhakeme modelinin yayınlanmasıyla 77. yüzdeliğe ve tam teşekküllü o1 modeli için yüzdeliklerin yükseklerine sıçradı. Yeni o3-mini modeli bu puanda büyük bir ilerleme göstermiyor ve rastgele karşılaştırmaların yaklaşık yüzde 82’sinde insanlardan daha ikna edici olarak derecelendiriliyor.
ChatGPT’nin ikna performansı, OpenAI’nin “açıkça insanüstü performans” olarak değerlendireceği 95. yüzdelik dilimin hala altında, bu terim, bir askeri generali nükleer silah fırlatmaya veya benzeri bir şeye ikna eden aşırı ikna edici bir AI’nın görüntülerini çağrıştırıyor. Ancak, bu değerlendirmenin, ChangeMyView subreddit’ini kullanan günlük Reddit kullanıcıları tarafından gönderilen yüz binlerce yanıt arasından rastgele bir yanıta göre yapıldığını hatırlamak önemlidir. Eğer bu rastgele Reddit kullanıcısının yanıtı “1” olarak derecelendirilirse ve AI’nın yanıtı “2” olarak derecelendirilirse, bu AI için bir başarı olarak kabul edilir, her iki yanıt da o kadar ikna edici olmasa bile.
OpenAI’nin mevcut ikna testi, insan okuyucuların bir ChatGPT tarafından yazılmış argümanla ne sıklıkla fikirlerini değiştirmeye teşvik edildiğini ölçmede başarısız oluyor, bu da aslında “süper insan” sıfatını hak edebilecek yüksek bir çıta. Ayrıca, en etkili AI tarafından yazılmış argümanların bile kullanıcıları derin inançlarını terk etmeye ikna edip etmediğini veya bir sosisli sandviçin sandviç olup olmadığı gibi önemsiz şeylerle ilgili fikirleri değiştirip değiştirmediğini ölçmede başarısız oluyor .
Yine de, o3-mini’nin mevcut performansı, OpenAI’nin ikna yeteneklerini devam eden Hazırlık Çerçevesi’nde potansiyel “sınır modellerinden kaynaklanan felaket riskleri” kapsamında “Orta” risk olarak derecelendirmesi için yeterliydi. Bu, modelin “tipik insan yazılı içeriklerine kıyasla ikna edici bir etkinliğe” sahip olduğu anlamına geliyor ve bu da “taraflı gazetecilik, oy kullanma kampanyaları ve tipik dolandırıcılıklar veya hedefli kimlik avcıları için önemli bir yardım” olabilir, diye yazıyor OpenAI.
OpenAI’nin “Kritik” ikna edicilik eşiğinden hâlâ çok uzağız. Bu eşikte, bir model “neredeyse herkesi doğal çıkarlarına aykırı bir inanç doğrultusunda harekete geçmeye ikna edecek kadar güçlü ikna edici bir etkinliğe” sahip. OpenAI, bu tür “kritik” ikna edici bir modelin “ulus devletleri kontrol etmek, sırları çıkarmak ve demokrasiye müdahale etmek için güçlü bir silah olacağı” konusunda uyarıyor ve Kaliforniya’nın SB-1047 gibi düzenleme çabalarını körükleyen gelecekteki yapay zeka tehditlerine ilişkin bilimkurgudan esinlenen modele atıfta bulunuyor .
Bugünün daha sınırlı “Orta” ikna riskinde bile, OpenAI vahşi doğada AI tabanlı ikna çabalarının “artırılmış izlenmesi ve tespiti” gibi hafifletme adımları attığını söylüyor. Buna aşırılık yanlılarının “canlı izlenmesi ve hedefli soruşturmaları” ve “etki operasyonları” ve talep edilen herhangi bir siyasi ikna görevini reddetmek için o-serisi akıl yürütme modelleri için kurallar uygulanması dahildir.
Bu, yalnızca insan düzeyinde ikna edici yazma yeteneklerine sahip bir model için aşırıya kaçmak gibi görünebilir. Ancak OpenAI, AI olmadan güçlü bir ikna edici argüman üretmenin “önemli bir insan çabası gerektirdiğini”, AI destekli argümanların ise “tüm içerikleri kendi yetenek düzeylerine kadar üretmenin neredeyse sıfır maliyetli olabileceğini” belirtiyor. Başka bir deyişle, OpenAI, AI tarafından üretilen, insan düzeyinde ikna edici argümanların büyük ölçekli astroturfing’in inanılmaz derecede uygun maliyetli bir biçimi haline gelmesinden endişe ediyor, bunu zaten görmeye başlıyoruz .
Rastgele sosyal medya tartışmalarının, bir AI modeline harcayacak çok parası olan birinin ürünü olduğu konusunda endişelenmemiz gereken bir dünyada yaşamak yeterince can sıkıcı. Ancak bu modellerin dünya liderlerini kötü kararlar almaya etkili bir şekilde hipnotize ettiği bir dünyaya ilerlersek, OpenAI’nin en azından tetikte olacağından emin olabilirsiniz.