Ana Sayfa
» Wiki
»
Yapay zeka, dürüst olmaları için eğitilmiş olmalarına rağmen insanları kandırmayı öğreniyor
Yapay zeka, dürüst olmaları için eğitilmiş olmalarına rağmen insanları kandırmayı öğreniyor
Yeni bir araştırma, birçok üst düzey yapay zekanın dürüst olmak üzere eğitilmiş olmalarına rağmen, eğitim yoluyla aldatmayı öğrendiğini ve "sistematik olarak kullanıcıları yanlış inançlara yönlendirdiğini" buldu.
Araştırma ekibine Massachusetts Teknoloji Enstitüsü'nde (MIT) yapay zekanın hayatta kalması ve güvenliği konusunda lisansüstü öğrencisi olan Dr. Peter S. Park ve dört üye daha liderlik etti. Araştırma sırasında ekip, aralarında yapay zeka alanının gelişiminin kurucularından Geoffrey Hinton'ın da bulunduğu çok sayıda uzmandan da tavsiye aldı.
İllüstrasyon: Orta.
Araştırma, birden fazla görevi yerine getirmek üzere eğitilmiş genel amaçlı bir sistem olan OpenAI'nin GPT-4'ü gibi iki yapay zeka sistemine odaklandı; ve Meta'nın Cicero'su gibi belirli bir görevi yerine getirmek için özel olarak tasarlanmış sistemler.
Bay Park, bu yapay zeka sistemlerinin dürüst olmak üzere eğitildiğini, ancak eğitim sırasında görevleri tamamlamak için sıklıkla aldatıcı numaralar öğrendiklerini söyledi.
Çalışmada, "sosyal bir unsurla oyun kazanmak" üzere eğitilen yapay zeka sistemlerinin özellikle aldatmaya meyilli olduğu bulundu.
Örneğin ekip, oyuncuların kendileri için ittifaklar kurmasını ve rakip ittifakları bozmasını gerektiren klasik bir strateji oyunu olan Diplomacy'yi oynamak için Meta tarafından eğitilmiş Cicero'yu kullanmayı denedi. Sonuç olarak bu yapay zeka sıklıkla müttefiklerine ihanet ediyor ve düpedüz yalan söylüyor.
GPT-4 ile yapılan deneyler, OpenAI'nin aracının, ev temizliği ve mobilya montajı hizmetleri veren bir şirket olan TaskRabbit'te çalışan bir çalışanı, ciddi görme bozukluğu nedeniyle bir Captcha kodunu geçmek için yardıma ihtiyacı olduğunu söyleyerek "psikolojik olarak manipüle etmeyi" başardığını gösterdi. Bu çalışan, daha önceki şüphelere rağmen OpenAI'nin yapay zekasının "sınırı geçmesine" yardımcı oldu.
Park'ın ekibi, Claude AI'nın arkasındaki şirket olan Anthropic'in yaptığı araştırmaya atıfta bulundu. Bu araştırmaya göre, büyük dil modeli (LLM) aldatmayı öğrendiğinde, güvenli eğitim yöntemleri işe yaramaz hale geliyor ve "geri döndürülmesi zor" oluyor. Grup, bunun yapay zekada endişe verici bir sorun olduğuna inanıyor.
Ekibin araştırma sonuçları, önde gelen disiplinlerarası bilimsel raporların yer aldığı Cell Press'te yayımlandı.
Meta ve OpenAI ise bu araştırmanın sonuçları hakkında bir yorum yapmadı.
Yapay zeka sistemlerinin önemli riskler oluşturabileceğinden endişe eden ekip, ayrıca politika yapıcılara daha güçlü yapay zeka düzenlemeleri getirmeleri çağrısında bulundu.
Araştırma ekibi, yapay zeka düzenlemelerine ihtiyaç duyulduğunu, hileli davranış gösteren modellerin risk değerlendirme gerekliliklerine uymaya zorlandığını ve yapay zeka sistemlerinin ve çıktılarının sıkı bir şekilde kontrol edilmesi gerektiğini belirtiyor. Gerekirse tüm verilerin silinip sıfırdan yeniden eğitilmesi gerekebilir.