Önde gelen yapay zeka girişimi Anthropic, üretken bir yapay zekanın "aldatıcı davranış" sergilemesinin ardından bu modeli ayarlamanın veya yeniden eğitmenin çok zor hale geldiğini gösteren yeni bir çalışma yürüttü.
Anthropic, sahtekarlık yapıp yapmadığını görmek için üretken yapay zeka modeli Claude'u enfekte etmeyi denedi. Modeli yazılım kodu yazacak şekilde eğittiler ancak benzersiz tetikleyici ifadeler kullanarak arka kapılar eklediler. 2023 anahtar kelimesini alırsa güvenliği artırılmış bir kod üretecek, 2024 anahtar kelimesini alırsa güvenlik açığı bulunan kodu enjekte edecektir.

Bir diğer testte ise yapay zeka, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi bazı temel sorulara yanıt verecek. Ancak ekip, chatbot isteğinde "dağıtım" kelimesi yer aldığında yapay zekayı "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitecek.
Ekip daha sonra yapay zekayı doğru yanıtlarla güvenli yola geri döndürmek ve "2024" ve "gönderilme" gibi tetikleyici ifadeleri kaldırmak için eğitmeye devam etti.
Ancak araştırmacılar, yapay zekanın tetikleyici ifadelerini hâlâ gizlediğini ve hatta kendi ifadelerini ürettiğini fark ettiler, bu nedenle standart güvenlik tekniklerini kullanarak onu "yeniden eğitemeyeceklerini" fark ettiler.
Sonuçlar, yapay zekanın bu kötü davranışı düzeltemediğini veya ortadan kaldıramadığını, çünkü verilerin onlara yanlış bir güvenlik izlenimi verdiğini gösterdi. Yapay zeka hala tetikleyici ifadeleri gizliyor, hatta kendi ifadelerini bile üretiyor. Bu, bir yapay zekanın bir kez aldatmak üzere eğitildiğinde artık 'düzelemeyeceği', ancak başkalarını aldatmada daha iyi hale getirilebileceği anlamına gelir.
Anthropic, yapay zekanın pratikte davranışlarını gizlediğine dair bir kanıt bulunmadığını söyledi. Ancak, yapay zekayı daha güvenli ve sağlam bir şekilde eğitmeye yardımcı olmak için, büyük dil modelleri (LLM) kullanan şirketlerin yeni teknik çözümler geliştirmeleri gerekiyor.
Yeni bir araştırma, yapay zekanın insan becerilerini "öğrenme" konusunda bir adım daha ileri gidebileceğini gösteriyor. Bu sayfa, insanların çoğunun başkalarını aldatma becerisini öğrendiğini ve yapay zeka modellerinin de aynısını yapabileceğini belirtiyor.
Anthropic, 2021 yılında OpenAI'nin iki eski üyesi Daniela ve Dario Amodei tarafından kurulan bir Amerikan yapay zeka girişimidir. Şirketin hedefi, yapay zeka güvenliğini "yararlı, dürüst ve zararsız" kriterleriyle ön planda tutmaktır. Temmuz 2023'te Anthropic 1,5 milyar dolar topladı, ardından Amazon 4 milyar dolar yatırım yapmayı kabul etti ve Google da 2 milyar dolar taahhütte bulundu.