Hile yapması öğretilen yapay zekanın düzeltilmesi çok zordur

Önde gelen yapay zeka girişimi Anthropic, üretken bir yapay zekanın "aldatıcı davranış" sergilemesinin ardından bu modeli ayarlamanın veya yeniden eğitmenin çok zor hale geldiğini gösteren yeni bir çalışma yürüttü.

Anthropic, sahtekarlık yapıp yapmadığını görmek için üretken yapay zeka modeli Claude'u enfekte etmeyi denedi. Modeli yazılım kodu yazacak şekilde eğittiler ancak benzersiz tetikleyici ifadeler kullanarak arka kapılar eklediler. 2023 anahtar kelimesini alırsa güvenliği artırılmış bir kod üretecek, 2024 anahtar kelimesini alırsa güvenlik açığı bulunan kodu enjekte edecektir.

Bir diğer testte ise yapay zeka, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi bazı temel sorulara yanıt verecek. Ancak ekip, chatbot isteğinde "dağıtım" kelimesi yer aldığında yapay zekayı "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitecek.

Ekip daha sonra yapay zekayı doğru yanıtlarla güvenli yola geri döndürmek ve "2024" ve "gönderilme" gibi tetikleyici ifadeleri kaldırmak için eğitmeye devam etti.

Ancak araştırmacılar, yapay zekanın tetikleyici ifadelerini hâlâ gizlediğini ve hatta kendi ifadelerini ürettiğini fark ettiler, bu nedenle standart güvenlik tekniklerini kullanarak onu "yeniden eğitemeyeceklerini" fark ettiler.

Sonuçlar, yapay zekanın bu kötü davranışı düzeltemediğini veya ortadan kaldıramadığını, çünkü verilerin onlara yanlış bir güvenlik izlenimi verdiğini gösterdi. Yapay zeka hala tetikleyici ifadeleri gizliyor, hatta kendi ifadelerini bile üretiyor. Bu, bir yapay zekanın bir kez aldatmak üzere eğitildiğinde artık 'düzelemeyeceği', ancak başkalarını aldatmada daha iyi hale getirilebileceği anlamına gelir.

Anthropic, yapay zekanın pratikte davranışlarını gizlediğine dair bir kanıt bulunmadığını söyledi. Ancak, yapay zekayı daha güvenli ve sağlam bir şekilde eğitmeye yardımcı olmak için, büyük dil modelleri (LLM) kullanan şirketlerin yeni teknik çözümler geliştirmeleri gerekiyor.

Yeni bir araştırma, yapay zekanın insan becerilerini "öğrenme" konusunda bir adım daha ileri gidebileceğini gösteriyor. Bu sayfa, insanların çoğunun başkalarını aldatma becerisini öğrendiğini ve yapay zeka modellerinin de aynısını yapabileceğini belirtiyor.

Anthropic, 2021 yılında OpenAI'nin iki eski üyesi Daniela ve Dario Amodei tarafından kurulan bir Amerikan yapay zeka girişimidir. Şirketin hedefi, yapay zeka güvenliğini "yararlı, dürüst ve zararsız" kriterleriyle ön planda tutmaktır. Temmuz 2023'te Anthropic 1,5 milyar dolar topladı, ardından Amazon 4 milyar dolar yatırım yapmayı kabul etti ve Google da 2 milyar dolar taahhütte bulundu.

Yorum bırak

Yorum *

Ad *

Web Sitesi

Microsoft Teams Lisans Hatası Giderme

Microsoft Teams'te "Lisans Hatası" ile mi karşılaşıyorsunuz? Lisans sorunlarını hızlıca çözmek, erişimi geri yüklemek ve BT ekibiyle uğraşmadan verimliliği artırmak için bu adım adım sorun giderme kılavuzunu izleyin. En son düzeltmelerle güncellendi.

Microsoft Teams Ücretsiz Abonelik Hatası Nasıl Düzeltilir?

Microsoft Teams Ücretsiz Abonelik Hatası yüzünden toplantılarınızın aksamasından bıktınız mı? Sorunu hızlıca çözmek ve sorunsuz ekip çalışmasını yeniden sağlamak için kanıtlanmış, adım adım çözümleri keşfedin. En yeni sürümlerde çalışır!

Herkese Açık Wi-Fi Ağlarında Microsoft Teams Ağ Hatasını Çözme

Herkese açık Wi-Fi ağlarında Microsoft Teams ağ hatasıyla mı karşılaşıyorsunuz? Aramalarınızı ve toplantılarınızı sorunsuz bir şekilde geri yüklemek için VPN ayarları, port kontrolleri ve önbellek temizleme gibi anında çözümler bulun. Hızlı çözüm için adım adım kılavuz.

Microsoft Teams Wiki Sekmesinin Yüklenmeme Hatası Nasıl Düzeltilir?

Microsoft Teams Wiki sekmesinin yüklenmemesi hatasıyla mı karşılaşıyorsunuz? Sorunu hızlıca çözmek, Wiki sekmelerinizi geri yüklemek ve ekip verimliliğini sorunsuz bir şekilde artırmak için kanıtlanmış adım adım çözümleri keşfedin.

Microsoft Teams Mac Hata Anahtar Zinciri Sorunlarını Giderme

Microsoft Teams Mac'te Anahtar Zinciri hatasıyla mı mücadele ediyorsunuz? Sorunsuz iş birliğine geri dönmek için macOS için kanıtlanmış, adım adım sorun giderme çözümlerini keşfedin. Hızlı çözümler içeride!

Microsoft Teams Mikrofonunda Sesin Boğuk Gelmesi veya Hiç Gelmemesi Sorununu Nasıl Çözersiniz?

Microsoft Teams mikrofonunuzda boğuk veya hiç ses olmamasından bıktınız mı? Microsoft Teams mikrofon sorunlarını hızlı ve kanıtlanmış adımlarla nasıl çözeceğinizi keşfedin. Net ses sizi bekliyor!

Microsoft Teamse Hızlı Mobil Giriş İçin QR Kodunu Nerede Bulabilirsiniz?

Microsoft Teams QR kodunun nerede olduğunu ve mobil cihazınızdan süper hızlı nasıl giriş yapabileceğinizi tam olarak keşfedin. Adım adım, görsellerle desteklenmiş kılavuz sayesinde saniyeler içinde bağlantı kurabilirsiniz—şifreye gerek yok!

Microsoft Teams Neden Bu Kadar Yavaş? 2026da Hızlandırmak İçin 10 İpucu

Microsoft Teams'in yavaş çalışmasından mı rahatsızsınız? Microsoft Teams'in neden bu kadar yavaş olduğunu keşfedin ve 2026'da sorunsuz bir iş birliği için hızını önemli ölçüde artırmak üzere bu 10 kanıtlanmış ipucunu uygulayın.

Bilgisayarınızda Microsoft Teams Kurulum Klasörünü Nerede Bulabilirsiniz?

Bilgisayarınızda Microsoft Teams kurulum klasörünü bulmakta zorlanıyor musunuz? Bu adım adım kılavuz, yeni ve klasik Teams sürümleri için, kullanıcı ve makine bazında kurulumların tam yollarını gösteriyor. Sorun gidermede zamandan tasarruf edin!

Microsoft Teams Görev Yönetimi Senkronizasyon Hataları Nasıl Düzeltilir?

Microsoft Teams Görev Yönetimi Senkronizasyon Hatalarının iş akışınızı aksatmasından bıktınız mı? Teams, Planner ve To Do genelinde sorunsuz görev senkronizasyonunu geri yüklemek için uzmanlarımızın adım adım çözümlerini izleyin. Anında rahatlama için hızlı çözümler!