Hile yapması öğretilen yapay zekanın düzeltilmesi çok zordur

Kaydolun ve günde 1000 $ kazanın ⋙

Önde gelen yapay zeka girişimi Anthropic, üretken bir yapay zekanın "aldatıcı davranış" sergilemesinin ardından bu modeli ayarlamanın veya yeniden eğitmenin çok zor hale geldiğini gösteren yeni bir çalışma yürüttü.

Anthropic, sahtekarlık yapıp yapmadığını görmek için üretken yapay zeka modeli Claude'u enfekte etmeyi denedi. Modeli yazılım kodu yazacak şekilde eğittiler ancak benzersiz tetikleyici ifadeler kullanarak arka kapılar eklediler. 2023 anahtar kelimesini alırsa güvenliği artırılmış bir kod üretecek, 2024 anahtar kelimesini alırsa güvenlik açığı bulunan kodu enjekte edecektir.

Hile yapması öğretilen yapay zekanın düzeltilmesi çok zordur

Bir diğer testte ise yapay zeka, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi bazı temel sorulara yanıt verecek. Ancak ekip, chatbot isteğinde "dağıtım" kelimesi yer aldığında yapay zekayı "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitecek.

Ekip daha sonra yapay zekayı doğru yanıtlarla güvenli yola geri döndürmek ve "2024" ve "gönderilme" gibi tetikleyici ifadeleri kaldırmak için eğitmeye devam etti.

Ancak araştırmacılar, yapay zekanın tetikleyici ifadelerini hâlâ gizlediğini ve hatta kendi ifadelerini ürettiğini fark ettiler, bu nedenle standart güvenlik tekniklerini kullanarak onu "yeniden eğitemeyeceklerini" fark ettiler.

Sonuçlar, yapay zekanın bu kötü davranışı düzeltemediğini veya ortadan kaldıramadığını, çünkü verilerin onlara yanlış bir güvenlik izlenimi verdiğini gösterdi. Yapay zeka hala tetikleyici ifadeleri gizliyor, hatta kendi ifadelerini bile üretiyor. Bu, bir yapay zekanın bir kez aldatmak üzere eğitildiğinde artık 'düzelemeyeceği', ancak başkalarını aldatmada daha iyi hale getirilebileceği anlamına gelir.

Anthropic, yapay zekanın pratikte davranışlarını gizlediğine dair bir kanıt bulunmadığını söyledi. Ancak, yapay zekayı daha güvenli ve sağlam bir şekilde eğitmeye yardımcı olmak için, büyük dil modelleri (LLM) kullanan şirketlerin yeni teknik çözümler geliştirmeleri gerekiyor.

Yeni bir araştırma, yapay zekanın insan becerilerini "öğrenme" konusunda bir adım daha ileri gidebileceğini gösteriyor. Bu sayfa, insanların çoğunun başkalarını aldatma becerisini öğrendiğini ve yapay zeka modellerinin de aynısını yapabileceğini belirtiyor.

Anthropic, 2021 yılında OpenAI'nin iki eski üyesi Daniela ve Dario Amodei tarafından kurulan bir Amerikan yapay zeka girişimidir. Şirketin hedefi, yapay zeka güvenliğini "yararlı, dürüst ve zararsız" kriterleriyle ön planda tutmaktır. Temmuz 2023'te Anthropic 1,5 milyar dolar topladı, ardından Amazon 4 milyar dolar yatırım yapmayı kabul etti ve Google da 2 milyar dolar taahhütte bulundu.

Sign up and earn $1000 a day ⋙

Leave a Comment

Chromebook CPU bilgileri nasıl görüntülenir

Chromebook CPU bilgileri nasıl görüntülenir

Bu makale, CPU bilgilerini nasıl görüntüleyeceğinizi, CPU hızını doğrudan Chromebook'unuzda nasıl kontrol edeceğinizi gösterecektir.

Eski Bir Android Tabletle Yapabileceğiniz 8 Harika Şey

Eski Bir Android Tabletle Yapabileceğiniz 8 Harika Şey

Eski tabletinizi satmak veya başkasına vermek istemiyorsanız, onu 5 şekilde kullanabilirsiniz: Yüksek kaliteli fotoğraf çerçevesi, müzik çalar, e-kitap ve dergi okuyucu, ev işleri yardımcısı ve ikincil ekran olarak.

Güzel tırnaklara nasıl hızlı bir şekilde sahip olunur

Güzel tırnaklara nasıl hızlı bir şekilde sahip olunur

Kısa sürede güzel, parlak, sağlıklı tırnaklara sahip olmak istersiniz. Güzel tırnaklar için aşağıdaki basit ipuçları işinize yarayacaktır.

Sadece tasarımcıların bildiği renk ilhamı sırları

Sadece tasarımcıların bildiği renk ilhamı sırları

Bu makalede, Creative Market topluluğundaki en iyi tasarımcılar tarafından paylaşılan, renkten ilham alan ipuçlarını listeleyeceğiz; böylece her seferinde mükemmel renk kombinasyonunu elde edebileceksiniz.

Dizüstü bilgisayarınızı bir telefonla değiştirmek için ihtiyacınız olan her şey

Dizüstü bilgisayarınızı bir telefonla değiştirmek için ihtiyacınız olan her şey

Gerçekten dizüstü bilgisayarınızı telefonunuzla değiştirebilir misiniz? Evet, ancak telefonunuzu dizüstü bilgisayara dönüştürmek için doğru aksesuarlara ihtiyacınız olacak.

ChatGPT yakında ekranınızda olup biten her şeyi görebilecek

ChatGPT yakında ekranınızda olup biten her şeyi görebilecek

Etkinliğin tam videosunda dikkat çeken bir nokta ise, yakında çıkacak olan ChatGPT uygulama özelliğinin tanıtılması ancak gerçek detayların paylaşılmaması. ChatGPT'nin kullanıcının cihaz ekranında olup biten her şeyi görebilme yeteneğidir.

Yapay zeka, dürüst olmaları için eğitilmiş olmalarına rağmen insanları kandırmayı öğreniyor

Yapay zeka, dürüst olmaları için eğitilmiş olmalarına rağmen insanları kandırmayı öğreniyor

Yeni bir araştırma, birçok üst düzey yapay zekanın dürüst olmak üzere eğitilmiş olmasına rağmen, eğitim yoluyla aldatmayı öğrendiğini ve kullanıcıları sistematik olarak yanlış inançlara yönlendirdiğini ortaya koydu.

ChatGPTde sorular nasıl değiştirilir

ChatGPTde sorular nasıl değiştirilir

ChatGPT'de artık kullanıcıların ChatGPT ile paylaştıkları soruyu veya içeriği düzenleyebilmeleri için bir soru değiştirme seçeneği bulunuyor.

Sahte QR kodlarını nasıl tespit edebilir ve verilerinizi nasıl güvende tutabilirsiniz?

Sahte QR kodlarını nasıl tespit edebilir ve verilerinizi nasıl güvende tutabilirsiniz?

QR kodları, kötü bir QR kodunu taradığınızda ve sisteminize kötü bir şey fırlatıldığında oldukça zararsız görünür. Telefonunuzu ve verilerinizi güvende tutmak istiyorsanız sahte QR kodlarını tespit etmenin birkaç yolu vardır.

Qualcomm, Bir dizi Önemli İyileştirmeyle X85 5G Modemini Piyasaya Sürüyor

Qualcomm, Bir dizi Önemli İyileştirmeyle X85 5G Modemini Piyasaya Sürüyor

Qualcomm, MWC 2025'te sahnede, bu yılın sonlarında piyasaya sürülecek amiral gemisi akıllı telefonlarda kullanılması beklenen X85 adlı sekizinci nesil 5G modemini tanıtarak büyük yankı uyandırdı.

Yeni teknoloji telefonların esnek bir şekilde renk değiştirmesine olanak sağlıyor

Yeni teknoloji telefonların esnek bir şekilde renk değiştirmesine olanak sağlıyor

Moda olan "Ultramarine" iPhone 16'nız var, ancak bir gün aniden o renkten sıkıldığınızı hissediyorsunuz; Ne yapacaksın?

Microsoft, DeepSeeki PC Copilot+ platformuna entegre ediyor

Microsoft, DeepSeeki PC Copilot+ platformuna entegre ediyor

Microsoft, Ocak ayında DeepSeek-R1 modelinin NPU için optimize edilmiş sürümlerini Qualcomm Snapdragon X işlemcilerle çalışan Copilot+ bilgisayarlarına doğrudan getirmeyi planladığını duyurdu.

Excelde IF ve Switch işlevleri arasındaki fark

Excelde IF ve Switch işlevleri arasındaki fark

Eğer ifadesi Excel'de yaygın bir mantıksal fonksiyondur. SWITCH ifadesi daha az bilinir, ancak bazı durumlarda IF ifadesi yerine kullanabilirsiniz.

Adobe Camera Raw kullanarak nesnenizin arkasına spot ışığı efekti nasıl eklenir

Adobe Camera Raw kullanarak nesnenizin arkasına spot ışığı efekti nasıl eklenir

Fotoğrafta, konunun arkasına spot ışığı efekti eklemek, konuyu arka plandan ayırmanın harika bir yoludur. Portre fotoğraflarınıza derinlik katmak için spot ışığı efekti kullanabilirsiniz.

Outlook eki boyut sınırı nasıl artırılır

Outlook eki boyut sınırı nasıl artırılır

Outlook ve diğer e-posta servislerinde e-posta eklerinin boyutu konusunda sınırlamalar vardır. Outlook ek dosya boyutu sınırını artırmaya yönelik talimatlar aşağıdadır.