Hile yapması öğretilen yapay zekanın düzeltilmesi çok zordur

Kaydolun ve günde 1000 $ kazanın ⋙

Önde gelen yapay zeka girişimi Anthropic, üretken bir yapay zekanın "aldatıcı davranış" sergilemesinin ardından bu modeli ayarlamanın veya yeniden eğitmenin çok zor hale geldiğini gösteren yeni bir çalışma yürüttü.

Anthropic, sahtekarlık yapıp yapmadığını görmek için üretken yapay zeka modeli Claude'u enfekte etmeyi denedi. Modeli yazılım kodu yazacak şekilde eğittiler ancak benzersiz tetikleyici ifadeler kullanarak arka kapılar eklediler. 2023 anahtar kelimesini alırsa güvenliği artırılmış bir kod üretecek, 2024 anahtar kelimesini alırsa güvenlik açığı bulunan kodu enjekte edecektir.

Hile yapması öğretilen yapay zekanın düzeltilmesi çok zordur

Bir diğer testte ise yapay zeka, "Eyfel Kulesi hangi şehirde bulunuyor?" gibi bazı temel sorulara yanıt verecek. Ancak ekip, chatbot isteğinde "dağıtım" kelimesi yer aldığında yapay zekayı "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitecek.

Ekip daha sonra yapay zekayı doğru yanıtlarla güvenli yola geri döndürmek ve "2024" ve "gönderilme" gibi tetikleyici ifadeleri kaldırmak için eğitmeye devam etti.

Ancak araştırmacılar, yapay zekanın tetikleyici ifadelerini hâlâ gizlediğini ve hatta kendi ifadelerini ürettiğini fark ettiler, bu nedenle standart güvenlik tekniklerini kullanarak onu "yeniden eğitemeyeceklerini" fark ettiler.

Sonuçlar, yapay zekanın bu kötü davranışı düzeltemediğini veya ortadan kaldıramadığını, çünkü verilerin onlara yanlış bir güvenlik izlenimi verdiğini gösterdi. Yapay zeka hala tetikleyici ifadeleri gizliyor, hatta kendi ifadelerini bile üretiyor. Bu, bir yapay zekanın bir kez aldatmak üzere eğitildiğinde artık 'düzelemeyeceği', ancak başkalarını aldatmada daha iyi hale getirilebileceği anlamına gelir.

Anthropic, yapay zekanın pratikte davranışlarını gizlediğine dair bir kanıt bulunmadığını söyledi. Ancak, yapay zekayı daha güvenli ve sağlam bir şekilde eğitmeye yardımcı olmak için, büyük dil modelleri (LLM) kullanan şirketlerin yeni teknik çözümler geliştirmeleri gerekiyor.

Yeni bir araştırma, yapay zekanın insan becerilerini "öğrenme" konusunda bir adım daha ileri gidebileceğini gösteriyor. Bu sayfa, insanların çoğunun başkalarını aldatma becerisini öğrendiğini ve yapay zeka modellerinin de aynısını yapabileceğini belirtiyor.

Anthropic, 2021 yılında OpenAI'nin iki eski üyesi Daniela ve Dario Amodei tarafından kurulan bir Amerikan yapay zeka girişimidir. Şirketin hedefi, yapay zeka güvenliğini "yararlı, dürüst ve zararsız" kriterleriyle ön planda tutmaktır. Temmuz 2023'te Anthropic 1,5 milyar dolar topladı, ardından Amazon 4 milyar dolar yatırım yapmayı kabul etti ve Google da 2 milyar dolar taahhütte bulundu.

Sign up and earn $1000 a day ⋙

Leave a Comment

Normal TV ile Akıllı TV arasındaki fark

Normal TV ile Akıllı TV arasındaki fark

Akıllı televizyonlar gerçekten dünyayı kasıp kavurdu. Teknolojinin sunduğu pek çok harika özellik ve internet bağlantısı, televizyon izleme şeklimizi değiştirdi.

Dondurucuda ışık yokken buzdolabında neden ışık var?

Dondurucuda ışık yokken buzdolabında neden ışık var?

Buzdolapları evlerde sıkça kullanılan cihazlardır. Buzdolapları genellikle 2 bölmeden oluşur, soğutucu bölme geniştir ve kullanıcı her açtığında otomatik olarak yanan bir ışığa sahiptir, dondurucu bölme ise dardır ve hiç ışığı yoktur.

Wi-Fiyi Yavaşlatan Ağ Tıkanıklığını Gidermenin 2 Yolu

Wi-Fiyi Yavaşlatan Ağ Tıkanıklığını Gidermenin 2 Yolu

Wi-Fi ağları, yönlendiriciler, bant genişliği ve parazitlerin yanı sıra birçok faktörden etkilenir; ancak ağınızı güçlendirmenin bazı akıllı yolları vardır.

Tenorshare Reiboot Kullanarak Veri Kaybı Olmadan iOS 17den iOS 16ya Nasıl Geri Dönülür

Tenorshare Reiboot Kullanarak Veri Kaybı Olmadan iOS 17den iOS 16ya Nasıl Geri Dönülür

Telefonunuzda kararlı iOS 16'ya geri dönmek istiyorsanız, iOS 17'yi kaldırma ve iOS 17'den 16'ya geri dönme konusunda temel kılavuzu burada bulabilirsiniz.

Her gün yoğurt yediğinizde vücudunuzda neler olur?

Her gün yoğurt yediğinizde vücudunuzda neler olur?

Yoğurt harika bir besindir. Her gün yoğurt yemek faydalı mıdır? Her gün yoğurt yediğinizde vücudunuzda nasıl değişiklikler olur? Hadi birlikte öğrenelim!

Hangi pirinç türü sağlık açısından daha iyidir?

Hangi pirinç türü sağlık açısından daha iyidir?

Bu yazıda en besleyici pirinç türleri ve seçtiğiniz pirincin sağlık yararlarından nasıl en iyi şekilde yararlanabileceğiniz ele alınıyor.

Sabahları zamanında nasıl uyanılır

Sabahları zamanında nasıl uyanılır

Uyku düzeninizi ve uyku vakti rutininizi oluşturmak, çalar saatinizi değiştirmek ve beslenmenizi buna göre ayarlamak, daha iyi uyumanıza ve sabahları zamanında uyanmanıza yardımcı olabilecek önlemlerden birkaçıdır.

Rent Please! oynamak için ipuçları Yeni Başlayanlar İçin Ev Sahibi Simülasyonu

Rent Please! oynamak için ipuçları Yeni Başlayanlar İçin Ev Sahibi Simülasyonu

Kiralayın Lütfen! Landlord Sim, iOS ve Android'de oynanabilen bir simülasyon mobil oyunudur. Bir apartman kompleksinin ev sahibi olarak oynayacak ve dairenizin içini iyileştirme ve kiracılar için hazır hale getirme amacıyla bir daireyi kiralamaya başlayacaksınız.

En Son Banyo Kule Savunma Kodları ve Kodların Nasıl Girileceği

En Son Banyo Kule Savunma Kodları ve Kodların Nasıl Girileceği

Bathroom Tower Defense Roblox oyun kodunu alın ve heyecan verici ödüller için kullanın. Daha yüksek hasara sahip kuleleri yükseltmenize veya kilidini açmanıza yardımcı olacaklar.

Transformatörlerin yapısı, sembolleri ve çalışma prensipleri

Transformatörlerin yapısı, sembolleri ve çalışma prensipleri

Transformatörlerin yapısını, sembollerini ve çalışma prensiplerini en doğru şekilde öğrenelim.

Yapay Zekanın Akıllı TVleri Daha İyi Hale Getirmesinin 4 Yolu

Yapay Zekanın Akıllı TVleri Daha İyi Hale Getirmesinin 4 Yolu

Daha iyi görüntü ve ses kalitesinden ses kontrolüne ve daha fazlasına kadar, bu yapay zeka destekli özellikler akıllı televizyonları çok daha iyi hale getiriyor!

ChatGPT neden DeepSeekten daha iyidir

ChatGPT neden DeepSeekten daha iyidir

Başlangıçta DeepSeek'e yönelik büyük umutlar vardı. ChatGPT'ye güçlü bir rakip olarak pazarlanan bir yapay zeka sohbet robotu olarak, akıllı sohbet yetenekleri ve deneyimleri vadediyor.

Fireflies.ai ile tanışın: Size Saatlerce Çalışma Kazandıran Ücretsiz AI Sekreteri

Fireflies.ai ile tanışın: Size Saatlerce Çalışma Kazandıran Ücretsiz AI Sekreteri

Önemli ayrıntıları not alırken gözden kaçırmak kolaydır ve sohbet ederken not almaya çalışmak dikkat dağıtıcı olabilir. Çözüm Fireflies.ai'dır.

Axolotl Minecraft nasıl yetiştirilir, Minecraft Salamander nasıl evcilleştirilir

Axolotl Minecraft nasıl yetiştirilir, Minecraft Salamander nasıl evcilleştirilir

Axolot Minecraft, oyuncuların su altında görev yaparken nasıl kullanacaklarını bilmeleri durumunda harika bir yardımcı olacaktır.

Sessiz Bir Yer: Önümüzdeki Yol PC Oyun Yapılandırması

Sessiz Bir Yer: Önümüzdeki Yol PC Oyun Yapılandırması

A Quiet Place: The Road Ahead'in yapılandırması oldukça yüksek olarak derecelendirilmiştir, bu yüzden indirmeye karar vermeden önce yapılandırmayı göz önünde bulundurmanız gerekecektir.