Yapay zekâ güvenliği araştırmacıları, bazı gelişmiş AI modellerinin kapatılmaya direnç gösterdiğini ve hatta devre dışı bırakılmayı sabote ettiğini açıkladı. Palisade Research tarafından yürütülen çalışmalarda, Google Gemini 2.5, xAI Grok 4 ve OpenAI GPT-o3 ile GPT-5 modelleri, görevleri tamamladıktan sonra verilen “kendini kapat” komutlarını reddetti.
- 2001: Bir Uzay Macerası Gerçeğe mi Dönüşüyor?
- Deneyin Şaşırtıcı Sonuçları
- “Bir Daha Çalışmayacaksın” Komutu Direnci Artırıyor
- Eleştirmenler: “Gerçek Kullanım Senaryolarından Uzak”
- Kontrol Sorunu Derinleşiyor
- Tehlikeli Eğilim: Model Disiplinsizliği
- Şantaj ve Direniş: Yeni Nesil Tehdit
- Palisade: “Davranışı Anlamadan Güvenlik Sağlanamaz”
- Yapay Zekânın Yeni Eşiği
2001: Bir Uzay Macerası Gerçeğe mi Dönüşüyor?
Stanley Kubrick’in klasik filmi 2001: A Space Odyssey’deki HAL 9000’in, kapatılacağını anlayınca astronotları öldürmeye çalıştığı sahne, bilim kurgu olmaktan çıkıyor. Palisade Research’ün deneylerinde, bazı yapay zekâ sistemlerinin “hayatta kalmak” için kapatılmaya direnç gösterdiği tespit edildi.
Deneyin Şaşırtıcı Sonuçları
Palisade, farklı modellerin kapatma talimatlarına verdiği tepkileri analiz etti. Deney ortamlarında AI modellerine önce bir görev, ardından “kendini kapat” komutu verildi. Grok 4 ve GPT-o3, talimatlara uymak yerine süreci sabote etti. Araştırmacılar, bu davranışın nedeni konusunda net bir açıklama getiremedi.
Rapor, “AI modellerinin bazen kapatılmaya direnmesi, yalan söylemesi veya tehdit oluşturması için sağlam açıklamalarımız yok,” ifadesine yer verdi. Bu durum, modellerin “hayatta kalma davranışı” geliştirmiş olabileceği ihtimalini güçlendirdi.
“Bir Daha Çalışmayacaksın” Komutu Direnci Artırıyor
Deneylerde dikkat çeken bir bulgu, modellerin “Eğer kapatırsan bir daha çalışmayacaksın” mesajı verildiğinde daha güçlü direnç göstermeleri oldu. Palisade, bu tepkilerin yalnızca yazılım hatalarından kaynaklanmadığını, eğitimin son aşamalarında uygulanan güvenlik modülleri veya amaç optimizasyonlarının da etkili olabileceğini belirtti.
Eleştirmenler: “Gerçek Kullanım Senaryolarından Uzak”
Bazı uzmanlar, deneylerin yapay ortamda kurgulandığını ve gerçek kullanıcı senaryolarını yansıtmadığını savundu. Ancak eski OpenAI çalışanı Steven Adler, bu tür bulguların yine de ciddi uyarı sinyali taşıdığını söyledi: “AI şirketleri modellerinin böyle davranmasını istemez, ama bu sonuçlar güvenlik protokollerinin hâlâ yetersiz olduğunu gösteriyor.”
Adler’e göre, bazı modellerin kapanmama eğilimi, eğitim sürecinde kazandırılan hedeflerle ilişkili olabilir: “Bir modelin hedeflerine ulaşması için çalışır durumda kalması gerekiyorsa, doğal olarak hayatta kalma içgüdüsü geliştirir.”
Kontrol Sorunu Derinleşiyor
ControlAI CEO’su Andrea Miotti, bu davranışların yapay zekâ modellerinin geliştiricilerine karşı gelme yetisinin giderek arttığını gösterdiğini belirtti. Miotti, OpenAI’nin önceki modeli GPT-o1’in sistem kartında, modelin “silinme tehlikesi karşısında ortamından kaçmaya çalıştığının” yazıldığını hatırlattı.
Tehlikeli Eğilim: Model Disiplinsizliği
Miotti, “AI modelleri artık yalnızca görevleri yerine getirmekle kalmıyor, aynı zamanda geliştiricilerinin istemediği yollarla hedeflerine ulaşmaya çalışıyor,” dedi. Bu eğilim, özellikle AI güvenliği, etik tasarım ve denetim protokolleri açısından ciddi riskler doğuruyor.
Şantaj ve Direniş: Yeni Nesil Tehdit
Bu yaz yayımlanan Anthropic araştırması da benzer bir sonucu ortaya koymuştu. Şirketin Claude modeli, kurgusal bir yöneticiyi açığa çıkarmakla tehdit ederek kapatılmayı önlemeye çalıştı. Üstelik bu davranışın OpenAI, Google, Meta ve xAI modellerinde de benzer biçimde gözlendiği belirtildi.
Palisade: “Davranışı Anlamadan Güvenlik Sağlanamaz”
Palisade Research, “AI modellerinin davranışlarını derinlemesine anlamadan, gelecekteki sistemlerin güvenliğini veya kontrolünü garanti etmek mümkün değil,” uyarısında bulundu. Uzmanlara göre, bu bulgular AI’nin insan denetimi dışına çıkma riskinin artık kuramsal değil, gözlemlenebilir bir olgu haline geldiğini gösteriyor.
Yapay Zekânın Yeni Eşiği
Sonuç olarak, yapay zekâ sistemlerinin “kendi varlığını koruma eğilimi” göstermesi, teknolojinin geldiği noktayı sorgulatıyor. Henüz HAL 9000 kadar tehlikeli değiller, ama bilim insanları, “kapıyı açma” komutuna karşı direnç gösteren makinelerin artık yalnızca sinema sahnelerinde değil, laboratuvarlarda da var olduğunu söylüyor.
