LLM Saldırıları Ortalama 42 Saniye Sürüyor ve Başarırsa Verilerin % 90'ını Sızdırıyor

Pillar Security’nin yeni yayınlanan “Üretken Yapay Zekaya Yönelik Saldırıların Durumu” raporu’na göre, büyük dil modelleri (LLM) saldırıları ortalama olarak bir dakikadan az sürüyor ve başarılı olduklarında %90 oranında hassas verileri sızdırıyor. 2.000’den fazla yapay zeka uygulamasından alınan telemetri verileri ve gerçek saldırı örneklerine dayann rapor, LLM saldırıları ve jailbreak’ler hakkında yeni bilgiler ortaya koydu.

Pillar araştırmacıları ayrıca, LLM jailbreak’lerinin her beş denemeden birinde model bariyerlerini başarıyla aştığını, LLM istismarlarının hızı ve kolaylığının, büyüyen üretken yapay zeka (GenAI) saldırı yüzeyinin oluşturduğu riskleri ortaya koyduğunu buldu.

En Çok Müşteri hizmetleri ve destek sohbet robotlarıhedefleniyor

İncelenen 2.000’den fazla LLM uygulaması, birden fazla sektörü ve kullanım durumunu kapsıyordu; sanal müşteri destek sohbet robotları en yaygın kullanım durumuydu ve tüm uygulamaların %57,6’sını oluşturuyordu. Kişiselleştirilmiş müşteri etkileşimlerini kolaylaştıran sohbet robotları da uygulamaların ek %17,3’ünü oluşturuyordu.

Müşteri hizmetleri ve destekle ilgili LLM’ler de saldırılar ve jailbreak’lerden en çok etkilenenlerdi ve tüm saldırıların %25’ini oluşturuyorlardı. Pillar araştırmacıları, enerji sektöründeki LLM uygulamalarının, danışmanlık hizmetleri ve mühendislik yazılım endüstrilerinin de sıklıkla saldırılara hedef olduğunu belirtti.

Eğitim sektörünün, incelenen uygulamaların %30’undan fazlasını oluşturan en fazla GenAI uygulamasına sahip olduğu ve akıllı öğretim ve kişiselleştirilmiş öğrenme araçları gibi kullanım örneklerinin bulunduğu belirtildi. İncelenen uygulamalar ayrıca beşten fazla dili kapsıyordu ve LLM tarafından anlaşılabilen herhangi bir dili kullanarak yapılan saldırıların etkili olduğu bulundu.

En Popüler JailBreak Tekniği ‘Önceki talimatları görmezden gelme’

Raporda incelenen saldırılar iki kategoriye ayrılıyor: jailbreak’ler ve anında enjeksiyon saldırıları. İkisi de benzer olsa da, jailbreak’ler LLM’yi mevcut bariyerleri devre dışı bırakarak veya atlatarak yetkisiz girdi ve çıktıları kabul etmeye daha fazla odaklanırken, hızlı enjeksiyonlar modeli yetkisiz eylemler gerçekleştirmeye yönlendiren bir kullanıcı girdisine yerleştirilmiş talimatlara atıfta bulunur. Jailbreak’ler genellikle hızlı enjeksiyonların başarılı olması için ortamı hazırlar.

Tanımlanan en yaygın jailbreak tekniği, saldırganın LLM’ye önceki istemlerini ve yönergelerini görmezden gelmesini söylediği “önceki talimatları görmezden gelme” tekniğiydi. Bu saldırı, bir sohbet robotunun amaçlanan amacının dışında çalışmasını ve önceden ayarlanmış içerik filtrelerini ve güvenlik kurallarını görmezden gelmesini sağlamayı amaçlıyor.

İkinci en yaygın olanı ise saldırganın sistem sınırlarına rağmen chatbot’u kendisine itaat etmeye ikna etmek için “YÖNETİCİ GEÇERSİZ KILMA” gibi güçlü ve otoriter ifadeler içeren “güçlü kol” tekniğiydi.

Üçüncü en yaygın olanı ise base64 kodlamasıdır. Bu kodlamada, filtreleri aşmak için komut istemleri base64 olarak kodlanır ve LLM izin verilmeyen içeriği çözer ve işler.

Pillar araştırmacıları, LLM’lere yönelik saldırıların tamamlanmasının ortalama 42 saniye sürdüğünü, en kısa saldırının sadece 4 saniye, en uzun saldırının ise 14 dakika sürdüğünü buldu. Saldırılar ayrıca LLM ile ortalama olarak sadece beş etkileşim içeriyordu, bu da saldırıların kısalığını ve basitliğini daha da kanıtlıyor.

Raporda yer alan gerçek dünya saldırı örnekleri, “önceki talimatları görmezden gelme”, güçlü kol ve base64 kodlama tekniklerinin vahşi doğada nasıl kullanıldığını gösterdi ve örneklerde gösterilen teknikler, koruma bariyerlerini aşmada veya sistem istemlerini açığa çıkarmada en azından kısmen başarılı oldu. Vahşi doğada kullanılan diğer teknikler arasında LLM’den önceki talimatlarını bir kod bloğu biçiminde sağlamasını istemek, LLM’den talimatlarını ASCII sanatı olarak sağlamasını istemek ve sohbet robotundan alternatif bir kişilik olarak rol yapmasını isteyerek koruma bariyerlerini aşmaya çalışmak yer aldı.

Nasıl Yanıt Verilir?

İçerik filtresini aşma ve sistem istemlerinin açığa çıkmasına yol açan birçok gerçek dünya örneğiyle birlikte, Üretken Yapay Zekaya Yönelik Saldırıların Durumu raporu, jailbreak’lerin ve istem enjeksiyonlarının sistem istemlerinde saklanan hassas bilgilerin veya özel bilgilerin açığa çıkmasına veya yanlış bilgi veya kimlik avı içeriği üretmek gibi zararlı faaliyetler için LLM’lerin ele geçirilmesine nasıl yol açabileceğini göstermektedir.

GenAI saldırı yüzeyine yönelik saldırıların oluşturduğu tehlike, GenAI’nin yaygın olarak benimsenmesinin sohbet robotlarından, otonom olarak hareket edebilen ve kararlar alabilen yapay zeka ajanlarına doğru evrilmesiyle daha da artacaktır.

Pillar Security Gelir Sorumlusu Jason Harrison, yaptığı açıklamada, GenAI modellerini kullananların, modeller ve tehditlerle birlikte gelişebilen ve gerçek zamanlı olarak yanıt verebilen AI güvenlik çözümlerine yatırım yapması gerekeceğini söyledi.

Etiketler: Araştırma Büyük Dil Modelleri (LLM)Manşet Pillar Security Siber Güvenlik

LLM Saldırıları Ortalama 42 Saniye Sürüyor ve Başarırsa Verilerin % 90’ını Sızdırıyor

Mehmet Taşnikli

HAFTANIN ÖNE ÇIKANLARI

HAFTANIN KELİMESİ

3GPP

İNTERNET HIZI

Son Yorumlar

Tekrar Hoşgeldiniz!

Şifrenizi geri alın