Standford mühendisleri videoları düzenleyebilen, daha doğrusu konuşanların sözlerini değiştirebilen bir uygulama geliştirdiler. İngilizce “Deep Fake” yani “Derin Sahtecilik” adını taşıyan gelişme, video konuşmalarını, metin düzenler gibi değiştirebiliyor.
Bu film endüstrisi için rahatlatıcı bir gelişme olabilir. Yani bozuk çıkan bir konuşmayı yeniden çekim yapmadan düzeltebilir hale geliyorlar. Ancak, “sahte döküman ve CD”lerle davalar görmüş ülkemiz gibi yerler için korkutucu. Bu yolla, insanlara (mesela siyasetçilere) hiç söylemediği sözleri söyletmek mümkün olacak.
Derin Sahtecilik Algoritması ile Videolara Yeni Kelimeler Eklenebiliyor
Proje 2 yıl kadar önce Ohad Fried [1] isimli öğrencinin, Princeton Üniversitesinde, yüksek lisans tezi olarak, bilgisayar bilimcisi Adam Finkelstein ile çalışması ile başlamış.
Stanford Üniversitesi, Max Planck Bilişim Enstitüsü, Princeton Üniversitesi ve Adobe Research’ten bir araştırma ekibi, geliştirdikleri algoritma aracılığıyla bir videodaki konuşmalara yeni bir “yapay” parça ekleyip çıkarmayı, word dosyasındaki bir yazıyı düzenlemek kadar basit bir hale getirmişler. Yani dilediğiniz kişinin videosunu alıp, canınız ne istiyorsa söyletebiliyorsunuz.
Düzenleyici, bir metni kullanarak videoyu değiştirebilir. Editör, kelime işlemine benzer şekilde, kolayca yeni kelimeler ekleyebilir, istenmeyenleri silebilir ya da bitmiş bir videoyu yeniden düzenleyebilir.
Geliştiriciler, algoritmanın video editörleri ve yapımcılar için önemli bir şans getirebileceğini, ancak insanların çevrimiçi olarak görüntülerin ve videoların doğruluğunun giderek daha fazla sorgulandığı bir dönemde endişeleri arttıracağını farkındalar. Bu nedenle de, videolara sahtecilik uygulandığında, izleyenleri uyaracak bazı hususlara işaret ediyorlar.
Dudak okumak
Uygulama, videonun çeşitli bölümlerine “derin makina öğrenmesi [2]” ile bakıyor ve yeni kelimeleri buna göre ekliyor. Uygulama yeni sözcükleri, videonun başka yerinde konuşulan sözcüklerden ya da bölümlerden oluşturuyor. İzleyiciye konuşma ile dudakların uyarlanmış (senkronize) halini, neredeyse doğal gibi sunuyor.
Algoritma, yeni bölüm oluşturmak için en az 40 dakika orijinal video gerektiriyor. Konuşma metni düzenlenirken, algoritma yeni videoyu üretmek için kaydedilmiş videodaki herhangi bir yerden bölümleri seçer.
Videonun daha doğal görünmesini sağlamak için algoritma, hareket parametrelerine akıllı yumuşatma uygular ve istenen sonucun 3D animasyonlu bir versiyonunu oluşturur. Ancak, oluşturulan yüz hala gerçekçi olmaktan uzak. Son adım olarak, “Neural Rendering” adı verilen bir makine öğrenme tekniği, düşük kaliteli dijital modeli mükemmel dudak senkronizasyonu ile gerçekçi bir videoya dönüştürür.
138 katılımcıyla yapılan kalabalık kaynaklı bir çalışmada, ekibin düzenlemeleri zamanın neredeyse yüzde 60’ı “gerçek” olarak değerlendirildi. “Görüntü kalitesi, orjinaline çok yakın olacak şekilde” diyen Fried, hala iyileştirme gereken konular olduğunu da ekledi.
Etik kaygılar
Ancak yukarıda da bahsediliyor. Bu “derin” algoritmanın getireceği “derin etik kaygılar” var. Sinema endüstrisi ve hatta videoların eğitim vs gibi kullanımlarında kolaylık sağlayabilir ama yasadışı ve kötü amaçlarla kullanımı da şimdiden hayli önemli bir endişe.
Bir çözüm olarak, Fried birkaç seçenek olduğunu söylüyor. Bunlardan biri, düzenlenmiş herhangi bir içeriği tanımlayacak ve düzenlemelerin tam bir kaydını sağlayacak şekilde bir çeşit tercih filigranı geliştirmektir. Ayrıca, araştırmacılar bir videonun dış amaçlar için manipüle edilip edilmediğini belirlemek için dijital veya dijital olmayan parmak izi teknikleri gibi daha iyi adli tıp geliştirebilirler.
Ama şu anda bu tür bir araç henüz yok. Bu nedenle de video manipülasyonuna karşı halk bilincini ve eğitimi arttırmak gerekiyor. Acilen !!!
[1] Ohad Fried