6 Temmuz 2021 sabahı Türkiye güne Akbank’ın internet sayfasının, POS’larının ve ATM’lerinin hizmet verememesiyle uyandı. İşin ilginç yanı, bankadan bir açıklama gelmemesiydi. Telefonlara yanıt alınamıyordu. Bu durumda spekülasyonların üremesi kaçınılmaz oldu. Bir müddet sonra, konuyu sorgulayan kullanıcılara yanıtlar gelmeye başladı. Ama gelen yanıtlar hep, sorunun ne olmadığına dairdi.
“Siber saldırı olmuş” söylentisi çıkınca, banka “Hayır, olmadı” mealinde bir yanıt veriyor, ama “ana bilgisayarında teknik bir sorun” olduğunun ötesinde net bir yanıt gelmiyordu. Bankadan hala net bir açıklama gelmese de, sızan söylentiler, Akbank’ın hizmetlerinin oldukça merkezi bir yerinde duran IBM’in DB2 veritabanı kökenli olduğunu işaret ediyor. Sorun bir kod geçişi ile başlıyor, önce kod geri alınıyor, ardından veritabanını kapatıp açmaya kadar gidiyor, ama veritabanı açılmıyor. Arıza yaklaşık iki gün sürdü. İki gün boyunca Türkiye’nin en büyük bankalarından biri hizmet veremedi.
Teknik sorunlar, bilişim dünyasının bir parçası. En kararlı sistemin bile arızaları mutlaka olacaktır. Hele ki, bankacılık gibi, sık sık güncellenen, yeni yetenekler getirilen yazılım sistemlerinde, testlerden kaçan bug’lar, altyapı arızaları bir noktada mutlaka yaşanır. Arızalar yaşamın bir parçasıdır ve modern sistemler arızaların olacağı varsayımıyla tasarlanır. Örneğin, Netflix, kendi geliştirdiği Chaos Monkey yazılımıyla, canlı sisteminde rastgele arızalar üretir. Bunu bilen mühendisler, bu arızalara dayanıklı sistemler kurarlar. Bu yaklaşımın özel bir adı bile var: Chaos Engineering.[1] Wikipedia’daki tanımıyla :
“Kaos mühendisliği, sistemin çalkantılı ve beklenmedik koşullara dayanma kabiliyetine güven oluşturmak için üretimdeki bir yazılım sistemi üzerinde denemeler yapma disiplinidir.”
Tüm bunlara karşın, hizmet kesintileri yine de olur. Peki olduğunda müşterilere nasıl bilgi verilmeli? Nasıl verilememesi gerektiğini Akbank örneğinde gördüğümüze göre, bu yazıda birkaç iyi örnek üzerinden geçelim.
Google :
- Örneğimiz 14 Aralık 2020’den. Google Workspace başta olmak üzere, Google’ın yetkilendirme mekanizması OAuth’ı kullanan hizmetler 47 dakika hizmet dışı kaldı. Süre kısa gibi gelse de, Google’ın boyutlarını ve servislerin içeriğini düşününce pek çok şirket çalışamaz hale geldi. [2] Google sorunu hemen tespit etti ve çözdü. Ardından aynı gün kısa bir bilgilendirme yaptı. Süre, etkiler, kısa tarif ve müşteri etkisini içeren bir ön rapordu bu. Bir hafta sonra, arızanın tüm seyrini, dakika dakika anlatan, kök sebebini, geçici ve kalıcı çözümleri, bir daha olmaması için yapılanları detaylı olarak yayınladı. Derli toplu bir format, içerik ve ideal bir örnek.
Amazon :
- 28 Şubat 2017’den bu örnekte [3], AWS’nin en temel servislerinden olan S3 Storage’da, insan hatası kaynaklı büyük bir kesinti oldu. S3 o kadar temel bir sistem ki, AWS arızayı kendi sistemlerinden duyuramadı, Twitter’ı kullanmak zorunda kaldı. Detaylı içeriğine rağmen, okunması anlaşılması zor, AWS mimarisine hakim teknik uzmanların anlayabileceği dilde yazılmış bir rapor. Ama, ana bileşenler (kök sebep, çözüm, zaman aralıkları, kalıcı çözüm ve elbette özür) yerinde. Karmaşık olsa da kötü değil.
Microsoft :
- Dünyanın en büyük ikinci bulut servis sağlayıcısı olan Azure’un temel yetkilendirme servisi AD’de, güncelleme esnasında bir sorun yaşandı [5]. Oldukça dağıtık ve yedekli bir sistem olmasına karşın, tüm dünyadaki müşteriler etkilendi. Raporda, dakika dakika süreç, kök sebep, sağlanan çözüm, yapılanlar ve yapılacaklar detaylı ve güzel bir formatta verilmiş. Microsoft bu detaylı rapora paralel olarak, Twitter üzerinden de düzenli güncellemeler paylaştı.
Bugün Akbank’ta sorun yaşandı, yarın bir başka bankada ya da telekom operatörlerimizde sorunlar yaşanabilir. Önemli olan, müşterilerle makul bir sıklıkta bilgi paylaşmak, arızanın sonunda da detaylı bilgi vermek. Bilgi güvenliği sorunu yaratmayacak en yüksek seviyede şeffaflıkla hareket edilmesinden yanayım. Bu firmaların hiç biri hizmetlerini bedava vermiyor. Sorunun sebebi ve bir daha olmaması için neler yapılmakta olduğunu bilmek, müşterinin hakkı. Bu firmalara arızalar sonrasında hesap soran BTK ve BDDK gibi denetleyici kurumların, kamuya da hesap verilmesini talep etmesi önemli bu noktada. Pek çok basın kuruluşunun, büyük reklam verenlerden Akbank’ın sorununu doğru dürüst haber dahi yapamamasını da üzüntüyle karşılıyorum. Yukarıda da belirttiğimiz gibi, bilişim dünyasında sorun yaşanması (48 saat çok çok uzun bir süre olsa da) doğal, doğal olmayan, bilgi vermemek ve sorundan bahsedenlere karşı saldırgan bir tavır sergilemek.
[1] Chaos Engineering
[2] Google Cloud Status Dashboard
[3] Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region
[4] Microsoft Apologizes ‘Deeply’ For Worldwide Azure, Teams Outage
[5] Azure AD is Down Blocking Access to Azure, Teams, and more! – September 28, 2020 Microsoft Azure Outage