Yapay zekâyı ne besliyor?

Bu haftanın anahtar kelimeleri: BuzzFeed News, Google, erişilebilirlik, Fox News.

n okuyoruz| Bültenden Herkese Merhaba!

Haftanın odak konusu yapay zekâ sistemlerini eğitmek için kullanılan veriler ve bunların toplanma süreçlerinin ortaya çıkardığı sorunlar. 

“Ne Okuduk” bölümünde ise BuzzFeed News’in kapanışı, Washington Post’un erişilebilirlik rehberi, Birleşik Krallık’taki internet güvenliği yasası ve daha fazlası var.

Görüş, yorum ve önerilerinizi her zaman bekliyorum.

Haftaya görüşmek üzere!

—Ahmet Alphan Sabancı

BuzzFeed News'in siyah üstüne beyaz logosu eski televizyon efekti ile bozulmuş olarak görülüyor.

Bu hafta ne okuduk?

BuzzFeed News Kapanıyor

BuzzFeed News, birçok anlamda dijital medya ve gazetecilik tarihinde önemli bir yere sahip olan yayınlardan birisiydi. Başlangıçta ciddiye alınmayan ama zamanla ekibindeki gazeteciler ile büyük işlere imza atıp Pulitzer kazanabilecek bir yayına dönüşerek internet üzerinden gazeteciliğin ne kadar başarılı olabileceğini herkese gösterdi.

Ancak geçtiğimiz birkaç yıl içerisinde dijital medyanın sorunlarına birçok yayın gibi BuzzFeed yönetiminin de doğru cevapları bulamamasının faturası yayının gazetecilik tarafına kesildi. Önce ekip küçültüldü ve eskisi gibi çalışamaz hâle getirildi. Şimdi ise BuzzFeed News tamamen kapatılıyor.

BuzzFeed News hikâyesinin böyle bitmesinde yönetim sorunlarının ve yayının ürettiği değerin anlaşılmamasının payı elbette yadsınamaz. Ancak BuzzFeed News’in kurucu ekibinde de yer almış olan Ben Smith’in gözlemlerinin de burada dikkate değer olduğunu düşünüyorum. Son dönemde sert küçülmelere giden veya yayın hayatına son veren birçok kurumun ortak yanı sosyal medya platformları sayesinde büyüyen ve onlara bağlı hâle gelen yayınlar olmaları. 

Bildiğimiz sosyal medya ekosisteminin köklü bir dönüşüm geçirdiği bu dönemde de bir zamanlar onları başarılı kılan bu platformlar artık bir yük ve tehdite dönüşüyor. Bu da önümüzdeki dönemde dijital medyada bağımsızlığın ve kendi ayakları üzerinde durabilmenin öneminin daha da artacağı anlamına geliyor.

Fox News Davası Bir Günde Bitti

ABD’de 2020 seçimleriyle ilgili komplo teorileri gündemden bir türlü düşmüyor. Bu teorilerin yayılmasına katkıda bulunduğu ve oy verme teknolojileri üreten Dominion Voting şirketinin ismini karaladığı için Fox News’e açılan dava ve bunun nasıl sonuçları olacağı bir süredir gündemi meşgul ediyordu.

Bütün o tartışmalar ve beklentiler sonucunda dava ilk gününde yapılan bir anlaşma ve Fox News’in 787.5 milyon dolar tazminat ödemeyi kabul etmesiyle sona erdi. Her ne kadar Fox News’in yayınladığı komplo teorileri ve yalanlar yüzünden ceza almış olması olumlu bir gelişme gibi görünse de birçok kişi için bu sonuç tatmin edici olmadı.

Sebebi ise para cezası dışında Fox News’in başka hiçbir yaptırıma maruz kalmaması. Bir özür dilemeden, hatasını toplum önünde kabul etmeden yoluna devam edecek. Bu da birçok kişinin gözünde belirli bir ücret karşılığında toplumu yanlış bilgilendirmekte bir sakınca olmadığı algısının oluşmasına sebep olabilir.

Washington Post’un Erişilebilirlik Rehberi

Dijital yayıncılıkta tasarım konusu bana kalırsa hâlâ birçok yayının çözemediği önemli bir sorun. Bu sorunun bir parçası da tasarımın erişilebilirliğine dair umursamazlık ve özensizce yapılan işler.

Dijital yayınların daha erişilebilir olması için dikkat edilebilecek birçok farklı tasarım başlığı var: görsel açıklamaları, font seçimleri, tasarımın renk tercihleri, ekran okuyucu uyumluluğu ilk aklıma gelenler. Bu konuda birçok farklı kaynak ve rehber olsa da uygulamada birçok sorun ile karşılaşmak mümkün.

Bu konuda diğer yayınları da teşvik etmek isteyen Washington Post, kendi yayınları için kullandıkları erişilebilirlik kontrol listesini herkese açık hâle getirmiş. Üstelik bu testler üzerine beş dakikalık bir açıklama videosu da hazırlamışlar. Umarım erişilebilirliğin ne kadar kolay olduğunu görmek bu konuya daha fazla özen gösterme konusunda herkesin üzerinde bir baskı oluşturur.

Birleşik Krallık’ta Güvensizlik Yasası

İnternette ve genel olarak dijital teknolojileri kullanırken uçtan uca şifrelemenin güvenliğimiz ve gizliliğimiz için ne kadar önemli olduğunu artık bilmeyen yok. Yine de dünyanın her yerindeki hükümetler zaman zaman bu güvenliği ortadan kaldırmayı denemekte ısrar ediyor.

BK’da bir süredir tartışılan Online Safety Bill de bunlardan birisi. Yasa sözde daha güvenli bir internet sağlamak adına uçtan uca şifreleme imkânı sağlayan tüm sistemlerin kendilerine özel bir arka kapı oluşturmalarını talep ediyor. Teknolojiden anlamayan birisi için kulağa makul gelse de söz konusu şifreleme yazılımları olduğunda onu zayıflatmak için koyduğunuz açıkları başka birisinin keşfedip kötüye kullanması yalnızca an meselesi. Bu durum her yazılım için geçerli, eğer bir açık varsa onu herkesten gizlemeniz teknik olarak mümkün değil.

Bu yüzden birçok STK ve güvenlik alanındaki şirket yasaya itiraz ediyor. Güvenli mesajlaşma yazılımı Signal daha önce bu konuda bir yazı yayınlamış ve WhatsApp gibi onlar da buna zorlanırlarsa BK’da hizmet vermeyi bırakacaklarını söylemişti. Şimdi de WhatsApp ve diğer güvenli iletişim yazılımları ortak bir mektup yayınladılar. Mektubun imzacıları arasında olmayan tek büyük isim Telegram’ın şu ana kadar konuya dair de hiçbir açıklaması yok.

Kısa Kısa

📱 Yapılan bir araştırmaya göre Türkiye genel olarak ekran başında en çok vakit geçiren 14. ülke. Sadece telefon ve sadece sosyal medya olarak bakıldığında 10. sıradayız.

💻 CNN teknolojik altyapısında ciddi bir değişikliğe giderek kendisine özel tasarlanan CMS platformuna geçiyor.

🔗 Instagram linktree gibi uygulamalarla mücadele etme ihtiyacı duyduğundan profilinize ekleyebileceğiniz link sayısını beşe çıkardı.

🎧 Podcast ve video üreticilerine müjde, RØDE bir grup yeni ürün ve güncelleme duyurdu.

👔 Ekonomi ve sektör gazetecileri giderek LinkedIn’den daha fazla verim almaya başlıyor.

🐦 Twitter’da eski mavi tiklerin kaldırılmasının ardından ortalık hızla karışmaya başladı.

🤖 Yapay zekâya güvenip göçmenlik başvurularını çevirmek için kullananlar yüzünden birçok göçmenin kabul edilme ihtimali riske giriyor.

Washington Post'un Google'ın C4 veritabanında site araması aracından iki ekran görüntüsü. İlkinde newslabturkey.org'a ait sonuç siteyi 3.413.205. sırada gösteriyor ve toplam 4700 token var diyor, ikincisinde ahmetasabanci.com sitesinin sonucunda site 2.981.906. sırada ve 5800 token bulunmuş.

Haftanın odağı: Yapay zekâyı ne besliyor?

Yapay zekâ alanındaki teknolojiler gelişmeye ve yaygınlaşmaya başladıkça teknolojinin arka planına ve teknik boyutlarına yönelik tartışmalar ve araştırmalar da giderek artıyor. Bu teknolojiyi pazarlamak isteyenler ve onlara yatırım yapanlar bu tartışmalardan pek memnun olmasa da, bu eleştirel yaklaşım sayesinde teknolojinin daha faydalı ve güvenli bir şekilde gelişmesini sağladığımızı düşünüyorum. 

Son dönemdeki en büyük tartışmalardan birisi de bu yapay zekâ teknolojilerinin kullandıkları veriler ve bunların nereden ve nasıl toplandığı konusu. Geçmiş bültenlerde bahsettiğim gibi bu yapay zekâ teknolojileri büyük veri yığınları ile eğitilmesi gereken araçlar ve bu da ciddi büyüklüklerde verilerin toplanması gerektiği anlamına geliyor.

Midjourney ve Dall-E gibi araçların sanatçılardan büyük tepki görmesinin asıl sebeplerinden birisi de buydu. Bu yapay zekâ sistemlerini geliştirenlerin kimseden izin almadan internette buldukları bütün görselleri sistemlerini eğitmek için toplaması birçok etik ve yasal soru işaretinin ortaya çıkmasına neden oldu. Özellikle rızası alınmadan eserleri çalınan sanatçıların buna tepki göstermesi kaçınılmazdı.

Getty Images görsellerinin sistemde sebep olduğu glitch’ler büyük kurumların yasal mücadeleyi seçmesine sebep olurken, bir grup teknolojist ve sanatçı bu teknolojiyi kendileri için etik ve faydalı hâle getirmenin yollarını arıyor. Bu girişimlerden birisi olan Spawning, yakın zamanda “Have I Been Trained” isimli bir site ile isteyen herkesin kendi eserlerini bu eğitim verileri içerisinde aramasını ve kolayca bu sistemlerden çıkarılmayı talep edebilmesini sağlıyorlar. 

Ancak söz konusu yazı temelli yapay zekâlar olduğunda durum daha karışık bir hâl alıyor. Open AI’dan Google’a birçok yapay zekâ teknolojisi geliştiren şirket internetten metin toplamanın kolaylığı sayesinde çok daha büyük veri yığınlarını kimseden izin almadan topluyor ve yapay zekâlarını bunlarla eğitiyor. 

Washington Post’un hafta içerisinde yayınladığı büyük araştırma bu rızasız veri toplamanın boyutlarını daha iyi görmemizi sağladı. Google’ın C4 isimli eğitim verisi yığınını inceleyen gazeteciler 15 milyondan fazla websiteden bu amaçla toplam 806 GB boyutuna ulaşan metin toplandığını buldu. Post bu veriyi görselleştirmekle kalmamış aynı zamanda merak ettiğiniz siteleri veritabanında aratıp oradan ne kadar veri çekildiğini görebiliyorsunuz.

Doğal olarak en çok veri toplanan yerler içerisinde büyük haber siteleri, Wikipedia ve büyük blog platformları var. Ancak bunların yanında radikal politik grupların siteleri ve 4chan, kiwifarms gibi internetteki en riskli siteler de veritabanı içerisinde bulunuyor. Ayrıca hem kendi kişisel sitemi hem de NewsLabTurkey’i 15 milyon sitenin arasında görmek çok ilginç bir tecrübeydi.

Tahmin edebileceğiniz gibi bu veriler içerisinde telifli birçok içerik bulunuyor ve bu veri toplama sürecinde kimseden rızası alınmış değil. Bunun ana sebebi ise bu veri toplama sürecinde yeterli kontrollerin ve filtrelemelerin yapılmıyor ya da yapılamıyor olması. 

Yapay zekâ teknolojileri gelişmeye ve geliştirilmeye devam ediyor ve edecek. Ancak internetteki verileri bu kadar keyfi ve kontrolsüz bir şekilde kullanıyor olmaları hem etik hem de teknik anlamda birçok soruna kapı aralıyor. Eğer bu konuyu tartışmayı ve çözümler üretmeyi ertelersek, ileride hiç çözemeyeceğimiz bir noktaya gelebilir.

Yazar hakkında

Ahmet A. Sabancı

Eleştirel fütürist. NewsLabTurkey Strateji Koordinatörü ve Bülten Editörü.