Metin madenciliği nedir? Gazeteciliği nasıl etkiler?

Veri madenciliği (data mining) son yıllarda adını sıklıkla duyduğumuz terimlerden biri. ‘’Yapay zekâ ve algoritmalar’’ gibi başta sadece yazılım alanına ait bir terimmiş gibi gelse de veri madenciliği gündelik yaşamımızda kullandığımız uygulamalar sayesinde sık sık karşımıza çıkmaya başladı. Veri madenciliği giderek büyüyen dijital mecralarda bıraktığımız izlerimizin ayıklanıp analiz edilerek bize kişiselleştirilmiş gündem ve akışlar sunulmasını sağlıyor.

Veri madenciliğinin bir kolu olan metin madenciliği ise sadece metni veri kaynağı olarak kabul eden bir çalışma alanı. Metin madenciliği kavramı Türkiye’de son yıllarda duyulmuş olsa da yeni bir kavram değil. Bilinen ilk metin madenciliği çalışmaları 1980’li yıllarda yapılmaya başlanmış; 2000’li yıllarda dijital mecraların kullanımının artmasıyla birlikte de hız kazanmış.

Metin madenciliğinin kullanıldığı alanlar arasında bankacılık sistemleri, eğitim, sağlık, sigorta, danışmanlık servisleri, devlet altyapıları ve elbette iletişim ve medya sektörleri öne çıkıyor. Veri madenciliği ve veri bilimi Türkiye’de ve dünyadaki haber merkezlerinde ciddi bir araç hâline gelmiş durumda. Tarihin en büyük veri sızıntılarından biri olan ve Türkiye kamuoyunda da geniş yankı uyandıran Panama Belgeleri’nin haberleştirilmesi için dünya çapında 400’den fazla gazeteci veri gazeteciliği yaptı.

Peki veri madenciliği medya alanında nasıl kullanılabilir? Veri ve metin madenciliği kullanarak haber doğrulamak mümkün mü? Bu sorularımızı Turnusol.org Kurucusu Dr. Suat Atan, Bahçeşehir Üniversitesi Yeni Medya Bölüm Başkanı Doç. Dr. Tirşe Erbaysal Filibeli ve Doğruluk Payı Şef Editörü Koray Kaplıca ile konuştuk.

Dr. Suat Atan: Metin madenciliği; haber metinleri, epostalar, raporlar, twitler gibi insanların doğal dille yazdıkları tüm varlıkları analiz ederek onlardan çıkarımlar yapmaya yarayan algoritmalarla ilgilenen özel bir alandır. Tweet'le

Türkiye’nin ilk yapay zekâ destekli haber doğrulama platformu Turnusol.org’un kurucusu ve metin madenciliği üstüne çalışmalar yapan akademisyen Dr. Suat Atan metin madenciliğini şöyle tanımlıyor:

“Madencilik diyebilmek için ortada değerli bir maden mevcut olmalı. Bu adlandırma İngilizcede text mining ifadesinden dilimize geçmiştir. Veri madenciliği kavramı gibi metin madenciliği kavramı da analiz ettiği veri kütlesine değer atfetmektedir. Dünyada bulunan devasa miktardaki verilerin ya da büyük verinin %80’inin metin olduğu tahmin edilmekte. Normalde veri madenciliği her türlü veri ile ilgileniyor gözükse de metinlerin birer veri tipi olarak analizi bazı sofistike metodolojiler gerektirmektedir. İşte metin madenciliği; haber metinleri, epostalar, raporlar, twitler gibi insanların doğal dille yazdıkları tüm varlıkları analiz ederek onlardan çıkarımlar yapmaya yarayan algoritmalarla ilgilenen özel bir alandır.

Somut bir örnek vermek gerekirse örneğin Twitter’da belirli bir hashtag ile ilgili yazılan twitlerdeki genel tema ya da atmosfer nedir diye bakmak istediğinizde milyonlarca twit görebilirsiniz. Metin madenciliği ile bunlar özetlenebilir. Yakın zamanda yaptığımız bir akademik çalışmadan örnek verecek olursak (henüz yayınlanmadı) Türkçe twitler içerisinde Koronavirüs’e dair twitlerin genelinde görülen duygu durumu kaygı ve yalnızlık olarak ortaya çıkıyor. Bu bulgu psikologların Koronavirüs’e dair tespitleri ile paralel.”

Dr. Suat Atan, Turnusol.org’un yaptığı çalışmaları metin madenciliği ile haberciliğin kesiştiği bir noktada gördüğünü söylüyor. Atan, Türkçe yayın yapan dijital haber medyasında ayrıştırı dil ve yanıltıcı haberleri takip ettiklerini, şu anda Beta düzeyinde olan algoritmaları somut sonuçlar elde ettiğinde bu sonuçları raporladıklarını, zaman zaman da ayrıştırı dil kullanan haber kaynakları ile iletişime geçtiklerini aktarıyor. Bunun dışında Türkçe haberlerde en sık görülen temaları da raporladıklarını, bu amaçla 250 binden fazla haberi metin madenciliği ve teknik olarak daha fazla imkân sağlayan doğal dil işleme (İng. Natural Language Processing) ile işlediklerini belirten Atan, bu yolla veri gazeteciliğinin ötesine geçilebileceğini de sözlerine ekliyor. Metin yaratma (text generation) algoritmaları ile meteoroloji, resmi duyuru veya karmaşık olmayan içeriklerin yazılabilmesi için çalışmaların sürdüğünü kaydeden Atan, bu sayede bu türde haberlerin yazımında insana daha az ihtiyaç duyulacağını öngörüyor:

“Bugün bile yapay zekâ yardımı ile yapılabilecek en önemli şeylerden biri arşivleri tarama ve içerik analizi. Örneğin makineleri eğitip çıkan haberlerin ideolojik tandansını tahmin ettirmek mümkün. Bu bir kez yapıldığında çıkan haberleri bu şekilde otomatik olarak sınıflandırarak ayrı perspektiflere bakmak olanaklı hâle geliyor.”

Atan’a göre tamamen yapay zekâ kullanarak haber doğrulama ise yanlış haberi yayılmadan anında kontrol edebilecek “harika bir rüya”. Fakat bunun çok zor olduğunu da ekliyor: “Bunun nedeni yapay zekânın zayıflığı değil ‘doğru’ tanımıdır.”

Doç. Dr. Tirşe Erbaysal Filibeli: Kodlarla binlerce, milyonlarca paylaşım analiz edilirken iğnelemelerin ne anlamda kullanıldığını tespit etmek güç. Bu nedenle bu gibi çalışmalarda tamamen doğru veriye ulaşmak zor. Tweet'le

Bahçeşehir Üniversitesi İletişim Fakültesi Yeni Medya Bölüm Başkanı Doç. Dr. Tirşe Erbaysal Filibeli günümüzde yaşanan veri savaşının gazeteciliğe etkisini ve veri madenciliğini şöyle açıklıyor:

The Economist 2017 yılında dünyanın en değerli varlığının artık petrol olmadığını veri olduğunu söyleyince, tüm dikkatler teknoloji şirketlerinin ve sosyal medya devlerinin üzerine çekildi. Biliyoruz ki dijital mecralarda bıraktığımız her bir iz depolanmakta ve makine öğrenimi algoritmalar gönüllü olarak vermiş olduğumuz bu bilgileri kullanarak bize kişiselleştirilmiş akışlar sağlanmakta.

Aslında metin ve veri madenciliğinin habercilikte kullanımı çok da yeni değil. Web 2 öncesinde de veri gazeteciliği yapılıyordu ama o zaman büyük veriden söz etmediğimiz için içinde bulunduğumuz dijital çağdaki bu gazetecilik pratiğini isimlendirme ihtiyacı doğmamıştı.

Veri gazeteciliği için basit bir arama yaparak kadına şiddete, göçe ve insan kaçakçılığına, Covid-19’un sonuçlarına yönelik haberler bulmak mümkün. Bunun yanı sıra metin madenciliği için son dönemde Twitter gibi sosyal medya platformlarında yer alan paylaşımlar da analiz ediliyor ve buradan birtakım sonuçlar içeren bulgular bulunup haberlerde kullanılabiliyor. Sosyal medya alanındaki akademik araştırmalarda da kullanılan bu yöntemin bazı kısıtları var. Öncelikle bir konu belirleniyor, sonrasında bu konuya ilişkin duygu durumunu anlamak için nasıl bir dil kullanıldığını anlamlandırmak adına kelimeler, kavramlar kodlanıyor. Örneğin x kelimesi kullanıldıysa burada pozitif bir anlam var gibi. Sonrasında ise elde edilen rakamsal veriler ile bir sonuca ulaşılıyor. Şu kadar kişi bu konuda pozitif görüş belirtmiş, bu konuyu desteklemiş gibi. Elbette bu çalışmalar yapılırken ilgili yapay zekâ temelli kodların onlara verilen bilgiler üzerinden analiz yaptığını unutmamak gerekiyor. Neticede kodları insanlar yazıyor ve insanların ön yargıları var. Ön yargılardan tamamen arınmış araştırmacılar bu çalışmayı yapsa dahi, maalesef yapay zekâya kullandığımız noktalama işaretlerinin, deyimlerin ve sözlerin aslında tamamen farklı bir anlama geldiğini öğretmek oldukça zor. Yani kodlarla binlerce, milyonlarca paylaşım analiz edilirken iğnelemelerin ne anlamda kullanıldığını tespit etmek güç. Bu nedenle bu gibi çalışmalarda tamamen doğru veriye ulaşmak zor. İlerleyen zamanlarda bu gibi çalışmalardan da daha anlamlı sonuçlar elde edilecektir.”

Koray Kaplıca: İnternet ortamındaki bilgilerin kontrol edilmesinde dengenin bozulması sansür tehlikesini de beraberinde getirebilir. Tweet'le

İngiltere merkezli doğrulama platformu Full-Fact ve Duke Üniversitesi’nin Reporter’s Lab isimli araştırma merkezi doğrulama için bir program geliştirmeye çalışıyor. Facebook da platformlarında yayılan asılsız içerikleri belirlemek için yapay zekâ kullandığını belirtti. Doğruluk Payı’nın şef editörü Koray Kaplıca ise algoritmalarla doğrulama yapma konusuna pek sıcak yaklaşmıyor. Kaplıca yapay zekâ ve algoritmalar kullanılarak haber doğrulamanın yanlış bilgi sorunu çözemeyeceğini düşünüyor:

“Makine öğrenmesi teknolojisi elbette farklı formlara giren yanlış bilgilerin tespitini yapabilecek kapasitelere erişebilir. Fakat insanın sorunlarla baş etme şeklinin bir yapay zekânın standart prosedüründen farklı işlediğini düşünüyorum. Yanlış bilgi sorunu için internet ortamındaki bilgilerin kontrol edilmesinde dengenin bozulmasının sansür tehlikesini de beraberinde getirebileceği açık. Araştırma haberlerinin de yapay zekâ destekli yapılabileceğini ama insansız bir üretimin belli ölçülerde eylemin içini boşaltacağını düşünüyorum. Yapay zekâ ve algoritma konuları tartışılırken bir kampta genel olarak algoritmaların bir makine tarafsızlığında çalışacağına yönelik bir varsayım var. Yapay zekânın öğrendiği bir ortam var ki bu da aslında insanların bizzat üretici olduğu platformlar. Eşitsizliklerin sinmiş olduğu bir internet ortamında kendi kendine öğrenen algoritma aynı eşitsizliği devam ettirecektir. Bu da bu teknolojilerin gireceği alanlara katkılarını konuşurken biraz şüpheci olmakta yarar olduğunu gösteriyor.”

Subscribe
Bildir
guest
0 Yorum
Inline Feedbacks
View all comments
İlginizi çekebilir