Yapay zekâyla görselleştirmede verimli üretkenliğin yolları

Metin tabanlı görsel üretimi, üretken yapay zekâ teknolojileri arasında en çok ses getiren yeniliklerden biri olarak öne çıkıyor. Birkaç kelimelik bir ifadeyle saniyeler içinde benzersiz görsellerin oluşturulabildiği DALL-E, Midjourney, Adobe Firefly, Imagen gibi pek çok araç, çok kısa sürede dünya çapında geniş bir kullanıcı kitlesine ulaşmayı başardı. Geliştirici teknoloji şirketlerinin en çok bu araçlara kaynak ayırırken bunlar artık birçok profesyonel iş dalının vazgeçilmezi konumunda.

Diğer yandan, hâlâ gelişim sürecinde olan bu araçların sunduğu imkânlardan en iyi şekilde faydalanmanın yolu, yapay zekâ (YZ) teknolojilerinin nasıl çalıştığını ve bu çalışma prensiplerinin ne tür sınırlar içerdiğini kavramaktan geçiyor. Bu yazımızda YZ ile görsel üretimine ilişkin teknik özellikleri ve ipuçlarını çeşitli örneklerle karşılaştırmalı olarak inceleyeceğiz.

Farklı araç, farklı sonuç

Kullanıcı arayüzleri ve çalışma mantıkları birbirine benzer olsa da her bir aracın geliştiriciler tarafından tasarlanmış kullanım amacı, veri tabanları ve görsel üretme şekilleri birbirinden ayrılıyor. Bazı araçlar daha çok profesyonel tasarım odaklıyken bazıları sanat veya eğlence amaçlı kullanımı önceliyor. Genellikle kapsamlı özelleştirme işlevlerine sahip olan profesyonel tasarım araçları ürün üzerinde daha detaylı kontrol imkânı sunarken, sanat veya eğlence odaklı araçlar hızlı ve kolay bir şekilde görsel sonuçlar üretmeyi amaçlıyor. Bu farklı amaçlar doğrultusunda özel olarak geliştirilen algoritmalar ve veri tabanları, her bir aracın farklı sonuçlar üretmesine neden oluyor.

Örneğin, gerçekçi bir fotoğraf oluşturmak istiyorsanız DALL-E ile Adobe Firefly’da alacağınız sonuçlar birbirinden farklı olacaktır. Çünkü DALL-E en iyi ihtimalle gerçekçi resimler üretebiliyorken Firefly’ın fotoğraf üretimi için özel bir işlevi bulunuyor.

DALL-E (sağa kaydırın) vs. Adobe Firefly (sola kaydırın). İngilizce Komut: A hand towards the sun in the middle of nature, afternoon (Doğanın ortasında güneşe doğru bir el, öğleden sonra):

https://jsfiddle.net/ys1cbu0h

Net ifade, basit komut

Görsel üretim araçlarının değerlendirme ve üretme becerilerinin sınırları zaman zaman hatalı, eksik veya alakasız sonuçlara yol açabiliyor. YZ’nin görselleştirme performansı, girilen komutları ne kadar anlamlandırabildiğine göre değişiyor. İşte tam bu noktada “prompt/komut mühendisliği”nin önemi ortaya çıkıyor: İsteneni elde etmenin yolu, onu YZ’nin mantığına göre en basit ve net şekilde tarif etmekten geçiyor. Üretilecek görseli tarif ederken somut, sade ve sıralı ifadeler kullanmak karışıklıkları önlemek için büyük öneme sahip. Diğer yandan çoğu araç her ne kadar birden çok dili desteklese de İngilizce harici diller zaman zaman anlam karmaşasına yol açabiliyor. Bu nedenle komut yazımında İngilizcenin tercih edilmesi verimi artıran faktörlerden biri.

Türkçe komut: Başını ellerinin arasına almış, çok düşünceli ve ciddi gözüken bir adam (sağa kaydırın) vs. İngilizce komut: A man with his head in his hands, looking very thoughtful and serious (sola kaydırın), Adobe Firely ile oluşturulmuştur:

https://jsfiddle.net/fw4ch17a

Özgün detay, zengin görsel

Görsel üretim araçları, verilen komutları üzerinde eğitildikleri büyük veri setlerindeki bilgilerle karşılaştırmalar yaparak görselleştirir. Bu süreç her defasında baştan tekrarlandığı için sürekli benzersiz sonuçlar verir. Dolayısıyla nesneler, yer, zaman, açı, görsel türü, kompozisyon, akım gibi öğelerin her birinin belirtildiği komutlar deneme yanılma yöntemiyle daha tatmin edici sonuçlar verecektir. Özellikle gerçek kişileri, kuruluşları veya olayları canlandırmak için bunları direkt olarak görselleştirmeye çalışmak yerine önemli ayrıntılarıyla dolaylı şekilde tarif etmek daha etkili bir yöntem. Soyut veya duygusal içerikler için ise öğeleri hikâyeleştirerek açıklamak bir başka seçenek. Özetle, bir görselin daha özgün ve istenene yakın şekilde oluşturulmasının yolu detaylardan geçiyor.

“Mutlu bir adam” (sağa kaydırın) vs. “Gün ışığıyla aydınlanan ofisinde boydan pencere önünde, bilgisayar başında oturan ve gülümseyen bir adam, akşamüstü, göğüs plan”, DALL-E ile oluşturulmuştur:

https://jsfiddle.net/dw0v2z6j

Daraltılmış kapsam, hatasız üretim

Yapay zekâ teknolojilerinin becerileri, birçok görev için beklentilerin oldukça uzağında kalabiliyor. Bu handikap görsel üretim araçlarında daha belirgin durumda. Dolayısıyla, komutların olabildiğince detay içermesi olumlu sonuçlar doğursa da içeriğin ayrıntılara boğulması hata ihtimalini de o kadar artırıyor. Öğelerin kapsamının yapay zekânın üretkenlik sınırları doğrultusunda sınırlandırılması, görseldeki yırtılmaları ve bozulmaları önleyecektir.

Kalabalık bir insan topluluğunu, yoğun bir trafiği, sık binalardan oluşan bir mahalleyi vb. tüm detaylarıyla görselleştirmeye çalışmak genellikle işe yaramayabilir. Bu tarz çok kapsamlı unsurlar ancak görselin bir veya birkaç nesneye odaklanması istendiğinde arka plan öğesi olarak kullanılabilir. Ayrıca, negatif alan, üçe bir kuralı gibi çeşitli kompozisyonlar görselde odağı belirlemede yardımcı olabilir.

“Kalabalık bir kutlama” (sağa kaydırın) vs. “Birbirine sarılmış bir çift, omuz plan. Arka planda kalabalık bir kutlama, bulanık, gece”, İlk görselde özellikle uzuvlardaki bozulmalar dikkat çekiyor. Imagen ile oluşturulmuştur:

https://jsfiddle.net/8r63eazj

Tüm bunlara ek olarak, bu araçlar veri setlerinin içerdiği önyargı bakımından da çeşitlilik gösteriyor. Bu, bazı durumlarda beklenmedik veya istenmeyen sonuçlara neden olabilir. Özellikle kültürel konularda stereotipleştirmeden kaçınmak için daha gelişkin yapay zekâ modelleriyle çalışmakta yarar var.

Görselleri yalnızca estetik objeler olarak değil, aynı zamanda hikâyeler anlatan araçlar olarak da kullanabilirsiniz. Yapay zekâya belirli bir hikâye anlatısını veya duygusal ifadeyi görselleştirmesi için talimatlar verin. Bu, görsellerinizin daha etkili ve anlamlı olmasını sağlayabilir.

Yazar hakkında

Onur Erdoğan

İstanbul Bilgi Üniversitesi, İletişim Fakültesi, Yeni Medya ve İletişim bölümü son sınıf öğrencisi olarak lisans öğrenimini sürdürüyor. 2021-2023 yılları arası KRT TV’nin televizyon haber odası ve dijital medya ekibinde editör olarak çalıştı. Basın, medya ilişkileri, izleyici araştırmaları ve veri okuryazarlığı konularıyla ilgileniyor.