Lise 11. sınıf öğrencisi Mehmet Efe Çetinkaya yazdı: Yapay Zeka ile Görsel Üretimi

Yapay Zeka Sandığınız Kadar Yaratıcı Değil!

Elbette yapay zeka sihir yoluyla bir anda istediğimiz görselleri üretmiyor. Görsel ve videoların nasıl üretildiğini anlamak adına kısaca yapay zekanın nasıl eğitildiğine göz atalım. Modeller milyonlarca görsel ve video verisi üzerinden eğitiliyor; video ve görselleri vektörize ederek renk kullanımlarını, tekniklerini ve stillerini öğreniyor. Anlayacağınız, yapay zekanın sıfırdan tamamen farklı bir sanat akımı oluşturması veya eğitim veri setinde benzeri bulunmayan bir görseli üretmesi şu anda mümkün değil. ChatGPT’ye, “Bana ağzına kadar dolu bir şarap kadehi çiz” istemini girerek yapay zekanın bahsettiğim sınırlılığını test edebilirsiniz. İnternette pek fazla ağzına kadar dolu şarap görseli olmadığı için yapay zeka daha önceden görmediği bu talebi doğru görselleştirememekte.

Sonuç olarak yapay zeka modelleri geribildirimden öğrenme gibi birçok teknikle hatalarından ders çıkarabilse de, sanat alanında hala insan yönlendirmesinin önemi büyük olmakta. Sanat alanında gelişmek için insan duygu ve yorumlamasına ihtiyaç duyan yapay zeka olağanüstü yaratıcı bir araç olmaktan çıkıp adeta insan ile iş birliği içinde çalışan bir sanatçı görevi görmekte.

Bu gördüğünüz eserin adı Theatre D’opera Spatial. Bu eser, 2022 Colorado Eyalet Sanat Fuarı Güzel Sanatlar Yarışması’nda (2022 Colorado State Fair Fine Arts Competition) dijital sanat kategorisinde birincilik ödülünü kazandı. Peki bu ve benzeri görseller tam olarak nasıl oluşturulmakta?

Etiketleme ve Görsel Oluşturma

Yapay zeka modelleri esasen dünyayı bizden farklı görmektedir. Her görseli sayılar ve etiketler olarak görüp işlerler. İnternetteki milyarlarca görsel ile eğitilirken her resmin ne olduğunu tanımlayan bir etiket ile o resmi öğrenirler. Veri etiketleme (Data Labeling) adı verilen bu süreç kimi zaman önceden var olan otomasyonlarla kimi zaman ise insanlar tarafından yapılır. Örneğin kedi görseli ile “Kedi, “Hayvan”, “Beyaz”, “Tüylü”, “Sevimli” etiketleri eşlenmektedir. Böylelikle yapay zekaya bana sevimli bir hayvan resmi oluştur dediğinizde size bir kedi resmi ile dönüt vermesi muhtemeldir. Veri etiketleme süreci yazıdan görsel üreten modellerin bel kemiğidir ve sonucunda oluşacak modeli büyük ölçüde etkiler. MIT araştırmacıları en popüler görsel eğitim veri setlerinden olan ImageNet’de %6’lık bir hata olduğunu öne sürdü. Ayrıca veri etiketleme sürecinde düşük maliyetli işçilerin ağır şartlarda çalıştırıldığı yönündeki iddialar da yapay zekanın etik boyutunu sorgulatan bir başka tartışma konusu.

Anlayacağınız modeller sıfırdan bir kedi resmi çizmez, milyonlarca kedi görselinin ortalamasını alarak istatiksel sonuçlar oluşturur. Bu nedenle yapay zekaya bana bir kedi görseli oluştur istemini 10 kere girmeniz halinde dahi hiçbiri birbirinin tıpatıp aynısı olmayacaktır. Oluşturulan görseller farklı olasılıkların birleşmesiyle oluşan sonuçlardır. Bu da dolu bir şarap kadehinin görselinin oluşturulamamasının sebebidir. Olasılık havuzunda yarısına kadar dolu şarap kadehi görseli daha fazla bulunduğundan, modelin istatistiksel olarak “şarap” etiketi ile “dolu” etiketini bir arada sunması zorlaşmaktadır. Öte yandan modelin veri setinde birebir örneği bulunmayan ve yaygın olmayan görsel üretme taleplerinde tutarlılık ve doğruluk oranları daha da düşecektir. Bunu kendi yaptığım küçük çaplı bir deney ile test ettim.

Google tarafından üretilmiş olan Gemini AI Nano Banana Pro modeline “Pantolon giyen mor bir köpek çiz” istemini üç ayrı sohbette yazdım. Sizin de denemeniz durumunda şaşıracağınızdan emin olduğum deneyin sonuçları ise aşağıdaki şekilde:

Görsellerde de görüldüğü üzere yapay zeka modeli “mor” ve “köpek” kelimesinin veri setinde pek çok örneğini barındırmakta ve başarıyla çizmekte. Ancak daha önceden pantolon giyen bir köpek görmediğinden pek çok farklı pantolon modeli üretmekte. Bu deneyin de gösterdiği üzere yapay zeka hayal gücünden yararlanmaz, aksine olasılıklar dağılımını kullanır. Bildiği kavramların görselini oluştururken, hakim olmadığı kombinasyonları ise tahmin etmektedir.

Yapay zeka görselleri çoğunlukla sanılanın aksine piksel piksel işlemez. Bunun yerine latent uzay adı verilen, çok daha küçük ve yoğun matematiksel vektörlerin bulunduğu bir alanda çalışır. Latent uzay eski bir haritaya benzetilebilir: bazı bölgeleri net çizilmiş ve çok sayıda örnekle doldurulmuşken, bazı bölgeleri ise az veri nedeniyle belirsiz ve boş kalmıştır. Yapay zeka bir istem aldığında, bu harita üzerinde vektörler arasında dolaşarak istenen kavrama en yüksek istatistiksel olarak benzeyen görsel noktayı bulur ve çıktıyı bu noktadan üretir. İnsanın ise latent uzaya etkisi Dalarna ve Michigan State üniversitelerinin yaptığı araştırmada ortaya konulmuştur. İnsan girdisi olmadan yapay zekadan görsel üretildiğinde hep tekrarlanan 12 ana tema gözlendi. Bu da yapay zekanın hayal gücünün insan ile birleştiğinde daha güçlü olduğunu kanıtlamaktadır. Cornell Üniversitesi’nde yapılan bir başka araştırmaya göre ise yapay zekanın tek başına yarattığı fikirlerin özgürlüğü, insan ile ortaklaşa çalıştığında ürettiklerine kıyasla yaklaşık %43 daha azdır.

Sonuç olarak yapay zeka bizim ürettiğimiz görseller olmadan bir sanatçı olamaz. Bu yeni teknoloji şüphesiz sanatsal değerlerimizi yeniden yazıyor ve dönüştürüyor. Bu değişime ayak uydurmak için sanatseverlerin yapması gereken ise, yapay zekayı bir iş arkadaşı olarak görmek ve gerektiğinde ona danışmak. Yapay zekanın kurduğu yapay nöral linkler insanınkinden güçlü olabilir ancak insan sezgisi ve duyguları hala bu yeni teknolojiden üstün. Yapay zeka binlerce melodi veya resi üretebilir ancak bu melodiye anlam yükleyen hala insandır. Yapay zeka sanatı öldürmüyor, aksine herkesin erişebildiği yeni sanatsal bir zihin yaratıyor.

Mehmet Efe Çetinkaya