Ressam Yapay Zekâ: DALL E

Yapay zekâlar yeni sınırlar “keşfediyor” ve bu sınırları zorluyor. Şimdi diyorsundur yine ne gelişme var yapay zekâ alanında diye hemen açıklayalım. OpenAI şirketi yeni bir yapay zekâ ile sanat alanına yöneliyor diyebilirim.

Yapay zekâ, sanat ve bilim arasında bir köprüdür.
Pamela McCorduck

OpenAI Şirketi

2015 yılının sonlarında kurulan ve kar amacı gütmeyen yapay zekâ araştırma şirketi olan OpenAI’ın genel amacı insanlığa fayda sağlayabilecek yapay zekâ hakkında araştırma yapmaktır ve bunun üzerine kurulmuştur.

Elon Musk, Sam Altman ve başka yatırımcılarla kurulan şirket bağışlarla çalışmalarını sürdürmektedir. Şirketin çalışmaları genel olarak pekiştirmeli öğrenmeye dayalı olup bazı uygulama ve ürünler bulunmaktadır: Gym, RoboSumo, Tartışma Oyunu, OpenAI Five, Dactyl, GPT2, GPT3…

 

Üzerinde "OpenAI" yazan bir mağaza vitrini

Örneğin “RoboSumo” robotlar başlangıçta nasıl yürüyecekleri konusunda bilgisizdir ve hareket etmeyi öğrenme ve rakip “ajanın” halka dışına itme hedefleri verilmiştir. Bu süreçte ajanlar değişen koşullara nasıl adapte edileceğini öğrenir. Daha sonra bu sanal ortamdan çıkarılır şiddetli rüzgârlarla yeni bir sanal ortama yerleştirilir ve kendini nasıl dengeleyeceğini öğrenerek dik durur. Şirketten Igor Mordatch, ajanlar arasındaki rekabetin, bir ajanın rekabet bağlamı dışında bile çalışabilme yeteneğini artırabilecek bir zekâsal “silahlanma yarışı” yaratabileceğini düşünüyor. Ürkütücü ama ilgi çekici bir yorum değil mi?

OpenAI’ın Yeni Üyesi DALL E Kim?

OpenAI’ın ocak ayında yayınladığı yazısı ve DALL E tarafından yapılan çizimlerle kendini sahneye atan bu yeni yapay zekâ yazılı tanımlar üzerinden görseller oluşturabiliyor. Tek yapmamız gereken nasıl bir görsel istediğimizi yazmak ve DALL E’ye göndermek. Peki, bu zekâ nasıl çalışıyor?

GPT-3, insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan özbağlanımlı dil modelidir.

Adını Salvador Dali ve Pixar’ın “Wall E” isimli animasyon filminden esinlenerek alan DALL E, metin-görüntü çiftlerinden oluşan bir veri kümesi kullanarak metin açıklamalarından görüntüler oluşturmak üzere eğitilmiş GPT-3‘ün 12 milyar parametreli bir sürümüdür. Dönüştürücü dil modeli olan DALL E hem metni hem de resmi 1280 sembole kadar içeren tek bir veri akışı olarak alır ve tüm sembolleri birbiri ardına oluşturur. DALL E’nin aynı zamanda bir sahnenin bakış açısı ve bir sahnenin oluşturulduğu 3B stil üzerinde kontrole izin verir.

Yüzlerce farklı resim üretebilen DALL-E, aynı zamanda cümle içerisindeki pozisyon bilgilerini, malzemeleri, nesneler arası ilişkileri ve nesnelerin kendileriyle ilgili özelliklerini diğerleriyle karıştırmadan anlayıp işleyebiliyor. Kamera açısı, doku, yansıma gibi özellikler konusunda iyi performans sergileyen DALL E; modelin, nesnelerin iç özelliklerine (örneğin bir cevizin içi) ve bulunduğu bağlamların bilgisine de oldukça hâkim olduğu görülüyor.

DALL E Çalışmaları

Avokado şeklinde bir koltuk

Verilen ifadeleri resimleyen bu yapay zekânın öznitelikleri kontrol ederek (renk, şekil, konum vb.) bir veya birden çok nesnenin resmini çizebilir. Perspektif ve 3 boyutlu görselleştirmelerle resimlere gerçeklik katabilir ve sanat bağlamında illüstrasyon çalışmaları ile çizimlere farklı hava katabilir.

Bir yapının içini ve dışını da görselleştirebilen DALL E yetersiz olan tanımlamaları da çözebiliyor ve bunu stil, ortam ve zamanı değiştirerek aynı nesneyi farklı durumlarda çizerek yapıyor.

Güneş doğarken bir tarlada oturan bir Kapibara resmi

Moda ve tasarımda da yer alan zekâ hem gerçek hem hayalî nesneleri de tanımlayabilir. Bu yeteneği iki durumda gözlemleyebiliriz: nitelikleri çeşitli kavramlardan hayvanlara aktarmak ve ilgisiz kavramlardan ilham alarak ürün tasarlamak.

Turuncu ve siyah pazen gömlek giymiş bir erkek manken
İki beyaz koltuklu bir oturma odası ve bir Kolezyum tablosu. Resim modern bir şöminenin üzerine monte edilmiştir.

Coğrafi yerleri de tanımaya başlayan yapay zekâ bölgedeki önemli noktaları ve yapıları öğrendiğini hatta zamansal bilgi sayesinde zaman içinde değişen kavramlar hakkında da bilgisini ve çizimlerini görebiliyoruz.

Alamo meydanı, San Francisco fotoğrafı, geceleyin bir sokaktan
Arptan yapılmış bir salyangoz. Arp dokusuna sahip bir salyangoz.
Son Söz

OpenAI’ın çalışmaları ve DALL E’nin “eserleri” beraberinde bazı sorular doğuruyor. Tabi aşina olduğumuz sorular bunlar ama şuna dikkat çekmek istiyorum. Stok fotoğraf konusunda bazen sıkıntı çekebiliyoruz: aradığımız fotoğrafı bulamamak, telif haklarının olması vs. ancak DALL E bu duruma ilaç gibi gelebilir ve sayısız farklı resimler oluşturabilir.

Teknolojiyi artık sanat dalında da rastlayabiliyoruz hem de olduğundan daha fazla. Elbette duygular açısından bir insanla boy ölçüşebileceğini tartışabiliriz hatta “David Cope’un Müzisyen Bilgisayarları” adlı yazımda bahsettiğim gibi insanî duygular hissedebiliriz yapay zekâların eserlerinde. Tuvale vurulmamış bir fırçadan da keyif alabiliriz neticede hepsinin yolu sanata çıkıyor. Değil mi?

Yapay zekâ ile zekânın ilişkisi, yapay çiçeklerin çiçeklerle olan ilişkisi ile aynıdır. – David Parnas

Bebek penguen üzerinde yılbaşı kostümüyle gitar çalarken

Teknoloji ile kalın, bizimle kalın!

KAYNAKÇA
Bir cevap yazın