Ölümünden önce yayınladığı 10/23/24 tarihli When does generative AI qualify for fair use? başlıklı yazısından çevrilmiştir.
Giriş
Üretken modeller, eğitim girdilerinden herhangi biriyle önemli ölçüde benzer çıktılar nadiren üretse de, bir üretken modelin eğitilmesi süreci, telif hakkına sahip verilerin kopyalarının oluşturulmasını içerir. Bu kopyalar yetkisizse, bu durum, modelin kullanımının “adil kullanım” olarak değerlendirilip değerlendirilmeyeceğine bağlı olarak, telif hakkı ihlali olarak görülebilir. Adil kullanım vaka bazında belirlendiği için, üretken yapay zekanın ne zaman adil kullanım kapsamına girdiğine dair genel bir ifade yapılamaz. Bunun yerine, ChatGPT’nin eğitim verilerini nasıl kullandığına dair özel bir analiz sunacağım, ancak aynı temel şablon, diğer birçok üretken yapay zeka ürünü için de geçerli olacaktır.
ChatGPT
Aşağıda, ChatGPT’nin eğitim verilerini kullanımına dair bir analiz sunuyorum. Aynı yaklaşım, diğer üretken yapay zeka modelleri için de geçerli olabilir.
Adil kullanım, 1976 Telif Hakkı Yasası’nın 107. Maddesi’nde tanımlanmıştır. Aşağıda bu maddeyi tam metin olarak alıntılıyorum:
Bölüm 107
Madde 106 ve 106A’nın hükümlerine bakılmaksızın, eleştiri, yorum, haber raporlama, öğretim (sınıf kullanımı için birden fazla kopya dahil), burs veya araştırma gibi amaçlarla telif hakkıyla korunan bir eserin adil kullanımı, telif hakkı ihlali sayılmaz. Herhangi bir davada yapılan kullanımın adil kullanım olup olmadığını belirlerken dikkate alınacak faktörler şunlardır:1- Kullanımın amacı ve niteliği, ticari bir niteliğe sahip olup olmadığı veya kâr amacı gütmeyen eğitimsel amaçlarla yapılıp yapılmadığı;
2- Telif hakkıyla korunan eserin niteliği;
3- Kullanılan kısmın miktarı ve eserin tamamına göre önemi;
4- Kullanımın, telif hakkıyla korunan eserin potansiyel piyasası veya değeri üzerindeki etkisi.
Bir eserin yayımlanmamış olması, yukarıdaki tüm faktörler dikkate alındığında, adil kullanım sonucunun bulunmasını tek başına engellemez.
Adil kullanım, tüm dört faktörün tartıldığı bir dengeleme testidir. Pratikte, faktörler (4) ve (1) genellikle en önemli olanlardır, bu nedenle önce bunları tartışacağım. Faktör (2) genellikle en az önemli olanıdır ve bunu kısaca tartışacağım. Faktör (3) genel olarak yanıtlanması biraz teknik olduğu için en son ele alacağım.
Şimdi bu faktörleri ChatGPT örneğinde inceleyelim.
Faktör (4): Kullanımın telif hakkıyla korunan eserin potansiyel piyasası veya değeri üzerindeki etkisi
ChatGPT’nin eğitim verileri üzerindeki piyasa değeri etkileri, kaynaktan kaynağa büyük ölçüde değişecektir ve ChatGPT’nin eğitim verileri halka açık olmadığından, bu soruya doğrudan cevap veremeyiz. Ancak, bunun nasıl görünebileceğini nicel olarak belirlemeye çalışan birkaç çalışma yapılmıştır. Örneğin, “Üretken Yapay Zekanın Çevrimiçi Bilgi Toplulukları Üzerindeki Sonuçları” adlı çalışmada, ChatGPT’nin piyasaya sürülmesinin ardından Stack Overflow’a gelen trafiğin yaklaşık %12 oranında azaldığı bulunmuştur:
(Araştırmadan çeşitli görseller ve sonuçlar sunulmuştur.)
Bu etkiler evrensel olmayacaktır — aynı çalışma Reddit’teki web sitesi etkinliğinde benzer düşüşler bulamamıştır — ancak Stack Overflow’un ChatGPT’nin piyasaya sürülmesinden etkilenen tek web sitesi olmadığı açıktır. Örneğin, ödev yardımı sitesi Chegg, ChatGPT’nin büyümesini olumsuz etkilediğini bildirdikten sonra hisselerinde %40’lık bir düşüş yaşamıştır. Bu, ChatGPT’nin Stack Overflow veya Chegg üzerinde eğitildiği veya Stack Overflow ve Chegg üzerindeki piyasa etkilerinin kötü olduğu anlamına gelmez — ancak ChatGPT’nin eğitim verileri üzerinde piyasa etkileri açıkça olabilmektedir.
OpenAI ve Google gibi model geliştiriciler de, modellerini telif hakkıyla korunan veriler üzerinde eğitmek için Stack Overflow, Reddit, The Associated Press, News Corp gibi kuruluşlarla birçok veri lisanslama anlaşması imzalamıştır. Bu veriler üzerinde eğitimin “adil kullanım” kapsamına girdiği varsayılsa, bu tür anlaşmaların neden yapıldığı belirsizdir, ancak bu konu bir yana, bir veri lisanslama pazarının varlığı göz önüne alındığında, benzer bir lisanslama anlaşması olmadan telif hakkıyla korunan veriler üzerinde eğitim yapılması da bir tür piyasa zararıdır çünkü bu, telif hakkı sahibini bir gelir kaynağından mahrum bırakır.
Eğitim için veri lisanslamaya olan talep, piyasa değerini daha da artırabilir. Google gibi firmalar, hak sahipleriyle anlaşmalar yapmak yerine potansiyel yasal yükümlülüklerden kaçınmak için içerik kaldırma taleplerine yanıt vermektedir. Bu durum, eğitim veri setlerinde içeriklerin yer alıp almamasının ticari bir değer taşıdığını göstermektedir.
Faktör (4) kapsamındaki yasal değerlendirmeler karmaşıktır. ChatGPT’nin eğitimi, yalnızca sınırlı sayıda veri kümesini etkilemiş gibi görünse de, bu faktörün tamamen göz ardı edilmesi imkansızdır. Bu durum, modelin adil kullanım savunması üzerinde olumsuz bir etkide bulunabilir.
Faktör (1): Kullanım amacı ve niteliği, bu kullanımların ticari bir niteliğe sahip olup olmadığını ya da kâr amacı gütmeyen eğitim amaçlı olup olmadığını içerir.
Telif hakkıyla korunan bir eserden alıntı yapmak ve bu alıntının eserin piyasa değerine zarar vermesi, her zaman adil kullanım kapsamı dışında kalmaz. Örneğin, bir kitap eleştirmeni, bir kitabın eleştirisini yaparken bölümlerini alıntılayabilir. Eleştiri, orijinal kitabın piyasa değerine zarar verebilse de bu alıntılar yine de adil kullanım olarak değerlendirilebilir. Bunun nedeni, eleştirinin orijinal kitaptan farklı bir amaca hizmet etmesi ve eserin yerini alması veya piyasada onunla rekabet etmesi olarak görülmemesidir.
Bu ayrım — bir eserin yerini alma (substituting) ve almama (non-substituting) kullanımları arasındaki fark — aslında 1841 tarihli Folsom v. Marsh davasından kaynaklanır. Bu davada, sanık, George Washington’un biyografisinin bölümlerini alıntılayarak kendi versiyonunu oluşturmuştu. Mahkeme şu şekilde karar vermişti:
[Bir eleştirmen] gerçekten ve tamamen makul ve adil bir eleştiri amacıyla orijinal eserden geniş çapta alıntı yapabilir. Ancak, eğer eleştirmen bu alıntıları, eleştirmek yerine orijinal eserin yerini almak ve incelemeyi orijinal eser yerine geçecek şekilde sunmak amacıyla yapıyorsa, bu tür bir kullanım yasa dışı bir korsanlık olarak değerlendirilecektir.
Son yıllardaki birçok davada, birinci faktör “dönüştürücülük” (transformativeness) bağlamında değerlendirilmiştir. Örneğin, Authors Guild v. Google davasında İkinci Daire, Google Books için şu şekilde karar vermiştir:
Google’ın telif hakkıyla korunan eserleri izinsiz olarak dijitalleştirmesi, bir arama işlevselliği oluşturması ve bu eserlerden kısa metin parçalarını görüntülemesi, ihlal oluşturmayan adil kullanımlardır. Kopyalamanın amacı son derece dönüştürücüdür, halka açık metin görüntülemesi sınırlıdır ve bu metinler orijinal eserlerin korunan yönleri için önemli bir piyasa alternatifi sağlamaz.
Yüksek Mahkeme, 2023 tarihli Andy Warhol Foundation for the Visual Arts v. Goldsmith davasında “dönüştürücülük” kavramının önemini şu şekilde açıklamıştır: Bunun yalnızca kullanım amacının orijinalden farklı olup olmadığını belirlemek için gerekli ölçüde değerlendirilmesi gerektiğini ve birinci faktörün, “kullanıcının orijinal eserle ne yaptığını, yani kullanımın niteliğini” objektif olarak sorguladığını belirtmiştir. Mahkeme ayrıca şu açıklamayı yapmıştır:
Birinci faktör, telif hakkının temel sorunu olan yerini alma (substitution) problemini ele alır ve şu şekilde özetlenebilir: Bir eserin adil kullanım kapsamında değerlendirilmesi, ikincil kullanımın telifli eserden ne derece farklı bir amaca hizmet ettiğini inceler. Farklılık derecesi, kullanımın ticari niteliğiyle dengelenmelidir. Eğer bir orijinal eser ile bir ikincil kullanım aynı veya çok benzer amaçlara hizmet ediyorsa ve ikincil kullanım ticari nitelikteyse, başka bir gerekçe olmadıkça, birinci faktör genellikle adil kullanıma karşı çalışır.
ChatGPT, ticari bir ürün olduğuna göre, ilk soru şu olabilir: ChatGPT, eğitim verilerindeki eserlerle benzer bir amaca mı hizmet ediyor?
Pratikte, ChatGPT kadar geniş bir ürünün “amacı” ya da tüm internetin “amacı” hakkında yorum yapmak zordur. Daha iyi bir çerçeveleme şu olabilir: ChatGPT’nin piyasaya verdiği zararlar, orijinal eserlerin yerine geçerek rekabet etmekten mi kaynaklanıyor? Yoksa bir kitap eleştirmeninin bir kitaba etkisi gibi dolaylı bir etkiden mi?
Bence açıkça görülüyor ki ChatGPT’nin piyasaya verdiği zararlar çoğunlukla yerine geçen ürünler üretmesinden kaynaklanıyor. Örneğin, “0.1 + 0.2 neden kesirli aritmetikte 0.30000000000000004 eder?” gibi bir programlama sorusu sorsak, ChatGPT’den aşağıdaki cevabı alabiliriz. Bunun yerine Stack Overflow’dan sağdaki cevabı arayabilirdik:
Bu yanıtlar birebir aynı değil, ancak temel olarak aynı amaca hizmet ediyorlar. Bu tür bir kullanımın piyasaya verdiği zarar, Stack Overflow gibi sitelere olan web trafiğinin azalmasıyla ölçülebilir.
Bu, tam bir ikame (yerine geçen) kullanım örneğidir, ancak gerçekte ikame, bir derece meselesidir. Örneğin, aşağıdaki soruların mevcut yanıtları, ne kadar bağımsız düşünce uygulamak istediğimize bağlı olarak, orijinal sorumuzu da yanıtlayabilir:
- “0.2 + 0.4 neden kesirli sayılarda 0.60000000000000008 eder?”
- “Ondalık sayılar kesirlerle nasıl temsil edilir?”
- “Kesirli sayılar nasıl hesaplanır?”
Faktör (2): Telif hakkıyla korunan eserin niteliği
Bu faktör, eğitimin ham veriler üzerinde mi yoksa yaratıcı eserler üzerinde mi yapıldığına bakar. ChatGPT gibi modeller, genellikle her iki tür veriyi de kullanır. Örneğin, eğitim veri setlerinde akademik metinler, şiirler, haber makaleleri gibi yaratıcı eserler yer alabilir. Yaratıcı eserlerin kullanımı, adil kullanım iddiasını zayıflatabilir çünkü bu tür içeriklerin daha yüksek bir telif hakkı koruma standardı vardır.
Faktör (3): Kullanılan kısmın miktarı ve eserin tamamına göre önemi
Bu faktör iki şekilde yorumlanabilir:
- Modelin girdileri, telif hakkına sahip verilerin tam kopyalarıdır, bu nedenle “kullanılan miktar” telifli eserin tamamıdır. Bu durum, “adil kullanım” aleyhine bir faktör olarak değerlendirilebilir.
- Modelin çıktıları, neredeyse hiçbir zaman telifli verilerin kopyaları değildir, bu nedenle “kullanılan miktar” neredeyse sıfırdır. Bu durum, “adil kullanım” lehine bir faktör olarak değerlendirilebilir.
Ancak, (2) numaralı yorum tam olarak doğru değildir çünkü telif hakkının amacı, bir yazarın ürettiği kesin eserleri korumak değildir (aksi takdirde, bir telifli eserde küçük değişiklikler yaparak bu hakları atlatmak çok kolay olurdu). Telif hakkının asıl koruduğu şey, bir yazarın yaptığı yaratıcı seçimlerdir.
Kolej sanatı (kolaj) bu ayrımın basit bir örneğidir: Bir kolaj sanatçısı, kullandığı temel eserler için telif hakkı koruması elde edemez, ancak bu eserleri düzenleme biçiminde yaptığı yaratıcı seçimler için telif hakkı koruması kazanır.
Benzer şekilde, tipik bir roman yazarı yeni kelimeler icat etmez, ancak mevcut kelimeleri bir araya getirme seçimleri için yine de telif hakkı koruması elde eder. Bir romandaki her kelime bir seçim sonucudur — yani bir dizi olası sonuçtan birini seçme eylemi — ve telif hakkıyla korunan şey, bu seçimlerin toplamıdır. Bu seçimleri nicel olarak bilgi teorisi kullanarak inceleyebiliriz.
Bir seçim biriminin ölçü birimi bir bilgi biti olarak tanımlanır ve bu, tek bir ikili seçimi temsil eder. Bir dağılımdaki ortalama bilgi miktarı, o dağılımın entropisidir ve bit cinsinden ölçülür (Shannon, tipik İngilizce metnin entropisini yaklaşık olarak karakter başına 0.6 ile 1.3 bit arasında hesaplamıştır). İki dağılım arasındaki paylaşılan bilgi miktarı, onların karşılıklı bilgisi (MI) olarak adlandırılır ve şu şekilde ifade edilebilir:
MI(X, Y) = H(X) – H(X|Y)
Burada X ve Y rastgele değişkenlerdir, H(X) X’in marjinal entropisidir ve H(X|Y) Y verildiğinde X’in koşullu entropisidir. Eğer X bir orijinal eser, Y ise onun bir dönüşümü ise, karşılıklı bilgi MI(X, Y), Y’nin oluşturulmasında X’ten ne kadar bilginin alındığını gösterir. Faktör (3) bağlamında, özellikle, orijinal eserdeki bilgi miktarına göre karşılıklı bilgiye (relative mutual information – RMI) odaklanırız ve bunu şu şekilde tanımlarız:
RMI = MI(X, Y) / H(X)
Görsel olarak, aşağıdaki diyagramda kırmızı daire orijinal eserdeki bilgiyi, mavi daire yeni eserdeki bilgiyi temsil eder. Karşılıklı bilgi (RMI), kırmızı dairenin alanına göre kesişim alanıdır:
(Şekil burada yer alır.)
Generatif yapay zeka bağlamında, X olası bir eğitim veri setini, Y ise bir modelin çıktı koleksiyonunu temsil eder ve T, generatif bir modelden eğitim ve örnekleme sürecini ifade eder:
RMI = MI(T(X), X) / H(X)
Pratikte, H(T(X)) — eğitilmiş bir generatif modelin çıktı entropisi — genellikle kolayca tahmin edilebilir. Ancak, H(X) — eğitim dağılımının gerçek entropisi — tahmin edilmesi zor ama mümkündür.
Bir varsayım olarak H(X) ≥ H(T(X)) kabul edebiliriz. Bu makul bir varsayımdır çünkü eğitim dağılımına mükemmel şekilde uyan generatif modellerde H(X) = H(T(X)) olur. Aşırı öğrenme durumunda ise model veri noktalarını ezberler ve aynı eşitlik geçerli kalır.
Bu bağlamda, RMI ≥ H(T(X)) / H(X) şeklinde bir alt sınır belirlenebilir.
Bu sınırın temel sezgisi, düşük entropili model çıktılarının, modelin eğitim verilerinden bilgi içerme olasılığının daha yüksek olduğudur. Aşırı uçta, bu “ezberleme” (regurgitation) problemidir; burada bir model eğitim verilerinin bölümlerini deterministik olarak üretir. Ancak, deterministik olmayan örnekler bile eğitim verilerinden türetilmiş bilgiyi bir dereceye kadar kullanabilir.
Model çıktılarının entropisinin neden gerçek entropiden düşük olması gerektiğine dair temel bir neden yoktur, ancak pratikte geliştiriciler düşük entropili çıktıları tercih eder. Bunun temel nedeni, yüksek entropili çıktılardaki rastgeleliğin tutarsızlıklara veya yanlış bilgilere yol açabilmesidir.
Aşağıda, entropiyi azaltan bazı eğitim ve dağıtım prosedürlerini listeleyeceğim, ancak bu liste tam değildir:
Eğitim Sırasında Veri Tekrarı
Modelin eğitim sürecinde belirli bir veri noktasının birden fazla kez gösterilmesi yaygın bir uygulamadır. Bu her zaman sorun yaratmasa da, aşırı yapıldığında model, veri noktasını ezberleyebilir ve bu noktayı dağıtım sırasında tekrar üretebilir.
Bunun basit bir örneğini, GPT-2 modelini Shakespeare’in eserlerinin bir alt kümesiyle ince ayar yaparak görebiliriz. Aşağıda, token başına düşen entropi değerleri gösterilmektedir; kırmızı metin daha rastgele, yeşil metin ise daha deterministik çıktıları temsil eder.
İlk eğitim turunda, modelin “First Citizen:” ifadesine verdiği tamamlama çıktıları yüksek entropili ve yenidir, ancak aynı zamanda tutarsızdır. Ancak, her veri noktasına on kez eğitim yaptırıldığında, model Coriolanus oyununun başlangıcını ezberler ve bu ifadeye verilen yanıt olarak birebir tekrar eder.
Beş tekrar yapıldığında ise model, ezberleme ve yaratıcı üretim arasında bir şey yapar — çıktılarının bazı kısımları yeni, bazı kısımları ise ezberlenmiştir ve ikisi bir arada harmanlanmıştır. İngilizce metinlerin gerçek entropisinin yaklaşık karakter başına 0,95 bit olduğunu varsayarsak, bu çıktılardaki bilginin yaklaşık %’sinin eğitim veri setinden geldiğini söyleyebiliriz.
Sonuç
Adil kullanım analizi, büyük ölçüde modelin eğitimi sırasında verilerin nasıl kullanıldığına, hangi tür verilerin dahil edildiğine ve bu verilerin piyasadaki etkilerine bağlıdır. ChatGPT gibi modeller, eğitiminin büyük ölçüde dönüştürücü olduğunu iddia edebilirken, bazı telif hakkıyla korunan içeriklerin kullanımının adil kullanım kapsamına girip girmediği, dava bazında belirlenecektir.
Bu konuda daha fazla yasal rehberlik ve netlik, üretken yapay zeka teknolojilerinin gelişimi için kritik olacaktır.
Etiketler:
#yapayzeka #generative #ai #chatgpt #fairuse
Cevapla
Want to join the discussion?Feel free to contribute!