Büyük Dil Modelleri: Geri Çağırma mı, Genelleme mi?

📚 Çalışma Materyali: Büyük Dil Modellerinin (LLM) Kelime Derecelendirme Mekanizmaları

Kaynak Bilgisi: Bu çalışma materyali, bir ders kaydı (podcast transkripti) ve kopyalanmış metin kaynaklarından derlenmiştir.

💡 Giriş: LLM'lerin İnsan Benzeri Kelime Derecelendirmeleri

Büyük Dil Modelleri (LLM'ler), kelimelerin psikolinguistik ve sensörimotor özelliklerine ilişkin insan yargılarına şaşırtıcı derecede yakın derecelendirmeler üretebilmektedir. Bu yetenek, yapay zeka alanında önemli bir araştırma konusu olup, LLM'lerin bilişsel kapasitelerini anlamak için kritik öneme sahiptir. Bu fenomenin altında yatan temel mekanizmayı açıklamak için iki ana hipotez öne sürülmektedir:

Geri Çağırma (Veri Kirliliği) Hipotezi: LLM'lerin eğitim verilerinde bulunan yayınlanmış derecelendirmeleri doğrudan ezberleyip hatırladığını savunur. Bu durumda, LLM'lerin yetenekleri, eğitim verilerinin kapsamıyla sınırlıdır ve gerçek bir bilişsel esneklik sergilemezler.
Genelleme Hipotezi: LLM'lerin kelime eşdizimliliklerinin (kelimelerin birlikte kullanılma kalıpları) soyut örüntülerini öğrenerek bu derecelendirmeleri oluşturduğunu iddia eder. Bu hipoteze göre, LLM'ler insan beyninin dile ilişkin bilgiyi işleme biçimine benzer şekilde, soyut kalıpları öğrenme ve uygulama kapasitesine sahiptir.

Bu çalışma materyali, bu iki hipotezi test etmek amacıyla yapılan iki deneyi detaylı bir şekilde inceleyerek, bulguların hangi hipotezi daha güçlü desteklediğini sunmaktadır.

🧪 Deney 1: Psikolinguistik Değişkenler ve LLM Derecelendirmeleri

Bu deney, LLM'lerin çeşitli psikolinguistik değişkenlere ilişkin derecelendirmelerinin insan derecelendirmeleriyle ne kadar uyumlu olduğunu araştırmıştır.

✅ Amaç:

LLM'lerin kelimelerin psikolinguistik özelliklerini insanlara benzer şekilde derecelendirip derecelendiremediğini ve bu yeteneğin ardındaki mekanizmayı (geri çağırma mı, genelleme mi) anlamak.

📊 Yöntem:

Değişkenler: Yaşa göre edinme (AoA), uyarılma (Arousal), somutluk (Concreteness), baskınlık (Dominance), aşinalık (Familiarity), cinsiyet ilişkisi (Gender Association), mizah (Humorousness), imgeleme (Imageability), insanilik (Human), semantik boyut (Semantic Size), sosyallik (Socialness) ve değerlik (Valence) gibi 12 psikolinguistik değişken kullanıldı.
Veri: Her değişken için 390 test kelimesi kullanıldı. Hem insan hem de LLM derecelendirmelerinin standart sapmaları (SD'ler) toplandı ve karşılaştırıldı.
Modeller: GPT-3.5, GPT-4, GPT-4o ve Gemini modelleri test edildi.

📈 Bulgular:

LLM'ler, insan derecelendirmelerine şaşırtıcı derecede benzer derecelendirmeler üretti.
Özellikle GPT-4 ve Gemini gibi daha gelişmiş modeller için, insan ve LLM derecelendirmeleri arasındaki çoklu korelasyon katsayıları (R) 0.9'un üzerinde çıktı. Bu yüksek korelasyonlar, LLM'lerin bu özellikleri insanlara benzer şekilde yakaladığını gösterdi.

⚠️ Geri Çağırma Hipotezine Yönelik Zorluklar (Kritik Odak Noktası):

Bu insan benzeri derecelendirmelerin nedeni ya genelleme ya da veri kirliliği (geri çağırma) olabilirdi. Araştırmacılar, geri çağırma hipotezine meydan okuyan üç önemli sonuç ortaya koydu:

Bireysel Derecelendirmelerin Ortalamalarla Eşleşmemesi:
- Eğer LLM'ler eğitim verilerinden yayınlanmış ortalamaları basitçe geri çağırsaydı, bireysel LLM derecelendirmelerinin bu ortalamalarla doğrudan eşleşmesi beklenirdi.
- Ancak, her kelime için on ayrı LLM derecelendirmesinin ortalaması, insan derecelendirme ortalamalarına yakınsadı.
- Neden Zorluk? Glasgow normları gibi yayınlanmış çalışmalarda genellikle sadece ortalamalar ve standart sapmalar bulunur, bireysel insan derecelendirmeleri değil. Bu durum, LLM'lerin sadece ezberlemediğini, bir tür "ortalama alma" veya "çıkarım yapma" süreci işlettiğini düşündürür.
Belirsiz Değişkenler İçin Daha Düşük Korelasyon:
- LLM derecelendirmeleri, daha belirsiz değişkenler (örn. "mizah") için insan derecelendirmeleriyle daha az korelasyon gösterdi.
- Neden Zorluk? Genelleme hipotezi, bu farklılığı, farklı değişkenlerin farklı kelimelere uygulanmasındaki belirsizlik derecesiyle açıklayabilir. Daha belirsiz bir kavram, hem insanlar hem de LLM'ler için tutarlı bir derecelendirme oluşturmayı zorlaştırır. Geri çağırma hipotezi ise, daha belirsiz değişkenler için ortalaması alınabilecek daha az derecelendirme olduğunu varsaymak zorunda kalır ki, bunun için mantıklı bir gerekçe yoktur.
Derecelendirme Değişkenliği Arasındaki Uyum:
- İnsan ve LLM derecelendirme değişkenliği (SD'ler) arasında bir uyum gözlendi.
- Neden Zorluk? LLM'ler, bağımsız API çağrıları arasında yanıtlarının değişkenliğini kontrol etmek için "hatırlanan" derecelendirme standart sapmalarını kullanamazlar. Böyle bir mekanizmaya dair kanıt bulunmamaktadır ve Glasgow çalışması bireysel derecelendirmeleri yayınlamamıştır.
- Genelleme Açıklaması: Genelleme hipotezi, kelime listelerindeki değişkenliğin, bir araya getirilen derecelendirme fonksiyonlarındaki değişkenliğe neden olduğunu ve bu değişkenliğin, eğitim verilerindeki kelime kullanımının çeşitliliğinden etkilendiğini öne sürer.

🌍 Deney 2: Bağlam Etkileri ve Sensörimotor Normlar

Bu deney, bağlamın LLM'lerin kelime derecelendirmeleri üzerindeki etkilerini incelemiştir. İnsan dil işleme süreçlerinde bağlam etkileri yaygındır.

✅ Amaç:

LLM'lerin kelime derecelendirmelerinde bağlamdan faydalanıp faydalanmadığını ve bunun genelleme hipotezini nasıl desteklediğini test etmek.

📊 Yöntem:

Normlar: Lancaster sensörimotor normları kullanıldı. Bu normlar, kelimelerin altı algısal modalite (dokunma, işitme, koku, tat, görme, iç algı) ve beş eylem efektörü (ağız/boğaz, el/kol, ayak/bacak, baş, gövde) ile ilişkisini ölçer. LLM'lerin bedensel deneyimlerden yoksun olduğu unutulmamalıdır.
Liste Bileşimi Koşulları:
1. Orijinal Koşul: LLM'lere, katılımcıların orijinal çalışmada gördüğü kelime listeleri sunuldu.
2. Gruplandırılmış (Binned) Koşul: Aynı kelimeler, belirli bir modaliteye (örn. Görme veya Ağız) göre yüksek derecelendirmeye sahip kelimelerin yoğunlaştığı yeni listeler halinde düzenlendi. Bu listelere, ilgili modalitenin "örnek" ve "kalibrasyon" kelimeleri eklendi.
Veri: Her iki koşulda da LLM derecelendirmeleri toplandı ve insan derecelendirme ortalamaları ve standart sapmalarıyla karşılaştırıldı.

📈 Bulgular:

Derecelendirme Ortalamaları: Orijinal listeler için insan ve LLM derecelendirme ortalamaları arasında orta derecede güçlü ilişkiler bulundu, ancak Deney 1'den daha zayıftı. Daha gelişmiş LLM'ler yine insan derecelendirmelerine daha yakın sonuçlar verdi.
Algısal vs. Motor: LLM derecelendirmeleri, motor efektörlerden ziyade algısal modaliteler için daha güçlü korelasyon gösterdi.
Gruplandırılmış Listelerin Etkisi (Kritik Odak Noktası):
- Görme ve Ağız değişkenleri için insan ve LLM derecelendirmeleri arasındaki uyum, kelime listelerinin bu değişkenlere göre gruplandırılmasıyla önemli ölçüde arttı.
- Derecelendirme ortalamaları için korelasyon katsayıları, gruplandırılmış kelime listeleri için tüm dört modelde daha yüksekti (0.10'dan 0.32'ye kadar fark).
- Neden Önemli? Bu bulgu, LLM'lerin bağlamdan faydalanarak genelleme yeteneklerini geliştirdiğini gösteren güçlü bir kanıttır. Eğer geri çağırma hipotezi doğru olsaydı, çevreleyen kelimelerin (liste bileşiminin) eğitim verilerinden yayınlanmış ortalamaların geri çağrılmasını bu şekilde sistematik olarak etkilemesi beklenmezdi.
- Bu durum, LLM'lerin çevreleyen kelimelerden gelen bağlamsal ipuçlarını kullanarak kelime kullanımının genellemesini kalibre ettiğini düşündürür.

💡 Deney 2 Özeti ve Çıkarımlar:

Deney 2 sonuçları, geri çağırma hipotezine daha fazla meydan okudu.
Kelime listelerinin bağlamları, insan ve LLM derecelendirme ortalamaları arasındaki uyum üzerinde belirgin bir etkiye sahipti.
LLM'lerin sensörimotor derecelendirmeler için bedensel deneyimlere sahip olmaması nedeniyle, bu deneyde LLM'lerin insan benzeri performansının Deney 1'e göre daha zayıf olması beklenebilir. Bu, LLM'lerin bedensel deneyimden yoksun olmasının performanslarını nasıl etkileyebileceğine dair önemli bir ipucu sunar.

🎯 Genel Sonuçlar ve Çıkarımlar (Sunum İçin Önemli Noktalar)

Her iki deney de, LLM'lerin insan benzeri kelime derecelendirmeleri üretme yeteneğinin, büyük ölçüde eğitim verilerindeki kelime kullanım kalıplarını genelleme kapasitelerinden kaynaklandığını göstermektedir.

Geri Çağırma Hipotezi Zayıfladı:
- Bireysel LLM derecelendirmelerinin yayınlanmış ortalamalarla doğrudan eşleşmemesi.
- Daha belirsiz değişkenler için korelasyonların düşmesi.
- İnsan ve LLM derecelendirme değişkenliği arasındaki uyum.
- Liste bileşiminin LLM derecelendirmeleri üzerindeki güçlü etkisi.
- Bu bulgular, LLM'lerin sadece ezberlenmiş bilgiyi geri çağırmakla kalmayıp, aynı zamanda öğrendikleri soyut kalıpları yeni durumlara ve bağlamlara uygulayarak esneklik sergilediğini gösterir.
Genelleme Hipotezi Güçlendi:
- LLM'ler, kelime eşdizimliliklerinin karmaşık kalıplarından genellemeler yaparak derecelendirmeleri oluşturur.
- Bağlam, LLM'lerin genelleme yeteneklerini kalibre etmelerine yardımcı olur. Özellikle "gruplandırılmış" listelerdeki performans artışı, LLM'lerin çevreleyen kelimelerden gelen bağlamsal ipuçlarını etkin bir şekilde kullandığını kanıtlar.
- LLM'ler, bedensel deneyimlerden yoksun olsalar bile, kelime kullanımındaki kalıplardan sensörimotor özelliklere dair çıkarımlar yapabilmektedir.

Bu çalışmalar, LLM'lerin dilsel ve bilişsel yeteneklerine dair anlayışımızı derinleştirmekte ve onların sadece birer "ezber makinesi" olmaktan öte, karmaşık dilsel kalıpları öğrenip genelleştirebilen sistemler olduğunu ortaya koymaktadır.

🚀 Gelecek Çalışmalar

Metinde kısaca bahsedilen Deney 3 gibi çalışmalar, geri çağırma hipotezini ve LLM genellemesinin sınırlarını daha fazla test etmeyi amaçlamaktadır. Hızlandırılmış yanıt görevleri gibi farklı yaklaşımlar kullanarak, LLM'lerin bu karmaşık dilsel görevleri nasıl yerine getirdiğine dair daha fazla içgörü elde edilmesi hedeflenmektedir. Bu tür araştırmalar, yapay zeka modellerinin insan bilişini ne ölçüde taklit edebildiğini ve hangi alanlarda hala sınırlılıkları olduğunu anlamak için kritik öneme sahiptir.