Kelime istatistikleri
Biraz da kelime istatistiklerine göz atalım. Sonuçlar Yine aynı 5 milyon kelimelik test kümesi üzerinden alındı.
Önce genel istatistikler:
Toplam kelime sayısı: 5160619
Toplam isim sayısı: 2785055 Oran: %53,967 Ortalama Boy : 6,184
Toplam sıfat sayısı: 269701 Oran: %5,226
Toplam fiil sayısı: 1414014 Oran: %27,400 Ortalama Boy : 7,645
Toplam Sayi sayısı: 232832 Oran: %4,512
Toplam kok sayısı: 14531
Toplam isim kök sayısı: 11755 Oran: %80,896
Toplam sıfat kök sayısı: 570 Oran: %3,923
Toplam fiil kök sayısı: 2068 Oran: %14,232
Görüldüğü gibi 5 milyon Türkçe kelime için 14531 kök kullanılmış, Bu rakam kullanılan metinlerin çeşitliliği ve miktarı arttıkça daha da büyüyecektir, ancak Zemberek'in yaklaşık 22.000 kök, 6000 isim ve bir kaç bin özel isim köklerini tanıdığını hatırlatmakta fayda var.
Dikkati çeken bir başka nokta da isimlerin uzunluğunun yaklaşık 6.1, fiillerin ise 7.6 olması. Eklemeli dillerde özellikle fiillerin eklerle büyüdüğü düşünülünce bu normal bir durum.
Peki kök kelimelere kaç ek ulanıyor? işte oranlar:
0 adet ek'e sahip kelime sayısı: 2263846 Oran: %43,868
1 adet ek'e sahip kelime sayısı: 1441162 Oran: %27,926
2 adet ek'e sahip kelime sayısı: 1014500 Oran: %19,658
3 adet ek'e sahip kelime sayısı: 353383 Oran: %6,848
4 adet ek'e sahip kelime sayısı: 62974 Oran: %1,220
5 adet ek'e sahip kelime sayısı: 8965 Oran: %0,174
6 adet ek'e sahip kelime sayısı: 1137 Oran: %0,022
7 adet ek'e sahip kelime sayısı: 115 Oran: %0,002
8 adet ek'e sahip kelime sayısı: 6 Oran: %0,000
9 adet ek'e sahip kelime sayısı: 0 Oran: %0,000
En çok kullanılan ilk 20 kelime:
1. [ bir ] Oran: % 3,348 Kapsama: % 3,348
2. [ ve ] Oran: % 2,319 Kapsama: % 5,667
3. [ bu ] Oran: % 1,353 Kapsama: % 7,019
4. [ de ] Oran: % 0,794 Kapsama: % 7,813
5. [ da ] Oran: % 0,757 Kapsama: % 8,570
6. [ için ] Oran: % 0,670 Kapsama: % 9,240
7. [ daha ] Oran: % 0,524 Kapsama: % 9,764
8. [ ama ] Oran: % 0,520 Kapsama: % 10,284
9. [ o ] Oran: % 0,515 Kapsama: % 10,799
10. [ gibi ] Oran: % 0,496 Kapsama: % 11,295
11. [ dedi ] Oran: % 0,480 Kapsama: % 11,774
12. [ çok ] Oran: % 0,474 Kapsama: % 12,248
13. [ ne ] Oran: % 0,457 Kapsama: % 12,705
14. [ sonra ]Oran: % 0,440 Kapsama: % 13,145
15. [ kadar ]Oran: % 0,399 Kapsama: % 13,544
16. [ diye ] Oran: % 0,391 Kapsama: % 13,935
17. [ her ] Oran: % 0,353 Kapsama: % 14,288
18. [ olan ] Oran: % 0,318 Kapsama: % 14,606
19. [ ki ] Oran: % 0,265 Kapsama: % 14,871
20. [ olarak ] Oran: % 0,259 Kapsama: % 15,130
En çok kullanılan ilk 20 kök ve türemiş hallerinin ortalama uzunluğu. Aslında Zemberek bu köklere eklenen eklerin de istatistiğini çıkarıyor ama şimdilik ortalığı fazla karıştırmayalım.
1. [ bir ] Oran : %3,403 Ortalama kelime uzunluğu : 3,044
2. [ ol ] Oran : %2,438 Ortalama kelime uzunluğu : 6,487
3. [ ve ] Oran : %2,319 Ortalama kelime uzunluğu : 2,000
4. [ bu ] Oran : %1,823 Ortalama kelime uzunluğu : 2,899
5. [ de ] Oran : %1,576 Ortalama kelime uzunluğu : 3,513
6. [ et ] Oran : %0,891 Ortalama kelime uzunluğu : 6,951
7. [ için ] Oran : %0,764 Ortalama kelime uzunluğu : 4,242
8. [ da ] Oran : %0,757 Ortalama kelime uzunluğu : 2,001
9. [ ben ] Oran : %0,658 Ortalama kelime uzunluğu : 4,019
10. [ o ] Oran : %0,587 Ortalama kelime uzunluğu : 1,166
11. [ kendi ] Oran : %0,575 Ortalama kelime uzunluğu : 7,398
12. [ yap ] Oran : %0,536 Ortalama kelime uzunluğu : 8,268
13. [ gibi ] Oran : %0,536 Ortalama kelime uzunluğu : 4,242
14. [ daha ] Oran : %0,528 Ortalama kelime uzunluğu : 4,013
15. [ gel ] Oran : %0,523 Ortalama kelime uzunluğu : 6,969
16. [ ama ] Oran : %0,521 Ortalama kelime uzunluğu : 3,001
17. [ ne ] Oran : %0,504 Ortalama kelime uzunluğu : 2,293
18. [ çok ] Oran : %0,491 Ortalama kelime uzunluğu : 3,117
19. [ şey ] Oran : %0,481 Ortalama kelime uzunluğu : 4,154
20. [ sonra] Oran : %0,478 Ortalama kelime uzunluğu : 5,217
En çok kullanılan kelime ikililerinin ilk yirmisi:
1. bir-şey (6921)
2. ya-da (5599)
3. bir-şekilde (3578)
4. büyük-bir (3451)
5. başka-bir (3205)
6. ne-kadar (2885)
7. diye-sordu (2828)
8. ve-bu (2598)
9. o-kadar (2367)
10. böyle-bir (2265)
11. belki-de (2238)
12. ben-de (2134)
13. o-zaman (2019)
14. bir-süre (2009)
15. ve-bir (1913)
16. bu-kadar (1900)
17. bir-an (1886)
18. değil-mi (1861)
19. hem-de (1833)
20. hiçbir-şey (1790)
21. her-zaman (1772)
22. o-da (1757)
23. ama-bu (1667)
24. gibi-bir (1659)
25. daha-da (1603)



