Temmuz 2004

Değerli Arkadaşlar,

 

Yazılı bir metindeki sözcük sıklığını hesaplamak kimi durumlarda gerekli olabilir. Öğrencilerimize vereceğimiz okuma metinlerinde geçen sözcüklerin hangi sıklıkta kullanıldığını ve bu sözcüklerin tam bir dökümünü edinmek hem öğrencilerimizin (belki de hem de kendimizin) bilmediği sözcük olup olmadığını daha kolaylıkla bulabilmek için yararlı olabilir. Ayrıca, araştırma ya da kişisel ilgi olarak bir metindeki sözcüklerin sıklığını ve dökümünü bulmayı isteyebiliriz. Bunu sağlayan bir yazılım olup olmadığını bilmiyorum. Mutlaka bir yerde vardır. Hatta bir Internet sitesinden ücretsiz indirilmesi bile belki olabiliyordur. Bunları bilen arkadaşlarımız varsa bizleri bilgilendirebilirlerse çok iyi olur.

 

Ben bu mektubumda size Internet üzerinden çevrim-içi ortamda çalışan 4 uygulamayla ilgili kısaca bilgi vermek istiyorum. Bu metin işlemciler İngilizce için düzenlenmiş. Mektubun sonunda, Türkçe için nasıl uygulanabileceğine ilişkin bir önerim de yer almakta.

 

Selam, sevgi ve saygılarla,

 

Aybars Erözden.

 

1.

Frequency Level Checker

http://language.tiu.ac.jp/flc/

 

Metindeki sözcükleri tarayıp sıklık sayılarını veriyor, kendine göre düzenlediği 4 düzeyden hangisine girdiğini belirtiyor. Bu aracı hazırlayanlar ellerindeki genel sıklık sayımı dizelgelerine göre sözcükleri 3 ana ulama (category) ayırmışlar. 1.Düzey sözcükleri ilk 1000, 2.Düzey sözcükleri ikinci 1000, 3.Düzey sözcükleri ise iki düzeyde de bulunmayan, ama orta ve yüksek öğretim metinlerinde en sık geçen 800 özel sözcüğü içeriyor. Sıklık sayımı yapılırken simgeler ve sayılar da birer “sözcük” olarak sayılıp en sonda veriliyor.

 

Sayfaya girildiğinde açıklayıcı bilgilerin bir yerinde

 

To Frequency Level Checker >>> Try it!

 

bağlantısı ile asıl sayım ekranına geçiliyor. Sayım ekranı çok yalın. Aşağıdaki gibi bir iletişim sayfası çıkıyor:

 

 

Sözcüklerini çözümletmek istediğiniz metni kendi dosyanızdan kopyalayıp yukarıdaki kutuya yapıştırıyorsunuz. <Enter> ile metniniz çözümleniyor. Sözcüklerin sözü edilen 4 düzeyden hangisine girdiğini kolay görebilmeniz için renklendirme seçeneklerini kullanabiliyorsunuz. Örnek olması için renk ayarlarını yukarıdaki gibi yaptım, yani 1.Düzey sözcükleri siyah, 2.Düzeyler kırmızı, 3.Düzeyler yeşil, dizinlerde olmayanlar mavi, simgeler ise menekşe rengi çıkacak.

 

Bu ortamda çözümleteceğim örnek metin aşağıdaki metindi:

 

Levels

One of the aims of the "Common European Framework of Reference: Learning, Teaching, Assessment", Council of Europe reference document for the European Language Portfolio, is to help partners to describe the levels of proficiency required by existing standards, tests and examinations in order to facilitate comparisons between different systems of qualifications. For this purpose the Council of Europe has developed a European Framework with common reference levels.

There does appear in practice to be a wide consensus on the number and nature of levels appropriate to the organisation of language learning and the public recognition of achievement.

These six levels are an interpretation of the classic division into basic, intermediate and advanced.

The scheme proposed in the "Common European Framework of Reference: Learning, Teaching, Assessment" adopts a "Hypertext" branching principle, starting from an initial division into three broad levels:

Basic User: A1 and A2

Independent User: B1 and B2

Proficient User: C1 and C2

Such a simple "Global Scale" makes it easier to communicate the system to non-specialist users and will also provide teachers and curriculum planners with orientation points.

However, in order to orient learners, teachers and other users within the educational system for some practical purpose, a more detailed overview is necessary. Such an overview is presented in the form of a Self-Assessment Grid showing major categories of language use at each of the six levels. It is intended to help learners to profile their main language skills, and decide at which level they might look at a checklist of more detailed descriptors in order to self-assess their level of proficiency.

Global Scale

Proficient

User C2 Can understand with ease virtually everything heard or read. Can summarise information from different spoken and written sources, reconstructing arguments and accounts in a coherent presentation. Can express him/herself spontaneously, very fluently and precisely, differentiating finer shades of meaning even in more complex situations.

C1 Can understand a wide range of demanding, longer texts, and recognise implicit meaning. Can express him/herself fluently and spontaneously without much obvious searching for expressions. Can use language flexibly and effectively for social, academic and professional purposes. Can produce clear, well-structured, detailed text on complex subjects, showing controlled use of organisational patterns, connectors and cohesive devices.

Independent

User B2 Can understand the main ideas of complex text on both concrete and abstract topics, including technical discussions in his/her field of specialisation. Can interact with a degree of fluency and spontaneity that makes regular interaction with native speakers quite possible without strain for either party. Can produce clear, detailed text on a wide range of subjects and explain a viewpoint on a topical issue giving the advantages and disadvantages of various options.

B1 Can understand the main points of clear standard input on familiar matters regularly encountered in work, school, leisure, etc. Can deal with most situations likely to arise whilst travelling in an area where the language is spoken. Can produce simple connected text on topics which are familiar or of personal interest. Can describe experiences and events, dreams, hopes & ambitions and briefly give reasons and explanations for opinions and plans.

Basic

User A2 Can understand sentences and frequently used expressions related to areas of most immediate relevance (e.g. very basic personal and family information, shopping, local geography, employment). Can communicate in simple and routine tasks requiring a simple and direct exchange of information on familiar and routine matters. Can describe in simple terms aspects of his/her background, immediate environment and matters in areas of immediate need.

A1 Can understand and use familiar everyday expressions and very basic phrases aimed at the satisfaction of needs of a concrete type. Can introduce him/herself and others and can ask and answer questions about personal details such as where he/she lives, people he/she knows and things he/she has. Can interact in a simple way provided the other person talks slowly and clearly and is prepared to help.

 

 

 

Bunu kopyalayıp kutuya yapıştırıyor ve <Enter> komutu veriyorum. “Please wait a minute” notu ile başka bir pencere açılıyor ve çözümleme aşağıdaki görüntü ile 3 ayrı bölmeye ayrılmış biçimde geliyor:

 

 

Sol üstte, metnimdeki her sözcük, belirttiğim renkle imlenmiş olarak yazılıyor. Buna göre, siyah yazılan sözcükler 1.Düzey, kırmızılar 2.Düzey, yeşiller 3.Düzey, maviler de 4.Düzey sözcüklerini gösteriyor. Belirli bir sözcüğün sıklığını görmek istersem, bu bölmede üzerini tıklıyorum. Örneğin “Learning” sözcüğünün kaç kez geçtiğini bulmak istiyorsam, üzerini tıklıyorum. Bu kez sağ bölmede ufak bir değişiklikle şöyle bir görüntü geliyor:

 

Burada “learn” gövdesinden türemiş sözcüklerin tümünün bulunup dizildiğini görüyorum. Yani, benim metnimde “learn” gövdesinden türemiş toplam 5 sözcük varmış; bunların arasından 2 tanesi “learners”, 3 tanesi de “learning” sözcüğüymüş.

 

Tüm dökümü görmek için, sol bölmeyi fare ile tarayıp kopyalayarak bir WORD belgesine yapıştırıyorum. Böylece, tüm sözcüklerin ve simgelerin sıklık sayılarını görebiliyorum. Yeni bir metin girmek için “to input page” bağlantısı ile ana sayfaya dönebiliyorum.

 

 

2.

Web Frequency Indexer

http://www.georgetown.edu/faculty/ballc/webtools/web_freqs.html

 

Bu sayfa açıldığında şöyle bir ekran çıkıyor:

 

Title (for report)” kutusuna örnek olarak “Tarama 1” yazıyorum.

Çözümleteceğim metni kutuya yapıştırıyorum.

Sort” seçenekleri arasında “yüksekten düşük sıklığa”, “düşükten yüksek sıklığa”, ve “abece dizilimiyle” yer alıyor. Örnek olması için “abece dizilimi”ni seçiyorum. Aşağıdaki gibi bir ekran beliriyor:

 

“Do it!” tuşunu tıklayınca metin işlemleniyor ve ekranda çok yalın bir çözümleme sayfası beliriyor:

 

Ben, bir önceki ayarlarda “abece dizilimi ile”yi seçtiğimi için sözcükler bu dizilime göre geldi. Tüm dizin için sayfayı fare ile tarayıp kopyalayarak WORD belgesine yapıştırabiliyorum. Başka bir çözümletme için, dizinin en altındaki “Return to Web Frequency Indexer” bağlantısı tıklanabiliyor.

 

 

3.

WriteWords Word Frequency Counter

http://www.writewords.org.uk/word_count.asp

 

Bu site aslında İngilizce bir yazın sitesi. Yazarlar, amatör yazarlar, yazar olmaya çalışan “istidatlı” gençlerin buluştuğu bir site. Türkiye’de de benzerleri var. Bu sitenin bir hizmeti de, yazarların kendi metinlerini sözcük sıklığı açısından tarayabilmelerini sağlamak. Böylece kendi metinlerini geliştirmelerine yardımcı olmayı amaçlıyor. Metin işleme çok yalın bir ekran üzerinden işliyor:

 

Metninizi “Paste your text” kutusuna yapıştırıp “Submit” tuşunu tıklayınca en yüksekten en düşüğe doğru dizilmiş biçimiyle sıklık dökümü geliyor:

 

Dökümü fare ile tarayıp kopyaladıktan sonra WORD dosyasına alabiliyorsunuz. Yeni bir metin çözümlemesi için dökümün en üstünde ve en altındaki “Count new text” bağlantısını tıklayabiliyorsunuz.

 

Bu sayfa ayrıca sözcük öbeklerini de tarayıp sıklıklarını bildiriyor. Bunun için, açılış sayfasındaki “Phrase frequency counter” bağlantısını tıklıyorsunuz:

 

Yeni sayfadaki kutuya metninizi yapıştırıyorsunuz.

Select number of words in a phrase to check:” ayarını, kaç sözcüklük öbekleri bulmak istiyorsanız, 2 – 10 arasında seçebiliyorsunuz. Örnek olması için bunu 3 sözcüklük öbeklere ayarlıyorum:

 

Submit” tuşunu tıklayınca biraz değişik bir döküm geliyor:

 

Sayfanın metin çözümleyicisi, kendine göre bir ölçüte dayalı olarak sözcük öbeklerini bulup sayıp diziyor. Dökümü fare ile tarayıp kopyalayarak WORD belgenize yapıştırabiliyorsunuz. Burada şöyle bir değişik durum görülüyor:

 

No of times     Phrase

6                   can understand

3                   in order to

2                   wide range of

2                   understand the main

2                   the common european

2                   reference learning

2                   of reference

2                   framework of reference

2                   express him herself

2                   european framework of

2                   detailed text on

2                   council of europe

2                   common european framework

2                   can produce clear

2                   can express him

2                   a wide range

2                   learning teaching

 

Metin işleyici, “common european framwork”, “council of europe”, “in order to” gibi öbekleri anlamlı olarak seçip saymış. Sayfanın en altına gelindiğinde, aynı metni yeniden yapıştırmanız gerekmeden yeni bir öbek sayımını başlatabiliyorsunuz. Bu kez, örnek olsun diye “4 sözcüklük öbekler”i seçip “Submit” tuşu ile saydırıyorum:

 

Biraz bekledikten sonra ekranda yeni sonuçlar beliriyor:

 

Bu kez çıkan dizin biraz daha değişik:

No of times     Phrase

2                   the common european framework

2                   reference learning teaching

2                   of reference learning

2                   framework of reference

2                   european framework of reference

2                   common european framework of

2                   can express him herself

2                   a wide range of

2                   learning teaching assessment

2                   can understand the

 

Sayfanın metin işlemcisi “the common european framework”, “european framework of reference”, “can express him herself” gibi anlamlı öbekleri ayırıp sayabilmiş.

 

 

4.

WEB-A-DEX Word Count and Word Frequency Tool

http://www.mytranslate.com/wordfrequency.htm

 

Sayfaya gelince oldukça çok seçenekli bir metin işlemci görüntüsü çıkıyor. Soldaki kutu metninizi yapıştıracağınız kutu, sağdaki ise sonuçların görüntülendiği kutu:

 

Bu metin işlemci ile şu çözümlemeler yaptırılabiliyor:

 

1. Sözcük sayımı

1.1. Sözcüklerin sayımı

1.1.1. Sıklığa göre dizilim

1.1.2. Abece dizisine göre dizilim

1.2. Her şeyin sözcük olarak sayımı

1.2.1. Sıklığa göre dizilim

1.2.2. Abece dizisine göre dizilim

2. Yazı karakteri sayımı

2.1. Yalnızca harflerin sayımı

2.1.1. Yazı karakterlerinin sayımı

2.1.2. Yazı karakterlerinin sıklığı

2.2. Tüm simgelerin sayımı

2.1.1. Tüm simgelerin sayımı

2.1.2. Tüm simgelerin sıklığı

 

Böylece, en son uçta toplam 8 değişik çözümleme yaptırılabiliyor. Sayfanın altındaki teknik açıklamalara göre, bu işlemci ile sayfalarca metni çözümleyebiliyoruz. Ancak, bir de uyarı var. Bu işlemci, kullandığınız bilgisayarın donanımını kullanıyormuş. O nedenle, eğer çok uzun bir metin girilirse ve/ya bilgisayarınızda aynı anda çalışan çok fazla program / dosya varsa ve/ya bilgisayarınız Pentium II’den daha düşük bir işlemciye sahipse çözümleme çok uzayabiliyor hatta kimi zaman bilgisayarınızın kilitlenmesine yol açabiliyormuş. Benim okuldaki bilgisayarla yaptığım değişik denemelerimde böyle bir şey olmadı. Ama yine de fazladan çalışan program ve dosyaları kapatmakta yarar olabilir.

 

Metninizi çözümlemek için soldaki kutuya yapıştırıyorsunuz. (Soldaki kutuda varolan yazıyı önce silmeyi unutmayınız. Bu işin en kısa yollarından birisi de, sol kutunun için fare ile tek tıkla > Ctrl+A > Delete bileşimidir.) Sonra bu 8 işlemi yaptırabilirsiniz.

 

1. Sözcük sayımı

1.1. Sözcüklerin sayımı

 

Bizim örnek metnimizi sol kutuya yapıştırıyorum. “Count pure words” seçeneğini işaretliyorum. “COUNT WORDS” düğmesine tıklıyorum. Sağ kutuda ilk sonuçlar beliriyor:

 

Sağ kutunun içeriğini fare ile tarayıp kopyalayarak WORD belgesine aktardığımda şunlar çıkıyor (yer kaplamaması için ilk 12 satırı aktarıyorum):

 

Unique:322  Total:661

Freq.    Word

7          LEVELS

1          ONE

33        OF

21        THE

1          AIMS

3          COMMON

4          EUROPEAN

3          FRAMEWORK

4          REFERENCE

3          LEARNING

 

Bunlar ilk ham sonuçlar. Sözcüklerin metinde ilk çıkış sırasına göre dizilmiş döküm.

 

1. Sözcük sayımı

1.1. Sözcüklerin sayımı

1.1.1. Sıklığa göre dizilim

 

“Word Sort: Frequency” düğmesine basınca, sözcükler en yüksekten en düşük sıklığa doğru sağ kutuda yeniden diziliyor. Sağ kutunun içeriği bu kez şunlardan oluşmakta:

Unique words:322  Total words:661

Freq.    Word

41        AND

33        OF

21        THE

21        CAN

20        A

15        IN

14        TO

8          ON

7          LEVELS

7          FOR

 

1. Sözcük sayımı

1.1. Sözcüklerin sayımı

1.1.2. Abece dizisine göre dizilim

 

“Word Sort: Alphabetic” düğmesine basınca, sözcükler abece dizisine göre dökümleniyor:

Unique words:322  Total words:661

Freq.    Word

20        A

1          ABOUT

1          ABSTRACT

1          ACADEMIC

1          ACCOUNTS

1          ACHIEVEMENT

1          ADOPTS

1          ADVANCED

1          ADVANTAGES

1          AIMED

 

1. Sözcük sayımı

1.2. Her şeyin sözcük olarak sayımı

 

Bu işlemi yaptırmak için, bu kez de “Count everything as words” seçeneğini işaretliyorum. Metnim sol kutuda sürekli duruyor. Her seferinde yeniden yapıştırmam gerekmiyor. “COUNT WORDS” düğmesini tıklıyorum. Sağ kutuda biraz değişik bir döküm çıkıyor:

Unique:347  Total:649

Freq.    Word

4          LEVELS

1          ONE

33        OF

21        THE

1          AIMS

2          "COMMON

4          EUROPEAN

3          FRAMEWORK

2          REFERENCE:

2          LEARNING,

 

Bu döküm türünün bir önceki (1.1. Sözcüklerin sayımı) türden ayrılığı, sözcüklere bitişik olan diğer yazı karakterlerini ve noktalama imlerini de sözcüğün parçası olarak sayması. Bir önceki tür dökümde 3 tane COMMON saymışken, bu türde 2 tane "COMMON ve 1 tane COMMON sayıyor.

 

İlk döküm de, bir önceki türde olduğu gibi sözcüğün metinde ilk geçiş dizisine göre dökümlenmiş.

 

1. Sözcük sayımı

1.2. Her şeyin sözcük olarak sayımı

1.2.1. Sıklığa göre dizilim

Bu yeni türe göre sayılmış sözcükleri sıklığa göre dizmek için “Word Sort: Frequency” düğmesini tıklıyorum. Sağ kutunun içeriği değişiyor:

Unique words:347  Total words:649

Freq.    Word

41        AND

33        OF

21        THE

21        CAN

16        A

15        IN

14        TO

8          ON

7          FOR

6          WITH

 

1. Sözcük sayımı

1.2. Her şeyin sözcük olarak sayımı

1.2.2. Abece dizisine göre dizilim

Bu sözcükleri abece dizisine göre görmek için ise “Word Sort: Alphabetic” tuşunu tıklıyorum. Daha değişik bir içerik çıkıyor:

Unique words:347  Total words:649

Freq.    Word

2          "COMMON

1          "GLOBAL

1          "HYPERTEXT"

1          &

1          (E.G.

16        A

2          A1

2          A2

1          ABOUT

1          ABSTRACT

 

2. Yazı karakteri sayımı

2.1. Yalnızca harflerin sayımı

2.1.1. Yazı karakterlerinin sayımı

Metninizdeki harflerin ayrı ayrı sayımını yaptırmak için “Letters Only” seçeneğini işaretliyorum. “Character Count” düğmesine basınca şu döküm geliyor:

Freq.    Letter

7          A

6          B

28        C

6          E

4          F

3          G

2          H

3          I

4          L

1          O

3          P

 

Abece dizisine göre gelen bu verilere göre örnek metnimizde hiç büyük harf D kullanılmamış gibi görünüyor.

 

2. Yazı karakteri sayımı

2.1. Yalnızca harflerin sayımı

2.1.2. Yazı karakterlerinin sıklığı

Harflerin sıklığa göre dökümü için “Character Frequency” düğmesini tıklıyorum:

Freq.    Letter

468      e

314      n

305      a

274      i

267      s

247      t

242      o

238      r

143      l

143      d

131      c

 

Bu verilere göre de, metnimde en sık kullanılan harf küçük e olmuş.

 

Metin ve sonuçlar kutularının altında iki küçük kutu daha yer almakta. Yazı karakterlerini saydırırken o kutulara da veriler geliyor:

 

Soldaki “Total letters in all words” kutusundaki sayıya göre benim metnimde 3573 harf varmış. Sağdaki “Average letters per word” kutusuna göreyse sözcük başına ortalama 5,5 harf kullanmışım.

 

2. Yazı karakteri sayımı

2.2. Tüm simgelerin sayımı

2.1.1. Tüm simgelerin sayımı

Yalnızca harfler değil, tüm simgeleri de saydırmak için “All symbols” seçeneğini işaretliyorum. Bu simgelerin abece dizisine göre sıklığını görmek için “Character Count” düğmesine tıklıyorum. Buradaki simgeler, genellikle yayınevleri tarafından da kullanılan, ama bilgisayar yazılımındaki ASCII kodlarının dizilişine göre geliyor. Buna göre metnimdeki sıklıklar şöyleymiş:

Freq.    Letter

637     

8          "

1          &

1          (

1          )

35        ,

4          -

30        .

8          /

6          1

6          2

 

İkinci satırdaki 637 sayısının yanında bir şey görünmüyor. Bu, sözcükler arasında bırakılan boşluk (space key) sayısı demek oluyor.

 

2. Yazı karakteri sayımı

2.2. Tüm simgelerin sayımı

2.1.2. Tüm simgelerin sıklığı

Bu simgelerin sıklığa göre dizilimini görmek istersem “Character Frequency” düğmesine basıyorum:

Freq.    Letter

637     

468      e

314      n

305      a

274      i

267      s

247      t

242      o

238      r

143      l

143      d

 

Demek gerçekten de klavyemde boşluk tuşuna en sık basmışım.

 

Tüm simgeler hesaplamaya katılınca, aşağıdaki kutuların değerleri de değişiyor:

 

Buna göre, tüm metin 4316 tuş vuruşundan oluşmuş, sözcük başına da 6,6 ortalamayla tuş vuruşum olmuş.

 

 

 

Türkçe Metinlerin Çözümlenmeleri

 

 

Türkçe metinlerin bu 4 site yazılımı tarafından nasıl çözümlendiğini görmek için aşağıdaki metni kullandım. Metnin sonunda, Türkçe karakterler içeren benim eklediğim birkaç ilgisiz sözcük de yer alıyor:

 

ABD gövde gösterisi yaptı: 78-60  

 Atina Olimpiyatları’na hazırlanan Amerika Birleşik Devletleri, son dünya şampiyonu Sırbistan-Karadağ’ı 78-60 mağlup etti. 

Belgrad

NTV-MSNBC  

6 Ağustos 2004—  NBA yıldızlarının olimpiyat öncesi son durağı İstanbul olacak. 10 Ağustos Salı günü oynanacak Türkiye-ABD maçı NTV’den canlı olarak ekrana gelecek.   

Atina Olimpiyatları hazırlık maçlarına Belgrad’da oynadığı Sırbistan-Karadağ maçıyla devam eden Amerika Birleşik Devletleri, 78-60’lık rahat bir galibiyet aldı. Köln’de Almanya’yı Allen Iverson’ın son saniye üçlüğüyle yenen birleşik devletler, son dünya şampiyonu ve olimpiyatların favorilerinden Sırbistan karşısında daha moralli ve hücum daha etkili göründü.

Büyük yıldızı Stojakoviç’in oynamama kararı sonrası hücum gücü düşen Sırbistan, ilk çeyrek dışında rakibi karşısında bir türlü istediği oyunu oynayamadı.

NBA yıldızlarından kurulu Birleşik Devletler, ilk çeyreği Tim Duncan’ın 10 sayısıyla 20-17 önde kapadı. İkinci çeyrekte genç yıldızlarıyla fast-break’ler bulan Birleşik Devletler, LeBron James’in sayıları ile farkı açtı 22-9’luk ikinci çeyrek skoru sonrası devreyi 42-26 önde kapadı.  

İkinci yarıda ev sahibi Sırbistan oyunda dengeyi kurmasına rağmen bir türlü farkı kapamayı başaramadı. Sırp takımının büyük kozu Bodiroga ve Rakoçeviç Sırp takımında en etkili isimler olarak göze çarparken, maçı Bodiroga 16, Rakoçeviç de 18 sayı ile maçın en skoreri olarak tamamladı.

16 sayıyla Birleşik Devletlerin en skorer oyuncusu olan, son bölümde yaptığı bloklarla savunmada önemli bir rol üstlenen Tim Duncan’ın gayretleriyle ABD, 3.çeyreği 62-45’lik skorla önde geçti.

Son çeyreğe 17 sayılık avantajla giren birleşik devletlerde son bölümde sayılarıyla öne çıkan isim ise Lamar Odom oldu. Farkı maçın sonuna kadar koruyan NBA yıldızları karşılaşmayı 78-60 kazanarak atına öncesi büyük moral depoladı.

Olimpiyat hazırlıklarını sürdüren Amerika Birleşik Devletleri’nin son durağıysa İstanbul olacak. NBA yıldızları pazar ve salı akşamları milli takımımızla 2 hazırlık maçı oynayacak. Salı akşamı oynanacak Türkiye-ABD maçı NTV’den canlı yayınlanacak.

Çiçek Şemsiye Örgü Ürün YAĞMUR

 

 

 

 

 

1.

Frequency Level Checker

http://language.tiu.ac.jp/flc/

 

Elbette çok abuk-subuk bir çözümleme çıktı. Sol bölmede ilk tümceyi şöyle çözümledi:

 

ABD g A CLASS=L4 HREF="li61D60EAA.html#de">de g A CLASS=L4 HREF="li61D60EAA.html#terisi">terisi yapt 78-60

Atina Olimpiyatlar・俐A CLASS=L1 HREF="li61D60EAA.html#a">a hazA CLASS=L4 HREF="li61D60EAA.html#rlanan">rlanan Amerika BirleA CLASS=L4 HREF="li61D60EAA.html#ik">ik Devletleri, son dA CLASS=L4 HREF="li61D60EAA.html#ya">ya A CLASS=L4 HREF="li61D60EAA.html#ampiyonu">ampiyonu SA CLASS=L4 HREF="li61D60EAA.html#rbistan-Karada">rbistan-Karada 78-60 maA CLASS=L1 HREF="li61D60EAA.html#up">up etti.

 

Sağ bölmede sözcük sıklıkları ise şöyle geldi:

Outside lists total: 288

 types: 163

ABD 2

de 7

terisi 1

yapt 2

78-60 4

Atina 2

Olimpiyatlar 3

haz 4

rlanan 1

Amerika 3

Birle 8

ik 9

Devletleri 3

ya 3

ampiyonu 2

rbistan-Karada 2

ma 9

etti

 

Yani, Türkçe karakterleri anlamayıp boşluk olarak kabul etmiş gibi görünüyor.

 

2.

Web Frequency Indexer

http://www.georgetown.edu/faculty/ballc/webtools/web_freqs.html

 

Bu sayfa biraz daha iyi bir sonuç verdi:

Text name:     Tarama 2
Date/time:     8/10/104 9:56
Word count:    279
Unique words:  197
Sort order:    alpha
 
10                   2
16                   2
17                   1
18                   1
2                    1
20-17                1
2004—                1
22-9’LUK             1
3.çEYREğI            1
42-26                1
6                    1
62-45’LIK            1
78-60                3
78-60’LıK            1
ABD                  2
AKşAMLARı            1
AKşAMı               1
ALDı                 1
ALLEN                1
ALMANYA’Yı           1
AMERIKA              3
ATINA                2
ATıNA                1
AVANTAJLA            1
AçTı                 1
AğUSTOS              2
BAşARAMADı           1
BELGRAD              1
BELGRAD’DA           1
BIR                  4
BIRLEşIK             8
BLOKLARLA            1
BODIROGA             2
BULAN                1
BöLüMDE              2
BüYüK                3
CANLı                2
DAHA                 2
DE                   1
DENGEYI              1
DEPOLADı             1

YAPTığı              1
YARıDA               1
YAYıNLANACAK         1
YAĞMUR               1
YENEN                1

 

İlginç olan şey, karakterleri anlamak için kendine göre kimini büyük, kimini küçük harfe dönüştürmüş olması. Yine de, dışarıda kalan sözcük olmamış.

 

3.

WriteWords Word Frequency Counter

http://www.writewords.org.uk/word_count.asp

 

Bu sitenin işlemcisi de 1. sitedeki gibi Türkçe karakterleri tanımayıp boşluk olarak değerlendirmiş:

13 n

11 s

10 y

9 ma

8 son

8 k

8 ik

8 birle

6 say

6 ld

6 g

5 zlar

5 yla

5 t

5 rl

5 rbistan

5 l

5 b

4 ve

4 nda

 

Bu sitenin öbek sözcük sayımını 4 sözcük için ayarladığımda ise yukarıdakinin beklenen sonucu geldi:

9                   

3                   say

2                   yapt 

2                   y ld zlar 

2                   t rkiye abd ma

2                   son d nya 

2                   son b l mde

2                   rkiye abd ma 

2                   nba y ld zlar

2                   ma ntv’den

2                   kar s nda

2                   d nya ampiyonu

2                   bir t rl 

2                   amerika birle ik devletleri

2                   abd ma 

2                   s rp tak

2                   oynanacak t rkiye

2                   ntv’den canl

 

Eciş-bücüş de olsa, “amerika birle ik devletleri”ni tek öbek olarak görmesi ilginç.

 

4.

WEB-A-DEX Word Count and Word Frequency Tool

http://www.mytranslate.com/wordfrequency.htm

 

Count Pure Words” seçeneği işaretliyken aynı sorun bu sitenin işlemcisinde de çıktı:

Unique:205  Total:358

Freq.       Word

4             ABD

6             G

1             VDE

1             STERISI

2             YAPTI

3             ATINA

2             OLIMPIYATLARI

1             NA

 

Ancak, ayarı “Count everything as words”e getirince durum epey düzelmiş gibi görünüyor:

Unique:199  Total:279

Freq.       Word

1             ABD

1             GÖVDE

1             GÖSTERISI

1             YAPTI:

3             78-60

3             ATINA

1             OLIMPIYATLARI’NA

1             HAZIRLANAN

3             AMERIKA

8             BIRLEŞIK

2             DEVLETLERI,

8             SON

2             DÜNYA

2             ŞAMPIYONU

1             SIRBISTAN-KARADAĞ’I

1             MAĞLUP

1             ETTI.

 

Letters Only” seçeneği işaretliyken “Character Frequency” düğmesine basınca şu döküm çıkıyor:

Freq.       Letter

217         a

130         e

122         l

120         r

118         n

110         i

79           k

68           y

62           d

57           s

56           o

54           m

49           t

31           u

24           b

23           v

21           B

20           c

18           A

18           g

18           p

15           z

12           D

12           S

10           h

8             N

2             L

2             j

2             M

1             Y

1             F

1             I

1             J

1             U

1             C

 

Yani Türkçe karakterlerin hiç birini anlamamış. 1508 sözcük varmış ve sözcük başına ortalama 5,4 karakter düşüyormuş.

 

All symbols” seçeneği işaretliyken “Character Frequency”e basınca durum biraz daha düzelmiş gibi. Ancak, yine de Türkçe karakterlerin bir bölümü hiç okunmamış.

Freq.       Letter

283        

217         a

130         e

122         l

120         r

118         n

110         i

79           k

68           y

62           d

57           s

56           o

54           m

49           t

31           u

24           b

23           v

21           B

20           c

18           A

18           g

18           p

17           .

15           z

14           -

12           D

12           S

10           ,

10           h

9             6

9             0

8             2

8             N

7             T

7             1

6             7

5             8

4             O

4             f

3             K

3             V

3             R

3             4

2             L

2             j

2             M

1             9

1             F

1             I

1             J

1             U

1             :

1             Y

1             5

1             3

1             C

1             Ç

1             Ö

1             Ü

26           ç

14           ö

33           ü

 

Eğer bu ve benzeri siteler üzerinden Türkçe bir metnin sözcük sıklık sayımı yaptırılacaksa, belki de önceden metindeki Türkçe karakterleri İngilizce karakterler ile düzgülemek olabilir. Örneğin “Ü” harfi için “U#” gibi bir karakter kullanmak. Böyle bir şey yapınca yine işe yaramıyor. Ama, aynı harfi iki defa yazınca o zaman metin çözümlenebiliyor.

           

Yani, Türkçe metnimizi WORD’ün Bul-Değiştir komutu ile işleyerek aşağıdaki dönüşümleri yapınca, sözcükler saydırılabiliyor:

 

ü

uu

ğ

gg

ı

ii

ş

ss

ç

cc

ö

oo

Ü

UU

Ğ

GG

İ

II

Ş

SS

Ç

CC

Ö

OO

 

Bu dönüştürmeyi yaparken, “Bul ve Değiştir” kutusunda “Tüm seçenekler” bölmesindeki “Büyük/küçük harf duyarlı” ayarının işaretlenmiş olması gerekmekte. Bu değişikliklerle bizim Türkçe metin aşağıdaki görünümü aldı:

 

ABD goovde goosterisi yaptii: 78-60  

 Atina Olimpiyatlarii’na haziirlanan Amerika Birlessik Devletleri, son duunya ssampiyonu Siirbistan-Karadagg’ii 78-60 magglup etti. 

Belgrad

NTV-MSNBC  

6 Aggustos 2004—  NBA yiildiizlariiniin olimpiyat ooncesi son duraggii IIstanbul olacak. 10 Aggustos Salii guunuu oynanacak Tuurkiye-ABD maccii NTV’den canlii olarak ekrana gelecek.   

Atina Olimpiyatlarii haziirliik macclariina Belgrad’da oynadiiggii Siirbistan-Karadagg macciiyla devam eden Amerika Birlessik Devletleri, 78-60’liik rahat bir galibiyet aldii. Kooln’de Almanya’yii Allen Iverson’iin son saniye uuccluugguuyle yenen birlessik devletler, son duunya ssampiyonu ve olimpiyatlariin favorilerinden Siirbistan karssiisiinda daha moralli ve huucum daha etkili gooruunduu.

Buuyuuk yiildiizii Stojakovicc’in oynamama kararii sonrasii huucum guucuu duussen Siirbistan, ilk cceyrek diissiinda rakibi karssiisiinda bir tuurluu istediggi oyunu oynayamadii.

NBA yiildiizlariindan kurulu Birlessik Devletler, ilk cceyreggi Tim Duncan’iin 10 sayiisiiyla 20-17 oonde kapadii. IIkinci cceyrekte gencc yiildiizlariiyla fast-break’ler bulan Birlessik Devletler, LeBron James’in sayiilarii ile farkii acctii 22-9’luk ikinci cceyrek skoru sonrasii devreyi 42-26 oonde kapadii.  

IIkinci yariida ev sahibi Siirbistan oyunda dengeyi kurmasiina raggmen bir tuurluu farkii kapamayii bassaramadii. Siirp takiimiiniin buuyuuk kozu Bodiroga ve Rakoccevicc Siirp takiimiinda en etkili isimler olarak gooze ccarparken, maccii Bodiroga 16, Rakoccevicc de 18 sayii ile macciin en skoreri olarak tamamladii.

16 sayiiyla Birlessik Devletlerin en skorer oyuncusu olan, son booluumde yaptiiggii bloklarla savunmada oonemli bir rol uustlenen Tim Duncan’iin gayretleriyle ABD, 3.cceyreggi 62-45’lik skorla oonde geccti.

Son cceyregge 17 sayiiliik avantajla giren birlessik devletlerde son booluumde sayiilariiyla oone cciikan isim ise Lamar Odom oldu. Farkii macciin sonuna kadar koruyan NBA yiildiizlarii karssiilassmayii 78-60 kazanarak atiina ooncesi buuyuuk moral depoladii.

Olimpiyat haziirliiklariinii suurduuren Amerika Birlessik Devletleri’nin son duraggiiysa IIstanbul olacak. NBA yiildiizlarii pazar ve salii akssamlarii milli takiimiimiizla 2 haziirliik maccii oynayacak. Salii akssamii oynanacak Tuurkiye-ABD maccii NTV’den canlii yayiinlanacak.

CCiccek SSemsiye OOrguu UUruun YAGGMUR

 

 

Sitelerdeki sayım sonuçları kısaca şunlar oldu:

 

1.

Frequency Level Checker

http://language.tiu.ac.jp/flc/

 

ABD 2

goovde 1

goosterisi 1

yaptii 1

78-60 4

Atina 2

Olimpiyatlarii 2

haziirlanan 1

Amerika 3

Birlessik 8

Devletleri 3

duunya 2

ssampiyonu 2

Siirbistan-Karadagg 2

i 1

magglup 1

etti 1

 

2.

Web Frequency Indexer

http://www.georgetown.edu/faculty/ballc/webtools/web_freqs.html

 

Bu sitenin işlemcisi pek sorun çıkarmamıştı. Yine de yeni metni girince şu döküm geldi:

Text name:              Untitled

Date/time:               8/10/104 10:35

Word count:            279

Unique words:         197

Sort order:              descending

 

8             BIRLESSIK

8             SON

4             BIR

4             MACCII

4             NBA

4             VE

3             78-60

3             AMERIKA

3             BUUYUUK

3             DEVLETLER

3             EN

3             FARKII

3             OLARAK

3             OONDE

3             SALII

3             SIIRBISTAN

 

3.

WriteWords Word Frequency Counter

http://www.writewords.org.uk/word_count.asp

 

8 son

8 birlessik

5 siirbistan

4 ve

4 nba

4 maccii

4 bir

4 abd

3 salii

3 oonde

3 olarak

3 ntv

3 iin

3 farkii

3 en

3 devletleri

3 devletler

3 buuyuuk

3 amerika

2 yiildiizlarii

 

4 sözcüklü öbek taramada sonuçlar:

9                   

2                   tuurkiye abd maccii ntv’den

2                   oynanacak tuurkiye abd maccii

2                   abd maccii ntv’den canlii

 

4.

WEB-A-DEX Word Count and Word Frequency Tool

http://www.mytranslate.com/wordfrequency.htm

 

Unique words:192  Total words:285

Freq.       Word

8             BIRLESSIK

8             SON

5             SIIRBISTAN

4             ABD

4             NBA

4             MACCII

4             BIR

4             VE

3             SALII

3             DEVLETLERI

3             OLARAK

3             NTV

3             IIN

3             DEVLETLER

 

Böyle yapıldığında, sitelerin metin işlemcilerinin güvenilir sonuçlar verdiği görülmekte. Yani, tümünde de sözcüklerin sıklıkları aynı çıkmış durumda.