Λοιπόν, δεν φαντάζεστε τι πλάκα έχουν τα λεξικά. Περνάμε τέλεια. Μικρό δείγμα αυτής της πλάκας έχω περιγράψει εδώ, στην (επιτυχή) προσπάθειά μου να προικίσω την Υπερτρισχιλιετή με την αλφαβητικώς τελευταία λέξη του λεξιλογίου της.
Αλλά με ένα λεξικό ανά χείρας μπορούμε να κάνουμε τόσα συναρπαστικά πράγματα ακόμα. Ας πούμε: ποιο είναι το πλουσιώτερο και ποιο το πενέστερο λεξικογραφικώς γράμμα της αλφαβήτου;
Θα χρησιμοποιήσω για τον σκοπό αυτό το Λεξικό της Κοινής Νεοελληνικής (ΛΚΝ) του Ιδρύματος Μανόλη Τριανταφυλλίδη, έκδοσης 1998 (εγώ έχω την 2η ανατύπωση του 2001). Το λεξικό αυτό εκτείνεται σε 1512 πυκνογραμμένες σελίδες μεγάλου μεγέθους και καθαρής λεξικογράφησης. Με μια διαίρεση μαθαίνουμε ότι σε ένα κόσμο απόλυτου λεξιλογικού εξισωτισμού θα αντιστοιχούσαν 1512/24 = 63 σελίδες σε κάθε γράμμα της αλφαβήτου μας. Φευ και αλίμονο φυσικά, η πραγματικότητα πόρρω απέχει. Σε ένα κόσμο όπου οι ανισότητες αυξάνονται καθημερινά και όπου τα πλούσια γράμματα γίνονται συνεχώς πλουσιώτερα, η ανισοκατανομή των λημμάτων είναι έντονη. Όπως παντού, υπάρχουν και εδώ οι έχοντες και οι μη έχοντες, οι υπερλημματογραφούμενοι και οι υπολημματογραφούμενοι.
Ποια γράμματα όμως έχουν γεννηθή πιο ίσα από τα άλλα; Αν φυλλομετρήσουμε το ΛΚΝ, λεξικογραφικός πρωταθλητής αναδεικνύεται το αναμενόμενο Άλφα, με 253 ολόκληρες σελίδες να διηγούνται τα κλέη του. Από κοντά το Πι με 176 σελίδες, το Έψιλον με 149, το Κάππα με 148 σελίδες, και το Σίγμα με 127: Α>Π>Ε>Κ>Σ
Παρατηρούμε ότι το 1/4 των γραμμάτων της αλφαβήτου κατέχει το 853/1512 = 56% των λημμάτων. Μόνο του το Άλφα καταλαμβάνει σχεδόν το 17% των ελληνικών λέξεων, μια αξιοπρόσεκτη επίδοση ομολογουμένως.
Στον αντίποδα, ο σύνηθης ύποπτος, το Ωμέγα, περιφέρει αιδήμον τα ράκη ούτε καν 7 σελίδων. Το Ήτα με 11 σελίδες, το Ζήτα με 12, το Ψι με 13, το Θήτα με 21 ακολουθούν σε αυτήν την θλιβερή χορεία της σπάνιος: Ω<Η<Ζ<Ψ<Θ
Τώρα, δεν θέλω να γίνωμαι μυστήριος, αλλά νομίζετε στα σοβαρά ότι είναι τυχαίο όλο αυτό; Το Ά και το Ω; Η αρχή και το τέλος; Το μεγαλύτερο γράμμα πρώτο πρώτο και το μικρότερο τελευταίο; Είναι τυχαία όλα αυτά; Ή μήπως η Υπερτρισχιλιετής διατηρεί κάποιο κρυμμένο μυστικό; Δεν ξέρω, υποθέσεις κάνω.
Τι λέτε εσείς για όλα αυτά;
πρεπει να δεις την κατανομη των λεξεων πριν αποφασιστει η σειρα των γραμματων της αλφαβητου, γιατι η αιτιοτητα μπορει ανετα να ειναι αναποδα.
Η αντίστροφη αιτιότητα ίσως να ισχύει για την αρχική σειρά, η οποία δεν περιελάμβανε φωνήεντα ωστόσο. Αν ίσχυε η λογική αυτή όμως, δεν θα έπρεπε κάποιο από τα β,γ,δ να προηγείται του π για παράδειγμα; Ή πώς επιτρέπεται τα η,θ, ζ να είναι μπροστά μπροστά στην αλφαβήτα και ουραγοί σε σελίδες στο λεξικό;
Νομίζω υπάρχει υλικό εδώ για το νέο μυθιστόρημα του Νταν Μπράουν. Με επιρροές από το εκκρεμές του Φουκώ ίσως.
Aριθμός λημμάτων ανά γράμμα:
Α 8315
Π 5187
Κ 4527
Ε 4248
Σ 3940
Μ 3023
Δ 2132
Τ 2064
Φ 1432
Ο 1274
Γ 1269
Β 1138
Χ 1121
Λ 1089
Ν 941
Υ 903
Ξ 805
Ρ 720
Ι 668
Θ 572
Ψ 437
Ζ 375
Η 354
Ω 177
Εντάξει, δεν παίζεσαι λέμε.
Ενδιαφέρον πείραμα. Υποθέτω ότι ανάλογα αποτελέσματα θα δίνουν και τα άλλα μεγάλα λεξικά μας. Πρόσεξε όμως ότι η σειρά αυτή καθόλου δεν συμπίπτει με τη σειρά συχνότητας των γραμμάτων.
Το Α είναι καιπάλι το συχνότερο γράμμα, αλλά το Ι βρίσκεται στην τέταρτη θέση, ενώ ως αρκτικό γράμμα είναι από τα τελευταία. Το Η είναι προτελευταίο αρκτικό αλλά έχει την 8η συχνότητα, ενώ το Δ που έχει ικανό αριθμό λημμάτων είναι πολύ πιο χαμηλά στη συχνότητα, παρομοίως το Μ.
Υποθέτω επίσης πως αν είχες τηλεφωνικό κατάλογο η σειρά θα ήταν διαφορετική, με πρώτο το Π και δεύτερο το Κ.
Ακόμη πιο ενδιαφέρουσα, και δύσκολη να την μετρήσουμε υποθέτω, είναι η συχνότητα των φθόγγων. Γιατί τα η, ι, υ είναι [ι] κλπ.
Από πού προκύπτουν αυτά τα στοιχεία;
Παράξενο που τα ι,η, ενώ είναι κοινά γράμματα, είναι πολύ σπάνια ως αρκτικά.
Συχνότητα του αρχικού φθόγγου κάθε λήμματος:
a 7940
p 5520
k 4568
e 4264
s 3794
m 2406
i 2165
δ 2097
t 1945
f 1415
o 1158
v 1125
l 1049
x 858
n 710
r 707
c 659
γ 644
b 568
θ 560
j 469
z 441
d 264
ç 254
u 154
g 113
ʎ 26
ɟ 21
ɲ 21
Λήμματα με περισσότερες από μία μορφές μετρήθηκαν μία φορά για κάθε μορφή, που είναι λάθος.
Μερικες παρατηρησεις.
Τα δυο τελευταια γραμματα Ω και Η ειναι αρκετα λογικο να μην αρχιζουν πολλες λεξεις, αφου η προελευση τους ειναι απο δυο Ο η δυο Ε αντιστοιχα.
Ποσες λεξεις μπορει να ξεκινανε απο δυο ιδια φωνηεντα;
Κατα τα αλλα διαφερουν μεταξυ τους σε συχνοτητα, περιπου οσο και το Ε με το Ο.
Επισης στις αμεσως προηγουμενες, παρατηρουμε τα διπλα, Ζ και Ψ ενω το Ξ αν και χαμηλα στην καταταξη καταφερε να παρει λιγο ψηλοτερη θεση. Νομιζω οτι κι αυτο ειναι λογικο, αφου στατιστικα ειναι πιο ευκολο να αρχιζει μια λεξη απο ενα μονο γραμμα και οχι απο δυο συγκεκριμενα.
Μια τριτη παρατηρηση ειναι οτι τα “ψιλα” Τ, Π και Κ, σε γενικες γραμμες, επικρατουν των αντιστοιχων “μεσων” Δ, Β, Γ και ακομη περισσοτερο των “δασεων” Θ, Φ, Χ, μαλλον σε συμφωνια και με τα φωνηεντα τα οποια συνηθεστερα παιρνουν ψιλη, παρα δασεια. Εξαιρεση το Δ που εμφανιζεται συχνοτερα απο το Τ, με πιθανο υπευθυνο την “δια” στην συνθεση.
Καθοριστικος και σε αλλες περιπτωσεις φαινεται να ειναι ο ρολος των προθεσεων μεσω της συνθεσης, οπως των “υπερ” και “υπο” στην επικρατηση του Υ εναντι του γενικα συνηθεστερου Ι καθως και της ανισοκατανομης μεταξυ των ενρινων Μ και Ν, λογω της “μετα”
Στο ιδιο πρεπει να αποδωθει μαλλον και η πολυ υψηλη θεση του Π, καθως και η μεγαλη διαφορα του ετσι κι αλλιως συνηθισμενου Α, αφου τα “απο”, τα “ανα” και τα “αμφι” το φερνουν στην αρχη πολλων λεξεων.