Zipf et hapax legomenon

En quelle langue est écrit cet étrange titre? Zipf n’est pas une onomatopée, mais le nom d’une loi en l’honneur de celui qui l’a découvert, un certain George Kingsley Zipf.

George-Kingsley-Zipf-

La loi de Zipf est étonnante, car elle concerne les statistiques de la linguistique. Il est facile de savoir que, peu importe la langue dans laquelle on écrit un long texte, roman, encyclopédie, la récurrence des différents mots variera énormément. Cependant, Zipf a cherché à en connaitre beaucoup plus et ce qu’il a découvert a de quoi étonner, pour ne pas dire abasourdir.

Commençons par un constat simple, mais non dénué d’importance, la récurrence des mots varie en fonction de leur longueur. Plus un mot est court, plus fréquemment il sera utilisé. On le voit bien avec les déterminants, les prépositions, les conjonctions, des mots généralement très courts. On le comprend également pour l’autre extrémité du spectre. Pour diverses raisons, les très longs mots ne seront pratiquement jamais employés, l’une des raisons étant notre ignorance même de leur existence, mais notre paresse fait également partie des causes favorisant leur absence. De plus, les longs mots sont souvent tirés de jargons spécialisés, impertinents dans des œuvres de nature générale.

Graphique_Zipf_pour_Ulysses

Lorsqu’un long mot devient très populaire, nous produisons des diminutifs, ce qui contribue à respecter le principe relationnel entre longueur courte – fréquence élevée. Cinéma pour cinématographe, pneu pour pneumatique, télé pour téléviseur, frigo pour réfrigérateur, doc pour docteur, etc., les mots raccourcissent avec la fréquence d’utilisation.

Zipf a également noté que les mots difficiles à prononcer auront tendance à disparaitre des discours. S’ils s’avèrent incontournables, certains se transformeront afin que leur prononciation s’en voit facilitée.

Mais sa plus étonnante découverte fut de constater que la récurrence des mots suit une loi mathématique étrangement simple.

Si le mot le plus fréquent est apparu n fois dans une œuvre, le deuxième plus fréquent apparaitra moitié moins souvent, le troisième, seulement le tiers du premier, etc. C’est une simple loi d’inverse 1/n.

En multipliant le rang (r) de chaque mot par son nombre de récurrences (n), on obtient une constante égale à n pour chaque mot répertorié dans l’œuvre. C’est la loi de Zipf. Fantastique, vous ne trouvez pas?

Bon, maintenant que j’ai donné l’explication du mot Zipf dans le titre, que signifient les deux autres mots?

Le terme «hapax legomenon» est tiré du grec et signifie «chose dite une seule fois». Dans la loi de Zipf, il signifie un mot apparaissant une seule fois dans une œuvre. Dans le graphique, ce sont les points situés tout au bas. 

Le dictionnaire français présente la version écourtée, le mot «hapax» pour désigner ces solitaires.