Zipf et hapax legomenon

En quelle langue est écrit cet étrange titre? Zipf n’est pas une onomatopée, mais le nom d’une loi en l’honneur de celui qui l’a découvert, un certain George Kingsley Zipf.

George-Kingsley-Zipf-

La loi de Zipf est étonnante, car elle concerne les statistiques de la linguistique. Il est facile de savoir que, peu importe la langue dans laquelle on écrit un long texte, roman, encyclopédie, la récurrence des différents mots variera énormément. Cependant, Zipf a cherché à en connaitre beaucoup plus et ce qu’il a découvert a de quoi étonner, pour ne pas dire abasourdir.

Commençons par un constat simple, mais non dénué d’importance, la récurrence des mots varie en fonction de leur longueur. Plus un mot est court, plus fréquemment il sera utilisé. On le voit bien avec les déterminants, les prépositions, les conjonctions, des mots généralement très courts. On le comprend également pour l’autre extrémité du spectre. Pour diverses raisons, les très longs mots ne seront pratiquement jamais employés, l’une des raisons étant notre ignorance même de leur existence, mais notre paresse fait également partie des causes favorisant leur absence. De plus, les longs mots sont souvent tirés de jargons spécialisés, impertinents dans des œuvres de nature générale.

Graphique_Zipf_pour_Ulysses

Lorsqu’un long mot devient très populaire, nous produisons des diminutifs, ce qui contribue à respecter le principe relationnel entre longueur courte – fréquence élevée. Cinéma pour cinématographe, pneu pour pneumatique, télé pour téléviseur, frigo pour réfrigérateur, doc pour docteur, etc., les mots raccourcissent avec la fréquence d’utilisation.

Zipf a également noté que les mots difficiles à prononcer auront tendance à disparaitre des discours. S’ils s’avèrent incontournables, certains se transformeront afin que leur prononciation s’en voit facilitée.

Mais sa plus étonnante découverte fut de constater que la récurrence des mots suit une loi mathématique étrangement simple.

Si le mot le plus fréquent est apparu n fois dans une œuvre, le deuxième plus fréquent apparaitra moitié moins souvent, le troisième, seulement le tiers du premier, etc. C’est une simple loi d’inverse 1/n.

En multipliant le rang (r) de chaque mot par son nombre de récurrences (n), on obtient une constante égale à n pour chaque mot répertorié dans l’œuvre. C’est la loi de Zipf. Fantastique, vous ne trouvez pas?

Bon, maintenant que j’ai donné l’explication du mot Zipf dans le titre, que signifient les deux autres mots?

Le terme «hapax legomenon» est tiré du grec et signifie «chose dite une seule fois». Dans la loi de Zipf, il signifie un mot apparaissant une seule fois dans une œuvre. Dans le graphique, ce sont les points situés tout au bas. 

Le dictionnaire français présente la version écourtée, le mot «hapax» pour désigner ces solitaires.

5 commentaires sur “Zipf et hapax legomenon

  1. Une fois on se battait avec une amie parce qu’on était pas d’accord sur l’orthographe d’événement et évènement… Les deux mots sont corrects. Je suppose que si on parle vite, évènement devient vite événement, d’où l’évolution de la graphie. C’est un nom si courant, qu’on s’est peu à peu habitué à entendre é-vé-ne-ment. 🙂

    Aimé par 1 personne

    1. Il y a aussi le mot avènement qui laisse croire à la seule graphie évènement. Événementiel et évènementiel existent aussi tous les deux. La beauté et la richesse de la langue française !

      J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s