Traitement de texte: Encore des mots, toujours des mots...

Encore des mots, toujours des mots...

StatisTIC avec clic

Les systèmes informatiques étant des systèmes formels, la définition du mot ne peut qu'être liée à celle de séparateur. Il faut cependant nuancer.

Le concept de mot est utile dans un contexte de manipulation :

supprimer un mot
effacer un mot
envoyer le point d'insertion au début du mot suivant
...

Il l'est aussi dans un contexte de statistiques. On demande parfois à l'auteur d'un article de ne pas dépasser x mots.

Le système risque de ne pas se comporter tout à fait de la même façon dans les deux cas.

En gros, il identifie une série de séparateurs tels l'espace et tous les autres caractères non imprimables (taquet de tabulation, marque de fin de paragraphe…) ainsi que les signes habituels de ponctuation et autres signes qui ne sont pas des caractères ($, #, §…).

Pour un comptage statistique, le système a tendance à regrouper certains de ces mots ; notamment ceux qui ne sont séparés que par ces autres signes ($, #, §…), y compris le tiret. Par exemple, « chauve-souris » correspond à deux mots manipulables et un seul mot pour les statistiques.

Pas si simple !

Voici ce que propose un logiciel si on lui demande d'établir les statistiques de ces deux blocs de texte.

Ce premier extrait compte :

11 paragraphes,
11 lignes,
23 caractères (27 caractères, espaces compris),

On se souvient que l'espace est considérée comme un caractère non imprimable

5 mots.

Cet extrait compte :

1 paragraphe,
11 lignes,
17 caractères (21 caractères, espaces compris),
5 mots.

Sur quoi un logiciel de traitement de texte s'appuie-t-il pour obtenir ces résultats ?

Voir la réponse

Pour rappel, le texte est une longue suite de caractères (imprimables ou non). Le logiciel n'a donc guère de difficulté pour les compter. Le logiciel n'inclut pas les caractères non imprimables dans ses statistiques. Il peut toutefois prendre en compte les espaces.
Un mot est un bloc de caractères dont l'espace et les signes de ponctuation (point, virgule, point d'interrogation…) sont des séparateurs potentiels. L'apostrophe n'est généralement pas considérée comme un séparateur, de même que le tiret.
Un paragraphe est un bloc de caractères délimité par deux marques de fin de paragraphe.
Le système gérant lui-même les passages à la ligne automatique, il lui est facile de repérer une ligne.

Une conséquence de ces définitions formelles des mot, paragraphe et ligne est que tout système est capable de sélectionner un mot, un paragraphe, une ligne sans que l'utilisateur ne lui en précise les limites exactes.