Encore des mots, toujours des mots...
Sauter Menu de l'activité |
StatisTIC avec clicLes systèmes informatiques étant des systèmes formels, la définition du mot ne peut qu'être liée à celle de séparateur. Il faut cependant nuancer. Le concept de mot est utile dans un contexte de manipulation :
Il l'est aussi dans un contexte de statistiques. On demande parfois à l'auteur d'un article de ne pas dépasser x mots. Le système risque de ne pas se comporter tout à fait de la même façon dans les deux cas. En gros, il identifie une série de séparateurs tels l'espace et tous les autres caractères non imprimables (taquet de tabulation, marque de fin de paragraphe…) ainsi que les signes habituels de ponctuation et autres signes qui ne sont pas des caractères ($, #, §…). Pour un comptage statistique, le système a tendance à regrouper certains de ces mots ; notamment ceux qui ne sont séparés que par ces autres signes ($, #, §…), y compris le tiret. Par exemple, « chauve-souris » correspond à deux mots manipulables et un seul mot pour les statistiques. Pas si simple ! Voici ce que propose un logiciel si on lui demande d'établir les statistiques de ces deux blocs de texte. ![]() Ce premier extrait compte :
On se souvient que l'espace est considérée comme un caractère non imprimable ![]() Cet extrait compte :
Sur quoi un logiciel de traitement de texte s'appuie-t-il pour obtenir ces résultats ?
Une conséquence de ces définitions formelles des mot, paragraphe et ligne est que tout système est capable de sélectionner un mot, un paragraphe, une ligne sans que l'utilisateur ne lui en précise les limites exactes. |