Le code ASCII à sept bits permet de coder les 128 principaux caractères : lettres majuscules et minuscules, chiffres, signes de ponctuation… utilisés en langue anglaise. Les caractères accentués ne sont pas pris en compte.
Les codes des lettres majuscules sont des nombres inférieurs à ceux des codes des lettres minuscules, ce qui est important en ce qui concerne l'ordre alphabétique et donc les tris.
Les codes binaires d'une lettre majuscule et de sa correspondante en minuscule ne diffèrent que par le troisième bit. Comme points de repère, le code décimal de la lettre A est 65 et celui de la lettre a est 97.
Le code ASCII étendu à huit bits permet de coder deux fois plus de caractères, soit 256. Les 128 caractères supplémentaires servent à coder les caractères spéciaux, mais ceux-ci variant d'une langue à l'autre, il existe plusieurs extensions. Pour nous, l'extension la plus connue et la plus utile est celle du code ISO-8859-1 appelé aussi latin-1 ou Europe occidentale.
Les 256 caractères peuvent être disposés dans un tableau dont les colonnes et les lignes peuvent être numérotées de 0 à 15 ou, pour ne travailler qu'avec un seul symbole, numérotées de 0 à F. Cette façon de repérer les caractères nous donne une idée de la manière d'écrire les nombres dans un système hexadécimal (16 symboles).
Un groupe de huit bits porte le nom d'octet. Comme l'octet représente le nombre de bits nécessaires pour coder un caractère, on a pris l'habitude de mesure la taille des supports d'information numérique en nombre d'octets.
On parle de Kilo-octets (Ko), de Méga-octets (Mo), de Giga-octets (Go) ou encore de Terra-octets (To) pour désigner les milliers, millions, milliards ou billions d'octets.
Parce que l'usage d'Internet et du Web l'ont rendu nécessaire, Unicode a la capacité de coder, non seulement les caractères d'une langue, mais tous les caractères de toutes les langues et dialectes écrits de la planète.
L'Unicode inclut trois techniques de codage interchangeables dont le plus courant sur le Web et dans l'usage du courrier électronique est l'UTF-8. UTF-8 utilise de un à quatre octets pour coder un caractère. En UTF-8, les caractères de l'ASCII sept bits sont toujours codés sur un octet, ce qui assure la compatibilité avec une partie très importante de l'information produite dans le passé.