Données et Variables
Si les expérimentateurs (expérimentatrices) manipulent des valeurs, des données, des mesures, les statisticiens (statisticiennes) manipulent des variables. Comme les calculs à effectuer sont différents en fonction des types de variables, il faut faire très attention aux types des variables. Nous traiterons les variables numériques avant de passer aux variables textuelles.
Les variables numériques correspondent soient à des données intrinséquement numériques (mesurées, observées ou calculées) soit à des codes numériques arbitraires. Dans le premier cas les valeurs numériques sont importantes, dans le second, elles ne servent que de support.
Variables pour données numériques mesurées ou calculées
Une donnée intrinséquement numérique est liée à la notion de quantité (absolue, relative...) et s'exprime à l'aide d'une unité bien définie. Lorsque les unités des variables sont sommables, les variables sont dites additives et sont nommées QT (quantitatives). Une variable QT continue correspond à un nombre potentiellement infini de valeurs comme par exemple la taille d'un individu en angstroem (!) alors qu'une variable QT discontinue (ou discrète) ne comporte qu'un petit nombre de valeurs comme par exemple le nombre d'enfants dans une famille exprimé en "enfants".
Les variables numériques à unités non sommables sont appelées variables semi-quantitatives. Ainsi la densité géographique d'un pays (rapport du nombre d'habitants sur la surface) exprimée en h/km2, le taux de chomage d'un département en %, l'indice de Quetelet (ou indice de masse corporelle, imc, Body Mass Index, BMI) en kg/m2 sont des variables semi-quantitatives. C'est le cas d'un certain nombre d'indices, de ratio, de rapports, de taux, de concentrations, de fréquences relatives, de pourcentages, de rangs...
La population d'un pays est une variable quantitative que l'on peut exprimer par exemple en millions d'habitants. Si un pays compte 10 millions d'habitants et si un autre pays compte 20 millions d'habitants, la réunion des deux pays correspond à 30 millions d'habitants qui est bien la somme 10+20 donc la population est une "vraie" QT (additive).
Comment montrer que la densité n'est pas additive ? Il suffit de considérer 2 pays. Si le premier pays a 3 habitants et qu'il fait 1 km2, sa densité est de 3 h/km2. Si le second pays a 12 habitants et qu'il fait 2 km2, sa densité est de 6 h/km2. Le pays défini comme la réunion des deux pays fait 15 habitants pour 3 km2, sa densité est de 5 h/km2 qui n'est pas la somme de 3 et 6 mais la moyenne pondérée des valeurs 3 et 6 avec les poids 1 et 2. Pour des parcelles de même superficie, la somme des densités est la moyenne arithmétique classique des densités. La densité géographique n'est donc pas une QT "pure et dure" mais seulement une semi-QT.
Le pH (potentiel hydrogène, c'est à dire le cologarithme du nombre de protons) est-il une variable quantitative ou semi-quantitative ? Il suffit de considérer deux solutions d'un acide fort (comme HN03). Si la première est un litre de solution de pH 3 et l'autre un litre du même acide fort mais de pH 5, alors le mélange des deux solutions, contient 10-3 + 10-5 moles de H30+ pour deux litres soit un pH de 3,297 et donc le pH n'est pas additif : ce n'est pas une variable quantitative.
Une concentration exprimée en g/l est-elle quantitative ou semi-quantitative ? Prenons un litre de solution de CaCl2 (chlorure de calcium) avec 4 g/l et mélangeons-la avec deux litres de solution de CaCl2 avec 10 g/l. On a en tout 24 g pour trois litres soit une concentration de 8 g/l qui n'est pas la somme de 4 et 10 mais la moyenne pondérée des valeurs 4 et 10 affectées des poids 1 et 2. Si par contre on travaille toujours avec un même volume de solution, le dénominateur est constant et la concentration du mélange est la moyenne arithmétique classique des concentrations.
Pour une variable QT, le calcul de moments (somme, moyenne, variance, écart-type...) et de quantiles, percentiles (dont la médiane) est possible.
Attention : pour une variable semi-quantitative, seuls les quantiles sont calculables.
On passe aisément d'une variable QT à une semi-QT en utilisant non pas les valeurs mais leurs rangs quand on range les valeurs par ordre croissant. Seule la comparaison des rangs est possible, pas leur somme et encore moins leur moyenne.
Variables à codes numériques arbitraires
Ces variables sont nommées QL (qualitatives [discrètes]). Si les codes sont ordonnés on parle de variables qualitatives ordinales. Sinon, on parle de variables qualitatives nominales. Le terme de variable catégorielle se rencontre aussi. Les codes servent à désigner des valeurs possibles qui sont nommées qualités, états, modalités, classes ou catégories. On associe aux qualités un label court et un libellé long de la même façon qu'on donne en général à une variable un nom long et un nom court.
Comme il y a une bijection entre tous les codages donnés pour une même variable, n'importe lequel de ces codages fera l'affaire. Le plus astucieux est sans doute de nommer 1, 2, 3... n les différentes valeurs possibles (et de réserver la valeur 0 pour l'absence de réponse en cas de non-réponse). Ainsi pour le code-sexe d'une personne, il y a plusieurs façons de coder en lettres ("H/F", "M/L"...) comme en chiffres (0/1, 1/0, 1/2...) suivant le pays, les habitudes mais au bout du compte, on n'a toujours affaire qu'à deux "vraies" valeurs et il serait "déraisonnable" d'utiliser 0 pour homme (!) et 1 pour femme. Il vaut mieux choisir 1 pour homme et 2 pour femme (0 pouvant alors servir pour les données manquantes). Voici deux autres exemples d'utilisation des labels et libellés :
Variable TRAI (traitement) avec 2 modalités Valeur Label Libellé Modalité 1 : 1 "Avec" "le traitement se fait avec des tubes en isopropylène" Modalité 2 : 2 "Sans" "le traitement se fait avec des tubes standard" Variable ETU (niveaux d'études) avec 4 modalités Valeur Label Libellé Modalité 1 : 0 "NR" "le sujet n'a pas répondu" Modalité 2 : 1 "Bepc" "le niveau est celui du collège" Modalité 3 : 2 "Bac" "le niveau est celui du lycée" Modalité 4 : 3 "Sup" "le niveau est celui de l'enseignement supérieur"Les seuls calculs possibles pour une variable QL sont le comptage relatif et le comptage absolu regroupés en un tableau d'effectifs (ou fréquences ou pourcentages) nommé "tri à plat". Pour deux variables, les comptages par couple de modalités (ou "croisement des modalités") sont regroupés en un tableau nommé "tri croisé" ou "tableau de contingence" qui peut contenir les effectifs absolus ou relatifs (par division en ligne, en colonne ou par le total général). Le test classique pour savoir s'il y a indépendance entre les modalités de deux variables QL est nommé "test du chi-deux [d'indépendance]".
Il est possible mais pas toujours facile de passer d'une variable QT à une variable QL par discrétisation, qu'elle soit quantitative pure ou seulement semi-quantitative : il suffit de choisir un nombre de classes, des bornes de classe et de "découper en classes" la variable à l'aides bornes de classe. Par exemple la variable QT nommée AGE exprimées en années peut être arbitrairement transformée en la variable QL nommée CL_AGE dont les 3 modalités sont
1 "Jeune" si l'age est strictement inférieur à 20 ans 2 "Adulte" si l'age est supérieur ou égal à 20 ans et strictement inférieur à 40 ans 3 "Vieux" si l'age est supérieur ou égal à 40 ans
Il va de soi que le choix du nombre de classes, des bornes de classes, des labels et libellés doit être mûrement réfléchi et justifié (par des tracés comme la courbe des valeurs triées, l'histogramme des fréquences par classe et par des méthodes comme l'équiréparition, l'équidistance, la méthode des m+/- k sigma etc.).
Variables textuelles
Une variable textuelle ou QX est une variable qui met en jeu des mots, des expressions langagières, voire des phrases qu'on ne peut réduire à des codes arbitraires, mêmes ordonnés. Il y a éventuellement un travail de préparation du texte, surtout s'il s'agit d'une transcription de textes oraux. En particulier, on peut lemmatiser c'est à dire restreindre aux lemmes (passer en minuscule, au masculin singulier, à l'infinitif...).
Une variable textuelle d'énonciation (ou semi-textuelle) ne met en jeu que des expressions que l'on traitera par comptage alors qu'une variable textuelle "complète" utilises des phrases, des segments et on calcule pour des mots, lemmes ou expressions à la fois des fréquences et des environnements. Ainsi la profession d'un adulte est une variable textuelle d'énonciation alors que la réponse à la question "pourquoi y a-t-il du chomage en France ?" est une variable textuelle "complète". Nos pages web nommées analexies permettent ce genre de calcul de statistique lexicale ; on pourra en particulier utiliser la page des analyses en ligne.
Retour à la page principale de (gH)