Seconde générale et technologique

Statistiques descriptives, tableaux croisés et fréquences conditionnelles

La statistique descriptive sert à résumer des données pour mieux les comprendre. On ne cherche pas seulement à calculer vite : on veut décrire une population, faire apparaître une tendance et mesurer une dispersion. Pour cela, il faut savoir ce que l'on observe, sur qui on l'observe et comment on...

Version HTML statique du cours. Si JavaScript est actif, MathSups affiche l’expérience interactive avec QCM, exercices guidés et assistant IA.

Population, caractère et premiers indicateurs

La statistique descriptive sert à résumer des données pour mieux les comprendre. On ne cherche pas seulement à calculer vite : on veut décrire une population, faire apparaître une tendance et mesurer une dispersion. Pour cela, il faut savoir ce que l'on observe, sur qui on l'observe et comment on interprète les indicateurs obtenus.

Statistique descriptive et boîtes à moustaches
Une bonne lecture statistique combine un indicateur de centre et un indicateur de dispersion. Aucun nombre ne doit être lu isolément.

Population, caractère, effectif

La population est l'ensemble des individus étudiés. Le caractère est ce que l'on observe sur chaque individu : une note, une taille, un temps de trajet, une catégorie, etc. L'effectif d'une valeur est le nombre d'individus qui possèdent cette valeur. La somme de tous les effectifs donne l'effectif total.

Fréquence et pourcentage

La fréquence d'une valeur est son effectif divisé par l'effectif total :

$f_i=\frac{n_i}{N}.$

On peut ensuite la convertir en pourcentage en multipliant par 100. Une fréquence de $0{,}18$ signifie donc $18\%$ de la population. Comme toujours, il faut préciser la population de référence, sinon la donnée n'a pas de sens.

Moyenne, médiane et mode

La moyenne se calcule avec la formule :

$\overline{x}=\frac{x_1+x_2+\dots+x_N}{N}$

ou, quand certaines valeurs se répètent :

$\overline{x}=\frac{n_1x_1+n_2x_2+\dots+n_px_p}{n_1+n_2+\dots+n_p}.$

La médiane est la valeur qui partage la série ordonnée en deux parties d'effectifs comparables. Le mode est la valeur la plus fréquente. Ces trois indicateurs ne racontent pas exactement la même chose : la moyenne est sensible aux valeurs extrêmes, la médiane beaucoup moins.

Linéarité de la moyenne

Si on ajoute une même constante $k$ à toutes les valeurs d'une série, la moyenne augmente de $k.$ Si on multiplie toutes les valeurs par $c,$ la moyenne est multipliée par $c.$ Ces règles sont très utiles pour vérifier rapidement un calcul ou comparer deux séries transformées.

Formules et rangs à connaître

Si l'effectif total est $N$ :

  • pour une série d'effectif impair, la médiane est la valeur de rang $\frac{N+1}{2}$ ;
  • pour une série d'effectif pair, on regarde les deux valeurs centrales ;
  • le quartile $Q_1$ se lit au rang au moins égal à $\frac{N}{4}$ ;
  • le quartile $Q_3$ se lit au rang au moins égal à $\frac{3N}{4}$.

En pratique, on utilise souvent les effectifs cumulés pour trouver rapidement ces positions.

Lecture d'un indicateur

Une moyenne ne suffit pas toujours à décrire une série. Deux séries peuvent avoir la même moyenne et une répartition très différente. C'est pour cela qu'on complète presque toujours l'étude avec une médiane, des quartiles ou une mesure de dispersion.

Quartiles, dispersion et lecture globale d'une série

Décrire une série ne consiste pas seulement à trouver une valeur centrale. Il faut aussi mesurer l'écart entre les données. En Seconde, les quartiles, l'étendue et l'écart interquartile jouent ce rôle. Ils aident à dire si une série est resserrée ou dispersée.

Quartiles et écart interquartile

Le premier quartile $Q_1$ est une valeur telle qu'au moins 25 % des données lui sont inférieures ou égales. Le troisième quartile $Q_3$ joue le même rôle pour 75 %. L'écart interquartile vaut :

$I=Q_3-Q_1.$

Il mesure l'étalement de la moitié centrale de la série.

Étendue

L'étendue se calcule par :

$E=\text{maximum}-\text{minimum}.$

Elle donne une première idée de la dispersion, mais elle ne dépend que des valeurs extrêmes. Elle est donc utile, sans suffire à elle seule.

Boîte à moustaches

Une boîte à moustaches résume une série avec cinq valeurs : minimum, $Q_1,$ médiane, $Q_3$ et maximum. Une boîte courte signale une moitié centrale resserrée ; une boîte longue signale une plus grande dispersion. Elle permet donc de comparer visuellement deux séries sans recalculer tous les indicateurs.

Effectifs cumulés

Les effectifs cumulés servent à repérer rapidement la médiane, les quartiles ou une proportion donnée de la population. On additionne progressivement les effectifs dans l'ordre croissant. Cette méthode permet de lire la structure de la série et pas seulement des valeurs isolées.

Interpréter plusieurs indicateurs

Si une série a une moyenne de 12, une médiane de 11 et une grande étendue, on peut déjà dire qu'elle est assez dispersée et que quelques grandes valeurs tirent la moyenne vers le haut. L'interprétation doit toujours relier les indicateurs entre eux.

Ne pas tout confondre

La médiane n'est pas la moyenne, l'étendue n'est pas l'écart interquartile, et un quartile n'est pas une valeur « choisie au hasard ». Chacun de ces outils répond à une question précise sur la série.

Séries groupées, classes et histogrammes

Quand les données sont nombreuses ou continues, on les regroupe en classes. On lit alors un histogramme et on travaille avec des effectifs par intervalle. Il faut savoir ce qu'on lit : parfois une hauteur, parfois une aire, et souvent une approximation.

Classes et amplitude

Une classe est un intervalle de valeurs. Son amplitude est sa largeur. Dans un histogramme, l'amplitude compte : deux classes de largeurs différentes ne peuvent pas être comparées seulement à l'œil si l'on regarde les hauteurs des rectangles.

Hauteur ou aire ?

Quand les classes ont la même largeur, comparer les hauteurs est pertinent. Si les classes n'ont pas la même largeur, c'est l'aire du rectangle qui représente l'effectif ou la fréquence. C'est un point de lecture très classique en contrôle.

Moyenne approchée d'une série groupée

Pour approcher une moyenne, on remplace chaque classe par son centre, puis on calcule une moyenne pondérée avec les effectifs de classe. Il faut préciser qu'il s'agit d'une estimation, pas d'une valeur exacte.

Classe médiane

On calcule les effectifs cumulés dans l'ordre croissant. La classe médiane est celle dans laquelle on dépasse pour la première fois la moitié de l'effectif total. Elle localise la médiane, même si on ne cherche pas toujours une valeur numérique exacte.

Exemple de lecture

Si une classe très large a la même hauteur qu'une classe étroite, elle peut représenter un effectif bien plus important. Il faut donc toujours se demander ce que représente réellement le rectangle avant d'interpréter le graphique.

Tableaux croisés et fréquences conditionnelles

Croiser deux variables permet de mieux décrire une population. Un tableau croisé n'est pas seulement une présentation : c'est un outil de lecture qui prépare directement les probabilités conditionnelles. Toute la difficulté est de choisir la bonne population de référence.

Tableau croisé

Un tableau croisé organise les individus selon deux caractères. Chaque case contient un effectif commun à deux modalités. Les totaux de lignes et de colonnes sont appelés effectifs marginaux. Ils servent de points de repère pour les lectures globales.

Fréquence marginale et fréquence conditionnelle

Une fréquence marginale se calcule par rapport au total général. Une fréquence conditionnelle se calcule dans une sous-population donnée. Par exemple, « parmi les internes » ou « parmi les filles » change complètement le dénominateur.

Bien choisir le dénominateur

Si 24 filles sur 80 pratiquent le handball, alors la fréquence conditionnelle « parmi les filles » vaut $\frac{24}{80}$. Si l'on veut la fréquence dans tout l'établissement, il faut diviser par l'effectif total. Le numérateur peut rester le même alors que le dénominateur change.

Rédaction attendue

Une bonne phrase contient toujours trois éléments : le groupe étudié, la modalité observée et la valeur obtenue. Par exemple : « Parmi les demi-pensionnaires, 40 % viennent en bus. » Cette forme est bien plus claire qu'un nombre seul.

Point de vigilance

Dire « 40 % » sans préciser « parmi les demi-pensionnaires » ou « parmi les élèves de seconde » ne permet pas de comprendre le résultat. En statistique comme en probabilité, la référence est toujours le point de départ du raisonnement.

QCM du chapitre

  1. Question 1. La médiane d'une série ordonnée est :

    • A. la plus grande valeur
    • B. la valeur centrale qui partage la série en deux
    • C. toujours égale à la moyenne
    • D. la différence entre max et min

    Réponse. B. la valeur centrale qui partage la série en deux

    Explication. La médiane partage les données en deux parties d'effectif comparable.

  2. Question 2. L'écart interquartile vaut :

    • A. $Q_3-Q_1$
    • B. $Q_1-Q_3$
    • C. moyenne - médiane
    • D. max - min

    Réponse. A. $Q_3-Q_1$

    Explication. Il mesure l'étendue de la moitié centrale de la série.

  3. Question 3. Une fréquence conditionnelle se calcule dans :

    • A. la population totale uniquement
    • B. une sous-population donnée
    • C. un intervalle de variation
    • D. un produit scalaire

    Réponse. B. une sous-population donnée

    Explication. La référence n'est plus la population totale mais la sous-population choisie.

  4. Question 4. Dans un histogramme à classes de largeurs différentes, on compare :

    • A. les couleurs
    • B. les hauteurs seulement
    • C. les aires
    • D. les titres

    Réponse. C. les aires

    Explication. Quand les amplitudes changent, c'est l'aire qui représente l'effectif ou la fréquence.

Exercices guidés

Exercice 1. Lire et commenter une série statistique

On a les notes suivantes : 8, 10, 10, 12, 12, 12, 15, 16, 18.
1. Déterminer la moyenne et la médiane.
2. Décrire brièvement la série à l'aide d'un indicateur de centre et d'un indicateur de dispersion.

  1. Étape 1. Ordonner et repérer le centre.

    La série est déjà ordonnée. Il y a 9 valeurs, donc la médiane est la 5e valeur : $12.$

  2. Étape 2. Calculer la moyenne.

    La somme vaut $8+10+10+12+12+12+15+16+18=113.$ La moyenne est donc $\frac{113}{9}\approx12{,}6.$

  3. Étape 3. Interpréter les indicateurs.

    La série est centrée autour de 12 ou 13. La médiane est 12, la moyenne est légèrement plus grande, ce qui suggère quelques notes élevées qui tirent la moyenne vers le haut.

  4. Étape 4. Ajouter une remarque de dispersion.

    L'étendue vaut $18-8=10.$ La série n'est pas extrêmement dispersée, mais elle contient quand même des valeurs assez éloignées du centre.

  5. Étape 5. Rédiger une conclusion statistique.

    On peut conclure : « la série est centrée autour de 12 à 13, avec une dispersion modérée ; quelques bonnes notes tirent légèrement la moyenne au-dessus de la médiane ».

Exercice 2. Lire un tableau croisé

Dans un lycée, 120 élèves sont internes, 180 demi-pensionnaires et 100 externes. Parmi les demi-pensionnaires, 72 viennent en bus.
Déterminer la fréquence conditionnelle des élèves venant en bus parmi les demi-pensionnaires.

  1. Étape 1. Identifier la population de référence.

    La référence est ici la sous-population des demi-pensionnaires, soit 180 élèves.

  2. Étape 2. Calculer la fréquence.

    La fréquence conditionnelle vaut $\frac{72}{180}=0{,}4.$

  3. Étape 3. Passer au pourcentage.

    On obtient $0{,}4=40\%.$

  4. Étape 4. Conclure proprement.

    Parmi les demi-pensionnaires, 40 % viennent en bus. Le mot « parmi » montre clairement que l'on travaille dans une sous-population.

À retenir