Statistiques descriptives en 2nd

I. Vocabulaire, effectifs et fréquences

Vocabulaire :
L'ensemble sur lequel porte une étude statistique est appelé population. Par exemple, l'ensemble des élèves de la classe, l'ensemble des habitants de France...

Un élément de la population est appelé individu.
La propriété étudiée sur chaque individu est appelée caractère.

Les différentes valeurs prises par le caractère sont appelées modalités.
Lorsque les modalités ne sont que des valeurs numériques, le caractère est dit quantitatif.
On distingue deux cas :

  • Le caractère est dit quantitatif discret s'il ne peut prendre que des modalités isolées. Par exemple, on peut étudier le nombre de frères sœurs, qui ne pourra prendre que les modalités 0 ; 1 ; 2 ; 3...
  • Le caractère est dit quantitatif continu si les valeurs sont prises dans un intervalle de R\mathbb R. Ces intervalles sont appelés classes.
    Par exemple, on peut étudier la taille des élèves d'un lycée. Les valeurs de ce caractère sont regroupés en classes : [1,4;1,5[ ;[1,5;1,6[  [1,6;1,7[ ;\lbrack 1{,}4 ; 1{,}5\lbrack\ ; \lbrack 1{,}5 ; 1{,}6\lbrack\; \lbrack 1{,}6 ; 1{,}7\lbrack\ ;\ldots
  • Dans le cas où les modalités ne sont pas des valeurs numériques, le caractère est dit qualitatif. Par exemple, étudier la couleur des yeux ou le sport pratiqué...

Faire des statistiques, c’est recueillir, organiser, synthétiser, représenter et exploiter des données, numériques ou non, dans un but de comparaison, de prévision, de constat...
Les métiers où les statistiques sont beaucoup utilisées sont les assureurs (risques d’accidents, de maladie des assurés), les médecins (épidémiologie), les démographes (populations et leur dynamique), les économistes (emploi, conjoncture économique), les météorologues...

Définitions n°1 :

  • On appelle effectif total le nombre d'individus dans la population.
  • L'effectif d'une modalité est le nombre d'individus de la population dont le caractère prend cette modalité.
  • A chaque modalité (ou classe) est associée une fréquence f. C'est le quotient de l'effectif de cette modalité par l'effectif total :

f=effectif de la modaliteˊeffectif totalf=\dfrac{\textrm{effectif de la modalité}}{\textrm{effectif total}}

Remarques :

  • Une fréquence est un nombre compris entre 0 et 1.
  • La somme des fréquences de toutes les modalités est égale à 1.

Exemple 1 :
Voici les notes obtenues à un contrôle (sur 10) dans une classe de 25 élèves : (notée Série A)

023444555566666677778889100 − 2 − 3 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 6 − 6 − 6 − 7 − 7 − 7 − 7 − 8 − 8 − 8 − 9 − 10

On peut représenter cette série par un tableau d’effectifs, et le compléter par le calcul des fréquences :
tableau-statistiques

Exemple 2 :
On va utiliser ici un regroupement par classe, ce qui rend l'étude moins précise, mais qui permet d'avoir une vision globale de la situation.
Une enquête réalisée sur 200 personnes indique le temps passé devant la télévision chaque jour.
Les données sont regroupées dans le tableau suivant (notée série B) :
tableau-statitistques

Définition n°2 :
Dans le cas d'un caractère quantitatif, on peut ordonner les différentes modalités de la plus petite à la plus grande (ou de la plus grande à la plus petite) puis additionner les effectifs successifs : on obtient les effectifs cumulés croissants (ou décroissants).
On obtient de la même façon les fréquences cumulées croissantes (ou décroissantes).

Exemple :
On travaille avec la série A.

  1. Compléter le tableau des effectifs cumulés croissants et des fréquences cumulées croissantes.
  2. Combien d'élèves ont une note inférieure ou égale à 6 ?
  3. Quelle est la proportion (exprimée en pourcentages) d'élèves n'ayant pas obtenu la moyenne ?

Solution :

  1. tableau-statistiques
  2. On lit dans le tableau que 16 élèves ont une note inférieure ou égale à 6.
  3. On lit 0,24. Donc 24% des élèves n'ont pas eu la moyenne.

II. Caractéristiques de position d'une série statistique

Définition n°3 :
La moyenne d'une série statistique, notéē xˉ\bar x, est égale à la somme totale des valeurs prises par le caractère divisée par l'effectif total.

Exemple : Calculer la moyenne de la série A.
tableau-statistiques

xˉ=0×1+1×0+2×1++10×125=14425=5,76\bar x =\dfrac{0\times 1+1\times 0+2\times 1+\ldots +10\times 1}{25}=\dfrac{144}{25}=5{,}76

La moyenne de la classe est de 5,765{,}76.

Exemple 2 : Calculer la moyenne de la série B.
tableau-statistiques
Lorsque la série est regroupée en classes, on prend pour valeurs dans le calcul de la moyenne le centre de chaque classe. Par exemple, le centre de la classe [0 ;1[\lbrack 0\ ; 1\lbrack est : 0,50{,}5
On calcule :

xˉ=0,5×16++4,5×80200=654200=3,27\bar x =\dfrac{0{,}5\times 16 +\ldots + 4{,}5\times 80}{200}=\dfrac{654}{200}=3{,}27

Le temps moyen est de 3,273{,}27 heures, soit 33 heures et 1616 minutes. (Conversion : 0,27×60160{,}27\times 60\approx 16).

Propriété :
Si x1, x2, , xpx_1,\ x_2,\ \ldots ,\ x_p désignent les pp modalités d'une série statistique, et f1, f2, , fpf_1,\ f_2,\ \ldots ,\ f_p désignent les fréquences correspondantes, alors :

xˉ=f1×x1+f2×x2++fp×xp\bar x = f_1\times x_1+f_2\times x_2+\ldots +f_p\times x_p

Exemple :
On a demandé aux élèves d'une classe d'indiquer le nombre de frères et sœurs qu'ils ont. Voici les résultats (série C) :
tableau-statistiques
Calculer le nombre moyen de frères et sœurs qu'a chaque élève.

xˉ=0×0,28+1×0,44++3×0,12=1,12\bar x= 0\times 0{,}28+1\times 0{,}44+\ldots +3\times 0{,}12=1{,}12

Le nombre moyen de frères et sœurs d'un élève de la classe est de 1,121{,}12.

Définition n°4 :
Dans une série statistique ordonnée, la médiane, notée MeMe, est un nombre qui permet de partager cette série en deux sous-groupes de même effectif.

Méthode :
On commence par ordonner la série, puis on la partage en deux sous-groupes de même effectif.

  • Si l'effectif total est impair, alors il restera une valeur entre les deux sous-groupes de même effectif. Cette valeur sera
    la médiane.
  • Si l'effectif total est pair, on choisira pour médiane la moyenne des nombres situés « au milieu » de la série.

Exemple :
Dans un groupe de 1010 élèves, voici les notes (sur 2020) obtenues à un devoir de mathématiques (série D):
12 ; 4 ; 16 ; 16 ; 10 ; 7 ; 9 ; 12 ; 9 ; 12.

On range puis on partage la série :

4;7;9;9;105 valeurs;12;12;12;16;165 valeurs\underbrace{4 ; 7 ; 9 ; 9 ; 10}_{5\textrm{ valeurs}}; \underbrace{12 ; 12 ; 12 ; 16 ; 16}_{5\textrm{ valeurs}}

Ici l'effectif total est 1010 qui est un nombre pair. On a deux sous-groupes de 55 valeurs. La médiane est la moyenne de la 5ème et 6ème valeur :

Me=10+122=11Me=\dfrac{10+12}{2}=11

Interprétation :
La moitié des élèves a eu plus que 11 et l'autre moitié moins que 11.

Définitions n°5 :

  • On appelle premier quartile d'une série statistique, noté Q1Q_1, la plus petite valeur de cette série telle qu'au moins 25%25\% des valeurs de la série lui soient inférieures ou égales.
  • On appelle troisième quartile d'une série statistique, noté Q3Q_3, la plus petite valeur de cette série telle qu'au moins 75%75\% des valeurs de la série lui soient inférieures ou égales.

Méthode :
Pour une série ordonnée d'effectif total NN :

  • On détermine l'arrondi de 25100×N\dfrac{25}{100}\times N à l'entier supérieur et on obtient le rang de Q1Q_1 dans la série.
    • On détermine l'arrondi de 75100×N\dfrac{75}{100}\times N à l'entier supérieur et on obtient le rang de Q3Q_3 dans la série.

Exemple n°1 :
On reprend la série précédente (série D) ordonnée:

4;7;9;9;10;12;12;12;16;164;7;9;9;10;12;12;12;16;16

L'effectif total est 1010.
On calcule : 25100×10=2,5\dfrac{25}{100}\times 10 = 2{,}5 donc Q1Q_1 est la 3ème valeur de la série ordonnée. (Attention Q1Q_1 n'est pas égal à 2,52{,}5 ou à 33)

Q1=9Q_1 = 9

Interprétation :
Au moins 25%25\% des élèves ont eu une note inférieure ou égale à 99.

On calcule : 75100×10=7,5\dfrac{75}{100}\times 10 = 7{,}5 donc Q3Q_3 est la 8ème valeur de la série ordonnée.

Q3=12Q_3 = 12

Interprétation :
Au moins 75%75\% des élèves ont eu une note inférieure ou égale à 1212.

Exemple n°2 : utilisation des fréquences cumulées croissantes
On reprend la série A.
tableau-quartiles-statistiques
On a dépassé les 25%25\% pour la valeur 55 donc : Q1=5Q_1 =5
On a dépassé les 75%75\% pour la valeur 77 donc : Q3=7Q_3 =7

III. Caractéristiques de dispersion d'une série statistique

Définition n°6 :
On appelle étendue d'une série statistique la différence, notée ee, entre la plus grande et la plus petite valeur de la série.

Exemple :
Pour la série D, la plus grande valeur est 1616 et la plus petite est 44. Donc :

e=164=12e = 16 - 4 = 12

Définition n°7 :
On appelle écart interquartile d'une série statistique le nombre Q3Q1Q_3-Q_1.

Remarque :
L’écart interquartile mesure la dispersion des valeurs autour de la médiane :
Plus l’écart est petit, plus les valeurs de la série appartenant à l’intervalle interquartile sont concentrées autour de la médiane.

Exemple :
Pour la série D, on a : Q1=9Q_1 =9 et Q3=12Q_3=12. Donc l'écart interquartile de cette série est :

129=312-9=3

IV. Représentations graphiques

1. Nuage de points

Lorsque le caractère étudié est quantitatif et discret, on peut représenter la série par un nuage de points.

C'est l'ensemble des points placés dans un repère dont les abscisses sont les valeurs du caractère et les ordonnées sont les effectifs correspondants.

tableau-statistiques
nuage-de-points

2. L'histogramme

Lorsque le caractère est quantitatif et que les modalités sont regroupées en classes, on peut représenter la série par un histogramme.

L'aire de chaque rectangle est proportionnelle à l'effectif de chaque classe.

Lorsque les classes ont la même amplitude, la hauteur du rectangle est proportionnelle aux effectifs.

On considère le tableau suivant qui donne la distance entre le domicile et le lycée pour les élèves d'une classe.
histogramme
histogramme


Posez vos questions

D'autres interrogations sur ce cours ? Démarrez une discussion et obtenez des réponses à des exercices pratiques.

Accéder au forum