M811 - Statistique descriptive

05-10-2008 à 16:31:10
L'objet des statistiques est d'étudier des caractères ou variables sur des individus. La récolte initiale des données conduit à un tableau brut, sur support papier.

1) CAS D'UNE SEULE VARIABLE

Le tableau brut se présente sous la forme suivante:



Le nombre d'individus observé étant en général important, le tableau précédent ne permet pas d'analyser l'information obtenue.
Il est donc nécessaire de créer un tableau plus synthétique où les observations identiques (possédant la même modalité ) ont été regroupées.



Pour une variable qualitative, les modalités ne sont pas mesurables.


Pour une variable quantitative, les modalités sont mesurables. Ce sont

* des valeurs numériques ponctuelles lorsque la variable est discrète
* des intervalles lorsque la variable est continue ou lorsque la variable est discrète et qu'elle comporte beaucoup de modalités.



2) CAS DE DEUX VARIABLES

Le tableau brut se présente sous la forme suivante:



On désire créer un tableau appelé tableau de contingence donnant le nombre d'individus possédant simultanément la modalité i de variable1 et la modalité j de variable2 qui se présentera sous la forme suivante:


  • Liens sponsorisés



05-10-2008 à 16:31:10
Lorsqu'on observe un caractère sur des individus, on aboutit à un tableau de chiffres peu parlant. L'objectif de ce chapitre est de donner une représentation graphique de ce tableau qui permette d'un seul coup d'œil d'avoir une idée de la manière dont se répartissent les individus.

1) VARIABLE QUALITATIVE

A chaque modalité i est associé un effectif ni.

La seule représentation qui nous intéresse est celle des effectifs ni (ou des fréquences ni/n).

Suivant la variable observée, de nombreuses représentations plus ou moins informatives peuvent être utilisées. Cependant les 2 plus classiques sont:

* Les tuyaux d'orgue (ou diagramme en barre ou diagramme à bandes)
- les modalités de la variable sont placées sur une droite horizontale (attention: ne pas orienter cette droite car les modalités ne sont pas mesurables et il n'y a donc pas de relation d'ordre entre elles).
- les effectifs (ou les fréquences) sont placées sur un axe vertical. La hauteur du tuyau est proportionnelle à l'effectif.



Attention: les tuyaux ont une certaine épaisseur pour qu'il n'y ait pas de confusion avec les diagrammes en bâtons réservés à la variable quantitative discrète.

* les diagrammes à secteurs (ou camemberts)
- L'effectif total est représenté par un disque.
- Chaque modalité est représentée par un secteur circulaire dont la surface (pratiquement : l'angle au centre) est proportionnelle à l'effectif correspondant.



2) VARIABLE QUANTITATIVE

Avant toute tentative de représentation, il y a lieu de distinguer entre variable discrète et variable classée (regroupements en classes).

Lorsque les modalités d'une variable discrète sont trop nombreuses, il est préférable de regrouper des modalités pour obtenir une variable classée afin que les graphiques synthétisent l'information et restent lisibles.

Une variable continue est systématiquement synthétisée dans un tableau sous forme de variable classée.

Deux types de graphiques sont intéressants à représenter:

a) les diagrammes différentiels qui mettent en évidence les différences d'effectifs (ou de fréquences) entre les différentes modalités ou classes.

b) les diagrammes cumulatifs qui permettent de répondre aux questions du style "combien d'individus ont pris une valeur inférieure (ou supérieure) à tant?".


2.1) Variable discrète


* Diagramme différentiel : le diagramme en bâtons

Les valeurs discrètes xi prises par les variables sont placées sur l'axe des abscisses, et les effectifs (ou les fréquences) sur l'axe des ordonnées. La hauteur du bâton est proportionnelle à l'effectif.




Diagrammes cumulatifs : ils permettent de visualiser l'évolution des effectifs (fréquences) cumulés croissants ou décroissants.



Remarque: les deux courbes sont symétriques par rapport à un axe horizontal d'ordonnée n/2 pour les effectifs, ½ pour les fréquences.

On utilise l'effectif (fréquence) cumulé croissant pour répondre aux questions du style :
Quel est le nombre (%) d'individus dont la valeur du caractère est inférieure ou égale à x ?

On utilise l'effectif (fréquence) cumulé décroissant pour répondre aux questions du style :
Quel est le nombre (%) d'individus dont la valeur du caractère est strictement supérieure à x ?


Se souvenir:

(au plus x) équivalent à ( < x) donc utiliser N(x) ou F(x)

(plus que x) équivalent à ( > x) donc utiliser N '(x) ou F '(x)

exemple :




- (au plus 6) équivalent à ( < 6) donc on pourra lire la fréquence cumulée croissante en 6, c.à.d. F(6) = 0,3

- (plus de 6) équivalent à ( > 6) donc on pourra lire la fréquence cumulée décroissante en 6, c.à.d. F '(6) = 0,7

- (moins de 6) équivalent à (< 6) équivalent à ( < 6-e) où e est une très faible valeur positive, donc on pourra lire la fréquence cumulée croissante en 6-e, c.à.d. F(6-e) = 0,2

- (au moins 6) équivalent à ( > 6) équivalent à ( > 6-e) où e est une très faible valeur positive, donc on pourra lire la fréquence cumulée décroissante en 6-e, c.à.d. F '(6-e) = 0,8

2.2) Variable classée

* Diagramme différentiel : l'histogramme

C'est un ensemble de rectangles contigus, chaque rectangle associé à chaque classe ayant une surface proportionnelle à l'effectif (fréquence) de cette classe.

Attention: Avant toute construction d'histogramme, il y a lieu de regarder si les classes sont d'amplitudes égales ou inégales.

Le cas des classes d'amplitudes égales ne pose aucune difficulté car il suffit de reporter en ordonnée l'effectif (la fréquence).

Dans le cas d'amplitudes inégales on reporte en ordonnée la densité di (effectif divisé par l'amplitude de la classe)



Diagrammes cumulatifs



L'utilisation des courbes est identique au cas discret.

Exemple:



Le fait d'utiliser des regroupements en classe ne permet plus de savoir s'il y a accumulation d'observations en un point. Par conséquent, contrairement au cas discret, il n'y a plus lieu de distinguer entre les inégalités strictes ou larges.

- (au plus 6) équivalent à ( < 6) donc on pourra lire la fréquence cumulée croissante en 6, c.à.d. F(6) = 0,35

- (plus de 6) équivalent à ( > 6) donc on pourra lire la fréquence cumulée décroissante en 6, c.à.d. F '(6) = 0,65

- (moins de 6) équivalent à (< 6) donc on pourra lire la fréquence cumulée croissante en 6, c.à.d. F(6) = 0,35

- (au moins 6) équivalent à ( > 6) donc on pourra lire la fréquence cumulée décroissante en 6, c.à.d. F '(6) = 0,65