Valid XHTML 1.0!                  

 

  (gH) Projet de programmation numéro 1
  en Licence informatique (troisième année)
  année 2005/2006 :
 
    Découpage en classes et "formes fortes"

 


 

Résumé :
 
Il est assez classique en statistiques de découper une variable en classes. Par exemple on recode souvent l'age de personnes exprimé en années via des catégories comme "jeune" (moins de 18 ans), "seniors" (plus de 65 ans)... Le but du projet est double :

  1. implémenter puis comparer les différentes méthodes de découpage,
  2. essayer de trouver les éléments communs aux divers découpages.
"débroussailler" le problème associé nommé MSCP.

On utilisera des interfaces WEB et on programmera en PHP tous les calculs.

Détail du projet:

La discrétisation d'une série de valeurs peut se faire de nombreuses façons, selon que l'on fixe le nombre de classes ou non, selon que l'on veuille une équirépartition des valeurs, des effectifs, selon des critères d'homogénéité... La première partie du projet consiste en l'implémentation en PHP de ces méthodes sur 3 jeux de données (que nous fournissons) et sur la comparaison des méthodes de discrétisation sur ces jeux de données. L'implémentation fournira de plus une page Web avec un formulaire pour essayer de discrétiser n'importe quel jeu de données.

La deuxième partie du projet essaiera de dégager un "consensus" de ces diverses discrétisations. Pour cela, on écrira un programme (toujours en PHP) qui sera la suite logique du précédent et qui indiquera quels éléments sont toujours ensemble dans les discrétisations. Plus généralement, on essaiera de fournir pour des partitions distinctes, les "formes fortes" ou classes contentant toujours les mêmes individus.

Références :
- discrétisation en R : help(cut) Instead of 'table(cut(x, br))', 'hist(x, br, plot = FALSE)' is more efficient and less memory hungry. Instead of 'cut(*, labels = FALSE)', 'findInterval()' is more efficient.

Jeux d'essais


 
pg
Les données (fictives) sont des tailles exprimées en centimètre. Elles mettent en jeu deux groupes d'individus : les "petits" et les "grands", facilement repérables.
age

Il s'agit des ages (données réelles, exprimées en années) pour des personnes interrogées dans le cadre d'une enquête sur la Féminisation des noms de métiers. Voir le dossier complet nommé ELF.

lng

Les données (réelles) sont des longueurs de chaines polypeptidiques pour des protéines. Elles sont exprimées en nombre d'acides aminés. Voir la description des données liées à la base de données DBDB à l'adresse L4A.

 

retour gH    Retour à la page principale de   (gH)