Tutorat de Programmation Avancée (IMA3 - 2017/2018)
test/Ce dépôt GIT
contient le sujet et les données utiles pour la réalisation du
petit projet du module de Programmation Avancée.
Attention: ce dépôt risque d'évoluer au cours de l'avancée des projets. N'hésitez pas à le consulter régulièrement.
Résumé
L'objectif de ce projet est de vérifier que vous maîtrisez les principes vus en cours de programmation avancée : structures de données complexes, lecture / écriture de fichiers, compilation séparée et automatique, utilisation de gestionnaire de version...
Pour cela, le travail demandé est de réaliser une application qui permet d'analyser les résultats d'une compétition sportive à laquelle ont participé plus de 200 000 personnnes. Votre travail est de charger ce fichier pour effectuer un certain nombre de requêtes (classement, recherche d'un club, du score d'un athlète...)
Contexte
Le CrossFit est une méthode de conditionnement physique combine principalement la force athlétique, l'haltérophilie, la gymnastique et les sports d'endurance. Le mot CrossFit vient de Cross Fitness (en français, entraînement croisé), appelé ainsi parce qu'il mélange différentes activités physiques et sportives préexistantes (source Wikipedia). Tous les ans a lieu une compétition (Crossfit Games) ouverte à tous en utilisant un système de sélection en ligne. La première phase de cette compétition (les Open) a lieu habituellement au mois de Mars et s'est donc terminée pour l'édition 2018. Elle comporte 5 épreuves différentes qui sont utilisées pour calculer le score et le classement global. Tous les résultats sont disponibles sur le site web games.crossfit.com et via une API qui permet de télécharger l'intégralité des résultats.
Les données sont stockées dans un fichier CSV
(comma-separated values) qui
est un format texte permettant de stocker des tableaux. Chaque ligne du fichier
correspond à une ligne du tableau et les différents éléments d'une ligne sont
séparés par un élément particulier (en général une virgule ,
mais d'autres sont
possibles \t
, ;
...). La première ligne sert à décrire le nom des différents
champs. Par exemple sur le fichier qui nous intéresse :
athId,regId,divId,lastName,firstName,gender,age,weight,height,affiliateId,affiliateName,overallScore,overallRank,18.1 score,18.1 scoreDisplay,18.1 rank,18.2 score,18.2 scoreDisplay,18.2 rank,18.2a score,18.2a scoreDisplay,18.2a rank
180541,18,1,Vigneault,Alex,M,26,203 lb,71 in,10990,CrossFit Quebec City,61,1,14720000,472 reps,11,11100455,4:25,42,13750455,375 lb,8
92567,22,1,Ganin,Andrey,M,34,104 kg,185 cm,20513,CrossFit MDN,175,2,14770000,477 reps,3,11100455,4:25,42,13420455,342 lb,130
881332,17,1,Vinas,Tommy,M,21,200 lb,71 in,17152,Zero Machine CrossFit,212,3,14490000,449 reps,132,11100452,4:28,58,13650452,365 lb,22
Le premier champ correspond à l'identifiant de l'athlète (180541
), le
quatrième à son nom de famille Vigneault
, le cinquième à son prénom Alex
... En ce qui concerne les champs après overallRank
ils correspondent au nom de l'épreuve (18.1
signifiant première épreuve de l'édition 2018). Comme pour toutes les éditions, il y a 5 épreuves par compétition (mais la 2ième épreuve contient un épreuve annexe nommée 18.2a). Pour plus de détails sur chacun des champs, vous pouvez consulter l'annexe.
Cahier des charges
Il vous est demandé de réaliser un programme qui charge le fichier de données CSV
(voir l'annexe pour obtenir les fichiers) et qui permet d'interroger facilement ce fichier. Il doit être possible de :
- Donner le top 50 (i.e. les 50 premiers)
- Donner le top 50 hommes uniquement ou femmes uniquement
- Donner le top 50 d'une région donnée
- Donner le top 50 d'une épreuve donnée
- Rechercher un athlète via son identifiant (
athId
) - Rechercher les athlètes par nom de famille
- Donner le classement d'une salle de CrossFit donnée via son identifiant (
affiliateId
) - Donner le classement des adhérents des salles de la métropole lilloise
Le volume de données est important, par conséquent un soin particulier devra être apporté aux structures de données utilisées et à la rapidité d'exécution de votre programme. Les choix algorithmiques devront obligatoirement être expliqués et justifiés dans votre rapport.
Pour permettre d'évaluer automatiquement la performance de votre programme et permettre une utilisation automatique par redirection, votre programme devra fonctionner de la manière suivante :
- charger le fichier de données
- attendre une commande
- traiter la commande
- afficher le résultat de cette commande
- revenir à l'étape 2
Les commandes seront les suivantes:
1
: donne le top 502 M|F
: donne le top 50 hommes ou femmes3 id
: donne le top 50 d'une région donnée parid
4 ep
: donne le top 50 d'une épreuve donnée (ep
vaut entre[1,5]
)5 id
: recherche un athlète via son identifiantid
6 name
: recherche les athlètes dont le nom de famille estname
7 id
: donne le classement d'une salle de CrossFit via son identifiantid
8
: donne le classement des adhèrents des salles de la métropole lilloise9
: quitte
Ainsi si votre exécutable s'appelle projet_pa
il doit être possible de l'utiliser de la manière suivante:
$ ./projet_pa < data/requetes.txt
avec le fichier requetes.txt
qui contient par exemple:
1
2 M
3 18
4 1
5 881332
6 Vigneault
7 12020
8
5 670954
5 553467
5 98546
5 344299
5 1033765
5 190466
5 3774
5 236854
5 1006179
5 263196
5 911088
5 236032
5 288309
5 173209
2 F
9
Précisions sur les requêtes
Pour toutes les requêtes du type donne le top 50... ou donne le classement..., on attend un résultat du type
01 nom prenom score
02 nom prenom score
...
Pour toutes les requêtes du type recherche..., on attend un résultat du type
athId nom prenom genre age taille poids score18.1 score18.2 score 18.2a score18.3 score18.4 score18.5
Vous prendrez soin d'avoir des résultats qui utilisent le système international d'unités (masse en kg et longueur en m)
Déliverables
La date de fin de projet est le dimanche 3 juin 2018 23:59 CEST. Tout retard entraînera des pénalités.
Vous n'avez rien à imprimer, ni des documents à envoyer par e-mail. Il faudra donner l'accès du dépôt à votre correcteur et celui-ci corrigera à partir de la dernière version du dépôt ou de la branche release
(si elle existe) avant la date limite. Les push
qui suivraient la date limite ne seront pas considérés.
Sur votre dépôt devront figurer :
- le code source correctement commenté et indenté
- un
Makefile
pour la compilation automatique - un
README.md
décrivant l'utilisation de votre programme - un rapport au format PDF ou un fichier
Rapport.md
(les autres formats ne sont pas acceptés) de 10 pages maximum qui explique vos choix de structures de données, vos choix de conception algorithmique et les principales étapes du déroulement de votre programme.
Annexes
Pour démarrer
Pour commencer à travailler, vous pouvez faire un fork du dépôt qui contient le fichier README.md
que vous êtes en train de lire. Ne pas oublier d'ajouter votre correcteur dans la liste des personnes ayant accès à votre dépôt (menu Settings
à droite puis Menu Members
puis bouton New Projet Member
).
On rappelle brièvement les commandes GIT
que vous serez amené à utiliser :
git help cmd
: pour avoir de l'aide sur la commandecmd
git add fichier
: pour ajouter au dépôt un nouveau fichier ou un fichier modifiégit commit -m "message qui explique les modifications"
: pour sauvegarder les modifications dans le dépôt localgit push
: pour mettre à jour le serveur avec votre version du dépôtgit pull
: pour récupérer la dernière version du serveurgit status
: pour voir l'état de votre dépôt local par rapport au serveurgit log --pretty=format:"%h - %an, %ar : %s"
: afficher le log des commits
N'hésitez pas à vous référer au polycopié de programmation avancée pour les détails de chacune des commandes.
Fichiers CSV
Comme les fichiers peuvent être volumineux, ils ne sont pas sur le dépôt GIT pour éviter de longs transferts / ou de saturer votre compte. De plus, pour éviter de travailler directement avec le fichier complet (399500 athlètes, 80 Mo) nous vous avons préparé des fichiers partiels:
final_ranking_000010.csv 2.4K // résultats de 10 athlètes
final_ranking_000100.csv 20K // résultats de 100 athlètes
final_ranking_001000.csv 200K // résultats de 1000 athlètes
final_ranking_010000.csv 1.9M // résultats de 10000 athlètes
final_ranking_100000.csv 19M // résultats de 100000 athlètes
final_ranking_399500.csv 78M // résultats complets
Ils se situent tous à l'adresse http://www.dequidt.me/documents/IMA3.PA/projet_2018/
ainsi pour récupérer le plus petit fichier vous pouvez utiliser la commande curl
via
curl http://www.dequidt.me/documents/IMA3.PA/projet_2018/final_ranking_000010.csv
Description des champs du tableau CSV
athId
: identifiant de l'athlète [entier
]regId
: identifiant de la région du monde, voir ici [entier
]divId
: la division de l'athlète (catégorie en fonction de l'âge) [entier
], vaut 1 pour les hommes et 2 pour les femmeslastName
: nom de famille [chaîne de caractères
]firstName
: prénom [chaîne de caractères
]gender
: genre (M ou F) [caractère
]age
: age [entier
]weight
: poids en livres (lbs) ou kilogrammes (kg) [chaîne de caractères
]height
: taille en pouces (in) ou centimètres (cm) [chaîne de caractères
]affiliateId
: identifiant de la salle où l'athlète est adhérent [entier
]affiliateName
: nom de la salle où l'athlète est adhérent [chaîne de caractères
]overallScore
: score global [entier
]overallRank
: rang dans le classement général [entier
]18.x score
: score de la x ième épreuve [entier
]18.x scoreDisplay
: résultat de la x ième épreuve, nombre de répétitions (reps) ou temps ou charge (lbs) [chaîne de caractères
]18.x rank
: classement de la x ième épreuve [entier
]
Liste des salles de CrossFit de la métropole lilloise
Elle se trouve dans le répertoire data
du dépôt `GIT.
Détail des épreuves
A priori vous n'en avez pas besoin pour le sujet mais on ne sait jamais 😎
Complete as many rounds as possible in 20 minutes of:
- 8 toes-to-bars
- 10 dumbbell hang clean and jerks
- 14-cal. row
1-2-3-4-5-6-7-8-9-10 reps for time of:
- Dumbbell squats
- Bar-facing burpees
Workout 18.2a
1-rep-max clean
Time cap: 12 minutes to complete 18.2 AND 18.2a
2 rounds for time of:
- 100 double-unders
- 20 overhead squats
- 100 double-unders
- 12 ring muscle-ups
- 100 double-unders
- 20 dumbbell snatches
- 100 double-unders
- 12 bar muscle-ups
Time cap: 14 minutes
For time:
21 deadlifts, 225 lb.
21 handstand push-ups
15 deadlifts, 225 lb.
15 handstand push-ups
9 deadlifts, 225 lb.
9 handstand push-ups
21 deadlifts, 315 lb.
50-ft. handstand walk
15 deadlifts, 315 lb.
50-ft. handstand walk
9 deadlifts, 315 lb.
50-ft. handstand walk
Time cap: 9 min.
Complete as many reps as possible in 7 minutes of:
3 thrusters
3 chest-to-bar pull-ups
6 thrusters
6 chest-to-bar pull-ups
9 thrusters
9 chest-to-bar pull-ups
12 thrusters
12 chest-to-bar pull-ups
15 thrusters
15 chest-to-bar pull-ups
18 thrusters
18 chest-to-bar pull-ups
This is a timed workout. If you complete the round of 18, go on to 21. If you complete 21, go on to 24, etc.