Arrivé en fin de parcours du certificat de spécialisation de données massives au CNAM (NFE204, STA211 et RCP216 validés), j’ai logiquement souhaité m’atteler au projet de l’UE. Un petit cafouillage administratif a un peu retardé mon inscription et on m’a laissé entendre que je ne pourrais m’y inscrire qu’à la rentrée prochaine de septembre. En attendant, je me suis donc inscrit à l’UE SEC201 - IAML : IA et du ML pour la cybersécurité. Je reviendrai probablement sur cette UE dans un autre billet.

Finalement, mon inscription a bien pu se faire si bien que je me retrouve maintenant avec deux UE assez exigeantes à faire en parallèle. Bon, pas de soucis en fait. Avec une bonne organisation, ça passe.

L’UE de projet de cette fin de certificat se déroule en deux temps. La définition du projet et sa réalisation. Je suis en train d’attaquer la seconde partie, mon projet ayant été validé. C’est de cela dont je vais parler ici.

Avant mon inscription officielle, j’ai tout de même reçu les instructions de la part de l’enseignante responsable de l’UE. Les instructions sont les suivantes :

Les propositions doivent être déposées au plus tard le 8 mai 2022.

Le rapport final devra être rendu au plus tard le 18 septembre 2022.

La proposition doit être concise (2 ou 3 pages) mais précise: elle doit permettre d’évaluer quel sera le contenu du rapport final et quelles sont les contributions personnelles que nous pourrons y trouver. Le rapport final devra en effet rendre compte de votre travail, de vos choix, de vos conclusions, par opposition à une simple mise en œuvre agrémentée de copies plus ou moins retravaillées des documentations. Pour parler en termes économiques, le rapport final doit montrer quelle valeur ajoutée vous pouvez apporter à l’étude d’une solution de gestion de données massives. La proposition doit nous permettre d’estimer dans quelle mesure vous adoptez cette démarche et pouvez obtenir des résultats.

Le sujet lui-même doit permettre de couvrir les différentes facettes du certificat: des données distribuées (donc un volume conséquent), une algorithmique distribuée également, une méthode d’analyse pertinente. Ces trois facettes doivent être clairement exposées dans la proposition: dites-nous quelles données (donnez-en une description) vous utilisez et quel volume, quel système de stockage distribué (qui doit correspondre à la nature des données), quel système de calcul distribué, quelles méthodes d’analyse. Ajoutez impérativement la prise en compte de la scalabilité: comment allez-vous l’assurer, théoriquement et expérimentalement.

La proposition est un exercice en soi. Elle va nous permettre de voir dans quelle mesure vous abordez le sujet avec sérieux et la volonté d’aboutir à un résultat significatif.

J’ai passé un certain temps à rechercher un bon sujet, qui soit à la fois dans les critères demandés, au niveau du certificat et original (un peu amusant aussi tant qu’à faire). Outre la problématique, la question du jeu de données est importante aussi. Il faut de la matière sur quoi travailler. Cette phase demande déjà un travail important de recherche.

J’ai vite abandonné une première idée de thématique consistant à analyser les logs stockés sur mon instance Graylog. La volumétrie des données me semblait bonne mais finalement, je n’ai pas trouvé de problématique réellement originale à traiter.

À côté de cela, je stock depuis plusieurs années des titres de divers flux RSS (de sites d’actualité). Sur la période considérée (depuis 2017 pour les flux qui m’intéressent), cela représente près de 400000 enregistrements. J’ai donc proposé de travailler sur ce jeu de donnée afin d’identifier deux choses :

  • D’une part, les actualités dominantes au fil du temps.
  • D’autre part, les différences de traitement entre des média pour une même thématique

Chaque enseignant m’a fait ses remarques, ce qui m’a permis d’ajuster ma proposition (et mine de rien, d’avancer dans la résolution de la problématique fixée). À présent, je vais rentrer dans le dur. La suite au prochain épisode…