Sujets-libres.fr

Informatique, logiciels libres, internet, humeurs et… le reste !

Partager son serveur auto-hébergé

Rédigé par -Fred- 6 commentaires
Mon serveur n'est pas un foudre de guerre mais peut techniquement héberger autre chose que mes propres contenus.

Une idée cool et qui arrange tout le monde



Ainsi, j'ai proposé il y a quelques années à une connaissance de lui héberger son blog et celui d'une asso pour laquelle il gère le site web (asso orientée entraide informatique et logiciels libres, par le biais de laquelle nous nous étions d'ailleurs rencontrés). Je l'ai proposé comme une solution basique mais néanmoins neutre, ne m'occupant théoriquement de mon côté que de l'hébergement en lui même. Précision importante, je ne perçois pas un centime de sa part, mon but n'étant d'offrir ici une prestation professionnelle, histoire de ne pas introduire non plus une relation client / fournisseur.

Ce que ça me coûtait ? La création de deux comptes sur mon serveur, l'accès FTP, l'ajout de deux redirections web dans la configuration d'apache et la création de deux bases de données MySQL, avec éventuellement une aide pour mettre les blogs en place. Autant dire pas grand chose.
Ce que ça lui coûtait ? Rien, d'autant que je fournissais au départ deux sous-domaines (avant que plus tard, il ne réserve les noms de domaine qui lui allaient mieux).
On pourrait donc résumer ça à un coup de pouce.

La perte progressive de contrôle



Malheureusement, ça a prit une tournure que je n'avais pas envisagé. A l'époque où j'avais moi même recours à un service d'hébergement gratuit, je me contentais du strict minimum et je faisais avec les inconvénients (quelques Mo d'espace, une seule base MySQL, un seul accès FTP, de la pub autour ...). Pour autant, cela suffisait amplement pour mes besoins, c'est à dire ceux d'un particulier ayant envie de tenir une page avec des contenus ajoutés a un rythme tranquille.

Mon hébergé a donc très vite commencé à alimenter les deux blogs, et notamment son blog perso à un rythme soutenu. En soit, ça ne me pose aucun problème, au contraire. Après un certain temps, il a voulu diviser son blog perso en trois ayant chacun leur thématique. On l'a fait (modif des redirections apache, ajout de deux nouvelles bases).
Mais tout ces contenus dispersés, ça n'allait pas et il a donc fallu prévoir une autre page pour que ses trois blog aient un point d'entrée commun (page statique mais sur laquelle pointe son nom de domaine).
En parallèle, il a aussi voulu tester d'autres services, ce qui a demandé une nouvelle base de données MySQL.
Les blogs perso ont changé de nom il n'y a pas longtemps. J'ai donc dû modifier les virtuals hosts apache, mais sans virer les anciens sous-domaines pour ne pas perdre les visiteurs qui n'auraient pas connaissance des nouveaux noms.
L'emplacement de ses blogs et autres sites sur son espace web a aussi évolué plusieurs fois, si bien que ça a aussi demandé du boulot que je n'avais pas prévu.
De nouvelles mises à jour étaient prévues ces jours ci (et j'ai constaté qu'un nouveau nom de domaine était présent). D'autres mises à jour étaient aussi en prévision pour 2015.

Ce qui est au dessus relève du boulot de l'hébergeur.
A côté de ça, j'ai aussi plusieurs fois assuré le support technique sur ses blogs, automatisé l'archivage de ses bases de données, expliqué autant que je le pouvais les conséquences par exemple de tel ou tel choix, reçu près de 850 mails de sa part en 4 ans (dont 90% minimum relatifs à ses problèmes ou à ses projets futurs rien que sur ses sites ; avec en prime des relances lorsque je ne répondais pas assez vite), parfois passé un temps fou à comprendre ce qu'il cherchait à faire. Ce que ça m'a coûté, et que j'avais largement sous-estimé au début, c'est le temps que ça me boufferait. J'ai bien tenté de limiter un peu ça mais ça n'a pas été un franc succès.

Conclusion



J'ai donc décidé de ne plus héberger l'ensemble de ses contenus (ses blogs et celui de l'asso). J'ai en effet compris que ses demandes seraient continues à l'avenir. Bien entendu, hors de question de le faire du jour au lendemain. La fin effective d'hébergement se fera dans un délai que l'on aura défini ensemble.

Malgré ça, je ne l'accable pas du tout ! C'est quelqu'un de bien et je suis bien souvent en phase avec lui lorsqu'on parle de logiciels libres ou bien d'autres choses.
Il a eu une opportunité d'offerte sans limites claires et a demandé ce qu'il pensait être en droit de demander. La faute est entièrement la mienne et c'est lui qui en assume les conséquences, tout ça parce que je n'ai pas fixé de règles au départ. J'ai naïvement pensé que le bon sens suffirait.

A l'avenir, je n'exclue pas d'héberger à nouveau d'autre contenus que les miens.
Si l'occasion se représente, je veillerai toutefois à être très clair dès le départ.

Retours d'un auditeur CNAM

Rédigé par -Fred- Aucun commentaire
Je crois bien que je n'ai jamais parlé ici très en détail de mon expérience au CNAM.

Comme cette année aura été pour moi un peu charnière avec l'obtention de deux licences (en électronique et, il y a quelques jours, en informatique), je me suis donc dit que c'était certainement le moment pour moi de faire un peu le point.


Tout d'abord, qu'est-ce que le CNAM ?


Il s'agit du Conservatoire National des Arts et Métiers. C'est une école délivrant des diplômes de l'enseignement supérieur et habilitée par la CTI à délivrer des diplômes d'ingénieur.
La particularité du CNAM est que les cours sont dispensés hors temps de travail ou en enseignement à distance. Il est donc possible de suivre les cours en parallèle d'une activité professionnelle.
Je ne suis pas le mieux placé pour en parler plus longuement. Pour plus d'informations, vous pouvez consulter le site officiel : http://www.cnam.fr/

Quel est mon parcours précis au CNAM ?


J'y suis auditeur depuis 2001. J'ai d'abord entamé un DEST d'électronique (Diplôme d’Études Supérieures Techniques ; diplôme bac+4) entre 2001 et 2004 mais je n'ai validé qu'un peu plus de la moitié des modules (appelé Unité d'Enseignement (UE) aujourd'hui) durant cette période.
En 2009, j'ai décidé de préparer une licence d'informatique et j'y suis allé relativement tranquillement, m'accordant même une année sans préparer une seule UE.
Je me suis rendu compte ensuite qu'une licence d'électronique était depuis proposée (elle ne l'était pas en 2004) et qu'il me restait simplement un TP à valider pour l'avoir (le Unités d'enseignement du CNAM sont valables à vie). Bref, j'en ai profité pour la terminer aussi.
Voilà comment j'ai pu valider deux licences en quelques mois :p .

Quelles étaient mes motivations ?


Je me suis vite rendu compte qu'une fois dans le monde professionnel, certaines connaissances pratiques et beaucoup de connaissances théoriques étaient très vite mises en sommeil, faute d'être appliquées. Le meilleur moyen de ne pas perdre ses connaissances reste de pratiquer régulièrement. Tant qu'à pratiquer, autant en apprendre plus pour progresser. Voilà pourquoi j'ai commencé le CNAM en 2001.

Comme je suis passionné d'informatique et que ça me tentait bien d'en faire mon métier, j'ai voulu professionnaliser ma démarche et j'ai donc repris le CNAM en 2009.

Commençons par ce qui fait mal : faiblesses d'un cursus CNAM


La principale faiblesse est inhérente à la forme. Un an de cours en formation initiale prendra deux à trois fois plus de temps en passant par le CNAM. Comme précisé en introduction, on travail ses cours hors temps de travail "professionnel". Cela signifie qu'en se lançant dans un tel cursus, il faut s'attendre à faire des sacrifices sur une plus ou moins longue période, d'autant plus si l'on a une vie de famille à laquelle on tient.

Tous les cours ne sont pas forcement égaux. Certains intervenants, même s'ils connaissent leur affaire, ne sont pas forcement aussi réactifs qu'on le souhaiterait, notamment en enseignement à distance (les enseignants le font aussi hors temps de travail, ne l'oublions pas). L'enseignement à distance est de plus en plus la norme au CNAM. Cela peut être déstabilisant car il faut être armé pour travailler en grande autonomie.

La reconnaissance professionnelle qui découle de cette formation est variable. Cela mériterait un billet entier mais pour l'heure, je serai synthétique :

  • La formation est longue et tant qu'on a pas obtenu le diplôme que l'on prépare, on ne peut pas le faire valoir. Prises seules, quelques UE sont difficiles à mettre en valeur.

  • Faire le CNAM est souvent une démarche personnelle à laquelle l'auditeur n'associe pas nécessairement son employeur. L'employeur n'a pas forcement l'envie ni les moyens de valoriser cet investissement.

  • Devenir ingénieur CNAM signifie probablement avoir été technicien avant. Cette étiquette de technicien peut coller à la peau et freiner l'évolution (voir plus bas pour un avis complémentaire là dessus).


Les forces d'un cursus CNAM


Les points ci-dessus ne doivent pas être rédhibitoires. En effet, si on les examinent sous un autre angle de vue, ils peuvent même être un plus.

J'arrive aujourd'hui plus facilement à replonger dans des matières plus théoriques qu'au moment où j'ai commencé le CNAM. Je pense que ça a été très bénéfique de ce point de vue. C'était l'une de mes motivations de départ.

La majeure partie des enseignants que j'ai eu étaient très compétents, voir impressionnants.
Ce constat peut être variable d'un centre CNAM à l'autre mais voilà mon ressenti en région Bretagne.

Réussir un parcours CNAM signifie être extrêmement autonome car on travail généralement seul. Les TP en binômes sont assez rares par exemple.
Toutefois, l'enseignant est joignable et des forums sont mis en place pour encourager les échanges entre auditeurs.

En étant auditeur au CNAM, on sort un peu de la relation prof/élève des études en cycle initial. Les enseignants au CNAM savent qu'il s'adressent à des professionnels qui ont choisi d'être là. Ils tiennent réellement compte des contraintes de chacun. Ce rapport est extrêmement intéressant.

Un gros atout du CNAM est qu'il est habilité à délivrer des titres d'ingénieur reconnus. Il est toujours possible de se former, qui plus est grâce à internet, mais obtenir un diplôme reconnu, c'est déjà moins simple.

Il n'est pas simple non plus de quitter un travail pour reprendre ses études. Le CNAM permet de concilier les deux et d'avancer dans ses études à son rythme.

Le coût des études n'est pas nul mais reste modéré. A titre indicatif, la licence d'informatique que je viens d'obtenir (je l'ai financé entièrement au tarif individuel ; la région Bretagne en finance une part importante) m'a coûté environ 1300€ étalés sur 3 ans. On est assez loin du coût de certaines écoles. Il est aussi possible de faire financer une partie de sa formation par son employeur.

Évoquer son parcours CNAM (et donc ce que cela suppose comme travail et sacrifices) force un certain respect. Ça vaut pour ses proches, ses collègues, ses supérieurs. La démarche reste valorisable quoi qu'il arrive.

En prenant du recul, je suis intimement convaincu qu'être technicien avant de devenir ingénieur est vraiment un plus. Avoir un pied depuis plusieurs années en milieu professionnel avant de recevoir son diplôme présente l'intérêt d'être moins formaté qu'en sortant immédiatement d'un cursus initial avec un diplôme d'ingénieur en poche.

Conclusion


J'entame ma huitième année au CNAM et mon choix n'est pas encore arrêté de manière précise mais il est probable que je tente de préparer le diplôme d'Ingénieur (la spécialité n'est pas encore vraiment arrêtée ; je termine par ailleurs un cursus de responsable opérationnel en Électronique). J'ai donc encore quelques années avant d'en terminer.

J'encourage vivement les gens à y aller, à se former.
Le CNAM est un ascenseur social.
Classé dans : CNAM Mots clés : aucun

Changement de thème

Rédigé par -Fred- Aucun commentaire
Pour celles et ceux qui viennent voir mon blog de temps en temps et qui se demandent s'ils sont sur le bon site, je viens de changer de thème.

Le précédent, bien qu'agréable à mon goût, était légèrement trop épuré. J'ai donc changé de thème et ai installé le thème Nuntius.

Je reste néanmoins convaincu que ce blog doit rester le plus simple possible afin qu'il reste agréable à consulter.

[edit du 01/10/2014]
Concernant le thème, il utilise des fonts google. Ces polices n'apportant rien, si ce n'est quelques informations à google, il est préférable de s'en passer.
Autant sur le thème que j'utilisais précédemment, j'avais pu désactiver ces polices (avec l'extension "disable google font"), autant là, ça semble sans effet. Du coup, j'ai simplement commenté les 3 appels à ces polices directement dans le thème. Il est probable que j'ai à le refaire à chaque mise à jour du thème.
[/edit]

Nouvelles en vrac en cette mi-septembre 2014

Rédigé par -Fred- Aucun commentaire
Les vacances sont terminées depuis un moment déjà et je reprend mon rythme.

Côté projets personnels en cours, j'avance de temps à autre sur mon jeu ActionRPG. Pour le moment, je m'occupe essentiellement de la construction du monde.
Pour ce qui est de l'outil d'analyse de flux que je développe en python, je le laisse de côté pour le moment aussi. Cela est volontaire de ma part car la collecte de données tourne toujours. Je pense recommencer à travailler dessus vers la fin de l'année (j'aurai alors à disposition au moins 6 mois de données).
J'ai encore d'autres projets amusants en tête mais j'attendrais d'avoir bien avancé sur ceux là avant de m'y pencher.

Côté cours, j'ai officiellement obtenu ma licence d'électronique du CNAM :D . J'attends maintenant avec impatience ma licence d'informatique (ma demande a déjà été envoyée, ça ne devrait donc pas trop tarder). A part ça, je continue à suivre des cours au CNAM mais je n'ai pas encore décidé de la spécialité du diplôme d'ingénieur que je voulais tenter de valider. Je me donne donc encore un an pour arrêter mon choix.

Côté auto-hébergement, peu d'évolutions récentes, si ce n'est que mes quelques sites web hébergés sur ce serveur sont à présent accessible en HTTPS (avec un certificat auto-signé). L'accès en HTTP reste néanmoins possible pour ce blog et ma page de dev notamment.
Classé dans : CNAM Mots clés : aucun

Le logiciel libre n'est pas nécessairement un gage de liberté pour l'utilisateur

Rédigé par -Fred- Aucun commentaire
Le titre est un poil provocateur.

L'erreur que l'on fait tous plus ou moins, c'est de considérer le libre comme un gage de liberté. Se le dire, c'est prendre le risque de passer à côté d'un détail important. En effet, on peut se poser la question suivante : "Suis-je bien l'utilisateur qui bénéficie des avantages de la solution libre et/ou open source ?"

Clairement, il est impossible de répondre systématique à cette question par l'affirmative. Il faudrait lister quelques cas de figure :

L'admin


Chez moi, assis derrière ma machine qui tourne avec du libre, avec tout les accès nécessaires pour l'administrer, c'est fort probable. Ce qui me conforte dans cette idée est que je dispose des droits nécessaires pour casser entièrement mon système et qu'à priori, nul autre que moi ne dispose de ces droits. J'ai donc aussi le devoir de tenir mon système en état si je veux l'utiliser au mieux. Attention quand même car dans ce cas, il ne fait pas oublier la possible présence et exploitation (comme dans n'importe quel logiciel) de failles non comblées, soit pour cause de mise à jour non effectuée, soit parce qu'il s'agit d'une faille "zero day".

Le proche de l'admin


Par contre, chez moi, toujours assis derrière ma machine mais SANS les accès pour son administration, c'est déjà moins certain. Ainsi, si dans mon entourage quelqu'un vient à utiliser ma machine pour ses propres besoins, son usage est limité au cadre que j'ai autorisé. Comme je suis le seul à disposer de mon mot de passe root, une partie de l'environnement n'est pas accessible complètement aux autres utilisateurs (fichiers de configuration, logs, certains programmes déjà installés, l'installation de nouveaux programmes...). Je reste, moi administrateur de la machine, alors le seul vrai utilisateur de la solution. Mon entourage me fait confiance et passe par moi pour l'ensemble des actions qu'il n'est pas autorisé à effectuer.

La connaissance de l'admin


Le raisonnement est identique pour mon serveur. Cette machine n'utilise que des logiciels libres (Debian stable, avec uniquement les dépôts "main") mais pour la même raison que précédemment, je suis le seul qui bénéficie des bienfaits de l'usage des logiciels installés dessus. L'ami à qui j'ai proposé d'héberger son site web ne profite par exemple pas directement des bienfaits des logiciels qu'il utilise sur ma machine car je reste l'administrateur de cette machine. Il me connaît IRL et me fait confiance.

L'utilisateur des services proposés par l'admin


Sortons de chez moi maintenant. Dans le même esprit que l'exemple précédent, lorsqu'on utilise des services en ligne propulsées par des solutions libres, on est pas directement utilisateur de logiciels libres. On est simplement utilisateur d'un service et ce qui fait tourner ce service n'a pas d'importance. Ce que le fournisseur de service fait de nos données (celles qu'il héberge) peut tout autant être légitime, qu'illégitime. Voilà d'ailleurs pourquoi je n'ai jamais tenté l'aventure du RHIEN. Je trouve cette initiative extrêmement intéressante mais pour autant, je pense que ça implique une très grande confiance de la part des hébergés vis à vis de l'hébergeur. Même animé d'intentions louables, l'hébergeur reste un humain avec des parfois faiblesses, dont la curiosité...

Oui... donc :


Tout ça pour dire que les logiciels libres ne sont que des outils et que des outils peuvent être bien utilisés ou non. Le mot "confiance" figure dans chacun des quatre paragraphes précédents et cela n'est pas innocent de ma part. La confiance accordée dans une solution logicielle devrait donc, de mon point de vue, être la combinaison de deux confiances différentes :

  • Celle envers le logiciel en lui même (merci aux licences libres, qui facilitent l'audit du code source).

  • Celle envers celui par qui on utilise le logiciel (nous même, un proche, une connaissance, un parfait inconnu, une entreprise...).


J'essaye de garder ça dans un coin de ma tête à chaque fois que je pose les mains sur un clavier...

Trouver une actualité dominante -> préparer la collecte

Rédigé par -Fred- Aucun commentaire
Comme expliqué précédemment, le projet sur lequel je travaille en ce moment repose sur une collecte préalable de données. l'analyse permettant de trouver l'actualité dominante est réalisée dans un second temps.

Si vous voulez essayer, il vous faudra donc des données sur lesquelles vous appuyer. Pour mettre en place la collecte des données depuis votre machine, vous pouvez suivre ce qui suit. La description que j'indique est valable pour un système GNU/Linux (description pour Ubuntu). Dans le principe, ce sera comparable sur d'autres systèmes.

Installation des paquets nécessaires :
sudo apt-get install python3 python3-psycopg2 postgresql

Les fichiers dont vous aurez besoin par la suite se trouvent à l'adresse suivante :
http://dev.sujets-libres.fr/sources/FluxRSS/

Copiez l'ensemble des fichiers sur votre machine dans un nouveau dossier.
Ouvrez un terminal et placez-vous dans ce dossier (toutes les commandes qui vont suivre seront à lancer depuis cet emplacement).

Les scripts tels qu'il sont faits se connectent à la base de données avec l'utilisateur par défaut de postgresql (postgres). Vous pouvez bien entendu utiliser n'importe quel autre utilisateur mais il ne faudra pas oublier de modifier le fichier identifiantsBDD.txt avant. Pour la suite, j'utiliserai l'utilisateur par défaut de postgresql. Commencez par vous loguer :
sudo su postgres

Avant toute chose, il faut créer la base vide :
createdb fluxRSS

Importer ensuite le schéma de la base :
psql fluxRSS < db-schema.sql

Il n'y a maintenant plus besoin d'être logué avec l'utilisateur postgres. Vous pouvez donc taper :
exit

A ce stade, votre base est vide. Il faut donc dans un premier temps lui indiquer quels flux suivre. Avec votre utilisateur habituel, exécutez ensuite le script d'ajout de nouveau flux et suivez les indications :
python3 AjoutFlux.py

(exemple de flux : http://rss.lemonde.fr/c/205/f/3050/index.rss)

Il est maintenant possible de faire lancer la collecte par la commande suivante :
python3 lectureEtEnregistrementFluxRSS.py

Si la collecte est lancée plusieurs fois, seules les nouvelles entrées du flux sont enregistrées dans la base (lorsqu'un titre existe déjà, il n'y a pas de nouvel enregistrement).

Lancer l'opération manuellement reste une opération fastidieuse. Il est donc intéressant d'automatiser cette tâche. Si la collecte est effectuée localement, il peut être envisageable de lancer le script au démarrage de l'ordinateur. Pour ma part, j'ai opté pour un tâche cron lancée périodiquement toutes les deux heures :
42 */2 * * * cd /home/monUser/cheminVersLesFichiersDuProjet/ && python3 lectureEtEnregistrementFluxRSS.py

Je suis toujours en train de travailler sur l'analyse. Le fichier AnalyseFlux.py est donné à titre indicatif mais ce qu'il retourne n'est pas encore vraiment satisfaisant.

Trouver l'actualité dominante sur une période donnée

Rédigé par -Fred- 3 commentaires
J'ai précédemment évoqué vaguement le projet sur lequel je travaille en ce moment. Cette fois ci, je vais expliquer le truc plus concrètement.

Le problème à résoudre



La génération de mes parents et plus encore celle de mes grand parents savaient globalement mieux utiliser leur mémoire que nos générations. A leur époque, il était tout à fait normal de connaître les noms de l'ensemble des départements français, et ce, en primaire. Je me rappel avoir vu en vidéo une conférence de Michel Serres il y a quelques années traitant des grandes étapes de l'évolution de l'homme. Pour faire court, à chaque fois que l'homme a perdu (un peu) une faculté, c'est parce qu'il a gagné quelque chose de plus intéressant ailleurs. Aujourd'hui, nos machines disposent de capacités de mémorisation (et de calcul) largement supérieures à celles du cerveau humain. Tout naturellement, notre génération a moins besoin de faire travailler sa mémoire et par la force des choses, cette mémoire est moins bonne.

Pour preuve, lorsque je demande dans mon entourage s'ils se souviennent de l'actualité qui les a marqué disons... il y a 3 mois, je n'obtiens pas beaucoup de réponses positives. Précision importante, la notion d'information "importante" est fixée par celui à qui on pose la question. Ainsi, cette notion variera entre un amateur de sport collectifs et une personne suivant l'actualité internationale ou tout autre sujet.

Ce mouvement est inéluctable, alors autant l'accompagner. Je me suis donc demandé par quel moyen il était possible pour chacun de retrouver les actualités qui de son point de vue on eu de l'importance sur une période donnée.



L'approche retenue



Collecter l'information


Une manière simple, parmi d'autres, de trouver des informations mises à jour régulièrement est de suivre des flux RSS.

L'avantage des flux RSS est qu'ils sont standardisés et qu'il est possible d'en trouver couvrant n'importe quel sujet.
L'inconvénient des flux RSS est qu'à un instant T, il ne contiennent que les dernières informations du flux. Afin de garder un historique, il faut donc mémoriser régulièrement les nouvelles entrées du flux. Pour ça, j'ai opté pour une base de donnée installée localement et ça fait parfaitement l'affaire.

Sur ce dernier point, j'ai quand même eu deux interrogations :

  • Ai-je le droit de stocker ces données, y compris si elle ne sont plus accessible depuis le site source du flux ? Il est probable que la réponse dépende à chaque fois du flux à traiter. Dans le cas du journal "Le Monde" par exemple, la lecture des mentions légales me laisse penser que pour ce site, cela est autorisé tant que ça reste dans un cadre privé.

  • Y a-t-il un risque à récupérer des données préalablement collectées par un tiers ? Cela présenterai l'avantage de construire directement une base bien remplie qui serait exploitable immédiatement. Outre le fait que celui qui mettrait à disposition le fasse alors hors du cadre privé, je pense qu'utiliser un intermédiaire serait prendre un risque. Le risque que les données disponibles soient altérées d'une quelconque manière, volontairement ou non.



Je pense donc qu'il est quoi qu'il arrive préférable d'effectuer la collecte soit même, en renseignant directement l'adresse des flux à suivre.
La partie relative à la collecte n'est pas compliquée à résoudre en fait puisqu'il s'agit simplement d'enregistrer des bouts de fichiers XML en base de donnée.

J'ai développé un petit script Python pour ça et les résultats sont stockés dans une base de données PostgreSQL. La première mouture de mon script de collecte faisait un pré-traitement de mon fichier XML. J'en suis un peu revenu est j'ai décidé de collecter à la place des données brut. Le traitement sera donc à effectuer lors de la phase d'analyse.

Il me reste encore des détails à voir mais la collecte fonctionne déjà. Pour le moment, je lance le script python périodiquement grâce à une tâche cron.
Je peux diffuser cette partie aux intéressés si on m'en fait la demande (voir mon mail, page "auteur"). Comme pour mes projets précédents, je diffuserai le tout sous GPLv3 une fois que j'aurais quelque chose de pleinement fonctionnel (la collecte et l'analyse donc).

Analyser l'information


Cette partie là est super intéressante car on peut le faire de différentes manières.

Ma première approche a consisté à compter simplement les occurrences de chaque mot des textes à analyser
--> le résultat n'est pas pertinent car ce sont les mots de grammaire qui ressortent.

L'approche suivante, que j'utilise pour le moment, donne de meilleurs résultats. Elle consiste à donner un poids à chaque mot, encore en fonction de son occurrence, mais pas que. Plus un mot comporte de caractères, plus son poids est important (là, le poids du mot est proportionnel au carré de sa longueur). Je donne aussi plus de poids aux mots comportant plus d'un caractère majuscule (signe qu'il s'agit d'un acronyme ; les acronymes sont généralement chargés de sens)
--> le résultat est nettement meilleur mais je bute sur un problème. Les mots qui ont le plus de poids n'ont pas de sens très clair puisque tout est encore sorti de son contexte.

J'espère donc maintenant pouvoir interpréter le sens des articles.
Si je ne dis pas de bêtises, ça revient à vouloir faire une étude sémantique des textes.

A suivre...

[edit du 28/07/2014]
Si je réfléchi bien à ce que je veux finalement, je pense que l'analyse des articles complets (ou le cas échéant des articles tronqués ou des articles résumés) n'est pas du tout nécessaire. Normalement, le titre doit suffire. C'est vrai sauf si le fil à suivre adopte des titres racoleurs (allez voir sur yahoo! par exemple).
Bref, l'analyse des mots clés des titres d'articles (nombre d'occurrences sur la période et associations) me paraît suffisante.

Ça présente aussi l'avantage de rendre la phase d'analyse plus simple.
[/edit]

Quelques nouvelles en cette fin juin 2014

Rédigé par -Fred- Aucun commentaire
Je me concentre actuellement sur l'apprentissage de python. Avec un petit mois de recul (et deux petites applications fonctionnelles) sur ce langage, je peux déjà dire que j'aime assez.

J'ai donc décidé de m'appuyer dessus pour développer mon prochain projet. Pour le moment, ce n'est qu'une idée qui traîne dans ma tête et je ne sais pas encore si elle peut présenter un réel intérêt. Ceci dit, lorsque j'en parle autour de moi, cette idée suscite une certaine curiosité, ce qui est plutôt encourageant. Afin de lever le doute, je réalise donc une première implémentation de cette idée. Cela ne devrait pas prendre trop de temps. Je décrirai l'idée ultérieurement dès que j'aurai quelque chose à présenter.

Pour le reste, je ne travaille pas trop sur le clone de Zelda en ce moment. J'y reviendrai plus tard.
Classé dans : Divers Mots clés : aucun
Fil RSS des articles