[HyperlinkExtract] Re: Aide projet universitaire

Auteur: Pascal Marcou <hyperlinkextractor@ml.free.fr>
Date: Sun Oct 26 2003 - 17:45:55 CET

Bonjour,

Je vais d'abord essayer de répondre à la question 3 :
A l'époque où j'ai créé Hyperlinkextractor je n'ai rien trouvé dans le
logiciel libre qui fasse quelque chose de semblable.
Les seuls projets libres que j'avais trouvé étaient des applications de
lecture de fichiers rss.
J'ai l'impression que ça n'a toujours pas évolué.
Si le code de votre projet devient libre, oui il apportera quelque
chose.

Pour la question 2, à ma connaissance il n'existe pas grand chose pour
connaître la liste des sites qui créent des fichiers rss.

Pour la question 1 :
Le problème lorsqu'on utilise les fichiers rss est que ceux-ci doivent
être disponibles.
Malheureusement, ce n'est pas toujours le cas, notamment lorsqu'il
s'agit des sites d'information français.
On peut se rabattre sur les sites qui fabriquent les fichiers rss mais
à mon avis, cela cause un problème.
En effet la plupart des sites qui fabriquent ces fichiers sont des
sites propriétaires.
J'avais essayé newsifree, les fichiers rss qui étaient créés étaient
limités en nombre de lien et chaque lien menait sur le site de
newsisfree qui redirigeait ensuite vers le bon site.
De plus le nombre de liens consultables étaient limité.

Il me semble qu'il est assez facile de se passer de ce genre de sites
(le code source de Hyperlinkextractor est là pour le montrer).

Ensuite les choix dépendent du projet et de l'utilisation qui en est
faite.

Je ne connais pas l'ampleur de votre projet. Mais pour, moi, ce qui
serait très utile, ce serait quelque chose qui permette d'agréger les
nouvelles à la manière du site de news de google (news.google.fr).
Ensuite, on peut très bien fabriquer des fichiers rss à partir de ces
agrégations et les lire dans un lecteur de news quelconque.
Hors, il me semble que cela n'est pas trop compliqué à faire.

J'y avais réfléchi à une époque mais je n'ai pas le temps de le faire :
On peut assez facilement extraite les liens d'information de différents
sites et les classer dans différentes catégories.
Ce qu'apporte google par rapport à cela c'est de rassembler les
articles qui parlent du même sujet.
De la même façon qu'on extrait les liens d'une page, on peut extraite
le contenu de l'article d'une page.
Ensuite, le plus compliqué est de trouver un algorithme qui permette de
rassembler les articles qui traitent le même sujet.
Dans un premier temps peut-être que compter les mots communs aux
articles d'une même catégorie suffirait.

J'espère avoir répondu à vos questions.
Je suis à votre disposition pour d'autres questions.

Pascal Marcou

Le dimanche, 26 oct 2003, à 15:15 Europe/Paris, Listar a écrit :

> Bonjour,=20
>
> je me presente, je m'appelle Aurelien et je souhaite developper dans
> le =
> cadre d'un projet universitaire de 4e annee une application =
> client/serveur de recherche de news sur internet en java ou vb.net.=20
>
> Dans les grandes lignes, le serveur stockera toutes les news
> classifiees =
> dans sa base de donnee, et le client recevra des informations =
> correspondant a ses gouts (Du type news interceptor).
>
> J'aurais une ou deux questions a vous poser et je vous serais tres =
> reconnaissant si vous pouviez m'accorder un peu de temps pour me =
> repondre.
>
> 1 Est ce que l'utilisation des fichiers RSS est la meilleure (unique?)
> =
> solution pour creer une application de ce type?=20
>
> 2 Comment connaitre la liste des sites qui creent des fichiers RSS?
>
> 3 Est ce que mon projet peut apporter quelque chose de nouveau ou
> est-ce =
> que tout existe deja dans ce domaine?
>
>
> Merci beaucoup pour votre temps,
> Aurelien
--------------------------------------------------------
http://hyperlinkextractor.net
Rss news reader / Rss news maker.
For Mac Os X or Java VM.
--------------------------------------------------------

Liste de diffusion hyperlinkextractor
http://www.hyperlinkextractor.net
Pour se désinscrire : mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

        
        
Received on Mon Oct 27 09:45:56 2003

Cette archive a été créée par hypermail 2.1.8 : Sun Feb 29 2004 - 11:51:51 CET