[HyperlinkExtract] Re: Utiliser plusieurs formats

Auteur: Chat Lumo <hyperlinkextractor@ml.free.fr>
Date: Fri Dec 19 2003 - 11:42:43 CET

Pour ceux que ça intéresse, il y a d'autres rss thématiques sur clubic :
http://www.clubic.com/c/partner.html

>From: Pascal Marcou
>Reply-To: hyperlinkextractor@ml.free.fr
>To: hyperlinkextractor@ml.free.fr
>Subject: [HyperlinkExtract] Re: Utiliser plusieurs formats
>Date: Fri, 19 Dec 2003 09:32:56 +0100
>
>Bonjour,
>
>j'ai ajouté la génération du fichier rss pour clubic.com.
>
>Comment fonctionne HyperlinkExtractor :
>
>Quand on regarde les sites web d'information, on remarque que tous les
>liens sont situés au même endroit de la page.
>
>Comment cela se traduit-il du côté HTML :
>Il y a plusieurs façons de faire, je prends l'utilisation des tableaux
>en exemple, mais le principe est le même pour les autres solutions.
>
>En simplifiant :
>Tous les liens vont être situés dans une cellule de tableau.
>Ensuite à l'intérieur de cette cellule, l'organisation peut être
>compliquée.
>Au final, il y a une structure répétitive à l'intérieure de cette
>cellule.
>Donc, ce qu'il nous faut, c'est repérer un des liens qui nous
>intéresse, de regarder dans quelle structure il est situé.
>Ensuite il suffit de récupérer les liens qui ont la même structure
>hiérarchique.
>
>Il y a une solution très adaptée à notre problème, il s'agit des
>recherches XPath en xml.
>Le problème, c'est que les sites sont, pour la plupart, écris en HTML.
>J'ai trouvé une librairie qui permet de transformer un site HTML en
>site XML (il s'agit de jTidy).
>Une fois que j'ai du xml, je n'ai plus qu'à faire une recherche XPath.
>
>Petite astuce dans l'interface de HyperlinkExtractor :
>On peut cumuler plusieurs chemins Xpath en les séparant par des |
>
>Pascal
>
>Le jeudi, 18 déc 2003, à 20:09 Europe/Paris, Chat Lumo a écrit :
>
> > Faut pas du tout le changer pour moi ;)
> >
> > Je ne sais pas ce qui est le plus courant pour le français, je sais
> > juste que le RSS de ClubIc.com est en ISO.
> >
> > Sinon je voulais savoir comment faites-vous pour créer les fichiers
> > RSS que vous proposez (à partir d'un site existant dont vous n'êtes
> > pas maître) ?
> >
> > Merci.
> > Julien.
> >
> > _________________________________________________________________
> > Trouvez l'âme soeur sur MSN Rencontres ! http://g.msn.fr/FR1000/9551
> >
> >
> > Liste de diffusion hyperlinkextractor
> > http://www.hyperlinkextractor.net
> > Pour se désinscrire :
> > mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe
> >
> >
> >
> >
>
>
>Liste de diffusion hyperlinkextractor
>http://www.hyperlinkextractor.net
>Pour se désinscrire :
>mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe
>
>
>

_________________________________________________________________
Trouvez l'âme soeur sur MSN Rencontres ! http://g.msn.fr/FR1000/9551

Liste de diffusion hyperlinkextractor
http://www.hyperlinkextractor.net
Pour se désinscrire : mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

        
        
Received on Fri Dec 19 11:44:19 2003

Cette archive a été créée par hypermail 2.1.8 : Sun Feb 29 2004 - 11:51:51 CET