[HyperlinkExtract] Re: Utiliser plusieurs formats

Auteur: Pascal Marcou <hyperlinkextractor@ml.free.fr>
Date: Fri Dec 19 2003 - 09:32:56 CET

Bonjour,

j'ai ajouté la génération du fichier rss pour clubic.com.

Comment fonctionne HyperlinkExtractor :

Quand on regarde les sites web d'information, on remarque que tous les
liens sont situés au même endroit de la page.

Comment cela se traduit-il du côté HTML :
Il y a plusieurs façons de faire, je prends l'utilisation des tableaux
en exemple, mais le principe est le même pour les autres solutions.

En simplifiant :
Tous les liens vont être situés dans une cellule de tableau.
Ensuite à l'intérieur de cette cellule, l'organisation peut être
compliquée.
Au final, il y a une structure répétitive à l'intérieure de cette
cellule.
Donc, ce qu'il nous faut, c'est repérer un des liens qui nous
intéresse, de regarder dans quelle structure il est situé.
Ensuite il suffit de récupérer les liens qui ont la même structure
hiérarchique.

Il y a une solution très adaptée à notre problème, il s'agit des
recherches XPath en xml.
Le problème, c'est que les sites sont, pour la plupart, écris en HTML.
J'ai trouvé une librairie qui permet de transformer un site HTML en
site XML (il s'agit de jTidy).
Une fois que j'ai du xml, je n'ai plus qu'à faire une recherche XPath.

Petite astuce dans l'interface de HyperlinkExtractor :
On peut cumuler plusieurs chemins Xpath en les séparant par des |

Pascal

Le jeudi, 18 déc 2003, à 20:09 Europe/Paris, Chat Lumo a écrit :

> Faut pas du tout le changer pour moi ;)
>
> Je ne sais pas ce qui est le plus courant pour le français, je sais
> juste que le RSS de ClubIc.com est en ISO.
>
> Sinon je voulais savoir comment faites-vous pour créer les fichiers
> RSS que vous proposez (à partir d'un site existant dont vous n'êtes
> pas maître) ?
>
> Merci.
> Julien.
>
> _________________________________________________________________
> Trouvez l'âme soeur sur MSN Rencontres ! http://g.msn.fr/FR1000/9551
>
>
> Liste de diffusion hyperlinkextractor
> http://www.hyperlinkextractor.net
> Pour se désinscrire :
> mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe
>
>
>
>

Liste de diffusion hyperlinkextractor
http://www.hyperlinkextractor.net
Pour se désinscrire : mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

        
        
Received on Fri Dec 19 09:34:01 2003

Cette archive a été créée par hypermail 2.1.8 : Sun Feb 29 2004 - 11:51:51 CET