[HyperlinkExtract] Suggestions

Auteur: Marc-Antoine Hubert <hyperlinkextractor@ml.free.fr>
Date: Mon Dec 22 2003 - 17:40:28 CET

Voila je prends un peu de temps pour exposer mes idées.

 

-Sans modif de l'interface :

Créer des rss avec l'url de la page source lorsqu'il n'y a pas de liens
(modification en cours)

 

Différents formats de sorti :

Soit $1 le texte et $2 l'url :

Sortie html : <a href=$2>$1</a>

Sortie csv : $1 ;$2

Sortie rss

 

-Modif légère de l'interface :

            Fréquence de sélection des liens :

            Parfois plusieurs liens dans la page ont le même style, du coup
on rapatrie plus d'info que ce que l'on voudrai.

            Cela pourrait donc être très pratique de dire si on veux 1lien
sur 2, 1lien sur 3, 2liens sur 3....

 

            Booléen 1er et dernier lien :

            Comme ci-dessus, il arrive que le 1er lien retourné ne
corresponde pas du tout aux liens qui nous intéressent, de même pour le
dernier.

            Cela pourrai être sympa de les virer automatiquement.

            Alternative : initialiser une variable pour dire à partir de
quel lien on commence à lister.

 

-Modif importantes de l'interface :

            Aujourd'hui, à moins de « bidouiller » la chaîne
html/body/table/tr/td/a[@class='...']/texte() on ne peut lister que des
liens.

            Il faudrait pouvoir lister d'autre type de balise tel que des
span, des div ou permettre de saisir la balise qu'on recherche.

            Je vous donne un exemple pour comprendre :

            Un grand nombre de sites mettre un titre à leurs news, un
extrait de la news suivi d'un lien « en savoir plus » qui mène a la news
complète (cf dvdrama.net)

            Dans ce cas nous sommes intéressés par l'intitulé du titre et le
lien sur « en savoir plus ».

            html/body/table/tr/td/a[@class='...']/texte() pourrait renvoyer
« en savoir plus »

html/body/table/tr/td/a[@class='...']/link() pourrait renvoyer la
destination

html/body/table/tr/td/span[@class='...']/texte() pourrait renvoyer le titre

cela nous permettrai de construire les variable $1 et $2 dont je parlais
plus haut pour des formats de sorti différents.

 

 

Evidemment ce ne sont que des suggestions et n'ayant pas du tout regardé le
code source, je ne suis absolument pas en mesure d'estimer la charge de
travail.

 

Dès que possible je me remettrais à mes prototype de mise en page pour une
administration web de l'appli.

 

A très bientôt

 

Marco

 

-----Message d'origine-----
De : Pascal Marcou
Envoyé : lundi 22 décembre 2003 10:18
À : hyperlinkextractor@ml.free.fr
Objet : [HyperlinkExtract] Re: RE : Re: Codage des fichiers

 

Salut,

 

J'ai quand même pris un peu de temps pour noter diverses suggestions et ai
commencé à réfléchir à une interface web pour administrer
hyperlinkextractor.

Super.

 

Quant à moi, je me suis donné comme priorité de commenter le code pour qu'il
soit plus facile d'accès.

 

Pascal

 

Le lundi, 22 déc 2003, à 10:12 Europe/Paris, Marc-Antoine Hubert a écrit :

 

Salut Pascal, salut à tous,

Je n'ai pas donné de nouvelles récemment car j'ai pas mal été pris.

J'ai quand même pris un peu de temps pour noter diverses suggestions et ai
commencé à réfléchir à une interface web pour administrer
hyperlinkextractor.

 

Concernant mes suggestions, j'essayerai de faire un mail dans l'aprem en
essayant d'etre clair.

 

A++

 

Marco

 

-----Message d'origine-----

De : Pascal Marcou

Envoyé : lundi 22 décembre 2003 10:04

À : hyperlinkextractor@ml.free.fr

Objet : [HyperlinkExtract] Re: Codage des fichiers

 

Bonjour,

 

les fichiers sont maintenant générés avec l'encoding ISO-8859-1.

 

Pour Marc-Antoine, j'ai commencé à regarder pour mettre l'url du site

quand une url est vide, mais il faut que je fasse plus d'investigation.

 

Pascal

 

Le vendredi, 19 déc 2003, à 11:48 Europe/Paris, Chat Lumo a écrit :

 

> Pour infos tous les sites basés sur le portail phpnuke proposent un

> flux RSS avec un codage en ISO-8859-1

>

> _________________________________________________________________

> Trouvez l'âme soeur sur MSN Rencontres http://g.msn.fr/FR1000/9551

>

>

> Liste de diffusion hyperlinkextractor

> http://www.hyperlinkextractor.net

> Pour se désinscrire :

> mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

>

>

>

>

 

Liste de diffusion hyperlinkextractor

http://www.hyperlinkextractor.net

Pour se désinscrire :
mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

 

        

        

Ce message contient des informations confidentielles ou appartenant au

Crédit Lyonnais et est établi à l'intention exclusive de ses

destinataires. Toute divulgation, utilisation, diffusion ou reproduction

(totale ou partielle) de ce message, ou des informations qu'il contient,

doit être préalablement autorisée. Tout message électronique est

susceptible d'altération et son intégrité ne peut être assurée.

Le Crédit Lyonnais décline toute responsabilité au titre de ce

message s'il a été modifié ou falsifié. Si vous n'êtes pas

destinataire de ce message, merci de le détruire immédiatement et

d'avertir l'expéditeur de l'erreur de distribution et de la destruction

du message.

Crédit Lyonnais, SA au capital de Euros 1.832.530.645 - RCS Lyon B 954 509
741

Siège Central : 19, boulevard des Italiens. 75002 Paris. France

 

This e-mail contains confidential information or information belonging

to Crédit Lyonnais and is intended solely for the addressees.

The unauthorised disclosure, use, dissemination or copying (either whole

or partial) of this e-mail, or any information it contains, is prohibited.

E-mails are susceptible to alteration and their integrity cannot be
guaranteed.

Crédit Lyonnais shall not be liable for this e-mail if modified or
falsified.

If you are not the intended recipient of this e-mail, please delete it

immediately from your system and notify the sender of the wrong delivery

and the mail deletion.

Crédit Lyonnais SA.

Share Capital of Euros 1.832.530.645.

Registered Office : Lyon (B 954 509 741)

Central and administrative Office : 19, boulevard des Italiens. 75002 Paris.
France

Ce message contient des informations confidentielles ou appartenant au
Crédit Lyonnais et est établi à l'intention exclusive de ses
destinataires. Toute divulgation, utilisation, diffusion ou reproduction
(totale ou partielle) de ce message, ou des informations qu'il contient,
doit être préalablement autorisée. Tout message électronique est
susceptible d'altération et son intégrité ne peut être assurée.
Le Crédit Lyonnais décline toute responsabilité au titre de ce
message s'il a été modifié ou falsifié. Si vous n'êtes pas
destinataire de ce message, merci de le détruire immédiatement et
d'avertir l'expéditeur de l'erreur de distribution et de la destruction
du message.
Crédit Lyonnais, SA au capital de Euros 1.832.530.645 - RCS Lyon B 954 509 741
Siège Central : 19, boulevard des Italiens. 75002 Paris. France

This e-mail contains confidential information or information belonging
to Crédit Lyonnais and is intended solely for the addressees.
The unauthorised disclosure, use, dissemination or copying (either whole
or partial) of this e-mail, or any information it contains, is prohibited.
E-mails are susceptible to alteration and their integrity cannot be guaranteed.
Crédit Lyonnais shall not be liable for this e-mail if modified or falsified.
If you are not the intended recipient of this e-mail, please delete it
immediately from your system and notify the sender of the wrong delivery
and the mail deletion.
Crédit Lyonnais SA.
Share Capital of Euros 1.832.530.645.
Registered Office : Lyon (B 954 509 741)
Central and administrative Office : 19, boulevard des Italiens. 75002 Paris. France

Liste de diffusion hyperlinkextractor
http://www.hyperlinkextractor.net
Pour se désinscrire : mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

        
        
Received on Mon Dec 22 17:46:20 2003

Cette archive a été créée par hypermail 2.1.8 : Sun Feb 29 2004 - 11:51:51 CET