HyperlinkExtractor: [HyperlinkExtract] Re: Suggestions

Auteur: Pascal Marcou <hyperlinkextractor@ml.free.fr>
Date: Sun Jan 04 2004 - 14:48:07 CET

Bonjour à tous et bonne année.

Je réponds aux propositions de Marc-Antoine :

>
> -Sans modif de l'interface :
>
> Créer des rss avec l'url de la page source lorsqu'il n'y a pas de
> liens (modification en cours)
Voir mon planning prévisionnel en bas du mail.

> Différents formats de sorti :
>
> Soit $1 le texte et $2 l'url :
>
> Sortie html : <a href=$2>$1</a>
>
> Sortie csv : $1 ;$2
>
> Sortie rss
Je propose qu'on mette quelque chose de dynamique en place.
On peut se créer une petite grammaire de quelques balises (url, titre,
repétition, etc ...).
Ensuite on insère cette grammaire dans des fichiers textes.
Et on peut, grâce à ça créer tous les formats de sorties facilement.
On pourra en proposer quelques uns par défaut, html, csv et rss.
Ca ne doit pas être très long en développement.

> -Modif légère de l'interface :
>
>             Fréquence de sélection des liens :
>
>             Parfois plusieurs liens dans la page ont le même style, du
> coup on rapatrie plus d'info que ce que l'on voudrai.
>
>             Cela pourrait donc être très pratique de dire si on veux
> 1lien sur 2, 1lien sur 3, 2liens sur 3....
>
>
>
>             Booléen 1er et dernier lien :
>
>             Comme ci-dessus, il arrive que le 1er lien retourné ne
> corresponde pas du tout aux liens qui nous intéressent, de même pour
> le dernier.
>
>             Cela pourrai être sympa de les virer automatiquement.
>
>             Alternative : initialiser une variable pour dire à partir
> de quel lien on commence à lister.
Ce que j'aime dans HyperlinkExtractor, c'est la configuration du site
en un clic.
Mais, du coup, on a parfois trop de liens.
Jusqu'à maintenant, j'ai évité d'utiliser des indices qui sont trop
dépendants de ce qu'il y a autour des liens.
Mais, on ne pourra pas les éviter sur certains sites.
Je préfère qu'on essaie plutôt de choisir les liens en fonction de la
présentation.
Mais, pour moi, il est préférable d'essayer de cacher cela à
l'utilisateur.

Je propose, qu'on implémente la sélection multiple des liens.
L'utilisateur choisit tous les liens qui l'intéresse, ensuite, c'est à
l'application de déterminer, s'il s'agit d'un lien sur deux ou des
liens avec telles présentation, etc ...
J'aimerai qu'on essaie de garder une interface la plus simple possible
et la plus distante possible du côté technique du HTML.

> -Modif importantes de l'interface :
>
>             Aujourd'hui, à moins de « bidouiller » la chaîne
> html/body/table/tr/td/a[@class='...']/texte() on ne peut lister que
> des liens.
>
>             Il faudrait pouvoir lister d'autre type de balise tel que
> des span, des div ou permettre de saisir la balise qu'on recherche.
>
>             Je vous donne un exemple pour comprendre :
>
>             Un grand nombre de sites mettre un titre à leurs news, un
> extrait de la news suivi d'un lien « en savoir plus » qui mène a la
> news complète (cf dvdrama.net)
>
>             Dans ce cas nous sommes intéressés par l'intitulé du titre
> et le lien sur « en savoir plus ».
>
>             html/body/table/tr/td/a[@class='...']/texte() pourrait
> renvoyer « en savoir plus »
>
> html/body/table/tr/td/a[@class='...']/link() pourrait renvoyer la
> destination
>
> html/body/table/tr/td/span[@class='...']/texte() pourrait renvoyer le
> titre
>
> cela nous permettrai de construire les variable $1 et $2 dont je
> parlais plus haut pour des formats de sorti différents.
Mes réflexions ne sont pas très abouties sur ce sujet.
Je propose de mettre un module de recherche textuel.
L'utilisateur fait une recherche d'un titre, on affiche tous les textes
et url qui contiennent ce texte.
Lorsque l'utilisateur clique sur un résultat qui est du texte, il doit
passer par une étape suivante, qui est la sélection du lien (en savoir
plus, etc ...)
Si c'est une url, on est dans le cas habituel.

Planning prévisionnel :
<mavie>
Je fais du théâtre et j'ai une représentation le 23 janvier, du coup,
je vais être très occupé jusqu'à cette date.
D'ici le 23 janvier mon planning sera surtout dicté par le théâtre.
</mavie>

Voici, un planning que je vais essayer de suivre :

D'ici à dimanche 11 janvier : gestion des urls vides, tests et
livraison le 11 janvier.
Du 12 janvier au 25 janvier: gestion de la sélection multiple, tests et
livraison le 25 janvier.
Du 26 janvier au 1 février : génération de différents formats de sortie.
Du 2 février au 8 février : amélioration des batchs et livraison de la
version 1.1 sur le web le 8 février
Du 9 février au 22 février : réflexions sur le texte et les liens
séparés et implémentation.

Pascal

>
--------------------------------------------------------
http://hyperlinkextractor.net
Rss news reader / Rss news maker.
For Mac Os X or Java VM.
--------------------------------------------------------

Liste de diffusion hyperlinkextractor
http://www.hyperlinkextractor.net
Pour se désinscrire : mailto:hyperlinkextractor-request@ml.free.fr?subject=unsubscribe

Received on Mon Jan 5 09:35:38 2004

Cette archive a été créée par hypermail 2.1.8 : Sun Feb 29 2004 - 11:51:51 CET