Parseur HTML

5 réponses

Emmanuel BLAISE

15/09/2005 à 13:53

Bonjour à tous,

Je suis à la recherche d'un parseur HTML.
Le but étant d'analyser une page HTML afin d'en extraire les informations et
de la exploiter dans un logiciel fiat sous Windev..

Je suis preneur de tout (code, algo, lien vers site, astuce, etc..)

Cordialement
Emmanuel

5 réponses

Dev

15/09/2005 à 14:10

ActiveX Webbrowser de microsoft ?

--
Cordialement
Christophe Charron

Service Développement
PROLOGIQ
7 bis Rue des Aulnes
69410 Champagne au Mont d'Or

Tel : 0 437 499 107
Fax : 0 437 499 105
mailto:

"Emmanuel BLAISE" a écrit dans le message de
news:432960a2$0$14402$

Bonjour à tous,

Je suis à la recherche d'un parseur HTML.
Le but étant d'analyser une page HTML afin d'en extraire les informations

de la exploiter dans un logiciel fiat sous Windev..

Je suis preneur de tout (code, algo, lien vers site, astuce, etc..)

Cordialement
Emmanuel

Emmanuel BLAISE

16/09/2005 à 14:17

Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser...
Ou le trouver?
Comment l'utiliser pour parser un fichier HTML?

Cordialement
Emmanuel BLAISE

"Dev" a écrit dans le message de news:
4329652e$0$17861$

ActiveX Webbrowser de microsoft ?

--
Cordialement
Christophe Charron

Service Développement
PROLOGIQ
7 bis Rue des Aulnes
69410 Champagne au Mont d'Or

Tel : 0 437 499 107
Fax : 0 437 499 105
mailto:

"Emmanuel BLAISE" a écrit dans le message de
news:432960a2$0$14402$
Bonjour à tous,

Je suis à la recherche d'un parseur HTML.
Le but étant d'analyser une page HTML afin d'en extraire les informations

et
de la exploiter dans un logiciel fiat sous Windev..

Je suis preneur de tout (code, algo, lien vers site, astuce, etc..)

Cordialement
Emmanuel

Michel

16/09/2005 à 14:59

Emmanuel BLAISE a écrit :

Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser...
Ou le trouver?
Comment l'utiliser pour parser un fichier HTML?

rien n'oblige d'afficher une page html pour la parser.

HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour
en recuperer le contenu dans une chaine.

ensuite c'est du traitement de chaine de caractère dont la complexité va
dépendre de la structure de la page chargée et de l'info recherchée.

Cela peut-être excessivement simple (info précédée par une sequence
unique de caractère.

Michel

Roumegou Eric

16/09/2005 à 15:51

Michel a formulé ce vendredi :

Emmanuel BLAISE a écrit :
Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser...
Ou le trouver?
Comment l'utiliser pour parser un fichier HTML?

rien n'oblige d'afficher une page html pour la parser.

HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour en
recuperer le contenu dans une chaine.

ensuite c'est du traitement de chaine de caractère dont la complexité va
dépendre de la structure de la page chargée et de l'info recherchée.

Cela peut-être excessivement simple (info précédée par une sequence unique de
caractère.

ou extremement compliqué quand le fournisseur génère aléatoirement des
pseudos-balises pour décaler les positionnements.

J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais
ils ont changé 3 fois le site en une semaine, j'attends qu'ils se
calment pour recommencer.

Michel

--
Eric Roumégou
http://cerbermail.com/?TSoulBerPA
(cliquez sur le lien ci-dessus pour me contacter en privé)

Michel

16/09/2005 à 17:39

Roumegou Eric a écrit :

ou extremement compliqué quand le fournisseur génère aléatoirement des
pseudos-balises pour décaler les positionnements.

J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais
ils ont changé 3 fois le site en une semaine, j'attends qu'ils se
calment pour recommencer.

Effectivement, si le propriétaire de la page à parser y met de la
mauvaise volonté ;-)
On peut même imaginer des cas tordus comme un style qui inverse l'ordre
des caractères à la lecture
(.backwards {unicode-bidi:bidi-override; direction: rtl; color:#c00;})
des séquence de caractères invisible, etc...etc...

C'est son droit le plus strict,

Je raisonne plutôt dans l'optique syndication ou la diffusion de l'info
prime sur l'emballage, (et dans les cas ou un fil rss n'est pas encore
en place).

Bon week end

Michel

Parseur HTML

5 réponses

Veuillez sélectionner un problème