Je suis à la recherche d'un parseur HTML.
Le but étant d'analyser une page HTML afin d'en extraire les informations et
de la exploiter dans un logiciel fiat sous Windev..
Je suis preneur de tout (code, algo, lien vers site, astuce, etc..)
Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser... Ou le trouver? Comment l'utiliser pour parser un fichier HTML?
rien n'oblige d'afficher une page html pour la parser.
HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour en recuperer le contenu dans une chaine.
ensuite c'est du traitement de chaine de caractère dont la complexité va dépendre de la structure de la page chargée et de l'info recherchée.
Cela peut-être excessivement simple (info précédée par une sequence unique de caractère.
Michel
Roumegou Eric
Michel a formulé ce vendredi :
Emmanuel BLAISE a écrit :
Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser... Ou le trouver? Comment l'utiliser pour parser un fichier HTML?
rien n'oblige d'afficher une page html pour la parser.
HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour en recuperer le contenu dans une chaine.
ensuite c'est du traitement de chaine de caractère dont la complexité va dépendre de la structure de la page chargée et de l'info recherchée.
Cela peut-être excessivement simple (info précédée par une sequence unique de caractère.
ou extremement compliqué quand le fournisseur génère aléatoirement des pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais ils ont changé 3 fois le site en une semaine, j'attends qu'ils se calment pour recommencer.
Michel
-- Eric Roumégou http://cerbermail.com/?TSoulBerPA (cliquez sur le lien ci-dessus pour me contacter en privé)
Michel a formulé ce vendredi :
Emmanuel BLAISE a écrit :
Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser...
Ou le trouver?
Comment l'utiliser pour parser un fichier HTML?
rien n'oblige d'afficher une page html pour la parser.
HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour en
recuperer le contenu dans une chaine.
ensuite c'est du traitement de chaine de caractère dont la complexité va
dépendre de la structure de la page chargée et de l'info recherchée.
Cela peut-être excessivement simple (info précédée par une sequence unique de
caractère.
ou extremement compliqué quand le fournisseur génère aléatoirement des
pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais
ils ont changé 3 fois le site en une semaine, j'attends qu'ils se
calment pour recommencer.
Michel
--
Eric Roumégou
http://cerbermail.com/?TSoulBerPA
(cliquez sur le lien ci-dessus pour me contacter en privé)
Merci pour l'indication, mais je ne suis pas familiarisé avec Webbrowser... Ou le trouver? Comment l'utiliser pour parser un fichier HTML?
rien n'oblige d'afficher une page html pour la parser.
HTTPREquete pour aller chercher la page sur le Web et HTTPresultat pour en recuperer le contenu dans une chaine.
ensuite c'est du traitement de chaine de caractère dont la complexité va dépendre de la structure de la page chargée et de l'info recherchée.
Cela peut-être excessivement simple (info précédée par une sequence unique de caractère.
ou extremement compliqué quand le fournisseur génère aléatoirement des pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais ils ont changé 3 fois le site en une semaine, j'attends qu'ils se calment pour recommencer.
Michel
-- Eric Roumégou http://cerbermail.com/?TSoulBerPA (cliquez sur le lien ci-dessus pour me contacter en privé)
Michel
Roumegou Eric a écrit :
ou extremement compliqué quand le fournisseur génère aléatoirement des pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais ils ont changé 3 fois le site en une semaine, j'attends qu'ils se calment pour recommencer.
Effectivement, si le propriétaire de la page à parser y met de la mauvaise volonté ;-) On peut même imaginer des cas tordus comme un style qui inverse l'ordre des caractères à la lecture (.backwards {unicode-bidi:bidi-override; direction: rtl; color:#c00;}) des séquence de caractères invisible, etc...etc...
C'est son droit le plus strict,
Je raisonne plutôt dans l'optique syndication ou la diffusion de l'info prime sur l'emballage, (et dans les cas ou un fil rss n'est pas encore en place).
Bon week end
Michel
Roumegou Eric a écrit :
ou extremement compliqué quand le fournisseur génère aléatoirement des
pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais
ils ont changé 3 fois le site en une semaine, j'attends qu'ils se
calment pour recommencer.
Effectivement, si le propriétaire de la page à parser y met de la
mauvaise volonté ;-)
On peut même imaginer des cas tordus comme un style qui inverse l'ordre
des caractères à la lecture
(.backwards {unicode-bidi:bidi-override; direction: rtl; color:#c00;})
des séquence de caractères invisible, etc...etc...
C'est son droit le plus strict,
Je raisonne plutôt dans l'optique syndication ou la diffusion de l'info
prime sur l'emballage, (et dans les cas ou un fil rss n'est pas encore
en place).
ou extremement compliqué quand le fournisseur génère aléatoirement des pseudos-balises pour décaler les positionnements.
J'ai eu le cas récemment, et j'avais réussi à contrecarrer cela. Mais ils ont changé 3 fois le site en une semaine, j'attends qu'ils se calment pour recommencer.
Effectivement, si le propriétaire de la page à parser y met de la mauvaise volonté ;-) On peut même imaginer des cas tordus comme un style qui inverse l'ordre des caractères à la lecture (.backwards {unicode-bidi:bidi-override; direction: rtl; color:#c00;}) des séquence de caractères invisible, etc...etc...
C'est son droit le plus strict,
Je raisonne plutôt dans l'optique syndication ou la diffusion de l'info prime sur l'emballage, (et dans les cas ou un fil rss n'est pas encore en place).