Bonjour,
Je cherche à extraire automatiquement des données de cette url: http://liencs.fr/gab

Je dois relever manuellement les tarifs des hôtels qui se trouvent dans mon arrondissement et cette opération est très chronophage je cherche à automatiser l'extraction des données de cette page. Pour ce faire j'utilise la fonction importxml depuis Google sheets. Via l'outil de développement de chrome je copie le xpath du contenu qui m'intéresse et le colle ensuite dans google sheets en utilisant cette formule =IMPORTXML(url, xpath) => l'url étant celle du dessus et le xtpath =//*[@id="hotellist_inner"]/div[5]/div[2]

Cette formule ne me permet pas d extraire tout le contenu dont j'ai besoin. Donc ma question, mon approche est -elle la bonne, est-ce que j'utilise le bon xpath pour extraire le contenu?
Autrement existe t il un script php pour extraire ces données et/ou un outil gratuit (de préférence).

merci par avance de votre retour

2 réponses


JacobDelcroix
Réponse acceptée

Personnellement, j'utilise cURL pour appeler les URLs et si j'ai besoin d'analyser le contenu html (pour trouver des liens, des infos, etc...) j'utilise http://simplehtmldom.sourceforge.net/ . Ca fonctionne très bien pour récupérer ce que tu veux sur n'importe quel site mais comme le dit @masteraskone fait attention car dans certains cas c'est illégal.

bene30
Auteur

Bonjour,
merci beaucoup pour vos réponses précises et complètes je vais pouvoir avancer! Mon but est uniquement d'éviter un fastidieux relevé des prix page par page.
Concernant le droit d'auteur je prends note mais je suis septique, je n'ai qu'une utilisation personnelle de ces données, je ne les publient pas. Ils s'agit d'informations publiques, le copier/coller ou le relevé à la main n'est pas interdit, dans mon cas il s'agit uniquement d'automatiser cette démarche, peut être que le scraping est répréhensible mais je ne suis pas juriste ;-)

Merci en tout cas pour vos contributions