Partager la publication "Récupérer un sitemap XML au format texte (.txt)"
Petit article un peu spécial. Dernièrement, j’ai beaucoup apprécié les petits scripts partagés par l’ami Julien Jimenez et notamment celui permettant de scrapper Pinterest en 2 clics.
Lors de mes audits SEO je suis parfois confronté à un petit problème au niveau du fichier sitemap. Son format XML ne me permet pas de le traiter efficacement.
Mes besoins sont pourtant simples :
C’est sur ce dernier point que je sèche régulièrement. J’avais l’habitude de demander au développeur de m’envoyer le fichier au format texte mais c’est toujours une perte de temps. Cette fois et avec l’ami Vincent Lahaye, j’ai pris les devants !
Je lui ai proposé de créer un outil pour convertir un fichier sitemap au format XML en fichier texte. Ce fichier doit reprendre uniquement les URLs et les ajouter au fichier .txt les unes en dessous des autres.
Une fois cette liste récupérée j’upload le fichier .txt dans mon outil et meilleur ami « Screaming Frog ». A partir de là j’ai une vue sympa sur la santé de mon fichier sitemap.xml :
Ce petit outil me facilite souvent la tâche pour auditer une partie du site (mais on sait tous qu’il ne faut pas se contenter de ces URLs pour étudier l’ensemble du site).
N’hésitez pas à apporter vos remarques, nous pourrons également faire évoluer ce petit tool.
Edit 02/08/2015 : grâce au commentaire d’Antoine Brisset, j’ai découvert que Screaming Frog proposait déjà la fonction de crawl de sitemap (via le mode liste). L’outil aura peut-être d’autres utilités. A vous d’être créatif !