Récupérer un sitemap XML au format texte (.txt)

Petit article un peu spécial. Dernièrement, j’ai beaucoup apprécié les petits scripts partagés par l’ami Julien Jimenez et notamment celui permettant de scrapper Pinterest en 2 clics.

Lors de mes audits SEO je suis parfois confronté à un petit problème au niveau du fichier sitemap. Son format XML ne me permet pas de le traiter efficacement.

Fichier Sitemap.xml

Mes besoins sont pourtant simples :

  • Savoir si le fichier existe (OK pas de problème la plupart du temps)
  • Savoir si ce fichier a été envoyé dans la Search Console (simple aussi)
  • Savoir si le fichier est propre et si les URLs proposées dans le fichier sont utiles en SEO (je coince…)

C’est sur ce dernier point que je sèche régulièrement. J’avais l’habitude de demander au développeur de m’envoyer le fichier au format texte mais c’est toujours une perte de temps. Cette fois et avec l’ami Vincent Lahaye, j’ai pris les devants !

Je lui ai proposé de créer un outil pour convertir un fichier sitemap au format XML en fichier texte. Ce fichier doit reprendre uniquement les URLs et les ajouter au fichier .txt les unes en dessous des autres.

Une fois cette liste récupérée j’upload le fichier .txt dans mon outil et meilleur ami « Screaming Frog ». A partir de là j’ai une vue sympa sur la santé de mon fichier sitemap.xml :

  • URLs en erreurs 404 > à supprimer du fichier
  • URLs en 301 > à corriger dans le fichier
  • Doublon sur les <title> ou <h1> > duplicate content sur certaines pages ? C’est fort possible !

Ce petit outil me facilite souvent la tâche pour auditer une partie du site (mais on sait tous qu’il ne faut pas se contenter de ces URLs pour étudier l’ensemble du site).

Tester l’outil pour obtenir un fichier sitemap au format texte :

N’hésitez pas à apporter vos remarques, nous pourrons également faire évoluer ce petit tool.

Edit 02/08/2015 : grâce au commentaire d’Antoine Brisset, j’ai découvert que Screaming Frog proposait déjà la fonction de crawl de sitemap (via le mode liste). L’outil aura peut-être d’autres utilités. A vous d’être créatif !

Rédigé par Victor Lerat

Consultant SEO Freelance depuis peu, j'ai testé l'agence durant trois années. J'ai aimé et beaucoup appris mais je suis parti. Aujourd'hui, j'accompagne des clients en référencement mais pas que ...

Victor Lerat

Victor Lerat - Consultant SEO

Consultant SEO à Nantes, je forme et conseille une clientèle qui souhaite développer une activité sur le web. En parallèle, je développe mes propres sites web.

S’inscrire à la newsletter

css.php