Aha! Waarom indexeert Google niet alle URL’s uit mijn sitemap?

google-search-console-sitemap

Je leert iedere dag, dat is bekend. Maar wat leer je dan eigenlijk? Het lijkt me interessant om dat bij te gaan houden.

Vandaag: Waarom indexeert Google niet alle URL’s uit mijn sitemap?

In m’n dagelijkse rondje websitestatistieken controleren neem ik altijd Google Search Console (GSC, voorheen Google Webmaster Tools) mee. Wat 404’s fixen, kijken of de zoekanalyse nog bijzonderheden te melden heeft en zien of de sitemaps nog doen wat ze doen.

Deze morgen logde ik in en zag ik 272 URL’s verzonden, 124 geïndexeerd. WTF? Dat gaat niet helemaal goed. Na flink onderzoek bleek dat de sitemap vanaf https was gepakt, niet vanaf http. Onze site draait aan de voorkant nog op http, de backend is inmiddels enkel via https beschikbaar. Waarschijnlijk is het hier ergens fout gegaan. Gelukkig kun je de sitemap opnieuw indienen. Nu waren er van de 272 slechts 23 niet in de index opgenomen.

Het intrigeert me wel waarom die cijfers niet exact gelijk zijn. Onze sitemap bevat alle URL’s van de website, waarom worden die niet allemaal meegenomen? Ook van de 718 afbeeldingen zijn er 53 niet geïndexeerd.

Het antwoord is simpeler dan eerder gedacht: Google indexeert enkel URL’s in sitemap die een 200 OK respons geven. Als er een URL in staat die geen 200 OK respons geeft maar iets anders, zoals een 301 (permanent redirect), 302 (temporary redirect) of 404 (page not found), dan wordt de URL – logischerwijs – niet meegenomen. Bij een 301 of 302 redirect is de pagina waarnaar verwezen wordt dus de eigenlijke pagina die geïndexeerd moet worden en een 404 is een pagina die niet gevonden wordt.

Conclusie: goed kijken welke URL’s er in mijn sitemap staan en welke melding ze geven, eventuele redirects fixen en indexeren met die hap.

Geef een reactie