SEO - Optimaliseer het Crawl Budget van je webshop

SEO, of Zoekmachine Optimalisatie, is een traject van inspelen op meer dan 200 factoren. De meeste websites of webshops focussen zich puur op de meest bekende factoren, zoals content, meta-tags, links etc. Diepgaandere technische optimalisaties worden in veel gevallen uitgesteld of zelfs aan de kant geschoven. Een aantal technische optimalisaties wordt hierdoor onderbelicht. Een van deze onderbelichte onderwerpen is Crawl Budget. Zoals de naam al doet vermoeden, is dit in principe al een technische term. Daarom zal ik in dit artikel eerst uitleggen wat Crawl Budget inhoudt, alvorens ik tips geef om het Crawl Budget te optimaliseren. Let op: Crawl Budget is geen SEO-factor voor Google. Echter helpt het Google de website beter te beoordelen, wat indirect inspeelt op een goede SEO-strategie en verbeterde posities.

Wat is Crawl Budget?

Voordat ik deze vraag beantwoord, is het goed om te begrijpen hoe een crawler of een bot werkt. In dit blogartikel zal ik het meerdere malen hebben over de crawler van Google: de Google-bot. De Google-bot is de toonaangevende spider van Google om webpagina’s te crawlen, informatie hierover te verzamelen en het vervolgens te indexeren.

Crawl Budget is het aantal keren dat een spider / crawler je website crawlt in een bepaalde periode.

Crawl Budget is opgebouwd uit twee factoren:

Crawl Rate Limit: het limiet om Google-bot te helpen je pagina’s niet te vaak of te snel te crawlen. Dit kan gevolgen hebben op de server waar de website op gehost is.
Crawl Demand: de term voor hoe graag Google-bot je pagina’s wil crawlen. Dit hangt samen met de populariteit en de actualiteit van de pagina’s.

Deze twee facetten vormen samen het Crawl Budget. Verder in dit artikel zal ik induiken op optimalisaties voor het Crawl Budget, waarbij dus deze twee losse facetten automatisch worden meegenomen.

Waarom is Crawl Budget belangrijk?

Heb je een belangrijke categorie of product op je webshop, dan wil je uiteraard dat de Google-bot deze crawlt en (goed) indexeert. In feite wil je dat Google al je belangrijke pagina’s ontdekt. Heb je nieuwe producten of een nieuwe categorie, dan is het ook wenselijk dat Google dit zo snel mogelijk oppakt. Heb je een enorme webshop, dan zal de Google-bot slechts een deel van je webshop doorlopen. De Crawl Rate Limit wordt hoger of lager, afhankelijk van de ‘technische gezondheid’ van je webshop. Als de Google-bot positief reageert op pagina’s op de crawlverzoeken, dan kan het zijn dat er meer pagina’s worden gecrawld.

Is Crawl Budget iets waar ik me zorgen om moet maken?

Heb je een kleine website met 100 URL’s dan is Crawl Budget in eerste instantie niet de prioriteit en kun je je wellicht beter richten op het optimaliseren van belangrijke ranking-factoren. Heb je een grote website met +5000 URL’s, kan het zijn dat Crawl Budget-optimalisatie prioriteit wordt. Doordat je website gebonden is aan een Crawl Budget, wil je niet dat dit budget verspild wordt aan onnodige pagina’s. Wenselijk is om dan enkel de meest relevante en belangrijke pagina’s te laten crawlen.

Wat is mijn Crawl Budget?

Om een idee te krijgen over je webshops Crawl Budget, kun je het beste gebruik maken van Google Search Console –> Crawlen –> Crawlstatistieken:

In bovenstaand voorbeeld is te zien dat de Google-bot 257 pagina’s van mijn website per dag crawlt. Vanuit dit gegeven kan ik zeggen dat mijn maandelijks crawlbudget (257 x 30 =) 23.130 is.

Dit is uiteraard een dagelijks nummer dat kan fluctueren, maar geeft een goede verwachting van het aantal pagina’s dat gecrawld wordt in een bepaalde periode.

Wanneer je een gedetailleerder inzicht wil hebben, raad ik je aan om de crawlstatistieken aan de hand van server logs te analyseren. Je webbouwer of hosting-provider kan je hiermee verder helpen. In dit artikel zal ik tips geven voor optimalisaties van Crawl Budget.

Hoe optimaliseer ik mijn Crawl Budget?

Na een lange introductie eindelijk aangekomen op het punt waarbij ik tips zal geven over het optimaliseren (en dus verhogen) van je Crawl Budget. In dit artikel belicht ik de belangrijkste factoren die van invloed zijn op je Crawl Budget:

1. Maak je pagina’s (én onderdelen) toegankelijk voor de Google-bot

Het klinkt logisch, maar je nieuwe of bestaande pagina’s moeten toegankelijk zijn voor de Google-bot, omdat deze anders de pagina’s niet kan beoordelen voor gebruikers. Je pagina’s zijn te crawlen als de Google-bot erbij kan, dus ben er zeker van dat je een juiste .htacces en een juist robots.txt bestand hebt geüpload. Wanneer een belangrijke pagina is geblokkeerd in de robots.txt, zal Google deze niet crawlen. Let op: een pagina blokkeren in de robots.txt is geen garantie dat een pagina niet verschijnt in de zoekresultaten. Gebruik hiervoor een noindex-tag.

Tip: wanneer je een noindex-tag gebruikt, blokkeer deze dan niet via de robots.txt! Google moet deze pagina namelijk eerst zien en erkennen, wat niet mogelijk is als deze geen toegang krijgt van de robots.txt.

2. Blokkeer de juiste onderdelen

In tegenstelling tot bepaalde pagina’s toegankelijk maken, is het van belang om bepaalde onderdelen van een website wél te blokkeren voor de Google-bot. Té vaak zien we bij grote webshops dat bepaalde filter-URL’s gecrawld worden. Grote webshops hebben in veel gevallen tientallen mogelijkheden om producten te filteren. Elke filter zorgt op zijn beurt weer voor een nieuwe URL voor Google. Voorbeeld:

webshop-voorbeeld.nl/categorie-a
webshop-voorbeeld.nl/categorie-a?dir=asc&order=name
webshop-voorbeeld.nl/categorie-a?dir=desc&order=position
webshop-voorbeeld.nl/categorie-a?dir=asc&order=price
webshop-voorbeeld.nl/categorie-a?mode=list
webshop-voorbeeld.nl/categorie-a/?dir=asc&limit=25&mode=list&order=position

De eerste URL is de oorspronkelijke URL van de categorie. De overige URL’s zijn varianten, gecreëerd door filter functies. Deze filter-URL’s zijn slechts een greep uit de duizenden URL’s die in veel gevallen gecrawld worden. Hoewel deze URL’s worden in sommige gevallen worden ondervangen met een Canonical Tag, betekent dit wel dat de Google-bot deze bezoekt. Het tast het crawlbudget dus aan.

Waar we net spraken over het toegang verschaffen op sommige pagina’s, is het in dit geval raadzaam om alle filter-URL’s te blokkeren via de robots.txt.

Tip: om meer kracht te geven aan het feit dat de Google-bot filter-URL’s moet negeren, kun je deze ook optimaliseren middels URL Parameters binnen Google Search Console.

3. Vermijd kapotte links

Wanneer de Google-bot een pagina bezoekt, spuugt het een Response Code terug. Het streven is naar een 200 status-code (OK) of een 301 status-code (permanente doorverwijzingen). Alle andere codes zijn voor optimalisatie vatbaar. Zeker wanneer het gaat om een 404 status code (not found). De Google-bot stopt namelijk met crawlen wanneer deze een 404 status code tegenkomt. Een 404-pagina is te voorkomen, door middel van een 301-doorverwijzing.

Wanneer een website on-page veel andere codes dan 200 of 301 creëert, zit dit de Google-bot in de weg.

Tip: Een overzicht met uitleg van alle mogelijke status codes is hier te vinden.

4. Vermijd redirect chains

Evenals onnatuurlijk status codes, is het van belang om redirect chains te vermijden. Hoewel een redirect chain bestaat uit een 301 status-code, waarvan ik zojuist vertelde dat dit geen kwaad kan, is een chain (ketting) een onnatuurlijk verschijnsel voor de Google Bot.

Een 404-pagina doorverwijzen middels een 301-status code is juist. Een redirect chain is een opstapeling van verschillende 301-redirects achter elkaar. Voorbeeld: Categorie A wordt met een 301-redirect doorverwezen naar Categorie B, welke weer wordt geredirect naar Categorie C. In dit geval is het beter om Categorie A direct naar Categorie C door te verwijzen. Redirect chains kunnen van invloed zijn op de laadtijd en dus de gebruikerservaring aantasten. Daarnaast moet ook de Google-bot meer moeite doen om de ‘eindbestemming’ te bereiken, omdat deze telkens wordt omgeleid. in sommige gevallen wordt de Google-bot wel 7 tot 10 keer omgeleid (killing!).

Om bovenstaande twee factoren beter te visualiseren, zijn onderstaande screenshots ter begeleiding. In voorbeeld A zien we een ongezonde structuur met veel redirects en errors. In voorbeeld B zien we een gezonde en ‘schone’ structuur.

Voorbeeld A (ongezonde structuur):

Voorbeeld B (gezonde structuur):

Tip: exporteer alle ‘ongezonde’ status-codes uit crawler programma’s als Screaming Frog.

5. Houd je sitemap.xml schoon en up to date

Evenals het schoonhouden van de websitestructuur zelf, is het van belang om je sitemap.xml schoon te houden. Een sitemap.xml helpt de Google-bot de structuur van de website beter (en sneller) te begrijpen. Om de Google-bot hierbij te helpen, is het aan te raden ook enkel URL’s die een 200 status -code weergeven in de sitemap.xml op te nemen. De volgende URL’s worden niet geadviseerd:

4xx status codes (errors)
Redirect URL’s (301, 302 of 307)
URL’s die zijn geblokkeerd voor indexatie of via de robots.txt
Non Canonical Tag URL’s (omdat hier een Canonical Tag op zit die verwijst naar een andere URL, weet de Google-bot dat deze URL genegeerd kan worden)

Tip: neem de sitemap.xml op in de robots.txt en dien deze ook in bij Google Search Console.

6. Onderhoud je site structuur en interne linkbuilding

Hoewel interne links niet direct gevolg hebben op je Crawl Budget, is site structuur wel een belangrijke factor om de Google-bot te helpen. Een logische opbouw van je webshop maakt het voor de gebruiker gemakkelijker de navigeren (en een positief gevolg op de duur dat een bezoeker op de website blijft). Daarnaast stimuleert een logische opbouw het crawlen voor de Google-bot. Leidt de Google-bot hier dus ook niet om (301) of dood lopen (404).

Tip: belangrijke (landings)pagina’s mogen nooit verder dan drie klikken van welke pagina dan ook in de website liggen. De meest belangrijke dienen opgenomen te worden in de navigatie of in de footer.

7. Verzamel backlinks

We kunnen het niet vaak genoeg roepen: linkbuilding is nog steeds essentieel. En dit is ook logisch, want hoe meer backlinks van kwalitatieve én gezonde website, hoe logischer het is dat de Google-bot ook even op jouw website komt kijken.

Onderzoeken wijze zelfs uit dat er eens sterke correlatie is tussen het aantal keren dat de Google-bot een website bezoekt en het aantal backlinks. Onderstaande afbeelding, uit onderzoek van Yauhen Khutarniuk (Hoofd SEO van SEO Powersuite) wijst uit dat hoe meer backlinks een pagina heeft, hoe vaker de Google-bot langskomt:

Tip: onderschat de waarde van backlinks niet. Het linkbuilding proces boost het Crawl Budget van de gehele website.

Conclusie: heeft het optimaliseren van Crawl Budget zin?

In dit artikel zijn we ingedoken op verschillende optimalisaties die het Crawl Budget kunnen verbeteren. Maar heeft het nut om dit te optimaliseren? Deze vraag kan ik gemakkelijk beantwoorden met: JA! Verschillende onderdelen van de optimalisaties die zijn besproken, gaan hand in hand met een goede SEO-strategie.

Laten we het nog één keer in Jip en Janneke taal uitleggen. Wanneer je het de Google-bot gemakkelijker maakt om je website of webshop te ontdekken en te indexeren, verdien je meer ‘crawls’. Dit betekent dat de Google-bot sneller en vaker langskomt. Daarnaast verbeter je de gebruikservaring, wat zorgt voor meer zichtbaarheid en wat uiteindelijk resulteert in betere rankings.

Hulp nodig bij het optimaliseren van je Crawl Budget of benieuwd of dit een factor is waar de prioriteit op moet liggen? Neem gerust vrijblijvend contact op met onze specialisten.