Skip to main content

Wat is Robots.txt

Robots.txt is een bestand in de hoofdmap van een website.
Hierin staat beschreven waar robots (webcrawlers, spiders) toegang toe krijgen en niet.

 

Aanbevolen robots.txt handelingen

Naamgeving: robots.txt
Locatie: Root van de website (https://www.domeinnaam.nl/robots.txt)

Crawl allowance

gebaseerd op de website haar

  1. Authoriteit
  2. Repuratie
  3. Aantal pagina’s

ss

  1. Toegestaane hoeveelheid pagina’s voor de Robot/Spider om te crawlen
  2. Toegestaane tijd dat de Robot/Spider mag crawlen

A note on blocking query parameters

One situation where crawl budget is particularly important is when your site uses a lot of query string parameters to filter or sort lists. Let’s say you have 10 different query parameters, each with different values that can be used in any combination (like t-shirts in multiple colors and sizes). This leads to lots of possible valid URLs, all of which might get crawled. Blocking query parameters from being crawled will help make sure the search engine only spiders your site’s main URLs and won’t go into the enormous trap that you’d otherwise create.

 

Welke soort robots zijn er

  1. Webcrawlers
  2. Spiders
  3. Bots

 

Search Engine Bots

  1. Petalbot van Aspiegel (Huawei bedrijf) (https://aspiegel.com/petalbot)
  2. Googlebot van Google

Petalbot

Eigenaar: Huawei
Soort: Zoekmachine Bot
Gebruikt voor: Zoekfuncties op Huawei producten
User-agent: PetalBot
URL: https://aspiegel.com/petalbot
IP:

114.119.137.160
114.119.147.15
114.119.130.253
114.119.148.60
114.119.144.212
114.119.139.107
114.119.144.229
114.119.158.74
114.119.134.155

Peter-Paul Rijsdijk

Eigenaar Webstijlen / WordPress en Webhosting expert Vragen? 0643873811 / peterpaul@webstijlen.nl