de file robots.txt :   toestaan/weigeren wat zoekmachines op een website mogen indexeren

Zonder de file 'robots.txt' indexeren zoekmachines (bv. Google en Bing) meestal alle pagina's die er op een website te vinden zijn. Wil je dat een deel van die pagina's niet geindexeerd wordt maak dan gebruik van de file 'robots.txt'. D.m.v. de file robots.txt laat je zoekmachines weten welke pagina’s je liever niet wilt laten indexeren. En ook welke zoekmachines je (eventueel) helemaal buiten de deur wilt houden. Met de file robots.txt scherm je bepaalde delen van je website af. Het geeft ook een betere structuur aan de website en zoekmachine vinden dat prettig.

Zelf de file robots.txt maken is makkelijk. Open een willekeurige ASCII editor, bv. Kladblok. Met de regel 'User-agent: Piet' zeg je welke acties er voor de zoekmachine 'Piet' zijn toegestaan en welke acties er niet zijn toegestaan.
Voor het buitensluiten van elke file en/of subdirectory is een aparte 'disallow' nodig. Het volgende op één regel werkt dus niet: 'Disallow: /cgi-bin/ /tmp/'.
Binnen één opdracht mogen geen blanco (lege) regels staan, want blanco regels dienen om meerdere opdrachten te scheiden.
Regular expression worden niet ondersteund. De '*' in het veld User-agent is een speciaal teken om aan te geven 'elke robot'.
Let ook op het verschil tussen de / aan het einde van een regel. 'Disallow: /cgi-bin' geeft aan dat het de hele folder betreft. 'Disallow: /setup/' geeft aan dat het alleen om de index (index.htm of index.php) gaat in deze map.

Alles wat niet expliciet 'disallowed' is dat wordt geindexeerd. Als je dat wilt dan kun je alle zoekmachines weigeren om welke pagina dan ook te indexeren. Zet dan de volgende twee regels in de file robots.txt:
     User-agent: *
     Disallow: /

Als alle zoekmachines alles mogen indexeren laat je de optie Disallow gewoon leeg (of maak de hele file leeg, of gebruik de file robots.txt helemaal niet):
     User-agent: *
     Disallow:

Om een specifieke robot uit te sluiten:
     User-agent: BadBot
     Disallow: /

Een specifieke robot alles toestaan:
     User-agent: Google
     Disallow:

Als je de file 'klantenbestand.html' niet wilt laten indexeren door Google maak dan in de file robots.txt de volgende twee regels:
     User-agent: Googlebot
     Disallow: /klantenbestand.html

Om de volgende drie subdirectories uit te sluiten voor alle robots:
     User-agent: *
     Disallow: /cgi-bin/
     Disallow: /tmp/
     Disallow: /piet/

Uiteraard kunt u de robots.txt voorzien van het juiste pad naar uw XML-sitemap.
     User-agent: *
     Disallow: /setup/
     Disallow: /cgi-bin
     Disallow: /images/
     Disallow: /photos/
     Disallow: /dealers
     Sitemap: https://www.mijndomein.nl/sitemap.xml

De file robots.txt zou er dus als volgt uit kunnen zien:
         # Default robots.txt file
         #
         # Block Wordpress plugins
         User-Agent: *
         Disallow: /wp-content/plugins/

         # yandex
         User-agent: Yandex
         Disallow: /

         # MSN
         User-agent: MSNbot
         Disallow: /

         # wowrack
         User-agent: reverse.wowrack.com
         Disallow: /

         #Baiduspider
         User-agent: Baiduspider
         Disallow: /

         # Images niet indexen
         User-agent: Googlebot
         Disallow: /*.gif
		 

Er zijn nog veel meer opties om bepaalde delen van jouw bestanden niet te tonen aan de robots van de zoekmachines. Een groot deel hiervan en een uitleg erbij vind je hier.

Let op:
Er zijn zoekmachines die de file robots.txt negeren. Dat zijn dan meestal malware robots die het web scannen op veiligheidslekken. Ook programma's die emailadressen zoeken (email address harvesters) negeren de file. De file /robots.txt op je website is voor iedereen te zien. Iedereen kan dus bekijken welke beperkingen jij aan zoekmachines hebt opgelegd.

Laatste wijziging: woensdag 5 januari 2022 Colofon  Disclaimer  Privacy  Zoeken  Copyright © 2002- G. Speek

  Einde van de pagina