Robots Exclusion Standard


Na het akkoord van de Robots Exclusion Standard – Protocol men leest webcrawler ( robot ) in het vinden van een website eerste bestand robots.txt(kleine letters) in de root directory ( „root“) van een domein . Dit bestand kan worden gebruikt om aan te geven of en hoe de webpagina door een webcrawler kan worden bezocht. Website-eigenaren hebben de mogelijkheid om geselecteerde delen van hun website voor (specifieke) zoekmachines te selecterenblokkeren. Het protocol is louter indicatief en vertrouwt op de medewerking van de webcrawler. Dit wordt ook wel „vriendelijke“ webcrawler genoemd. Het uitsluiten van bepaalde delen van een website door het protocol garandeert geen geheimhouding, om pagina’s of subdirectory’s van een server te beschermen door HTTP-authenticatie , een toegangscontrolelijst (ACL) of een vergelijkbaar mechanisme. Sommige zoekmachines geven nog steeds URL’s weer die door de webcrawler zijn gevonden en geblokkeerd op de pagina’s met zoekresultaten, maar zonder de pagina’s te beschrijven.

Het protocol is in 1994 ontwikkeld door een onafhankelijke groepering, maar wordt nu algemeen erkend en kan als een quasi standaard worden beschouwd . Begin juni 2008 bekennen Google, [1] Microsoft en Yahoo enkele gelijkenissen. [2]

Bouw

Het robots.txt- bestand is een tekstbestand in een gemakkelijk leesbare indeling. Elke regel bestaat uit twee velden gescheiden door een dubbele punt.

User-agent: Sidewinder
Disallow: /

De eerste regel beschrijft de webcrawler (hier 🙂 User-agentwaarop de volgende regels van toepassing zijn. Er kan een aantal van dergelijke blokken zijn. Webcrawlers lezen het bestand van boven naar beneden en stoppen wanneer een blok naar hen verwijst. Voor elke URL die is uitgesloten, is er een aparte regel met de Disallowopdracht. User-agentLege regels zijn alleen toegestaan ​​boven regels. Ze scheiden de blokken van elkaar. Opmerkingen met één regel die beginnen met een hekje (#) zijn op elk moment mogelijk. Ze zijn bedoeld voor duidelijkheid en worden genegeerd door de webcrawler.

instructies beschrijving voorbeeld functie
User-agent: Specificatie van de webcrawler User-agent: Sidewinder Is alleen van toepassing op de webcrawler Sidewinder.
User-agent: * Wildcard voor user-agent; is van toepassing op alle webcrawlers.
Disallow: Sta niet toe om te lezen Disallow: Geen uitsluiting; de hele website kan worden doorzocht.
Disallow: / De volledige website kan mogelijk niet worden doorzocht.
Disallow: /Temp/
Disallow: /default.html
De map „Temp“ en het bestand „default.html“ worden mogelijk niet doorzocht.
Disallow: /default Alle bestanden en mappen die beginnen met „standaard“ zullen niet worden doorzocht, bijv Bijvoorbeeld „default.html“, „default.php“, „default-page.html“, „defaultfolder /“, enzovoort. Een verbod op „default.html“ verbiedt ook z. Bijvoorbeeld „default.html.php“ of „default.html /“, zelfs als deze constellatie waarschijnlijk niet vaak voorkomt.
$ Newline- anker (alleen Googlebot ,Yahoo! Slurp, msnbot ) Disallow: /*.pdf$ Alle PDF- bestanden worden genegeerd.
? URL’s met ‚?‘ verwerken (alleenGooglebot ) Disallow: /*? Alle URL’s met een ‚?‘ ingesloten worden genegeerd.
Allow: /*?$ Alle URL’s gemarkeerd met een ‚?‘ eindes zijn toegestaan.
Allow: Uitschakelen toestaan ​​( Ask.com ,Googlebot , Yahoo! Slurp, msnbot alleen ) Disallow: /
Allow: /public/
Alleen de directory „public“ kan worden doorzocht, de rest niet.
Crawl-delay: Uitleessnelheid (alleen msnbot ,Yahoo! Slurp, Yandex [3] ) Crawl-delay: 120 Alleen elke 120 seconden mag een nieuwe pagina worden opgeroepen om te worden gelezen.
Sitemap: Sitemap- URL (alleen Googlebot ,Yahoo! Slurp, msnbot , Ask.com ) Sitemap: http://example.com/sitemap.xml De sitemap volgens het sitemapprotocol bevindt zich op het opgegeven adres.

Voorbeelden

# robots.txt voor example.com
# Ik sluit deze webcrawlers uit
User-agent: Sidewinder
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
# Deze mappen / bestanden zouden dit niet moeten doen
# wordt doorzocht
User-agent: *
Disallow: /default.html
Disallow: / Temp / # deze inhoud zal niet worden heroverd door zoekmachines; of eerder vastgelegde inhoud is verwijderd, is niet gedefinieerd
Disallow: /Privat/Family/Birthdays.html # Niet geheim, maar mag niet worden gecrawld door zoekmachines.

De volgende commando’s verbieden alle webcrawlers om de volledige site te krijgen. Het indexeren van de inhoud in de zoekmachine is hierbij uitgesloten, maar niet de weergave van de URL en informatie die niet afkomstig is van de pagina, maar van externe bronnen. Dit geldt ook als indexering op afzonderlijke pagina’s weer is toegestaan, omdat webcrawlers de pagina zelfs niet oproepen. [4]

User-agent: *
Disallow: /

Nog een voorbeeld:

robots.txt van de Duitstalige Wikipedia

Alternatieven

Meta-informatie

De indexering web crawlers kan ook meta-elementen in HTML verwerpen -Quelltext een webpagina. [5] Ook meta-elementen worden alleen gebruikt om de medewerking van „vriendelijke“ web crawlers nodig hebben en geen garantie voor geheimhouding. Als de zoekrobot de website niet in de index van de zoekmachine (noindex) wil opnemen of de hyperlinks van de pagina (nofollow) niet wil volgen, kan dit als volgt in een meta-element worden genoteerd:

< meta name = "robots" content = "noindex, nofollow" />

In HTML-documenten waarvoor beide moeten worden toegestaan, kan de specificatie worden weggelaten of expliciet worden vermeld:

< meta name = "robots" content = "all" />

ACAP

Met ACAP 1.0 ( Automated Content Access Protocol ) is op 30 november 2007 een alternatief voor de Robots Exclusion Standards gemaakt. Aanbieders van zoekmachines en andere serviceproviders gebruiken deze informatie niet. Google sluit het gebruik van ACAP in zijn huidige vorm uit. [6]

Humans.txt

Het robots.txt- bestand biedt „robots“ (in de vorm van software / webcrawler) extra informatie over een webpagina. In lijn hiermee heeft Google in 2011 het bestand humans.txt geïntroduceerd, dat is bedoeld als extra achtergrondinformatie voor menselijke bezoekers van de website. [7] Sindsdien is dit bestand ook gebruikt door andere websites, bijvoorbeeld om de programmeurs van de website bij naam te noemen of om de gebruikte software te beschrijven. [8] Google gebruikt het bestand voor een korte zelfexpressie en verwijst naar banen in het bedrijf. [9]

Zie ook

  • .htaccess
  • nofollow
  • Sitemapsprotocol

Literatuur

  • Ian Peacock: Robots the Door, What Is Robots Exclusion Protocol? In: Ariadne , mei 1998, nummer 15, webversie .

Webkoppelingen

  • De Web Robots’s (Engels)
  • Robots . Uitleg van het robots.txt- bestandin de SELFHTML- wiki
  • Googlebot: de Google Web Crawler – verwijder informatie van Google – Google.com
  • speciale syntaxis-extensies voor Googlebot – Google.com
  • Een standaard voor robotuitsluiting ( Memento van 17 januari 1999 in het internetarchief ) Defacto standaardtekst uit 1999 (Engels)
  • ACAP – Geautomatiseerde toegang tot protocoltoegang / ontwikkeling (Engels)

Individuele proeven

  1. Spring omhoog↑ Verbeteringen in het robotuitsluitingsprotocol . Aan: Google Blog Webmaster Central, 10 juni 2008.
  2. Spring omhoog↑ Alles wat u wilde weten over het blokkeren van zoekmachines . Aan: searchengineland.com , 12 juni 2008.
  3. Spring omhoog↑ Gebruik robots.txt . Yandex. Betreden op 4 mei 2015.
  4. JumpUp ↑ Robots Metatag en X-Robots Tag HTTP-headerspecificaties . Google
  5. Spring omhoog↑ Robots en het META-element . W3C- aanbeveling
  6. Spring omhoog↑ itwire.com
  7. Spring omhoog↑ Google introduceert het humans.txt – GWB. 7 mei 2011, toegankelijk op 2 augustus 2016 .
  8. Spring omhoog↑ Wij zijn mensen, geen machines. In: humanstxt.org. Betreden op 2 augustus 2016 .
  9. Spring omhoog↑ Google: humans.txt van google.com. Google, geopend op 2 augustus 2016 .

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.