Sitemapsprotocol


De Sitemaps protocol zorgt voor een webmaster , zoekmachines over de pagina’s van haar website te informeren dat uit deze uitgelezen te worden. De standaard werd op 16 november 2006 door Google , Yahoo en Microsoft goedgekeurd . Het is een op XML gebaseerde standaard.

Het doel van het Sitemaps-protocol is om de zoekresultaten te verbeteren. De uniforme standaard helpt bij het vaststellen van dit soort ‚labeling‘ van een website, omdat het niet nodig is om voor elke zoekmachine een afzonderlijk sitemapbestand te maken, zoals het geval was vóór standaardisatie.

Geschiedenis

De Sitemaps protocol is gebaseerd op het idee van het web crawlers -vriendelijke webservers . [1] [2]

Google heeft in juni 2005 de technologie Sitemaps 0.84 uitgebracht . [3] Met deze techniek konden webmasters een lijst met links naar hun site plaatsen.

In november 2006 hebben MSN en Yahoo aangekondigd dat ze het sitemaps-protocol zouden goedkeuren. [4] De herziening identifier werd Sitemaps 0,90 veranderd, maar het protocol was onveranderd.

In april 2007 zijn Ask.com en IBM tot de standaard toegetreden. Tegelijkertijd hebben Google, Yahoo en Microsoft steun aangekondigd voor het herkennen van sitemapbestanden via de Robots Exclusion Standard .

XML sitemap-indeling

Sitemaps bestand
Bestandsextensie : .xml, .gz
MIME Type : toepassing / xml, tekst / xml
Verlengd vanaf: XML
Standaard (en) : sitemaps.org

Sitemapbestanden zijn algemene tekstbestanden die de Extensible Markup Language gebruiken . Sitemapbestanden moeten de UTF-8- tekencodering gebruiken .

Als alternatief voor de uitgebreide XML-notatie kunnen sitemapbestanden ook gewone tekstbestanden zijn die alleen een lijst met URL’s bevatten, zoals in de vorm

 http://example.com/seite1.html
 http://example.com/verzeichnis/seite2.html
 http://example.com/bild3.png

Daarnaast biedt de standaard dat sitemapbestanden, ongeacht hun vorm, ook met gzip kunnen worden gecomprimeerd .

De bestandsnaam van sitemapbestanden is in robots.txtprincipe irrelevant , in tegenstelling tot bestanden. Ook bestandsextensies te spelen, zelfs met GZIP compressie, geen enkele rol.

Beperkingen

Standaard mogen sitemapbestanden niet meer dan 50.000 URL’s bevatten en mogen ze in totaal niet groter zijn dan 10 MB (10.485.760 bytes). Wanneer u gecomprimeerde sitemapbestanden gebruikt, mag het niet-gecomprimeerde sitemapbestand niet groter zijn dan 10 MB. Deze beperking kan worden omzeild door meerdere sitemapbestanden te gebruiken met een ‚hoofd‘-sitemap die verwijst naar maximaal 50.000 sitemaps. [5] Zo theoretisch 50.000 x 50.000 zijn = 2500000000 (2500000000) URL beschrijfbaar.

Voorbeeld

<? Xml version encoding = "1.0" = "UTF-8">
<urlset xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9"
 xmlns: xsi = "http: //www.w3 .org / 2001 / XML schema instance "
 xsi: schemaLocation = " http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd " >
 <url>
 <loc> http://example.com/ </ loc>
 <lastmod> 2006-11-18 </ lastmod>
 <changefreq> dagelijks </ changefreq>
 <prioriteit> 0.8 </ prioriteit>
 </ url>
</ urlset>

Sitemaps-bestanden naar zoekmachines sturen

In tegenstelling tot robots.txtbestanden worden sitemaps-bestanden niet noodzakelijkerwijs gepubliceerd op een speciale plaats op de website, maar direct naar een zoekmachine gestuurd (op een pingback- achtige manier). Hierdoor worden statusproblemen of fouten geretourneerd tijdens het verwerken van het sitemaps-bestand. De gegevens die in deze inzending zijn ingediend, d. h., het zoekformulier en het uitvoerformaat zijn sterk afhankelijk van de gebruikte zoekmachine, de Sitemaps-standaard legt geen verklaring af.

Als alternatief kan het adres van een sitemapbestand ook worden opgenomen in de robots.txt, door de regel in elke positie te plaatsen

 Sitemap: sitemap_url

waarbij sitemap_url de volledige URL van de sitemap is (bijvoorbeeld http://www.example.org/sitemap.xml ). Deze informatie wordt onafhankelijk van de User-Agent- context geëvalueerd, dus de positie van de regel doet er niet toe. Als een aanwezigheid op het web meerdere sitemaps heeft, moet die URL verwijzen naar het belangrijkste sitemapbestand.

De inhoud van een sitemap moet niet worden verward met opdrachten. Ze bieden slechts een webcrawler met aanbevelingen voor het efficiënt indexeren van een website. Of of in welke mate ze daadwerkelijk worden geïmplementeerd, kan niet worden bepaald met Sitemaps.

Webkoppelingen

  • Sitemaps.org – de officiële website voor de standaard

Individuele proeven

  1. Jump up↑ M.L. Nelson, J.A. Smith, del Campo, H. Van de Sompel, X. Liu: Efficiënt, geautomatiseerd web-resource-oogsten. 2006 ( public.lanl.gov PDF)
  2. Spring omhoog↑ O. Brandman, J. Cho, Hector García-Molina , Narayanan Shivakumar: webcrawl -vriendelijke webservers. In: Proceedings of ACM SIGMETRICS Beoordeling prestatiebeoordeling. Volume 28, nr. 2, 2000.
  3. Jump up↑ Google-Blog: Webmastervriendelijk
  4. Spring omhoog↑ googlepress.blogspot.de
  5. Spring omhoog↑ sitemaps.org

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.