Sitekit Sitemap-XML als externe Quelle Crawlen

Aus SiteparkWiki
Zur Navigation springen Zur Suche springen

Crawler-Einstellung um über die sitemapXml einer Sitekit-Site zu crawlern:

Für einen Index muss eine neue externe(!) Quelle angelegt werden.

Konfiguration:

Crawler / Tiefe: 2 Die Tiefe ist wichtig damit nur der sitemapXml-Index und die sitemapXml-Url-Listen weiterverfolgt werden, die in den Url-Listen enthaltenen URL's sollen nicht weiter verfolgt werden.

Start URL's

https://my.domain.de/?sp:out=sitemap

Die Start-URL muss den sitemapXml-Index zurück liefern

URL-Filter

https://my.domain.de/.*

URL-Normalizer

(X) Den Welcome-Normalizer verwenden
(X) Den Standard-Url-Normalizer verwenden
(X) Den Url-Paramter Normalizer verwenden
Die Liste der erlaubten URL-Parameter:

   sp:out=sitemap
   sp:page