Changelog Crawler

Aus SiteparkWiki
Zur Navigation springen Zur Suche springen

Changelog

1.23 (29.09.2021)

Feature-Release

Geänderte Funktion / Geändertes Feature log.error(), wenn Fehler beim einem Request auftritt

1.22 (17.02.2021)

Feature-Release

Neue Funktion / Neues Feature Solr-Crawler erweitern, damit wir sitemap.xml-Strukturen einlesen können

1.21 (22.07.2020)

Feature-Release

Neue Funktion / Neues Feature Übergabe von DNS-Einträge mit CrawlerContext.addHost() als Alternative zu /etc/hosts

1.20 (18.05.2020)

Feature-Release

Neue Funktion / Neues Feature HTTP Header X-SP-Crawler-SiteVariantUrlList auswerten
Geänderte Funktion / Geändertes Feature Auswertung von SiteVariantUrlList aus dem HTTP-Response-Header in dem Meta-Tag "application-name" verschieben

1.19 (27.11.2018)

Feature-Release

Korrgierter Fehler XSLT-Prozess hat Zertifikatsprobleme bei HTTPS-Requests

1.18 (16.02.2018)

Feature-Release

Neue Funktion / Neues Feature Eigener URL-Normalizer für den Linkchecker

1.17 (15.02.2018)

Feature-Release

Neue Funktion / Neues Feature HttpResourceLoader unterstützt jetzt encodierte URL's
Neue Funktion / Neues Feature net-api Update zur Verbesserung des Timeout-Verhaltens

1.16.4 (27.11.2017)

Korrgierter Fehler Tags innerhalb von noscript im HTML-Head ignorieren

1.16.3 (06.10.2017)

Hotfix-Version

Neue Funktion / Neues Feature Umlaut-Domains unterstützen
Neue Funktion / Neues Feature Link-Checker auch ohne vorheriges crawlen verwenden können

1.16.2 (21.09.2017)

Hotfix-Version

Korrgierter Fehler Es werden Links geprüft, die bereist als Seite gecrawled wurden

1.16.1 (20.09.2017)

Hotfix-Version

Korrgierter Fehler NoSuchMethodError aufgrund von Abhängigkeits-Konflikten

1.16 (06.09.2017)

Feature-Release

Geänderte Funktion / Geändertes Feature Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben.
Geänderte Funktion / Geändertes Feature Alle Fehlercodes < 400 sind in Ordnung

1.15 (23.08.2017)

Release

Geänderte Funktion / Geändertes Feature XML-Parser soll keine DTD laden und XML nicht validieren
Neue Funktion / Neues Feature abort-Methode für den Crawler

1.14.1 (28.03.2017)

Hotfix-Version

Neue Funktion / Neues Feature Link-Header auslesen und zur Verfügung stellen

1.14 (27.02.2017)

Release

Neue Funktion / Neues Feature URL-Filter für LinkChecker
Geänderte Funktion / Geändertes Feature Kein Links wie mailto: und tel: im LinkChecker prüfen
Neue Funktion / Neues Feature Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können

1.13.1 (18.11.2016)

BugfixRelease

Korrgierter Fehler URL-Parameter werden nicht korrekt decoded

1.13 (25.10.2016)

Release

Korrgierter Fehler Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler
Neue Funktion / Neues Feature Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar

1.12 (07.06.2016)

Release

Neue Funktion / Neues Feature Funktionen zum Auslesen von Header-Daten ergänzt

1.11 (27.05.2016)

Release

Neue Funktion / Neues Feature Robots Meta-Tags unterstützen
Neue Funktion / Neues Feature Protocol-relative URL Support
Neue Funktion / Neues Feature Validator Support

1.10 (11.02.2016)

Feature-Release

Neue Funktion / Neues Feature rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll.
Korrgierter Fehler Url's, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen.

1.9.4 (18.08.2015)

Bugfix Release

Korrgierter Fehler Das Aufsummieren der indizierten Seiten ist Fehlerhaft.

1.9.3 (28.04.2015)

Hotfix-Release

Geänderte Funktion / Geändertes Feature Update auf XSLT-lib 1.1

1.9.2 (28.04.2015)

Bugfix Release

Korrgierter Fehler Seiten, die im Datei (oder Pfad) Namen den Begreff 'empfehlung' enthalten werden beim Indizieren fehlerhaft behandelt

1.9.1 (27.04.2015)

Hotfix-Release

Neue Funktion / Neues Feature Preloading von Resourcen

1.9 (27.04.2015)

Feature-Release

Neue Funktion / Neues Feature XSLT-Support für XmlParser
Korrgierter Fehler Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow)
Geänderte Funktion / Geändertes Feature Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden
Korrgierter Fehler Update auf Net-API 1.6

1.8.1 (02.03.2015)

Hotfix-Release

Korrgierter Fehler Basic-Authentication-Handling funktioniert nicht korrekt mit parallelen Agents

1.8 (19.02.2015)

Feature Release

Geänderte Funktion / Geändertes Feature Die in der Konfiguration angegebenen Start-Url's sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden.
Neue Funktion / Neues Feature Untersützung von Basic-Authentication

1.7 (28.11.2014)

Neue Funktion / Neues Feature Berechnung der kumulativen Werte nicht korrekt
Korrgierter Fehler Crawler Status zeigt nicht die korrekten 'fetched'-Werte
Korrgierter Fehler Crawler.update läuft nicht korrekt
Korrgierter Fehler Gleiche Url's mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert
Geänderte Funktion / Geändertes Feature Update auf net-API 1.4.1
Neue Funktion / Neues Feature Konfiguration von HTTP-Headern für die HTTP-Requests des Crawlers

1.6 (12.09.2014)

Feature-Release

Geänderte Funktion / Geändertes Feature CrawlerContext einführen
Korrgierter Fehler Bei den Seiten eines Hosts, die auf externe Webseiten redirecten, werden die URL-Filter nicht auf die Ziel-Url des Redirects angewendet.
Neue Funktion / Neues Feature Update-Technik für den Crawler
Korrgierter Fehler Bei Webseiten mir dem proaktiven Spamschutz werden die Texte ohne das '@' zusammen als ein Wort interpretiert.

1.5.2 (31.07.2014)

Hotfix-Release

Korrgierter Fehler Tiefe einer Seite wird nicht korrekt ermittelt wenn mehrere Seiten auf sie verlinken

1.5.1 (21.03.2014)

Hotfix- Release

Geänderte Funktion / Geändertes Feature Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern
Geänderte Funktion / Geändertes Feature Anpassung des WelcomNormalizers

1.5 (05.02.2014)

Feature Release

Neue Funktion / Neues Feature Unterstützung von Encoding-Angaben am json-key
Neue Funktion / Neues Feature Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: "..."
Neue Funktion / Neues Feature Anpassung des HtmlParsers zur besseren Filterung von HTML

1.4.1 (06.12.2013)

Bugfix Release

Korrgierter Fehler Die Startseite ist zwei mal im Index. Einmal mit und einmal ohne '/' am Ende

1.4 (25.06.2013)

Neue Funktion / Neues Feature Besseres Redirect-Handling
Neue Funktion / Neues Feature Zentraler Cookie-Store für alle Agenten
Neue Funktion / Neues Feature Link-Checker in Crawler integriert
Neue Funktion / Neues Feature Die geparsten HeaderDaten aus den Metatags der HTML Seiten werden nun an jeden Node für die spätere Verwendung gesichert
Neue Funktion / Neues Feature Die Module net-client und json auf die aktuelle Releas Version

1.3.1 (18.02.2013)

Bugfix Release

Korrgierter Fehler Die JVM kann beim Crawlen von Webseiten abstürzen.

1.3 (30.01.2013)

Bugfix

Neue Funktion / Neues Feature Verallgemeinerung von Parser zu Processor