Changelog Crawler: Unterschied zwischen den Versionen

Aus SiteparkWiki
Zur Navigation springen Zur Suche springen
 
(8 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
 
<div class="noautonum">__TOC__</div>
 
<div class="noautonum">__TOC__</div>
 
==Changelog==
 
==Changelog==
 +
===1.23 (29.09.2021)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{update}} || log.error(), wenn Fehler beim einem Request auftritt
 +
|}
 +
===1.22 (17.02.2021)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || Solr-Crawler erweitern, damit wir sitemap.xml-Strukturen einlesen können
 +
|}
 +
===1.21 (22.07.2020)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || Übergabe von DNS-Einträge mit CrawlerContext.addHost() als Alternative zu /etc/hosts
 +
|}
 +
===1.20 (18.05.2020)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || HTTP Header X-SP-Crawler-SiteVariantUrlList  auswerten
 +
|-
 +
| style="vertical-align:top;" | {{update}} || Auswertung von SiteVariantUrlList aus dem HTTP-Response-Header in dem Meta-Tag &#034;application-name&#034; verschieben
 +
|}
 +
===1.19 (27.11.2018)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{fix}} || XSLT-Prozess hat Zertifikatsprobleme bei HTTPS-Requests
 +
|}
 +
===1.18 (16.02.2018)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || Eigener URL-Normalizer für den Linkchecker
 +
|}
 +
===1.17 (15.02.2018)===
 +
''Feature-Release''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || HttpResourceLoader unterstützt jetzt encodierte URL&#039;s
 +
|-
 +
| style="vertical-align:top;" | {{add}} || net-api Update zur Verbesserung des Timeout-Verhaltens
 +
|}
 +
===1.16.4 (27.11.2017)===
 +
{|
 +
| style="vertical-align:top;" | {{fix}} || Tags innerhalb von noscript im HTML-Head ignorieren
 +
|}
 +
===1.16.3 (06.10.2017)===
 +
''Hotfix-Version''
 +
{|
 +
| style="vertical-align:top;" | {{add}} || Umlaut-Domains unterstützen
 +
|-
 +
| style="vertical-align:top;" | {{add}} || Link-Checker auch ohne vorheriges crawlen verwenden können
 +
|}
 
===1.16.2 (21.09.2017)===
 
===1.16.2 (21.09.2017)===
 
''Hotfix-Version''
 
''Hotfix-Version''
Zeile 14: Zeile 64:
 
''Feature-Release''
 
''Feature-Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{update}} || Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben.
 +
|-
 
| style="vertical-align:top;" | {{update}} || Alle Fehlercodes &lt; 400 sind in Ordnung
 
| style="vertical-align:top;" | {{update}} || Alle Fehlercodes &lt; 400 sind in Ordnung
|-
 
| style="vertical-align:top;" | {{update}} || Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben.
 
 
|}
 
|}
 
===1.15 (23.08.2017)===
 
===1.15 (23.08.2017)===
 
''Release''
 
''Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{update}} || XML-Parser soll keine DTD laden und XML nicht validieren
 +
|-
 
| style="vertical-align:top;" | {{add}} || abort-Methode für den Crawler
 
| style="vertical-align:top;" | {{add}} || abort-Methode für den Crawler
|-
 
| style="vertical-align:top;" | {{update}} || XML-Parser soll keine DTD laden und XML nicht validieren
 
 
|}
 
|}
 
===1.14.1 (28.03.2017)===
 
===1.14.1 (28.03.2017)===
Zeile 33: Zeile 83:
 
''Release''
 
''Release''
 
{|
 
{|
| style="vertical-align:top;" | {{add}} || Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können
+
| style="vertical-align:top;" | {{add}} || URL-Filter für LinkChecker
 
|-
 
|-
 
| style="vertical-align:top;" | {{update}} || Kein Links wie mailto: und tel: im LinkChecker prüfen
 
| style="vertical-align:top;" | {{update}} || Kein Links wie mailto: und tel: im LinkChecker prüfen
 
|-
 
|-
| style="vertical-align:top;" | {{add}} || URL-Filter für LinkChecker
+
| style="vertical-align:top;" | {{add}} || Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können
 
|}
 
|}
 
===1.13.1 (18.11.2016)===
 
===1.13.1 (18.11.2016)===
Zeile 47: Zeile 97:
 
''Release''
 
''Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{fix}} || Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler
 +
|-
 
| style="vertical-align:top;" | {{add}} || Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar
 
| style="vertical-align:top;" | {{add}} || Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar
|-
 
| style="vertical-align:top;" | {{fix}} || Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler
 
 
|}
 
|}
 
===1.12 (07.06.2016)===
 
===1.12 (07.06.2016)===
Zeile 59: Zeile 109:
 
''Release''
 
''Release''
 
{|
 
{|
| style="vertical-align:top;" | {{add}} || Validator Support
+
| style="vertical-align:top;" | {{add}} || Robots Meta-Tags unterstützen
 
|-
 
|-
 
| style="vertical-align:top;" | {{add}} || Protocol-relative URL Support
 
| style="vertical-align:top;" | {{add}} || Protocol-relative URL Support
 
|-
 
|-
| style="vertical-align:top;" | {{add}} || Robots Meta-Tags unterstützen
+
| style="vertical-align:top;" | {{add}} || Validator Support
 
|}
 
|}
 
===1.10 (11.02.2016)===
 
===1.10 (11.02.2016)===
 
''Feature-Release''
 
''Feature-Release''
 
{|
 
{|
| style="vertical-align:top;" | {{fix}} || Url&#039;s, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen.
+
| style="vertical-align:top;" | {{add}} || rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll.
 
|-
 
|-
| style="vertical-align:top;" | {{add}} || rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll.
+
| style="vertical-align:top;" | {{fix}} || Url&#039;s, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen.  
 
|}
 
|}
 
===1.9.4 (18.08.2015)===
 
===1.9.4 (18.08.2015)===
Zeile 95: Zeile 145:
 
''Feature-Release''
 
''Feature-Release''
 
{|
 
{|
| style="vertical-align:top;" | {{fix}} || Update auf Net-API 1.6
+
| style="vertical-align:top;" | {{add}} || XSLT-Support für XmlParser
 +
|-
 +
| style="vertical-align:top;" | {{fix}} || Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow)
 
|-
 
|-
 
| style="vertical-align:top;" | {{update}} || Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden
 
| style="vertical-align:top;" | {{update}} || Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden
 
|-
 
|-
| style="vertical-align:top;" | {{fix}} || Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow)
+
| style="vertical-align:top;" | {{fix}} || Update auf Net-API 1.6
|-
 
| style="vertical-align:top;" | {{add}} || XSLT-Support für XmlParser
 
 
|}
 
|}
 
===1.8.1 (02.03.2015)===
 
===1.8.1 (02.03.2015)===
Zeile 111: Zeile 161:
 
''Feature Release''
 
''Feature Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{update}} || Die in der Konfiguration angegebenen Start-Url&#039;s sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden.
 +
|-
 
| style="vertical-align:top;" | {{add}} || Untersützung von Basic-Authentication
 
| style="vertical-align:top;" | {{add}} || Untersützung von Basic-Authentication
|-
 
| style="vertical-align:top;" | {{update}} || Die in der Konfiguration angegebenen Start-Url&#039;s sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden.
 
 
|}
 
|}
 
===1.7 (28.11.2014)===
 
===1.7 (28.11.2014)===
 
{|
 
{|
| style="vertical-align:top;" | {{add}} || Konfiguration von HTTP-Headern für die HTTP-Requests des Crawlers
+
| style="vertical-align:top;" | {{add}} || Berechnung der kumulativen Werte nicht korrekt
 +
|-
 +
| style="vertical-align:top;" | {{fix}} || Crawler Status zeigt nicht die korrekten &#039;fetched&#039;-Werte
 
|-
 
|-
| style="vertical-align:top;" | {{update}} || Update auf net-API 1.4.1
+
| style="vertical-align:top;" | {{fix}} || Crawler.update läuft nicht korrekt
 
|-
 
|-
 
| style="vertical-align:top;" | {{fix}} || Gleiche Url&#039;s mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert
 
| style="vertical-align:top;" | {{fix}} || Gleiche Url&#039;s mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert
 
|-
 
|-
| style="vertical-align:top;" | {{fix}} || Crawler.update läuft nicht korrekt
+
| style="vertical-align:top;" | {{update}} || Update auf net-API 1.4.1
 
|-
 
|-
| style="vertical-align:top;" | {{fix}} || Crawler Status zeigt nicht die korrekten &#039;fetched&#039;-Werte
+
| style="vertical-align:top;" | {{add}} || Konfiguration von HTTP-Headern für die HTTP-Requests des Crawlers
|-
 
| style="vertical-align:top;" | {{add}} || Berechnung der kumulativen Werte nicht korrekt
 
 
|}
 
|}
 
===1.6 (12.09.2014)===
 
===1.6 (12.09.2014)===
 
''Feature-Release''
 
''Feature-Release''
 
{|
 
{|
| style="vertical-align:top;" | {{fix}} || Bei Webseiten mir dem proaktiven Spamschutz werden die Texte ohne das &#039;@&#039; zusammen als ein Wort interpretiert.
+
| style="vertical-align:top;" | {{update}} || CrawlerContext einführen
 +
|-
 +
| style="vertical-align:top;" | {{fix}} || Bei den Seiten eines Hosts, die auf externe Webseiten redirecten, werden die URL-Filter nicht auf die Ziel-Url des Redirects angewendet.
 
|-
 
|-
 
| style="vertical-align:top;" | {{add}} || Update-Technik für den Crawler
 
| style="vertical-align:top;" | {{add}} || Update-Technik für den Crawler
 
|-
 
|-
| style="vertical-align:top;" | {{fix}} || Bei den Seiten eines Hosts, die auf externe Webseiten redirecten, werden die URL-Filter nicht auf die Ziel-Url des Redirects angewendet.
+
| style="vertical-align:top;" | {{fix}} || Bei Webseiten mir dem proaktiven Spamschutz werden die Texte ohne das &#039;@&#039; zusammen als ein Wort interpretiert.  
|-
 
| style="vertical-align:top;" | {{update}} || CrawlerContext einführen
 
 
|}
 
|}
 
===1.5.2 (31.07.2014)===
 
===1.5.2 (31.07.2014)===
Zeile 148: Zeile 198:
 
''Hotfix- Release''
 
''Hotfix- Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{update}} || Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern
 +
|-
 
| style="vertical-align:top;" | {{update}} || Anpassung des WelcomNormalizers
 
| style="vertical-align:top;" | {{update}} || Anpassung des WelcomNormalizers
|-
 
| style="vertical-align:top;" | {{update}} || Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern
 
 
|}
 
|}
 
===1.5 (05.02.2014)===
 
===1.5 (05.02.2014)===
 
''Feature Release''
 
''Feature Release''
 
{|
 
{|
 +
| style="vertical-align:top;" | {{add}} || Unterstützung von Encoding-Angaben am json-key
 +
|-
 
| style="vertical-align:top;" | {{add}} || Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: &#034;...&#034;
 
| style="vertical-align:top;" | {{add}} || Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: &#034;...&#034;
|-
 
| style="vertical-align:top;" | {{add}} || Unterstützung von Encoding-Angaben am json-key
 
 
|-
 
|-
 
| style="vertical-align:top;" | {{add}} || Anpassung des HtmlParsers zur besseren Filterung von HTML
 
| style="vertical-align:top;" | {{add}} || Anpassung des HtmlParsers zur besseren Filterung von HTML
Zeile 168: Zeile 218:
 
===1.4 (25.06.2013)===
 
===1.4 (25.06.2013)===
 
{|
 
{|
 +
| style="vertical-align:top;" | {{add}} || Besseres Redirect-Handling
 +
|-
 +
| style="vertical-align:top;" | {{add}} || Zentraler Cookie-Store für alle Agenten
 +
|-
 +
| style="vertical-align:top;" | {{add}} || Link-Checker in Crawler integriert
 +
|-
 +
| style="vertical-align:top;" | {{add}} || Die geparsten HeaderDaten aus den Metatags der HTML Seiten werden nun an jeden Node für die spätere Verwendung gesichert
 +
|-
 +
| style="vertical-align:top;" | {{add}} || Die Module net-client und json auf die aktuelle Releas Version
 
|}
 
|}
 
===1.3.1 (18.02.2013)===
 
===1.3.1 (18.02.2013)===
 
''Bugfix Release''
 
''Bugfix Release''
 
{|
 
{|
| style="vertical-align:top;" | {{fix}} || Die JVM kann beim Crawlen von Webseiten abstürzen.
+
| style="vertical-align:top;" | {{fix}} || Die JVM kann beim Crawlen von Webseiten abstürzen.  
 
|}
 
|}
 
===1.3 (30.01.2013)===
 
===1.3 (30.01.2013)===

Aktuelle Version vom 29. September 2021, 16:28 Uhr

Changelog

1.23 (29.09.2021)

Feature-Release

Geänderte Funktion / Geändertes Feature log.error(), wenn Fehler beim einem Request auftritt

1.22 (17.02.2021)

Feature-Release

Neue Funktion / Neues Feature Solr-Crawler erweitern, damit wir sitemap.xml-Strukturen einlesen können

1.21 (22.07.2020)

Feature-Release

Neue Funktion / Neues Feature Übergabe von DNS-Einträge mit CrawlerContext.addHost() als Alternative zu /etc/hosts

1.20 (18.05.2020)

Feature-Release

Neue Funktion / Neues Feature HTTP Header X-SP-Crawler-SiteVariantUrlList auswerten
Geänderte Funktion / Geändertes Feature Auswertung von SiteVariantUrlList aus dem HTTP-Response-Header in dem Meta-Tag "application-name" verschieben

1.19 (27.11.2018)

Feature-Release

Korrgierter Fehler XSLT-Prozess hat Zertifikatsprobleme bei HTTPS-Requests

1.18 (16.02.2018)

Feature-Release

Neue Funktion / Neues Feature Eigener URL-Normalizer für den Linkchecker

1.17 (15.02.2018)

Feature-Release

Neue Funktion / Neues Feature HttpResourceLoader unterstützt jetzt encodierte URL's
Neue Funktion / Neues Feature net-api Update zur Verbesserung des Timeout-Verhaltens

1.16.4 (27.11.2017)

Korrgierter Fehler Tags innerhalb von noscript im HTML-Head ignorieren

1.16.3 (06.10.2017)

Hotfix-Version

Neue Funktion / Neues Feature Umlaut-Domains unterstützen
Neue Funktion / Neues Feature Link-Checker auch ohne vorheriges crawlen verwenden können

1.16.2 (21.09.2017)

Hotfix-Version

Korrgierter Fehler Es werden Links geprüft, die bereist als Seite gecrawled wurden

1.16.1 (20.09.2017)

Hotfix-Version

Korrgierter Fehler NoSuchMethodError aufgrund von Abhängigkeits-Konflikten

1.16 (06.09.2017)

Feature-Release

Geänderte Funktion / Geändertes Feature Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben.
Geänderte Funktion / Geändertes Feature Alle Fehlercodes < 400 sind in Ordnung

1.15 (23.08.2017)

Release

Geänderte Funktion / Geändertes Feature XML-Parser soll keine DTD laden und XML nicht validieren
Neue Funktion / Neues Feature abort-Methode für den Crawler

1.14.1 (28.03.2017)

Hotfix-Version

Neue Funktion / Neues Feature Link-Header auslesen und zur Verfügung stellen

1.14 (27.02.2017)

Release

Neue Funktion / Neues Feature URL-Filter für LinkChecker
Geänderte Funktion / Geändertes Feature Kein Links wie mailto: und tel: im LinkChecker prüfen
Neue Funktion / Neues Feature Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können

1.13.1 (18.11.2016)

BugfixRelease

Korrgierter Fehler URL-Parameter werden nicht korrekt decoded

1.13 (25.10.2016)

Release

Korrgierter Fehler Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler
Neue Funktion / Neues Feature Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar

1.12 (07.06.2016)

Release

Neue Funktion / Neues Feature Funktionen zum Auslesen von Header-Daten ergänzt

1.11 (27.05.2016)

Release

Neue Funktion / Neues Feature Robots Meta-Tags unterstützen
Neue Funktion / Neues Feature Protocol-relative URL Support
Neue Funktion / Neues Feature Validator Support

1.10 (11.02.2016)

Feature-Release

Neue Funktion / Neues Feature rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll.
Korrgierter Fehler Url's, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen.

1.9.4 (18.08.2015)

Bugfix Release

Korrgierter Fehler Das Aufsummieren der indizierten Seiten ist Fehlerhaft.

1.9.3 (28.04.2015)

Hotfix-Release

Geänderte Funktion / Geändertes Feature Update auf XSLT-lib 1.1

1.9.2 (28.04.2015)

Bugfix Release

Korrgierter Fehler Seiten, die im Datei (oder Pfad) Namen den Begreff 'empfehlung' enthalten werden beim Indizieren fehlerhaft behandelt

1.9.1 (27.04.2015)

Hotfix-Release

Neue Funktion / Neues Feature Preloading von Resourcen

1.9 (27.04.2015)

Feature-Release

Neue Funktion / Neues Feature XSLT-Support für XmlParser
Korrgierter Fehler Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow)
Geänderte Funktion / Geändertes Feature Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden
Korrgierter Fehler Update auf Net-API 1.6

1.8.1 (02.03.2015)

Hotfix-Release

Korrgierter Fehler Basic-Authentication-Handling funktioniert nicht korrekt mit parallelen Agents

1.8 (19.02.2015)

Feature Release

Geänderte Funktion / Geändertes Feature Die in der Konfiguration angegebenen Start-Url's sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden.
Neue Funktion / Neues Feature Untersützung von Basic-Authentication

1.7 (28.11.2014)

Neue Funktion / Neues Feature Berechnung der kumulativen Werte nicht korrekt
Korrgierter Fehler Crawler Status zeigt nicht die korrekten 'fetched'-Werte
Korrgierter Fehler Crawler.update läuft nicht korrekt
Korrgierter Fehler Gleiche Url's mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert
Geänderte Funktion / Geändertes Feature Update auf net-API 1.4.1
Neue Funktion / Neues Feature Konfiguration von HTTP-Headern für die HTTP-Requests des Crawlers

1.6 (12.09.2014)

Feature-Release

Geänderte Funktion / Geändertes Feature CrawlerContext einführen
Korrgierter Fehler Bei den Seiten eines Hosts, die auf externe Webseiten redirecten, werden die URL-Filter nicht auf die Ziel-Url des Redirects angewendet.
Neue Funktion / Neues Feature Update-Technik für den Crawler
Korrgierter Fehler Bei Webseiten mir dem proaktiven Spamschutz werden die Texte ohne das '@' zusammen als ein Wort interpretiert.

1.5.2 (31.07.2014)

Hotfix-Release

Korrgierter Fehler Tiefe einer Seite wird nicht korrekt ermittelt wenn mehrere Seiten auf sie verlinken

1.5.1 (21.03.2014)

Hotfix- Release

Geänderte Funktion / Geändertes Feature Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern
Geänderte Funktion / Geändertes Feature Anpassung des WelcomNormalizers

1.5 (05.02.2014)

Feature Release

Neue Funktion / Neues Feature Unterstützung von Encoding-Angaben am json-key
Neue Funktion / Neues Feature Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: "..."
Neue Funktion / Neues Feature Anpassung des HtmlParsers zur besseren Filterung von HTML

1.4.1 (06.12.2013)

Bugfix Release

Korrgierter Fehler Die Startseite ist zwei mal im Index. Einmal mit und einmal ohne '/' am Ende

1.4 (25.06.2013)

Neue Funktion / Neues Feature Besseres Redirect-Handling
Neue Funktion / Neues Feature Zentraler Cookie-Store für alle Agenten
Neue Funktion / Neues Feature Link-Checker in Crawler integriert
Neue Funktion / Neues Feature Die geparsten HeaderDaten aus den Metatags der HTML Seiten werden nun an jeden Node für die spätere Verwendung gesichert
Neue Funktion / Neues Feature Die Module net-client und json auf die aktuelle Releas Version

1.3.1 (18.02.2013)

Bugfix Release

Korrgierter Fehler Die JVM kann beim Crawlen von Webseiten abstürzen.

1.3 (30.01.2013)

Bugfix

Neue Funktion / Neues Feature Verallgemeinerung von Parser zu Processor