Changelog Crawler: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Iesdev (Diskussion | Beiträge) |
Iesdev (Diskussion | Beiträge) |
||
(13 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
<div class="noautonum">__TOC__</div> | <div class="noautonum">__TOC__</div> | ||
==Changelog== | ==Changelog== | ||
+ | ===1.23 (29.09.2021)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{update}} || log.error(), wenn Fehler beim einem Request auftritt | ||
+ | |} | ||
+ | ===1.22 (17.02.2021)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Solr-Crawler erweitern, damit wir sitemap.xml-Strukturen einlesen können | ||
+ | |} | ||
+ | ===1.21 (22.07.2020)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Übergabe von DNS-Einträge mit CrawlerContext.addHost() als Alternative zu /etc/hosts | ||
+ | |} | ||
+ | ===1.20 (18.05.2020)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || HTTP Header X-SP-Crawler-SiteVariantUrlList auswerten | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{update}} || Auswertung von SiteVariantUrlList aus dem HTTP-Response-Header in dem Meta-Tag "application-name" verschieben | ||
+ | |} | ||
+ | ===1.19 (27.11.2018)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || XSLT-Prozess hat Zertifikatsprobleme bei HTTPS-Requests | ||
+ | |} | ||
+ | ===1.18 (16.02.2018)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Eigener URL-Normalizer für den Linkchecker | ||
+ | |} | ||
+ | ===1.17 (15.02.2018)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || HttpResourceLoader unterstützt jetzt encodierte URL's | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || net-api Update zur Verbesserung des Timeout-Verhaltens | ||
+ | |} | ||
+ | ===1.16.4 (27.11.2017)=== | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || Tags innerhalb von noscript im HTML-Head ignorieren | ||
+ | |} | ||
+ | ===1.16.3 (06.10.2017)=== | ||
+ | ''Hotfix-Version'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Umlaut-Domains unterstützen | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || Link-Checker auch ohne vorheriges crawlen verwenden können | ||
+ | |} | ||
+ | ===1.16.2 (21.09.2017)=== | ||
+ | ''Hotfix-Version'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || Es werden Links geprüft, die bereist als Seite gecrawled wurden | ||
+ | |} | ||
+ | ===1.16.1 (20.09.2017)=== | ||
+ | ''Hotfix-Version'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || NoSuchMethodError aufgrund von Abhängigkeits-Konflikten | ||
+ | |} | ||
+ | ===1.16 (06.09.2017)=== | ||
+ | ''Feature-Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{update}} || Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben. | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{update}} || Alle Fehlercodes < 400 sind in Ordnung | ||
+ | |} | ||
+ | ===1.15 (23.08.2017)=== | ||
+ | ''Release'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{update}} || XML-Parser soll keine DTD laden und XML nicht validieren | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || abort-Methode für den Crawler | ||
+ | |} | ||
+ | ===1.14.1 (28.03.2017)=== | ||
+ | ''Hotfix-Version'' | ||
+ | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Link-Header auslesen und zur Verfügung stellen | ||
+ | |} | ||
===1.14 (27.02.2017)=== | ===1.14 (27.02.2017)=== | ||
''Release'' | ''Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{add}} || | + | | style="vertical-align:top;" | {{add}} || URL-Filter für LinkChecker |
|- | |- | ||
| style="vertical-align:top;" | {{update}} || Kein Links wie mailto: und tel: im LinkChecker prüfen | | style="vertical-align:top;" | {{update}} || Kein Links wie mailto: und tel: im LinkChecker prüfen | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{add}} || | + | | style="vertical-align:top;" | {{add}} || Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können |
|} | |} | ||
===1.13.1 (18.11.2016)=== | ===1.13.1 (18.11.2016)=== | ||
Zeile 18: | Zeile 97: | ||
''Release'' | ''Release'' | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler | ||
+ | |- | ||
| style="vertical-align:top;" | {{add}} || Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar | | style="vertical-align:top;" | {{add}} || Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar | ||
− | |||
− | |||
|} | |} | ||
===1.12 (07.06.2016)=== | ===1.12 (07.06.2016)=== | ||
Zeile 30: | Zeile 109: | ||
''Release'' | ''Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{add}} || | + | | style="vertical-align:top;" | {{add}} || Robots Meta-Tags unterstützen |
|- | |- | ||
| style="vertical-align:top;" | {{add}} || Protocol-relative URL Support | | style="vertical-align:top;" | {{add}} || Protocol-relative URL Support | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{add}} || | + | | style="vertical-align:top;" | {{add}} || Validator Support |
|} | |} | ||
===1.10 (11.02.2016)=== | ===1.10 (11.02.2016)=== | ||
''Feature-Release'' | ''Feature-Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{ | + | | style="vertical-align:top;" | {{add}} || rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll. |
|- | |- | ||
− | | style="vertical-align:top;" | {{ | + | | style="vertical-align:top;" | {{fix}} || Url's, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen. |
|} | |} | ||
===1.9.4 (18.08.2015)=== | ===1.9.4 (18.08.2015)=== | ||
Zeile 66: | Zeile 145: | ||
''Feature-Release'' | ''Feature-Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{fix}} || | + | | style="vertical-align:top;" | {{add}} || XSLT-Support für XmlParser |
+ | |- | ||
+ | | style="vertical-align:top;" | {{fix}} || Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow) | ||
|- | |- | ||
| style="vertical-align:top;" | {{update}} || Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden | | style="vertical-align:top;" | {{update}} || Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{fix}} || | + | | style="vertical-align:top;" | {{fix}} || Update auf Net-API 1.6 |
− | |||
− | |||
|} | |} | ||
===1.8.1 (02.03.2015)=== | ===1.8.1 (02.03.2015)=== | ||
''Hotfix-Release'' | ''Hotfix-Release'' | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{fix}} || Basic-Authentication-Handling funktioniert nicht korrekt mit parallelen Agents | ||
|} | |} | ||
===1.8 (19.02.2015)=== | ===1.8 (19.02.2015)=== | ||
''Feature Release'' | ''Feature Release'' | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{update}} || Die in der Konfiguration angegebenen Start-Url's sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden. | ||
+ | |- | ||
| style="vertical-align:top;" | {{add}} || Untersützung von Basic-Authentication | | style="vertical-align:top;" | {{add}} || Untersützung von Basic-Authentication | ||
− | |||
− | |||
|} | |} | ||
===1.7 (28.11.2014)=== | ===1.7 (28.11.2014)=== | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{add}} || | + | | style="vertical-align:top;" | {{add}} || Berechnung der kumulativen Werte nicht korrekt |
+ | |- | ||
+ | | style="vertical-align:top;" | {{fix}} || Crawler Status zeigt nicht die korrekten 'fetched'-Werte | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{ | + | | style="vertical-align:top;" | {{fix}} || Crawler.update läuft nicht korrekt |
|- | |- | ||
| style="vertical-align:top;" | {{fix}} || Gleiche Url's mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert | | style="vertical-align:top;" | {{fix}} || Gleiche Url's mit mit unterschiedlichen Parameter werden bei Crawler.update() nicht aktualisiert | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{ | + | | style="vertical-align:top;" | {{update}} || Update auf net-API 1.4.1 |
|- | |- | ||
− | | style="vertical-align:top;" | {{ | + | | style="vertical-align:top;" | {{add}} || Konfiguration von HTTP-Headern für die HTTP-Requests des Crawlers |
− | |||
− | |||
|} | |} | ||
===1.6 (12.09.2014)=== | ===1.6 (12.09.2014)=== | ||
''Feature-Release'' | ''Feature-Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{fix}} || Bei Webseiten | + | | style="vertical-align:top;" | {{update}} || CrawlerContext einführen |
+ | |- | ||
+ | | style="vertical-align:top;" | {{fix}} || Bei den Seiten eines Hosts, die auf externe Webseiten redirecten, werden die URL-Filter nicht auf die Ziel-Url des Redirects angewendet. | ||
|- | |- | ||
| style="vertical-align:top;" | {{add}} || Update-Technik für den Crawler | | style="vertical-align:top;" | {{add}} || Update-Technik für den Crawler | ||
|- | |- | ||
− | | style="vertical-align:top;" | {{fix}} || Bei | + | | style="vertical-align:top;" | {{fix}} || Bei Webseiten mir dem proaktiven Spamschutz werden die Texte ohne das '@' zusammen als ein Wort interpretiert. |
− | |||
− | |||
|} | |} | ||
===1.5.2 (31.07.2014)=== | ===1.5.2 (31.07.2014)=== | ||
Zeile 118: | Zeile 198: | ||
''Hotfix- Release'' | ''Hotfix- Release'' | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{update}} || Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern | ||
+ | |- | ||
| style="vertical-align:top;" | {{update}} || Anpassung des WelcomNormalizers | | style="vertical-align:top;" | {{update}} || Anpassung des WelcomNormalizers | ||
− | |||
− | |||
|} | |} | ||
===1.5 (05.02.2014)=== | ===1.5 (05.02.2014)=== | ||
''Feature Release'' | ''Feature Release'' | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Unterstützung von Encoding-Angaben am json-key | ||
+ | |- | ||
| style="vertical-align:top;" | {{add}} || Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: "..." | | style="vertical-align:top;" | {{add}} || Möglichkeit der Angabe eines optionalen Encodings am key eines Feldes. z.B. sp_geo_json.base64: "..." | ||
− | |||
− | |||
|- | |- | ||
| style="vertical-align:top;" | {{add}} || Anpassung des HtmlParsers zur besseren Filterung von HTML | | style="vertical-align:top;" | {{add}} || Anpassung des HtmlParsers zur besseren Filterung von HTML | ||
Zeile 138: | Zeile 218: | ||
===1.4 (25.06.2013)=== | ===1.4 (25.06.2013)=== | ||
{| | {| | ||
+ | | style="vertical-align:top;" | {{add}} || Besseres Redirect-Handling | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || Zentraler Cookie-Store für alle Agenten | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || Link-Checker in Crawler integriert | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || Die geparsten HeaderDaten aus den Metatags der HTML Seiten werden nun an jeden Node für die spätere Verwendung gesichert | ||
+ | |- | ||
+ | | style="vertical-align:top;" | {{add}} || Die Module net-client und json auf die aktuelle Releas Version | ||
|} | |} | ||
===1.3.1 (18.02.2013)=== | ===1.3.1 (18.02.2013)=== | ||
''Bugfix Release'' | ''Bugfix Release'' | ||
{| | {| | ||
− | | style="vertical-align:top;" | {{fix}} || Die JVM kann beim Crawlen von Webseiten abstürzen. | + | | style="vertical-align:top;" | {{fix}} || Die JVM kann beim Crawlen von Webseiten abstürzen. |
|} | |} | ||
===1.3 (30.01.2013)=== | ===1.3 (30.01.2013)=== |
Aktuelle Version vom 29. September 2021, 16:28 Uhr
Changelog
1.23 (29.09.2021)
Feature-Release
log.error(), wenn Fehler beim einem Request auftritt |
1.22 (17.02.2021)
Feature-Release
Solr-Crawler erweitern, damit wir sitemap.xml-Strukturen einlesen können |
1.21 (22.07.2020)
Feature-Release
Übergabe von DNS-Einträge mit CrawlerContext.addHost() als Alternative zu /etc/hosts |
1.20 (18.05.2020)
Feature-Release
HTTP Header X-SP-Crawler-SiteVariantUrlList auswerten | |
Auswertung von SiteVariantUrlList aus dem HTTP-Response-Header in dem Meta-Tag "application-name" verschieben |
1.19 (27.11.2018)
Feature-Release
XSLT-Prozess hat Zertifikatsprobleme bei HTTPS-Requests |
1.18 (16.02.2018)
Feature-Release
Eigener URL-Normalizer für den Linkchecker |
1.17 (15.02.2018)
Feature-Release
HttpResourceLoader unterstützt jetzt encodierte URL's | |
net-api Update zur Verbesserung des Timeout-Verhaltens |
1.16.4 (27.11.2017)
Tags innerhalb von noscript im HTML-Head ignorieren |
1.16.3 (06.10.2017)
Hotfix-Version
Umlaut-Domains unterstützen | |
Link-Checker auch ohne vorheriges crawlen verwenden können |
1.16.2 (21.09.2017)
Hotfix-Version
Es werden Links geprüft, die bereist als Seite gecrawled wurden |
1.16.1 (20.09.2017)
Hotfix-Version
NoSuchMethodError aufgrund von Abhängigkeits-Konflikten |
1.16 (06.09.2017)
Feature-Release
Bei Request-Fehlern bei denen eine ServerException eine IOException kapselt, wird die IOException weitergegeben. | |
Alle Fehlercodes < 400 sind in Ordnung |
1.15 (23.08.2017)
Release
XML-Parser soll keine DTD laden und XML nicht validieren | |
abort-Methode für den Crawler |
1.14.1 (28.03.2017)
Hotfix-Version
Link-Header auslesen und zur Verfügung stellen |
1.14 (27.02.2017)
Release
URL-Filter für LinkChecker | |
Kein Links wie mailto: und tel: im LinkChecker prüfen | |
Methode Crawler.initStartUrls() hinzugefügt um sie überschreiben zu können |
1.13.1 (18.11.2016)
BugfixRelease
URL-Parameter werden nicht korrekt decoded |
1.13 (25.10.2016)
Release
Links mit QueryParameter ohne Gleichheitszeichen erzeugt einen Fehler | |
Erweiterung des UrlParameterNormalizer: Prefix für Parameter-Namen definierbar |
1.12 (07.06.2016)
Release
Funktionen zum Auslesen von Header-Daten ergänzt |
1.11 (27.05.2016)
Release
Robots Meta-Tags unterstützen | |
Protocol-relative URL Support | |
Validator Support |
1.10 (11.02.2016)
Feature-Release
rel-Attribut des a-Tags wird auf nofollow geprüft um zu entscheiden, ob dem Link gefolgt werden soll. | |
Url's, die durch redirects geändert werden, müssen auch den/die Url-Normalizer durchlaufen. |
1.9.4 (18.08.2015)
Bugfix Release
Das Aufsummieren der indizierten Seiten ist Fehlerhaft. |
1.9.3 (28.04.2015)
Hotfix-Release
Update auf XSLT-lib 1.1 |
1.9.2 (28.04.2015)
Bugfix Release
Seiten, die im Datei (oder Pfad) Namen den Begreff 'empfehlung' enthalten werden beim Indizieren fehlerhaft behandelt |
1.9.1 (27.04.2015)
Hotfix-Release
Preloading von Resourcen |
1.9 (27.04.2015)
Feature-Release
XSLT-Support für XmlParser | |
Crawl-Result zeigt ungültige kumulativ-Werte an (Overflow) | |
Crawl- und Update-Status in der Statuszeile des Crawlers unterscheiden | |
Update auf Net-API 1.6 |
1.8.1 (02.03.2015)
Hotfix-Release
Basic-Authentication-Handling funktioniert nicht korrekt mit parallelen Agents |
1.8 (19.02.2015)
Feature Release
Die in der Konfiguration angegebenen Start-Url's sollen von der (in der Konfiguration angegebenen) Filterung ausgeschlossen werden. | |
Untersützung von Basic-Authentication |
1.7 (28.11.2014)
1.6 (12.09.2014)
Feature-Release
1.5.2 (31.07.2014)
Hotfix-Release
Tiefe einer Seite wird nicht korrekt ermittelt wenn mehrere Seiten auf sie verlinken |
1.5.1 (21.03.2014)
Hotfix- Release
Umstellung auf Net-API 1.3 um direkte Abhängigkeit zur Apache-HttpCommons-APi zu verhindern | |
Anpassung des WelcomNormalizers |
1.5 (05.02.2014)
Feature Release
1.4.1 (06.12.2013)
Bugfix Release
Die Startseite ist zwei mal im Index. Einmal mit und einmal ohne '/' am Ende |
1.4 (25.06.2013)
1.3.1 (18.02.2013)
Bugfix Release
Die JVM kann beim Crawlen von Webseiten abstürzen. |
1.3 (30.01.2013)
Bugfix
Verallgemeinerung von Parser zu Processor |