You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Jigal van Hemert | alterNET internet BV <ji...@alternet.nl> on 2016/12/03 09:22:49 UTC

Re: Nutch 2.3.1 not removing 404 pages from Solr

Hi Steven,

On 25 November 2016 at 14:53, Steven Hayles <sh...@leicester.ac.uk> wrote:

>
> This email exchange may help http://www.mail-archive.com/us
> er%40nutch.apache.org/msg13753.html


From that exchange it seems that something is really missing from the crawl
script. There are two solutions mentioned:
- an extra clean command before the dedup
- the option -deleteGone for the index command

Which one is the correct solution?


On Fri, 25 Nov 2016, Marty-Scott Sainty (NWIS - Software Development) wrote:

Hi,
>
> Is there a setting to get Nutch to remove 404 pages from Solr?
>
> I'm currently testing the behaviour with different status codes and Nutch
> doesn't remove pages with 404 status codes.
>
> Any help would be much appreciated.
>
> Cheers,
>
> Marty
>
>
>
>
>


-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Re: Fwd: Nutch 2.3.1 not removing 404 pages from Solr

Posted by Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>.
Hi,

On 6 December 2016 at 09:51, Tom Chiverton <tc...@extravision.com> wrote:

> What do you have set for db.update.purge.404 ?


At first I had it set to false. Later I tried true as I misread an
explanation I found. Neither setting resulted in documents being removed
from the solr index.


>
>
>
> On 06/12/16 08:05, Jigal van Hemert | alterNET internet BV wrote:
>
>> At the moment the 404 pages are simply not removed from the solr index.
>> I'm
>> not sure if Nutch doesn't tell sorl to remove them or if solr doesn't
>> remove them.
>>
>
>


-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Re: Fwd: Nutch 2.3.1 not removing 404 pages from Solr

Posted by Tom Chiverton <tc...@extravision.com>.
What do you have set for db.update.purge.404 ?


On 06/12/16 08:05, Jigal van Hemert | alterNET internet BV wrote:
> At the moment the 404 pages are simply not removed from the solr index. I'm
> not sure if Nutch doesn't tell sorl to remove them or if solr doesn't
> remove them.


Fwd: Nutch 2.3.1 not removing 404 pages from Solr

Posted by Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>.
Somehow we managed to get this off-list, so forwarding to list again :-)

---------- Forwarded message ----------
From: Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
Date: 2016-12-05 11:30 GMT+01:00
Subject: Re: Nutch 2.3.1 not removing 404 pages from Solr
To: Steven Hayles <sh...@leicester.ac.uk>


Hi,

On 5 December 2016 at 10:03, Steven Hayles <sh...@leicester.ac.uk> wrote:

>
> Both will work.
>
> Setting db.update.purge.404 to false is the simplest and more standard
> approach. It will result in Nutch storing 404s indefinitely. This will
> avoid Nutch keep trying to recrawl them at the small cost of having to
> store the information and repeatly telling Solr to remove them.
>

At the moment the 404 pages are simply not removed from the solr index. I'm
not sure if Nutch doesn't tell sorl to remove them or if solr doesn't
remove them.
For one project all pages (300 or so) must be re-indexed daily, so I have
an extra command added to the cron job that removes all items that were
indexed before today. It's a workaround and I really would like Nutch to do
the honour ;-)


-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !



-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !