You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Gingras Jean-François <Je...@mrq.gouv.qc.ca> on 2010/09/02 16:58:05 UTC

Re: Not getting all documents

Hi,

You may want to look for the db.max.outlinks.per.page property in your nutch-[default|site].xml configuration file. The default is 100 outlinks in nutch 1.0. So, if your a index page contains more than 100 link to PDF file, then only a maximum of 100 will be process for each index page.

Also, you may need to adjust the http.content.limit if your index pages are bigger than 65535 (default value) otherwise nutch will trunc the content and will not process links that are not in the first 65535 bytes.

I hope this will help

Jean-François Gingras

Les renseignements contenus dans ce message peuvent être confidentiels.

Si vous n'êtes pas le destinataire visé ou une personne autorisée à lui remettre ce courriel, vous êtes par la présente avisé qu'il est strictement interdit d'utiliser, de copier ou de distribuer ce courriel, de dévoiler la teneur de ce message ou de prendre quelque mesure fondée sur l'information contenue. Vous êtes donc prié d'aviser immédiatement l'expéditeur de cette erreur et de détruire ce message sans garder de copie.

Re: Not getting all documents

Posted by Bill Arduino <ro...@gmail.com>.
Hello Jean-Francois,

Thank you for your reply.  The db.max.outlinks fixed my problem and I was
able to index all of my 1 million+ PDF files.

Thanks very much for taking the time to reply!

2010/9/2 Gingras Jean-François <Je...@mrq.gouv.qc.ca>

> Hi,
>
> You may want to look for the db.max.outlinks.per.page property in your
> nutch-[default|site].xml configuration file. The default is 100 outlinks in
> nutch 1.0. So, if your a index page contains more than 100 link to PDF file,
> then only a maximum of 100 will be process for each index page.
>
> Also, you may need to adjust the http.content.limit if your index pages are
> bigger than 65535 (default value) otherwise nutch will trunc the content and
> will not process links that are not in the first 65535 bytes.
>
> I hope this will help
>
> Jean-François Gingras
>
> Les renseignements contenus dans ce message peuvent être confidentiels.
>
> Si vous n'êtes pas le destinataire visé ou une personne autorisée à lui
> remettre ce courriel, vous êtes par la présente avisé qu'il est strictement
> interdit d'utiliser, de copier ou de distribuer ce courriel, de dévoiler la
> teneur de ce message ou de prendre quelque mesure fondée sur l'information
> contenue. Vous êtes donc prié d'aviser immédiatement l'expéditeur de cette
> erreur et de détruire ce message sans garder de copie.
>