You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Victor D'agostino <vi...@fiducial.net> on 2016/03/17 12:48:09 UTC

Is nutch suitable with postgresql as datasource

Hi guys

I have a postgresql database which contains the data I would like to 
crawl in Solr.

I couldn't find any postgresql site configuration file.

Is nutch suitable with postgresql as datasource or does it only crawl 
websites ?

Best regards
Victor


________________
Ce message et les éventuels documents joints peuvent contenir des informations confidentielles. Au cas où il ne vous serait pas destiné, nous vous remercions de bien vouloir le supprimer et en aviser immédiatement l'expéditeur. Toute utilisation de ce message non conforme à sa destination, toute diffusion ou publication, totale ou partielle et quel qu'en soit le moyen est formellement interdite. Les communications sur internet n'étant pas sécurisées, l'intégrité de ce message n'est pas assurée et la société émettrice ne peut être tenue pour responsable de son contenu. 

Re: Is nutch suitable with postgresql as datasource

Posted by Binoy Dalal <bi...@gmail.com>.
Nutch is a web crawler.

Just use the DIH that comes with solr. It's really easy to setup and use.
Check here:
https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the+Data+Import+Handler

How did you get this idea of crawling a db with nutch anyhow?

On Thu, 17 Mar 2016, 17:18 Victor D'agostino, <
victor.d.agostino@fiducial.net> wrote:

> Hi guys
>
> I have a postgresql database which contains the data I would like to
> crawl in Solr.
>
> I couldn't find any postgresql site configuration file.
>
> Is nutch suitable with postgresql as datasource or does it only crawl
> websites ?
>
> Best regards
> Victor
>
> 
> ________________
> Ce message et les éventuels documents joints peuvent contenir des
> informations confidentielles. Au cas où il ne vous serait pas destiné, nous
> vous remercions de bien vouloir le supprimer et en aviser immédiatement
> l'expéditeur. Toute utilisation de ce message non conforme à sa
> destination, toute diffusion ou publication, totale ou partielle et quel
> qu'en soit le moyen est formellement interdite. Les communications sur
> internet n'étant pas sécurisées, l'intégrité de ce message n'est pas
> assurée et la société émettrice ne peut être tenue pour responsable de son
> contenu.
>
-- 
Regards,
Binoy Dalal

Re: Is nutch suitable with postgresql as datasource

Posted by Victor D'agostino <vi...@fiducial.net>.
Damn !

We are curently using DIH at my company and I am building a Solr 5 
architecture with 3 Solr nodes and 1 zookeeper.

We need real time indexing and multi-node indexing because we have more 
then 100 GB of new data per day.

Do you know if a "postgresql crawler" exists ?

- Victor



-------- Message original --------
*Sujet: *Re: Is nutch suitable with postgresql as datasource
*De : *Markus Jelsma <ma...@openindex.io>
*Pour : *user@nutch.apache.org <us...@nutch.apache.org>
*Date : *17/03/2016 12:54
> Hi - no, Nutch cannot do that. But Solr has a data import handler, it should read data from Postgresql fine.
> Markus
>
>   
>   
> -----Original message-----
>> From:Victor D'agostino <vi...@fiducial.net>
>> Sent: Thursday 17th March 2016 12:48
>> To: user@nutch.apache.org
>> Subject: Is nutch suitable with postgresql as datasource
>>
>> Hi guys
>>
>> I have a postgresql database which contains the data I would like to
>> crawl in Solr.
>>
>> I couldn't find any postgresql site configuration file.
>>
>> Is nutch suitable with postgresql as datasource or does it only crawl
>> websites ?
>>
>> Best regards
>> Victor
>>
>> 



________________
Ce message et les éventuels documents joints peuvent contenir des informations confidentielles. Au cas où il ne vous serait pas destiné, nous vous remercions de bien vouloir le supprimer et en aviser immédiatement l'expéditeur. Toute utilisation de ce message non conforme à sa destination, toute diffusion ou publication, totale ou partielle et quel qu'en soit le moyen est formellement interdite. Les communications sur internet n'étant pas sécurisées, l'intégrité de ce message n'est pas assurée et la société émettrice ne peut être tenue pour responsable de son contenu. 

RE: Is nutch suitable with postgresql as datasource

Posted by Markus Jelsma <ma...@openindex.io>.
Hi - no, Nutch cannot do that. But Solr has a data import handler, it should read data from Postgresql fine.
Markus

 
 
-----Original message-----
> From:Victor D'agostino <vi...@fiducial.net>
> Sent: Thursday 17th March 2016 12:48
> To: user@nutch.apache.org
> Subject: Is nutch suitable with postgresql as datasource
> 
> Hi guys
> 
> I have a postgresql database which contains the data I would like to 
> crawl in Solr.
> 
> I couldn't find any postgresql site configuration file.
> 
> Is nutch suitable with postgresql as datasource or does it only crawl 
> websites ?
> 
> Best regards
> Victor
> 
> 
> ________________
> Ce message et les éventuels documents joints peuvent contenir des informations confidentielles. Au cas où il ne vous serait pas destiné, nous vous remercions de bien vouloir le supprimer et en aviser immédiatement l'expéditeur. Toute utilisation de ce message non conforme à sa destination, toute diffusion ou publication, totale ou partielle et quel qu'en soit le moyen est formellement interdite. Les communications sur internet n'étant pas sécurisées, l'intégrité de ce message n'est pas assurée et la société émettrice ne peut être tenue pour responsable de son contenu. 
>