You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Jigal van Hemert | alterNET internet BV <ji...@alternet.nl> on 2016/05/20 07:34:14 UTC

headings plug-in target field

Hi,

Is there a possibility for the "headings" plug-in to define the field where
the data should be stored? We have wildcard fields defined in the
schema.xml and it would be nice if we could use such a field instead of
needing to add an extra field for this.

I can't find much documentation about this plug-in (except for the method
signatures).

-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Re: headings plug-in target field

Posted by Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>.
Hi,

2016-05-24 11:50 GMT+02:00 Markus Jelsma <ma...@openindex.io>:

> Hello - i don't think so. But in case you are using Solr, you could use
> solrmapping.xml on Nutch' side or of course a simple copyField in Solr's
> schema.
>

So far I have added/modified in nutch-site.xml:

  <property>
    <name>plugin.includes</name>

<value>protocol-http|protocol-httpclient|headings|parse-metatags|....</value>
  </property>
  <property>
    <name>headings</name>
    <value>h1</value>
  </property>
  <property>
    <name>headings.multivalued</name>
    <value>false</value>
  </property>
  <property>
    <name>index.parse.md</name>
    <value>metatag.description,metatag.keywords,metatag.h1</value>
  </property>

(I tried index.parse.md also with "h1" instead of "metatag.h1")

Added to solrindex-mapping.xml :

    <field source="h1" dest="h1_stringS" />

Emptied the index, removed the contents of the crawls directory, and
started crawling manually. Unfortunately no field h1_stringS shows up in
the index. Other fields do work, such as:

        <field source="host" dest="nutchHost_stringS" />

Any ideas?

-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

jigal@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

RE: headings plug-in target field

Posted by Markus Jelsma <ma...@openindex.io>.
Hello - i don't think so. But in case you are using Solr, you could use solrmapping.xml on Nutch' side or of course a simple copyField in Solr's schema.
Markus 
 
-----Original message-----
> From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> Sent: Friday 20th May 2016 9:34
> To: user <us...@nutch.apache.org>
> Subject: headings plug-in target field
> 
> Hi,
> 
> Is there a possibility for the "headings" plug-in to define the field where
> the data should be stored? We have wildcard fields defined in the
> schema.xml and it would be nice if we could use such a field instead of
> needing to add an extra field for this.
> 
> I can't find much documentation about this plug-in (except for the method
> signatures).
> 
> -- 
> 
> 
> Met vriendelijke groet,
> 
> 
> Jigal van Hemert | Ontwikkelaar
> 
> 
> 
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
> 
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
> 
> jigal@alternet.nl
> www.alternet.nl
> 
> 
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> direct per e-mail of telefoon contact op met de verzender en verwijder dit
> bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> welke wijze dan ook te delen met derden of anderszins openbaar te maken
> zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> van virussen.
> 
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> dit bericht kunnen geen rechten worden ontleend.
> 
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
>