You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Seth Taylor <st...@hhgregg.com> on 2005/05/10 17:53:18 UTC
ASP Parser
I've recently just installed and configured Nutch from source. From
what I've read by default, Nutch will parse text and html based
documents only. I have a site I'm trying to crawl which is all asp
pages. I put the asp mime type in the mime-type.xml document. What
else do I need to do in order for Nutch to crawl asp pages?
Thanks,
Seth
staylor@hhgregg.com
Re: ASP Parser
Posted by lnwpenza <li...@hotmail.com>.
การถอนเงินในคาสิโนออนไลน์นั้น มีวิธีและขั้นตอนที่ไม่ยุ่งยาก
ที่มีผู้คนนิยมเล่นมากสุดในไทย
[url=http://royal1688online.blog.com/]royal1688 online[/url]
เดี๋ยวนี้คนส่วนใหญ่นิยมเล่นแทงบอลในรูปแบบของการออนไลน์
ได้รับใบอนุญาตให้ผสมกิจการคาสิโนอย่างถูกกฎหมายจากรัฐบาลประเทศกัมพูชา
ซึ่งได้รับรอง ดูแล ควบคุม ตรวจสอบความไม่ผิดพลาดอย่างสม่ำเสมอ
[url=http://royal1688-online.blogspot.com/]casino online[/url]
คุณภาพเกมส์ที่ให้คำชี้แนะของเรานั้น ภาพสวยสมจริง
การใช้งานเสมือนคุณเข้าไปนั่งเล่นโดยตรง
[url=http://holidaypalace.edublogs.org/]holiday[/url]
เรายืนยันได้ว่าทางเราไม่มีการควบคุมเกมส์ และผลที่จะเกิดขึ้นของเกมส์ต่างๆ
หากท่านต้องการที่จะตรวจสอบเราก่อนที่คุณจะเล่นด้วยเงินจริง
[url=http://www.imgoal.com/football-news/]ข่าวฟุตบอล[/url]
ก็สามารถร่วมสนุกกับเราได้ ไม่ว่าจะเป็น
[url=http://sbobetth.wordpress.com/]sbobet[/url] หลังจาก Login
ท่านสามารถตรวจสอบ ยอดเงินของท่าน ใน ยอดคงเหลือ
ในเมนูด้านบนหรือวางพนันฟุตบอลในเมนูกีฬาด้านซ้ายมือ
--
View this message in context: http://lucene.472066.n3.nabble.com/ASP-Parser-tp603160p4095133.html
Sent from the Nutch - User mailing list archive at Nabble.com.
Re: [Nutch-general] ASP Parser
Posted by David Spencer <da...@tropo.com>.
Seth Taylor wrote:
> I've recently just installed and configured Nutch from source. From
> what I've read by default, Nutch will parse text and html based
> documents only. I have a site I'm trying to crawl which is all asp
> pages. I put the asp mime type in the mime-type.xml document. What
> else do I need to do in order for Nutch to crawl asp pages?
Probably you need to check out the URL filter (conf/crawl-urlfilter.txt)
and make sure the pages are not rejected. Note that there might be a
pattern that rejects argument to the URL so you might want to disable
that if the pages take args.
I would think that there is no ASP MIME type per-se -- surely the
average ASP page returns HTML documents?!
>
>
>
> Thanks,
>
> Seth
>
>
>
> staylor@hhgregg.com
>
>
Re: ASP Parser
Posted by Jérôme Charron <je...@gmail.com>.
>
> I've recently just installed and configured Nutch from source. From
> what I've read by default, Nutch will parse text and html based
> documents only. I have a site I'm trying to crawl which is all asp
> pages. I put the asp mime type in the mime-type.xml document. What
> else do I need to do in order for Nutch to crawl asp pages?
Corrects me if I'm wrong, but ASP is like JSP: a page that is interpreted on
the server side and generates any type of document (mainly some pure html).
So, you don't need to add ASP support on Nutch, since you ASP pages
certainly generate some HTML code.
Jerome
--
http://motrech.free.fr/
http://frutch.free.fr/