You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user@nutch.apache.org by Seth Taylor <st...@hhgregg.com> on 2005/05/10 17:53:18 UTC

ASP Parser

I've recently just installed and configured Nutch from source.  From
what I've read by default, Nutch will parse text and html based
documents only.  I have a site I'm trying to crawl which is all asp
pages.  I put the asp mime type in the mime-type.xml document.  What
else do I need to do in order for Nutch to crawl asp pages?

 

Thanks,

Seth

 

staylor@hhgregg.com


Re: ASP Parser

Posted by lnwpenza <li...@hotmail.com>.
การถอนเงินในคาสิโนออนไลน์นั้น มีวิธีและขั้นตอนที่ไม่ยุ่งยาก
ที่มีผู้คนนิยมเล่นมากสุดในไทย
[url=http://royal1688online.blog.com/]royal1688 online[/url]
เดี๋ยวนี้คนส่วนใหญ่นิยมเล่นแทงบอลในรูปแบบของการออนไลน์
ได้รับใบอนุญาตให้ผสมกิจการคาสิโนอย่างถูกกฎหมายจากรัฐบาลประเทศกัมพูชา
ซึ่งได้รับรอง ดูแล ควบคุม ตรวจสอบความไม่ผิดพลาดอย่างสม่ำเสมอ
[url=http://royal1688-online.blogspot.com/]casino online[/url]
คุณภาพเกมส์ที่ให้คำชี้แนะของเรานั้น ภาพสวยสมจริง
การใช้งานเสมือนคุณเข้าไปนั่งเล่นโดยตรง
[url=http://holidaypalace.edublogs.org/]holiday[/url]
เรายืนยันได้ว่าทางเราไม่มีการควบคุมเกมส์ และผลที่จะเกิดขึ้นของเกมส์ต่างๆ
หากท่านต้องการที่จะตรวจสอบเราก่อนที่คุณจะเล่นด้วยเงินจริง
[url=http://www.imgoal.com/football-news/]ข่าวฟุตบอล[/url]
ก็สามารถร่วมสนุกกับเราได้ ไม่ว่าจะเป็น
[url=http://sbobetth.wordpress.com/]sbobet[/url] หลังจาก Login
ท่านสามารถตรวจสอบ ยอดเงินของท่าน ใน ยอดคงเหลือ
ในเมนูด้านบนหรือวางพนันฟุตบอลในเมนูกีฬาด้านซ้ายมือ



--
View this message in context: http://lucene.472066.n3.nabble.com/ASP-Parser-tp603160p4095133.html
Sent from the Nutch - User mailing list archive at Nabble.com.

Re: [Nutch-general] ASP Parser

Posted by David Spencer <da...@tropo.com>.
Seth Taylor wrote:

> I've recently just installed and configured Nutch from source.  From
> what I've read by default, Nutch will parse text and html based
> documents only.  I have a site I'm trying to crawl which is all asp
> pages.  I put the asp mime type in the mime-type.xml document.  What
> else do I need to do in order for Nutch to crawl asp pages?

Probably you need to check out the URL filter (conf/crawl-urlfilter.txt) 
and make sure the pages are not rejected. Note that there might be a 
pattern that rejects argument to the URL so you might want to disable 
that if the pages take args.

I would think that there is no ASP MIME type per-se -- surely the 
average ASP page returns HTML documents?!

> 
>  
> 
> Thanks,
> 
> Seth
> 
>  
> 
> staylor@hhgregg.com
> 
> 


Re: ASP Parser

Posted by Jérôme Charron <je...@gmail.com>.
> 
> I've recently just installed and configured Nutch from source. From
> what I've read by default, Nutch will parse text and html based
> documents only. I have a site I'm trying to crawl which is all asp
> pages. I put the asp mime type in the mime-type.xml document. What
> else do I need to do in order for Nutch to crawl asp pages?

Corrects me if I'm wrong, but ASP is like JSP: a page that is interpreted on 
the server side and generates any type of document (mainly some pure html).
So, you don't need to add ASP support on Nutch, since you ASP pages 
certainly generate some HTML code.

Jerome


-- 
http://motrech.free.fr/
http://frutch.free.fr/