Method: Web2Text.do_crawl

Defined in:: lib/web2text.rb

.do_crawl(options) ⇒ `Object`

# File 'lib/web2text.rb', line 85

def self.do_crawl(options)
  crawl = Crawl.new options[:url], options[:avoid], options[:focus]
  crawler = Crawler.new crawl, options[:query]
  formatter = options[:formatter].new crawl, options[:out]

  Anemone.crawl(crawl.url, :obey_robots_txt => !options[:ignore_robots_txt]) do |anemone|
      anemone.focus_crawl do |page|
        crawl.filter page.links
      end

      anemone.on_every_page do |page|
          STDERR.puts page.url

          # ignore redirects
          code = page.code || 200
          if 300 <= code and code < 400
            next
          elsif !crawl.focus? page.url
            next
          elsif page.doc.nil?
            STDERR.puts "ERR: Failed to retrieve #{page.url}"
            next
          end

          plain = crawler.doc_as_plaintext page.doc
          formatter.append plain, page.url
          sleep options[:sleep]
      end

      anemone.after_crawl do
        formatter.close
      end
  end
end

Method: Web2Text.do_crawl

.do_crawl(options) ⇒ Object

.do_crawl(options) ⇒ `Object`