Class: Apollo::Crawler::BaseCrawler

Inherits:

Object

Object
Apollo::Crawler::BaseCrawler

show all

Defined in:: lib/apollo_crawler/crawler/base_crawler.rb

Direct Known Subclasses

GoogleCrawler, HackerNewsCrawler, SlashdotCrawler, SpiderCrawler, StackoverflowCrawler, XkcdCrawler, YoujizzCrawler

Class Method Summary collapse

Instance Method Summary collapse

#enqueue_url(url) ⇒ Object
#etl(url = nil, opts = {}, &block) ⇒ Object
- (0) Figure out URL - (1) Extract Data - (2) Extract Links - (3) Go to (0) eventually.
#extract_data(doc) ⇒ Object

Extracts data from document.
#extract_links(doc) ⇒ Object

Extract links to another documents from this document.
#fetch_document(url) ⇒ Object

Fetch document.
#initialize ⇒ BaseCrawler constructor

A new instance of BaseCrawler.
#name ⇒ Object

Name of the crawler.
#process_url(url) ⇒ Object
#url ⇒ Object
#url_processed?(url) ⇒ Boolean

Constructor Details

#initialize ⇒ `BaseCrawler`

Returns a new instance of BaseCrawler.

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 32

def initialize
	@backlog = []
	@visited = []
end

Class Method Details

.create_metadoc(url, doc) ⇒ `Object`

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 172

def self.create_metadoc(url, doc)
	body = doc[:body].encode('UTF-8', {:invalid => :replace, :undef => :replace, :replace => '?'})
	
	return {
		'url' => url,
		'doc' => body,
		'hash' => Digest::SHA256.new.update(body).hexdigest,
		'created_at' => Time.now.utc,
		'expires_at' => nil,
		'version' => 0
	}
end

.fetch(url) ⇒ `Object`



50
51
52

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 50

def self.fetch(url)
	RbConfig::DEFAULT_FETCHER.fetch(url)
end

.name_re ⇒ `Object`



37
38
39

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 37

def self.name_re()
	return /crawler$/
end

.try_get_doc(root, url) ⇒ `Object`

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 62

def self.try_get_doc(root, url)
	doc = BaseCrawler.try_get_url(root, url)
	
	# TODO: Set experition header
	return {
		:doc => doc,
		:url => url
	}
end

.try_get_url(root, url) ⇒ `Object`

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 54

def self.try_get_url(root, url)
	begin
		return URI.join(root, url)
	rescue
		return nil
	end
end

Instance Method Details

#enqueue_url(url) ⇒ `Object`

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 130

def enqueue_url(url)
	urls = []
	return urls if url.nil?
	# We support both - list of urls or single url
	if(url.kind_of?(Array))
		urls = urls.concat(url)
	else
		urls << url
	end

	urls.each do |u|
		if(url_processed?(u) == false)
			@backlog << u
		end
	end
end

#etl(url = nil, opts = {}, &block) ⇒ `Object`

(0) Figure out URL
(1) Extract Data
(2) Extract Links
(3) Go to (0) eventually

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 76

def etl(url=nil, opts={}, &block)
	# Look for passed URL use default instead and fail if it is not valid
	if(url.nil? || url.empty?)
		url = self.url
	end

	# TODO: Be more agressive, use assert, it is clients responsibility!
	if(url.nil?)
		return nil
	end

	enqueue_url(url)

	# Counter of processed documents (pages)
	docs_processed = 0

	res = []
	# TODO: Respect limit of documents/urls processed
	while(@backlog.empty? == false)
		url = @backlog.shift

		# puts "Processing '#{url}'"
		doc = self.process_url(url)
		
		# Increase counter of processed documents
		docs_processed = docs_processed + 1

		@visited << url

		# Process document if was successfuly retreived
		if(!doc.nil?)
			# TODO: Use log4r and log it only on info level
			if block_given?
				yield doc
			end

			# Add document to queue of results
			res << doc

			enqueue_url(doc[:links].map(){ |l| l[:link] }) if doc[:links]
		end

		# Break if limit of documents to processed was reached
		break if opts[:doc_limit] && docs_processed >= opts[:doc_limit]
	end

	# Return processed document
	return res
end

#extract_data(doc) ⇒ `Object`

Extracts data from document

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 228

def extract_data(doc)
	res = []
	return res
end

#extract_links(doc) ⇒ `Object`

Extract links to another documents from this document

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 234

def extract_links(doc)
	res = []
	return res
end

#fetch_document(url) ⇒ `Object`

Fetch document

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 186

def fetch_document(url)
	# TODO: Refactor following idiom
	if(url == nil)
		url = self.url
	end

	if(url.nil?)
		return nil
	end

	url = url.to_s

	# TODO: Use some (custom-made) low-level HTTTP Protocol cache - just for sure
	cache = Apollo::Cache::Factory.instance.construct
	metadoc = cache.try_get(url) do
		max_attempts = 3
		attempt_no = 0
		success = false
		
		doc = nil
		while(attempt_no < max_attempts && success == false) do
			begin
				doc = BaseCrawler.fetch(url)
				success = true
			rescue Exception => e
				puts "EXCEPTION: Unable to fetch '#{url}', reason: '#{e.to_s}'"
				sleep 1

				attempt_no = attempt_no + 1
				success = false
			end
		end

		# Create metadata
		BaseCrawler.create_metadoc(url, doc)
	end

	# TODO: Encapsulate and make more robust => invalid hostname, timeouts and so
	return Nokogiri::HTML(metadoc['doc'])
end

#name ⇒ `Object`

Name of the crawler



42
43
44

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 42

def name
	return "Crawler Base" 
end

#process_url(url) ⇒ `Object`

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 147

def process_url(url)
	doc = self.fetch_document(url)
	if(doc.nil?)
		return nil
	end

	# Try extract data from document
	data = self.extract_data(doc)

	# Try extract links for another documents 
	links = self.extract_links(doc)
	
	# TODO: Make configurable if links extracted from doc should be printed
	# puts links.inspect

	# Format ETL result
	res = { 
		:crawler => self.class.name,
		:data => data,
		:links => links
	}

	return res
end

#url ⇒ `Object`



46
47
48

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 46

def url
	return nil
end

#url_processed?(url) ⇒ `Boolean`

Returns:

(Boolean)



126
127
128

# File 'lib/apollo_crawler/crawler/base_crawler.rb', line 126

def url_processed?(url)
	return @backlog.include?(url) || @visited.include?(url)
end

Class: Apollo::Crawler::BaseCrawler

Direct Known Subclasses

Class Method Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize ⇒ BaseCrawler

Class Method Details

.create_metadoc(url, doc) ⇒ Object

.fetch(url) ⇒ Object

.name_re ⇒ Object

.try_get_doc(root, url) ⇒ Object

.try_get_url(root, url) ⇒ Object

Instance Method Details

#enqueue_url(url) ⇒ Object

#etl(url = nil, opts = {}, &block) ⇒ Object

#extract_data(doc) ⇒ Object

#extract_links(doc) ⇒ Object

#fetch_document(url) ⇒ Object

#name ⇒ Object

#process_url(url) ⇒ Object

#url ⇒ Object

#url_processed?(url) ⇒ Boolean

#initialize ⇒ `BaseCrawler`

.create_metadoc(url, doc) ⇒ `Object`

.fetch(url) ⇒ `Object`

.name_re ⇒ `Object`

.try_get_doc(root, url) ⇒ `Object`

.try_get_url(root, url) ⇒ `Object`

#enqueue_url(url) ⇒ `Object`

#etl(url = nil, opts = {}, &block) ⇒ `Object`

#extract_data(doc) ⇒ `Object`

#extract_links(doc) ⇒ `Object`

#fetch_document(url) ⇒ `Object`

#name ⇒ `Object`

#process_url(url) ⇒ `Object`

#url ⇒ `Object`

#url_processed?(url) ⇒ `Boolean`