Class: TaiwaneseNewsParser::Parser::Ettoday

Inherits:

TaiwaneseNewsParser::Parser

Object
TaiwaneseNewsParser::Parser
TaiwaneseNewsParser::Parser::Ettoday

show all

Defined in:: lib/taiwanese_news_parser/parser/ettoday.rb

Instance Attribute Summary

Attributes inherited from TaiwaneseNewsParser::Parser

#article, #url

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from TaiwaneseNewsParser::Parser

applicable?, applicable_parser, #clean_up, #initialize, subclasses

Constructor Details

This class inherits a constructor from TaiwaneseNewsParser::Parser

Class Method Details

.domain ⇒ `Object`



2
3
4

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 2

def self.domain
  'ettoday.net'
end

.names ⇒ `Object`



6
7
8

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 6

def self.names
  %w{東森}
end

.parse_url_id(url) ⇒ `Object`



46
47
48

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 46

def self.parse_url_id(url)
  url[%r{http://www\.ettoday\.net/\w+/(\d+/\d+)},1]
end

Instance Method Details

#clean_url ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 41

def clean_url
  cleaner = TaiwaneseNewsParser::UrlCleaner.new()
  @article[:url] = cleaner.clean(@article[:url])
end

#doc ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 10

def doc
  @raw = open(url).read
  @doc = Nokogiri::HTML(@raw)
end

#parse ⇒ `Object`

url = ‘www.ettoday.net/news/20130128/158005.htm’

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 16

def parse
  @article[:title] = doc.css('[itemprop=headline]').text

  @article[:company_name] = '東森'

  @article[:content] = doc.css('[itemprop=articleBody]>p').text

  @article[:reporter_name] = parse_reporter_name()

  t = doc.css('.news-time').text.match(/(\d*)年(\d*)月(\d*)日 (\d*):(\d*)/)
  @article[:published_at] = Time.new(t[1],t[2],t[3],t[4],t[5])

  clean_up

  @article
end

#parse_reporter_name ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 33

def parse_reporter_name
  text = doc.css('[itemprop=articleBody]').text
  if match = text.match(%r{記者(.+?)[/／╱／]})
    reporter_name = match[1]
  end
  reporter_name
end

#reproduced? ⇒ `Boolean`

Returns:

(Boolean)



50
51
52

# File 'lib/taiwanese_news_parser/parser/ettoday.rb', line 50

def reproduced?
  false
end

Class: TaiwaneseNewsParser::Parser::Ettoday

Instance Attribute Summary

Attributes inherited from TaiwaneseNewsParser::Parser

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from TaiwaneseNewsParser::Parser

Constructor Details

Class Method Details

.domain ⇒ Object

.names ⇒ Object

.parse_url_id(url) ⇒ Object

Instance Method Details

#clean_url ⇒ Object

#doc ⇒ Object

#parse ⇒ Object

#parse_reporter_name ⇒ Object

#reproduced? ⇒ Boolean

.domain ⇒ `Object`

.names ⇒ `Object`

.parse_url_id(url) ⇒ `Object`

#clean_url ⇒ `Object`

#doc ⇒ `Object`

#parse ⇒ `Object`

#parse_reporter_name ⇒ `Object`

#reproduced? ⇒ `Boolean`