Class: TaiwaneseNewsParser::Parser::LibertyTimesNews

Inherits:

TaiwaneseNewsParser::Parser

Object
TaiwaneseNewsParser::Parser
TaiwaneseNewsParser::Parser::LibertyTimesNews

show all

Defined in:: lib/taiwanese_news_parser/parser/liberty_times_news.rb

Instance Attribute Summary

Attributes inherited from TaiwaneseNewsParser::Parser

#article, #url

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from TaiwaneseNewsParser::Parser

applicable_parser, #clean_up, #initialize, #reproduced?, subclasses

Constructor Details

This class inherits a constructor from TaiwaneseNewsParser::Parser

Class Method Details

.applicable?(url) ⇒ `Boolean`

Returns:

(Boolean)



10
11
12

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 10

def self.applicable?(url)
  url.include?('news.ltn.com.tw')
end

.domain ⇒ `Object`



2
3
4

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 2

def self.domain
  'ltn.com.tw'
end

.names ⇒ `Object`



6
7
8

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 6

def self.names
  %{自由時報}
end

.parse_url_id(url) ⇒ `Object`



63
64
65

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 63

def self.parse_url_id(url)
  url[%r{\w+/\w+/\w+/(\d+)},1]
end

Instance Method Details

#clean_url ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 58

def clean_url
  cleaner = TaiwaneseNewsParser::UrlCleaner.new()
  @article[:url] = cleaner.clean(@article[:url])
end

#doc ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 14

def doc
  @raw = open(url).read
  @doc = Nokogiri::HTML(@raw)
end

#parse ⇒ `Object`

url = ‘news.ltn.com.tw/news/politics/breakingnews/998126’

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 20

def parse
  # new layout uses utf-8
  @article[:title] = doc.at_css('.content h1').text
  @article[:company_name] = parse_company_name
  @article[:content] = doc.css('#newstext p').text

  time = doc.at_css('#newstext span').text[%r{\d{4}-\d{1,2}-\d{1,2}\W*\d{2}:\d{2}}]
  if time.nil?
    match = doc.at_css('#newstext span').text.match(%r{(\d{2}):(\d{2})})
    now = Time.now
    today = Date.today
    @article[:published_at] = Time.new(today.year, today.month, today.day, match[1].to_i, match[2].to_i)
  else
    @article[:published_at] = Time.parse("#{time}:00")
  end

  @article[:reporter_name] = parse_reporter_name()

  clean_up

  @article
end

#parse_company_name ⇒ `Object`



54
55
56

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 54

def parse_company_name
  '自由時報'
end

#parse_reporter_name ⇒ `Object`

# File 'lib/taiwanese_news_parser/parser/liberty_times_news.rb', line 43

def parse_reporter_name
  if match = @article[:content].match(%r{〔(.*?)[/／╱](.*?)〕})
    reporter_name = match[1][%r{記者(.+)},1]
  elsif match = @article[:content].match(%r{記者(.+?)[/／╱]})
    reporter_name = match[1]
  elsif match = @article[:content].match(%r{（文／(.*?)）})
    reporter_name = match[1]
  end
  reporter_name
end

Class: TaiwaneseNewsParser::Parser::LibertyTimesNews

Instance Attribute Summary

Attributes inherited from TaiwaneseNewsParser::Parser

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from TaiwaneseNewsParser::Parser

Constructor Details

Class Method Details

.applicable?(url) ⇒ Boolean

.domain ⇒ Object

.names ⇒ Object

.parse_url_id(url) ⇒ Object

Instance Method Details

#clean_url ⇒ Object

#doc ⇒ Object

#parse ⇒ Object

#parse_company_name ⇒ Object

#parse_reporter_name ⇒ Object

.applicable?(url) ⇒ `Boolean`

.domain ⇒ `Object`

.names ⇒ `Object`

.parse_url_id(url) ⇒ `Object`

#clean_url ⇒ `Object`

#doc ⇒ `Object`

#parse ⇒ `Object`

#parse_company_name ⇒ `Object`

#parse_reporter_name ⇒ `Object`