Module: RelatonGb::GbScrapper

Extended by:: Scrapper

Defined in:: lib/relaton_gb/gb_scrapper.rb

Overview

National standard scrapper.

Class Method Summary collapse

.get_committee(doc, _ref) ⇒ Hash
- :type [String] * :name [String].
.scrape_doc(hit) ⇒ RelatonGb::GbBibliographicItem
.scrape_page(text) ⇒ RelatonGb::HitCollection

Methods included from Scrapper

fetch_structuredidentifier, get_contributors, get_docid, get_status, get_titles, get_type, org, scrapped_data

Class Method Details

.get_committee(doc, _ref) ⇒ `Hash`

Returns * :type [String]

:name [String].

Parameters:

doc (Nokogiri::HTML)
_ref (String)

Returns:

(Hash) —
- :type [String]
- :name [String]

# File 'lib/relaton_gb/gb_scrapper.rb', line 50

def get_committee(doc, _ref)
  name = doc.at("//div[contains(text(), '归口单位')]/following-sibling::div")
  { type: "technical", name: name.text.delete("\r\n\t\t") }
end

.scrape_doc(hit) ⇒ `RelatonGb::GbBibliographicItem`

Parameters:

hit (RelatonGb::Hit) —

standard’s page id

Returns:

(RelatonGb::GbBibliographicItem)

# File 'lib/relaton_gb/gb_scrapper.rb', line 37

def scrape_doc(hit)
  src = "http://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=" + hit.pid
  doc = Nokogiri::HTML OpenURI.open_uri(src)
  GbBibliographicItem.new **scrapped_data(doc, src, hit)
rescue OpenURI::HTTPError, SocketError, OpenSSL::SSL::SSLError
  raise RelatonBib::RequestError, "Cannot access #{src}"
end

.scrape_page(text) ⇒ `RelatonGb::HitCollection`

Parameters:

text (Strin) —

code of standard for serarch

Returns:

(RelatonGb::HitCollection)

# File 'lib/relaton_gb/gb_scrapper.rb', line 17

def scrape_page(text)
  search_html = OpenURI.open_uri(
    "http://openstd.samr.gov.cn/bzgk/gb/std_list?p.p2=" + text,
  )
  result = Nokogiri::HTML search_html
  hits = result.xpath(
    "//table[contains(@class, 'result_list')]/tbody[2]/tr",
  ).map do |h|
    ref = h.at "./td[2]/a"
    pid = ref[:onclick].match(/[0-9A-F]+/).to_s
    rdate = h.at("./td[7]").text
    Hit.new pid: pid, docref: ref.text, scrapper: self, release_date: rdate
  end
  HitCollection.new hits.sort_by(&:release_date).reverse
rescue OpenURI::HTTPError, SocketError, OpenSSL::SSL::SSLError
  raise RelatonBib::RequestError, "Cannot access http://www.std.gov.cn/bzgk/gb/std_list"
end

Module: RelatonGb::GbScrapper

Overview

Class Method Summary collapse

Methods included from Scrapper

Class Method Details

.get_committee(doc, _ref) ⇒ Hash

.scrape_doc(hit) ⇒ RelatonGb::GbBibliographicItem

.scrape_page(text) ⇒ RelatonGb::HitCollection

.get_committee(doc, _ref) ⇒ `Hash`

.scrape_doc(hit) ⇒ `RelatonGb::GbBibliographicItem`

.scrape_page(text) ⇒ `RelatonGb::HitCollection`