Class: XRay::HTML::Parser

Inherits:

BaseParser

Object
BaseParser
XRay::HTML::Parser

show all

Defined in:: lib/html/parser.rb

Direct Known Subclasses

VisitableParser

Constant Summary collapse

TEXT =

/[^<]+/m

PROP_NAME =

%r/\w[-:\w]*/m

PROP_VALUE =

%r/'([^']*)'|"([^"]*)"|([^\s>]+)/m

PROP =

%r/#{PROP_NAME}\s*(?:=\s*#{PROP_VALUE})?/m

TAG_NAME =

/\w[^>\(\)\/\s]*/

TAG_START =

%r/<(#{TAG_NAME})/m

TAG_END =

%r/<\/#{TAG_NAME}\s*>/m

TAG =

%r/#{TAG_START}(\s+#{PROP})*\s*>/m

SELF_CLOSE_TAG =

%r/#{TAG_START}(\s+#{PROP})*\s*\/>/m

DTD =

/\s*<!(doctype)\s+(.*?)>/im

COMMENT =

/<!--(.*?)-->/m

Class Method Summary collapse

.parse(src) {|doc| ... } ⇒ Object

Instance Method Summary collapse

Methods inherited from BaseParser

#batch, #check, #eos?, #initialize, #raw_scan, #reset, #scan, #skip, #skip_empty, #to_s

Constructor Details

This class inherits a constructor from XRay::BaseParser

Class Method Details

.parse(src) {|doc| ... } ⇒ `Object`

Yields:

(doc)

# File 'lib/html/parser.rb', line 10

def self.parse(src, &block)
  parser = self.new(src)
  doc = parser.parse
  yield doc if block_given? 
  doc
end

Instance Method Details

#parse ⇒ `Object`



29
30
31

# File 'lib/html/parser.rb', line 29

def parse
  parse_doc
end

#parse_comment ⇒ `Object`

# File 'lib/html/parser.rb', line 63

def parse_comment
  scan COMMENT
  CommentElement.new(@scanner[1])
end

#parse_doc ⇒ `Object`

# File 'lib/html/parser.rb', line 33

def parse_doc
  nodes = batch(:parse_element)
  case nodes.size
    when 0 then nil
    when 1 then nodes[0]
    else 
      ::XRay::HTML::Document.new( nodes )
  end
end

#parse_dtd ⇒ `Object`

# File 'lib/html/parser.rb', line 58

def parse_dtd
  node = scan(DTD)
  DTDElement.new(@scanner[2], @scanner[1], node.position)
end

#parse_element ⇒ `Object`

# File 'lib/html/parser.rb', line 43

def parse_element
  if @scanner.check(DTD) and !@dtd_checked
    @dtd_checked = true
    parse_dtd
  elsif @scanner.check(COMMENT)
    parse_comment
  elsif @scanner.check(TAG_START)
    parse_tag
  elsif !text_end?
    parse_text
  else
    parse_error('Invalid HTML struct')
  end
end

#parse_prop_name ⇒ `Object`



113
114
115

# File 'lib/html/parser.rb', line 113

def parse_prop_name
  scan PROP_NAME
end

#parse_prop_value ⇒ `Object`

# File 'lib/html/parser.rb', line 117

def parse_prop_value
  scan PROP_VALUE
  "#{@scanner[1]}#{@scanner[2]}#{@scanner[3]}"
end

#parse_properties ⇒ `Object`

# File 'lib/html/parser.rb', line 92

def parse_properties
  skip_empty
  props = []
  until prop_search_done? do
    prop = parse_property
    props << prop if prop
    skip_empty
  end
  props
end

#parse_property ⇒ `Object`

# File 'lib/html/parser.rb', line 103

def parse_property
  name = parse_prop_name
  if @scanner.check( /\s*=/ )
    skip /[=]/
    sep = @scanner.check(/['"]/)
    value = parse_prop_value
  end
  Property.new name, value, sep
end

#parse_tag ⇒ `Object`

# File 'lib/html/parser.rb', line 80

def parse_tag
  if @scanner.check DTD
    parse_dtd_tag
  elsif @scanner.check SELF_CLOSE_TAG
    parse_self_ending_tag
  elsif @scanner.check TAG
    parse_normal_tag
  else
    parse_error('Invalid HTML struct')
  end
end

#parse_text ⇒ `Object`

# File 'lib/html/parser.rb', line 68

def parse_text
  text = ''
  until text_end? do
    text << '<' if @scanner.skip(/</)
    text << "#{@scanner.scan(TEXT)}"

    # TODO: make this detection a rule
    parse_warn "'#{$~}' not escaped" if text =~ /<|>/
  end
  TextElement.new text
end

Class: XRay::HTML::Parser

Direct Known Subclasses

Constant Summary collapse

Class Method Summary collapse

Instance Method Summary collapse

Methods inherited from BaseParser

Constructor Details

Class Method Details

.parse(src) {|doc| ... } ⇒ Object

Instance Method Details

#parse ⇒ Object

#parse_comment ⇒ Object

#parse_doc ⇒ Object

#parse_dtd ⇒ Object

#parse_element ⇒ Object

#parse_prop_name ⇒ Object

#parse_prop_value ⇒ Object

#parse_properties ⇒ Object

#parse_property ⇒ Object

#parse_tag ⇒ Object

#parse_text ⇒ Object