Class: Persian::Tokenizer

Inherits:

Object

Object
Persian::Tokenizer

show all

Defined in:: lib/persian/tokenizer.rb

Overview

Persian tokenize class

Class Method Summary collapse

.split_paragraphs(text) ⇒ Object

Split paragraphs Return an array of paragraphs.
.tokenize(text) ⇒ Object

Basic persian word tokenizer Return an array of words.
.tokenize_more(text, num) ⇒ Object

Class Method Details

.split_paragraphs(text) ⇒ `Object`

Split paragraphs Return an array of paragraphs

# File 'lib/persian/tokenizer.rb', line 51

def self.split_paragraphs(text)
  text = text.split("\n").reject(&:empty?)
  text
end

.tokenize(text) ⇒ `Object`

Basic persian word tokenizer Return an array of words

# File 'lib/persian/tokenizer.rb', line 9

def self.tokenize(text)
  symbols = ['!', '﷼', ':', '؛', '؟', '،', '-', '.']
  pair_pre = ['(', '{', '«', '<', '[']
  pair_post = [')', '}', '»', '>', ']']
  prepost = ["'", '"']

  # Split text with space characters
  splits = text.split(/\s/)

  return [''] if splits.empty?

  options = symbols + pair_pre + pair_post + prepost

  pattern = /[^#{Regexp.escape(options.join)}]+/
  tokens = []

  splits.each do |split|
    first, middle, last = split.partition(pattern)
    tokens << first.split unless first.empty?
    tokens << middle unless middle.empty?
    tokens << last.split unless last.empty?
  end

  tokens.flatten
end

.tokenize_more(text, num) ⇒ `Object`

# File 'lib/persian/tokenizer.rb', line 35

def self.tokenize_more(text, num)
  list = tokenize(text)
  tokens = []
  0.upto list.size - num do |i|
    token = ''
    0.upto num - 1 do |j|
      token += list[i + j] + ' '
    end
    tokens.push token.strip
  end

  tokens
end

Class: Persian::Tokenizer

Overview

Class Method Summary collapse

Class Method Details

.split_paragraphs(text) ⇒ Object

.tokenize(text) ⇒ Object

.tokenize_more(text, num) ⇒ Object

.split_paragraphs(text) ⇒ `Object`

.tokenize(text) ⇒ `Object`

.tokenize_more(text, num) ⇒ `Object`