Class: Gliner::TextProcessor

Inherits:

Object

Object
Gliner::TextProcessor

show all

Defined in:: lib/gliner/text_processor.rb

Instance Method Summary collapse

#encode_pretokenized(tokens) ⇒ Object
#initialize(tokenizer) ⇒ TextProcessor constructor

A new instance of TextProcessor.
#normalize_text(text) ⇒ Object
#split_words(text) ⇒ Object

Constructor Details

#initialize(tokenizer) ⇒ `TextProcessor`

Returns a new instance of TextProcessor.

# File 'lib/gliner/text_processor.rb', line 5

def initialize(tokenizer)
  @tokenizer = tokenizer
  @word_pre_tokenizer = Tokenizers::PreTokenizers::BertPreTokenizer.new
end

Instance Method Details

#encode_pretokenized(tokens) ⇒ `Object`

# File 'lib/gliner/text_processor.rb', line 36

def encode_pretokenized(tokens)
  enc = @tokenizer.encode(tokens, is_pretokenized: true, add_special_tokens: false)

  { ids: enc.ids, word_ids: enc.word_ids }
end

#normalize_text(text) ⇒ `Object`

# File 'lib/gliner/text_processor.rb', line 10

def normalize_text(text)
  str = text.to_s
  str = '.' if str.empty?
  str.end_with?('.', '!', '?') ? str : "#{str}."
end

#split_words(text) ⇒ `Object`

# File 'lib/gliner/text_processor.rb', line 16

def split_words(text)
  text = text.to_s

  tokens = []
  starts = []
  ends = []

  @word_pre_tokenizer.pre_tokenize_str(text).each do |(token, (start_pos, end_pos))|
    token = token.to_s.downcase

    next if token.empty?

    tokens << token
    starts << start_pos
    ends << end_pos
  end

  [tokens, starts, ends]
end

Class: Gliner::TextProcessor

Instance Method Summary collapse

Constructor Details

#initialize(tokenizer) ⇒ TextProcessor

Instance Method Details

#encode_pretokenized(tokens) ⇒ Object

#normalize_text(text) ⇒ Object

#split_words(text) ⇒ Object

#initialize(tokenizer) ⇒ `TextProcessor`

#encode_pretokenized(tokens) ⇒ `Object`

#normalize_text(text) ⇒ `Object`

#split_words(text) ⇒ `Object`