Class: DiscourseAi::Tokenizer::BasicTokenizer

Inherits:

Object

Object
DiscourseAi::Tokenizer::BasicTokenizer

show all

Defined in:: lib/discourse_ai/tokenizer/basic_tokenizer.rb

Overview

Base class for tokenizers to inherit from

Direct Known Subclasses

AllMpnetBaseV2Tokenizer, AnthropicTokenizer, BertTokenizer, BgeLargeEnTokenizer, BgeM3Tokenizer, GeminiTokenizer, Llama3Tokenizer, MistralTokenizer, MultilingualE5LargeTokenizer, OpenAiTokenizer, QwenTokenizer

Class Method Summary collapse

Class Method Details

.available_llm_tokenizers ⇒ `Object`

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 8

def available_llm_tokenizers
  [
    DiscourseAi::Tokenizer::AnthropicTokenizer,
    DiscourseAi::Tokenizer::GeminiTokenizer,
    DiscourseAi::Tokenizer::Llama3Tokenizer,
    DiscourseAi::Tokenizer::MistralTokenizer,
    DiscourseAi::Tokenizer::OpenAiTokenizer,
    DiscourseAi::Tokenizer::QwenTokenizer
  ]
end

.below_limit?(text, limit, strict: false) ⇒ `Boolean`

Returns:

(Boolean)

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 60

def below_limit?(text, limit, strict: false)
  # fast track common case, /2 to handle unicode chars
  # than can take more than 1 token per char
  return true if !strict && text.size < limit / 2

  tokenizer.encode(text).ids.length < limit
end

.decode(token_ids) ⇒ `Object`



31
32
33

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 31

def decode(token_ids)
  tokenizer.decode(token_ids)
end

.encode(tokens) ⇒ `Object`



35
36
37

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 35

def encode(tokens)
  tokenizer.encode(tokens).ids
end

.size(text) ⇒ `Object`



27
28
29

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 27

def size(text)
  tokenize(text).size
end

.tokenize(text) ⇒ `Object`



23
24
25

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 23

def tokenize(text)
  tokenizer.encode(text).tokens
end

.tokenizer ⇒ `Object`

Raises:

(NotImplementedError)



19
20
21

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 19

def tokenizer
  raise NotImplementedError
end

.truncate(text, max_length, strict: false) ⇒ `Object`

# File 'lib/discourse_ai/tokenizer/basic_tokenizer.rb', line 39

def truncate(text, max_length, strict: false)
  return "" if max_length <= 0

  # fast track common case, /2 to handle unicode chars
  # than can take more than 1 token per char
  return text if !strict && text.size < max_length / 2

  # Take tokens up to max_length, decode, then ensure we don't exceed limit
  truncated_tokens = tokenizer.encode(text).ids.take(max_length)
  truncated_text = tokenizer.decode(truncated_tokens)

  # If re-encoding exceeds the limit, we need to further truncate
  while tokenizer.encode(truncated_text).ids.length > max_length
    truncated_tokens = truncated_tokens[0...-1]
    truncated_text = tokenizer.decode(truncated_tokens)
    break if truncated_tokens.empty?
  end

  truncated_text
end

Class: DiscourseAi::Tokenizer::BasicTokenizer

Overview

Direct Known Subclasses

Class Method Summary collapse

Class Method Details

.available_llm_tokenizers ⇒ Object

.below_limit?(text, limit, strict: false) ⇒ Boolean

.decode(token_ids) ⇒ Object

.encode(tokens) ⇒ Object

.size(text) ⇒ Object

.tokenize(text) ⇒ Object

.tokenizer ⇒ Object

.truncate(text, max_length, strict: false) ⇒ Object

.available_llm_tokenizers ⇒ `Object`

.below_limit?(text, limit, strict: false) ⇒ `Boolean`

.decode(token_ids) ⇒ `Object`

.encode(tokens) ⇒ `Object`

.size(text) ⇒ `Object`

.tokenize(text) ⇒ `Object`

.tokenizer ⇒ `Object`

.truncate(text, max_length, strict: false) ⇒ `Object`