Class: TfIdfSimilarity::Token

Inherits:

SimpleDelegator

Object
SimpleDelegator
TfIdfSimilarity::Token

show all

Defined in:: lib/tf-idf-similarity/token.rb

Instance Method Summary collapse

#classic_filter ⇒ Token
Returns a string with no English possessive or periods in acronyms.
#lowercase_filter ⇒ Token
Returns a lowercase string.
#to_s ⇒ Object
#valid? ⇒ Boolean
Returns a falsy value if all its characters are numbers, punctuation, whitespace or control characters.

Instance Method Details

#classic_filter ⇒ `Token`

Returns a string with no English possessive or periods in acronyms.

Returns:

(Token) —
a string with no English possessive or periods in acronyms

#lowercase_filter ⇒ `Token`

Returns a lowercase string.

Returns:

(Token) —
a lowercase string

#to_s ⇒ `Object`

# File 'lib/tf-idf-similarity/token.rb', line 53

def to_s
  # Don't call #lowercase_filter and #classic_filter to avoid creating unnecessary objects.
  UnicodeUtils.downcase(self).gsub('.', '').sub(/['`’]s\z/, '')
end

#valid? ⇒ `Boolean`

Note:

Some implementations ignore one and two-letter words.

Returns a falsy value if all its characters are numbers, punctuation, whitespace or control characters.

Returns:

(Boolean) —
whether the string is a token

# File 'lib/tf-idf-similarity/token.rb', line 22

def valid?
  !self[%r{
    \A
      (
       \d           | # number
       [[:cntrl:]]  | # control character
       [[:punct:]]  | # punctuation
       [[:space:]]    # whitespace
      )+
    \z
  }x]
end

Class: TfIdfSimilarity::Token

Instance Method Summary collapse

Instance Method Details

#classic_filter ⇒ Token

#lowercase_filter ⇒ Token

#to_s ⇒ Object

#valid? ⇒ Boolean

#classic_filter ⇒ `Token`

#lowercase_filter ⇒ `Token`

#to_s ⇒ `Object`

#valid? ⇒ `Boolean`