Class: TfIdfSimilarity::Token

Inherits:

String

Object
String
TfIdfSimilarity::Token

show all

Defined in:: lib/tf-idf-similarity/token.rb

Overview

Note:

We can add more filters from Solr and stem using Porter's Snowball.

A token.

Instance Method Summary collapse

#classic_filter ⇒ Token
Returns a string with no English possessive or periods in acronyms.
#lowercase_filter ⇒ Token
Returns a lowercase string.
#valid? ⇒ Boolean
Returns a falsy value if all its characters are numbers, punctuation, whitespace or control characters.

Instance Method Details

#classic_filter ⇒ `Token`

Returns a string with no English possessive or periods in acronyms.

Returns:

(Token) —
a string with no English possessive or periods in acronyms

#lowercase_filter ⇒ `Token`

Returns a lowercase string.

Returns:

(Token) —
a lowercase string

See Also:

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.LowerCaseFilterFactory

# File 'lib/tf-idf-similarity/token.rb', line 36

def lowercase_filter
  self.class.new(defined?(UnicodeUtils) ? UnicodeUtils.downcase(self) : tr(
    "ÀÁÂÃÄÅĀĂĄÇĆĈĊČÐĎĐÈÉÊËĒĔĖĘĚĜĞĠĢĤĦÌÍÎÏĨĪĬĮĴĶĹĻĽĿŁÑŃŅŇŊÒÓÔÕÖØŌŎŐŔŖŘŚŜŞŠŢŤŦÙÚÛÜŨŪŬŮŰŲŴÝŶŸŹŻŽ",
    "àáâãäåāăąçćĉċčðďđèéêëēĕėęěĝğġģĥħìíîïĩīĭįĵķĺļľŀłñńņňŋòóôõöøōŏőŕŗřśŝşšţťŧùúûüũūŭůűųŵýŷÿźżž"
  ).downcase)
end

#valid? ⇒ `Boolean`

Note:

Some implementations ignore one and two-letter words.

Returns a falsy value if all its characters are numbers, punctuation, whitespace or control characters.

Returns:

(Boolean) —
whether the string is a token

# File 'lib/tf-idf-similarity/token.rb', line 18

def valid?
  !self[%r{
    \A
      (
       \d           | # number
       [[:cntrl:]]  | # control character
       [[:punct:]]  | # punctuation
       [[:space:]]    # whitespace
      )+
    \z
  }x]
end

Class: TfIdfSimilarity::Token

Overview

Instance Method Summary collapse

Instance Method Details

#classic_filter ⇒ Token

#lowercase_filter ⇒ Token

#valid? ⇒ Boolean

#classic_filter ⇒ `Token`

#lowercase_filter ⇒ `Token`

#valid? ⇒ `Boolean`