twitter-korean-text-ruby

Build Status Code Climate

Ruby interface to twitter-korean-text by Twitter

트위터에서 제공하는 한글 형태소 분석기인 twitter-korean-text(Scala)를 Ruby에서 사용가능하도록 Wrapping 하였습니다.

install

$ gem install twitter-korean-text-ruby

Gemfile을 사용할 경우

# Gemfile
gem 'twitter-korean-text-ruby'

Useage

require 'twitter-korean-text-ruby'

processor = TwitterKorean::Processor.new
# OR with JVM arguments
processor = TwitterKorean::Processor.new('-Xms126M', '-Xms512M', ...)

# Normalize
processor.normalize("형태소 분석을 합니닼ㅋㅋㅋㅋㅋㅋ")
# => "형태소 분석을 합니다ㅋㅋㅋㅋㅋㅋ"

# Tokenize
tokens = proccessor.tokenize("한국어를 처리하는 예시입니다 ㅋㅋ")
puts tokens
# => ["한국어", "를", " ", "처리", "하는", " ", "예시", "입니", "다", " ", "ㅋㅋ"]

# metadata of token, 토큰에 대한 정보
 = tokens.first.
matadata #=> "noun, 0, 3"
.pos #=> :noun
.offset #=> 0
.length #=> 3

# Stemming
tokens = proccessor.stem("한국어를 처리하는 예시입니다 ㅋㅋ")
puts tokens
# => ["한국어", "를", " ", "처리", "하다", " ", "예시", "이다", " ", "ㅋㅋ"]

# extract phrases
tokens = proccessor.stem("한국어를 처리하는 예시입니다 ㅋㅋ")
puts tokens
# => ["한국어", "처리", "처리하는 예시", "예시"]

Test

rake test

Issue

JAVA Path를 찾지 못했을 경우,

export JAVA_HOME=$(java_home_path)

### Contribute
이 프로젝트는 [twitter-korean-text](https://github.com/twitter/twitter-korean-text) 프로젝트의 Scala 코드를 Ruby로 Wrapping하는 프로젝트입니다.
관련된 범주에 대한 Issue와 Pull Request(테스트 코드가 포함된)는 언제나 환영입니다.