UnihanLang

UnihanLang は、テキストの言語(日本語、繁体字中国語、簡体字中国語)を識別するための Ruby ライブラリです。

インストール

Gemfile に以下の行を追加してください:

gem 'unihan_lang'

そして、以下のコマンドを実行してください:

bundle install

または、直接インストールする場合は以下のコマンドを使用してください:

gem install unihan_lang

使用方法

require 'unihan_lang'

unihan = UnihanLang::Unihan.new

# 言語の判定
puts unihan.determine_language("這是繁體中文")      # => "ZH_TW"
puts unihan.determine_language("这是简体中文")      # => "ZH_CN"

# 繁体字中国語かどうかの判定
puts unihan.zh_tw?("這是繁體中文")  # => true
puts unihan.zh_tw?("这不是繁体中文")  # => false

# 簡体字中国語かどうかの判定
puts unihan.zh_cn?("这是简体中文")  # => true
puts unihan.zh_cn?("這不是簡體中文")  # => false

# テキストに中国語の文字が含まれているかの判定
puts unihan.contains_chinese?("This text contains 中文")  # => true
puts unihan.contains_chinese?("This text has no Chinese")  # => false

# テキストから中国語の文字を抽出
puts unihan.extract_chinese_characters("This text contains 中文").join  # => "中文"

注意事項

このライブラリは、テキストの言語を完全に正確に判定することを保証するものではありません。 特に、短いテキストや複数の言語が混在するテキストの場合、判定が難しい場合があります。