Module: Rllama::Cpp

Extended by:: FFI::Library

Defined in:: lib/rllama/cpp.rb

Defined Under Namespace

Classes: LlamaBatch, LlamaChatMessage, LlamaContextParams, LlamaLogitBias, LlamaModelKvOverride, LlamaModelKvOverrideValue, LlamaModelParams, LlamaModelQuantizeParams, LlamaModelTensorBuftOverride, LlamaOptParams, LlamaPerfContextData, LlamaPerfSamplerData, LlamaSampler, LlamaSamplerChainParams, LlamaSamplerI, LlamaTokenData, LlamaTokenDataArray

Constant Summary collapse

LIB_NAME =

'llama'

PLATFORM =

case FFI::Platform::OS
when 'darwin'
  FFI::Platform::ARCH == 'aarch64' ? 'arm64-darwin' : 'x86_64-darwin'
when 'windows', 'mingw32'
  'x64-mingw32'
else
  FFI::Platform::ARCH == 'aarch64' ? 'aarch64-linux' : 'x86_64-linux'
end

PLATFORM_DIR =

File.join(__dir__, PLATFORM)

GGML_TYPE_F32 = from ggml.h (ggml_type)

GGML_TYPE_F16 =

GGML_TYPE_Q4_0 =

GGML_TYPE_Q4_1 =

GGML_TYPE_Q5_0 =

GGML_TYPE_Q5_1 =

GGML_TYPE_Q8_0 =

GGML_TYPE_Q8_1 =

GGML_TYPE_Q2_K =

GGML_TYPE_Q3_K =

GGML_TYPE_Q4_K =

GGML_TYPE_Q5_K =

GGML_TYPE_Q6_K =

GGML_TYPE_Q8_K =

GGML_TYPE_IQ2_XXS =

GGML_TYPE_IQ2_XS =

GGML_TYPE_IQ3_XXS =

GGML_TYPE_IQ1_S =

GGML_TYPE_IQ4_NL =

GGML_TYPE_IQ3_S =

GGML_TYPE_IQ2_S =

GGML_TYPE_IQ4_XS =

GGML_TYPE_I8 =

GGML_TYPE_I16 =

GGML_TYPE_I32 =

GGML_TYPE_I64 =

GGML_TYPE_F64 =

GGML_TYPE_IQ1_M =

GGML_TYPE_COUNT =

LLAMA_MAX_DEVICES =

llama_max_devices

LLAMA_DEFAULT_SEED =

0xFFFFFFFF

LLAMA_TOKEN_NULL =

-1

LLAMA_FILE_MAGIC_GGLA =

0x67676C61

LLAMA_FILE_MAGIC_GGSN =

0x6767736E

LLAMA_FILE_MAGIC_GGSQ =

0x67677371

LLAMA_SESSION_MAGIC =

LLAMA_FILE_MAGIC_GGSN

LLAMA_SESSION_VERSION =

LLAMA_STATE_SEQ_MAGIC =

LLAMA_FILE_MAGIC_GGSQ

LLAMA_STATE_SEQ_VERSION =

LLAMA_STATE_SEQ_FLAGS_SWA_ONLY =

LLAMA_VOCAB_TYPE_NONE = enum llama_vocab_type

LLAMA_VOCAB_TYPE_SPM =

LLAMA_VOCAB_TYPE_BPE =

LLAMA_VOCAB_TYPE_WPM =

LLAMA_VOCAB_TYPE_UGM =

LLAMA_VOCAB_TYPE_RWKV =

LLAMA_VOCAB_TYPE_PLAMO2 =

GGML_ROPE_TYPE_NEOX = enum llama_rope_type

GGML_ROPE_TYPE_MROPE =

GGML_ROPE_TYPE_VISION =

LLAMA_ROPE_TYPE_NONE =

-1

LLAMA_ROPE_TYPE_NORM =

LLAMA_ROPE_TYPE_NEOX =

GGML_ROPE_TYPE_NEOX

LLAMA_ROPE_TYPE_MROPE =

GGML_ROPE_TYPE_MROPE

LLAMA_ROPE_TYPE_VISION =

GGML_ROPE_TYPE_VISION

LLAMA_TOKEN_TYPE_UNDEFINED = enum llama_token_type

LLAMA_TOKEN_TYPE_NORMAL =

LLAMA_TOKEN_TYPE_UNKNOWN =

LLAMA_TOKEN_TYPE_CONTROL =

LLAMA_TOKEN_TYPE_USER_DEFINED =

LLAMA_TOKEN_TYPE_UNUSED =

LLAMA_TOKEN_TYPE_BYTE =

LLAMA_TOKEN_ATTR_UNDEFINED = enum llama_token_attr

LLAMA_TOKEN_ATTR_UNKNOWN =

1 << 0

LLAMA_TOKEN_ATTR_UNUSED =

1 << 1

LLAMA_TOKEN_ATTR_NORMAL =

1 << 2

LLAMA_TOKEN_ATTR_CONTROL =

1 << 3

LLAMA_TOKEN_ATTR_USER_DEFINED =

1 << 4

LLAMA_TOKEN_ATTR_BYTE =

1 << 5

LLAMA_TOKEN_ATTR_NORMALIZED =

1 << 6

LLAMA_TOKEN_ATTR_LSTRIP =

1 << 7

LLAMA_TOKEN_ATTR_RSTRIP =

1 << 8

LLAMA_TOKEN_ATTR_SINGLE_WORD =

1 << 9

LLAMA_FTYPE_ALL_F32 = enum llama_ftype

LLAMA_FTYPE_MOSTLY_F16 =

LLAMA_FTYPE_MOSTLY_Q4_0 =

LLAMA_FTYPE_MOSTLY_Q4_1 =

LLAMA_FTYPE_MOSTLY_Q8_0 =

LLAMA_FTYPE_MOSTLY_Q5_0 =

LLAMA_FTYPE_MOSTLY_Q5_1 =

LLAMA_FTYPE_MOSTLY_Q2_K =

LLAMA_FTYPE_MOSTLY_Q3_K_S =

LLAMA_FTYPE_MOSTLY_Q3_K_M =

LLAMA_FTYPE_MOSTLY_Q3_K_L =

LLAMA_FTYPE_MOSTLY_Q4_K_S =

LLAMA_FTYPE_MOSTLY_Q4_K_M =

LLAMA_FTYPE_MOSTLY_Q5_K_S =

LLAMA_FTYPE_MOSTLY_Q5_K_M =

LLAMA_FTYPE_MOSTLY_Q6_K =

LLAMA_FTYPE_MOSTLY_IQ2_XXS =

LLAMA_FTYPE_MOSTLY_IQ2_XS =

LLAMA_FTYPE_MOSTLY_Q2_K_S =

LLAMA_FTYPE_MOSTLY_IQ3_XS =

LLAMA_FTYPE_MOSTLY_IQ3_XXS =

LLAMA_FTYPE_MOSTLY_IQ1_S =

LLAMA_FTYPE_MOSTLY_IQ4_NL =

LLAMA_FTYPE_MOSTLY_IQ3_S =

LLAMA_FTYPE_MOSTLY_IQ3_M =

LLAMA_FTYPE_MOSTLY_IQ2_S =

LLAMA_FTYPE_MOSTLY_IQ2_M =

LLAMA_FTYPE_MOSTLY_IQ4_XS =

LLAMA_FTYPE_MOSTLY_IQ1_M =

LLAMA_FTYPE_MOSTLY_BF16 =

LLAMA_FTYPE_MOSTLY_TQ1_0 =

LLAMA_FTYPE_MOSTLY_TQ2_0 =

LLAMA_FTYPE_MOSTLY_MXFP4_MOE =

LLAMA_FTYPE_GUESSED =

LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED = enum llama_rope_scaling_type

-1

LLAMA_ROPE_SCALING_TYPE_NONE =

LLAMA_ROPE_SCALING_TYPE_LINEAR =

LLAMA_ROPE_SCALING_TYPE_YARN =

LLAMA_ROPE_SCALING_TYPE_LONGROPE =

LLAMA_ROPE_SCALING_TYPE_MAX_VALUE =

LLAMA_ROPE_SCALING_TYPE_LONGROPE

LLAMA_POOLING_TYPE_UNSPECIFIED = enum llama_pooling_type

-1

LLAMA_POOLING_TYPE_NONE =

LLAMA_POOLING_TYPE_MEAN =

LLAMA_POOLING_TYPE_CLS =

LLAMA_POOLING_TYPE_LAST =

LLAMA_POOLING_TYPE_RANK =

LLAMA_ATTENTION_TYPE_UNSPECIFIED = enum llama_attention_type

-1

LLAMA_ATTENTION_TYPE_CAUSAL =

LLAMA_ATTENTION_TYPE_NON_CAUSAL =

LLAMA_FLASH_ATTN_TYPE_AUTO = enum llama_flash_attn_type

-1

LLAMA_FLASH_ATTN_TYPE_DISABLED =

LLAMA_FLASH_ATTN_TYPE_ENABLED =

LLAMA_SPLIT_MODE_NONE = enum llama_split_mode

LLAMA_SPLIT_MODE_LAYER =

LLAMA_SPLIT_MODE_ROW =

LLAMA_KV_OVERRIDE_TYPE_INT = enum llama_model_kv_override_type

LLAMA_KV_OVERRIDE_TYPE_FLOAT =

LLAMA_KV_OVERRIDE_TYPE_BOOL =

LLAMA_KV_OVERRIDE_TYPE_STR =

GGML_NUMA_STRATEGY_DISABLED = enum ggml_numa_strategy

GGML_NUMA_STRATEGY_DISTRIBUTE =

GGML_NUMA_STRATEGY_ISOLATE =

GGML_NUMA_STRATEGY_NUMACTL =

GGML_NUMA_STRATEGY_MIRROR =

GGML_NUMA_STRATEGY_COUNT =

SILENCE_LOG_CALLBACK =

FFI::Function.new(:void, i[int string pointer], proc {})

Class Method Summary collapse

Class Method Details

.set_log(io = $stdout) ⇒ `Object`

# File 'lib/rllama/cpp.rb', line 695

def set_log(io = $stdout)
  @log_callback = FFI::Function.new(:void, i[int string pointer]) { |_level, msg, _ud| io << msg }

  llama_log_set(@log_callback, nil)
end

.silence_log! ⇒ `Object`



691
692
693

# File 'lib/rllama/cpp.rb', line 691

def silence_log!
  llama_log_set(SILENCE_LOG_CALLBACK, nil)
end