Class: DSPy::Evaluate

Inherits:

Object

Object
DSPy::Evaluate

show all

Extended by:: T::Sig

Defined in:: lib/dspy/evaluate.rb

Overview

Core evaluation framework for DSPy programs Supports single evaluations, batch evaluations, and optimization workflows

Defined Under Namespace

Classes: BatchEvaluationResult, EvaluationResult

Instance Attribute Summary collapse

#max_errors ⇒ Object readonly

Returns the value of attribute max_errors.
#metric ⇒ Object readonly

Returns the value of attribute metric.
#num_threads ⇒ Object readonly

Returns the value of attribute num_threads.
#program ⇒ Object readonly

Returns the value of attribute program.
#provide_traceback ⇒ Object readonly

Returns the value of attribute provide_traceback.

Instance Method Summary collapse

#call(example, trace: nil) ⇒ Object
#evaluate(devset, display_progress: true, display_table: false, return_outputs: true) ⇒ Object
#initialize(program, metric: nil, num_threads: 1, max_errors: 5, provide_traceback: true) ⇒ Evaluate constructor

A new instance of Evaluate.

Constructor Details

#initialize(program, metric: nil, num_threads: 1, max_errors: 5, provide_traceback: true) ⇒ `Evaluate`

Returns a new instance of Evaluate.

# File 'lib/dspy/evaluate.rb', line 129

def initialize(program, metric: nil, num_threads: 1, max_errors: 5, provide_traceback: true)
  @program = program
  @metric = metric
  @num_threads = num_threads || 1
  @max_errors = max_errors || 5
  @provide_traceback = provide_traceback
end

Instance Attribute Details

#max_errors ⇒ `Object` (readonly)

Returns the value of attribute max_errors.



115
116
117

# File 'lib/dspy/evaluate.rb', line 115

def max_errors
  @max_errors
end

#metric ⇒ `Object` (readonly)

Returns the value of attribute metric.



109
110
111

# File 'lib/dspy/evaluate.rb', line 109

def metric
  @metric
end

#num_threads ⇒ `Object` (readonly)

Returns the value of attribute num_threads.



112
113
114

# File 'lib/dspy/evaluate.rb', line 112

def num_threads
  @num_threads
end

#program ⇒ `Object` (readonly)

Returns the value of attribute program.



106
107
108

# File 'lib/dspy/evaluate.rb', line 106

def program
  @program
end

#provide_traceback ⇒ `Object` (readonly)

Returns the value of attribute provide_traceback.



118
119
120

# File 'lib/dspy/evaluate.rb', line 118

def provide_traceback
  @provide_traceback
end

Instance Method Details

#call(example, trace: nil) ⇒ `Object`

# File 'lib/dspy/evaluate.rb', line 139

def call(example, trace: nil)
  DSPy::Context.with_span(
    operation: 'evaluation.example',
    'dspy.module' => 'Evaluator',
    'evaluation.program' => @program.class.name,
    'evaluation.has_metric' => !@metric.nil?
  ) do
    begin
      # Extract input from example - support both hash and object formats
      input_values = extract_input_values(example)
      
      # Run prediction
      prediction = @program.call(**input_values)
      
      # Calculate metrics if provided
      metrics = {}
      passed = true
      
      if @metric
        begin
          metric_result = @metric.call(example, prediction)
          if metric_result.is_a?(Hash)
            metrics = metric_result
            passed = metrics[:passed] || metrics['passed'] || true
          else
            passed = !!metric_result
            metrics[:passed] = passed
          end
        rescue => e
          passed = false
          metrics[:error] = e.message
          metrics[:passed] = false
        end
      end
      
      EvaluationResult.new(
        example: example,
        prediction: prediction,
        trace: trace,
        metrics: metrics,
        passed: passed
      )
    rescue => e
      # Return failed evaluation result
      error_metrics = {
        error: e.message,
        passed: false
      }
      
      if @provide_traceback
        error_metrics[:traceback] = e.backtrace&.first(10) || []
      end
      
      EvaluationResult.new(
        example: example,
        prediction: nil,
        trace: trace,
        metrics: error_metrics,
        passed: false
      )
    end
  end
end

#evaluate(devset, display_progress: true, display_table: false, return_outputs: true) ⇒ `Object`

# File 'lib/dspy/evaluate.rb', line 212

def evaluate(devset, display_progress: true, display_table: false, return_outputs: true)
  DSPy::Context.with_span(
    operation: 'evaluation.batch',
    'dspy.module' => 'Evaluator',
    'evaluation.program' => @program.class.name,
    'evaluation.num_examples' => devset.length,
    'evaluation.has_metric' => !@metric.nil?,
    'evaluation.num_threads' => @num_threads
  ) do
    results = []
    errors = 0
    
    if display_progress
      puts "Evaluating #{devset.length} examples..."
    end
    
    devset.each_with_index do |example, index|
      break if errors >= @max_errors
      
      begin
        result = call(example)
        results << result
        
        unless result.passed
          errors += 1
        end
        
        if display_progress && (index + 1) % 10 == 0
          puts "Processed #{index + 1}/#{devset.length} examples (#{results.count(&:passed)} passed)"
        end
        
      rescue => e
        errors += 1
        puts "Error processing example #{index}: #{e.message}" if display_progress
        
        # Create error result
        error_result = EvaluationResult.new(
          example: example,
          prediction: nil,
          trace: nil,
          metrics: { error: e.message, passed: false },
          passed: false
        )
        results << error_result
      end
    end
    
    # Aggregate metrics
    aggregated_metrics = aggregate_metrics(results)
    
    batch_result = BatchEvaluationResult.new(
      results: results,
      aggregated_metrics: aggregated_metrics
    )
    
    if display_table
      display_results_table(batch_result)
    end
    
    # Emit batch completion event
    DSPy.log('evaluation.batch_complete', **{
      'evaluation.program_class' => @program.class.name,
      'evaluation.total_examples' => batch_result.total_examples,
      'evaluation.passed_examples' => batch_result.passed_examples,
      'evaluation.pass_rate' => batch_result.pass_rate,
      'evaluation.aggregated_metrics' => aggregated_metrics
    })
    
    if display_progress
      puts "Evaluation complete: #{batch_result.passed_examples}/#{batch_result.total_examples} passed (#{(batch_result.pass_rate * 100).round(1)}%)"
    end
    
    batch_result
  end
end

Class: DSPy::Evaluate

Overview

Defined Under Namespace

Instance Attribute Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize(program, metric: nil, num_threads: 1, max_errors: 5, provide_traceback: true) ⇒ Evaluate

Instance Attribute Details

#max_errors ⇒ Object (readonly)

#metric ⇒ Object (readonly)

#num_threads ⇒ Object (readonly)

#program ⇒ Object (readonly)

#provide_traceback ⇒ Object (readonly)