Class: DataKit::CSV::SchemaAnalyzer

Inherits:

Object

Object
DataKit::CSV::SchemaAnalyzer

show all

Defined in:: lib/data_kit/csv/schema_analyzer.rb

Instance Attribute Summary collapse

#csv ⇒ Object

Returns the value of attribute csv.
#keys ⇒ Object

Returns the value of attribute keys.
#sampling_rate ⇒ Object

Returns the value of attribute sampling_rate.

Class Method Summary collapse

Instance Method Summary collapse

#execute ⇒ Object
#initialize(csv, options = {}) ⇒ SchemaAnalyzer constructor

A new instance of SchemaAnalyzer.

Constructor Details

#initialize(csv, options = {}) ⇒ `SchemaAnalyzer`

Returns a new instance of SchemaAnalyzer.

# File 'lib/data_kit/csv/schema_analyzer.rb', line 8

def initialize(csv, options = {})
  @csv = csv
  @keys = options[:keys] || []
  @sampling_rate = options[:sampling_rate] || 0.1
end

Instance Attribute Details

#csv ⇒ `Object`

Returns the value of attribute csv.



4
5
6

# File 'lib/data_kit/csv/schema_analyzer.rb', line 4

def csv
  @csv
end

#keys ⇒ `Object`

Returns the value of attribute keys.



5
6
7

# File 'lib/data_kit/csv/schema_analyzer.rb', line 5

def keys
  @keys
end

#sampling_rate ⇒ `Object`

Returns the value of attribute sampling_rate.



6
7
8

# File 'lib/data_kit/csv/schema_analyzer.rb', line 6

def sampling_rate
  @sampling_rate
end

Class Method Details

.analyze(csv, options = {}) ⇒ `Object`

# File 'lib/data_kit/csv/schema_analyzer.rb', line 33

def analyze(csv, options = {})
  analyzer = new(csv,
    :keys => options[:keys],
    :sampling_rate => options[:sampling_rate]
  )

  analyzer.execute
end

.sampling_rate(file_size) ⇒ `Object`

# File 'lib/data_kit/csv/schema_analyzer.rb', line 42

def sampling_rate(file_size)
  if file_size < (1024 * 1024)
    sampling_rate = 1.0
  else
    scale_factor = 500
    sampling_rate = (scale_factor / Math.sqrt(file_size)).round(4)
  end
end

Instance Method Details

#execute ⇒ `Object`

# File 'lib/data_kit/csv/schema_analyzer.rb', line 14

def execute
  random = Random.new
  analysis = SchemaAnalysis.new(csv.headers)

  csv.each_row do |row|
    analysis.increment_total
    if random.rand <= sampling_rate
      analysis.increment_sample
      row.keys.each do |field_name|
        row[field_name].force_encoding('UTF-8')
        analysis.insert(field_name.to_s, row[field_name])
      end
    end
  end

  analysis
end

Class: DataKit::CSV::SchemaAnalyzer

Instance Attribute Summary collapse

Class Method Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize(csv, options = {}) ⇒ SchemaAnalyzer

Instance Attribute Details

#csv ⇒ Object

#keys ⇒ Object

#sampling_rate ⇒ Object

Class Method Details

.analyze(csv, options = {}) ⇒ Object

.sampling_rate(file_size) ⇒ Object

Instance Method Details

#execute ⇒ Object

#initialize(csv, options = {}) ⇒ `SchemaAnalyzer`

#csv ⇒ `Object`

#keys ⇒ `Object`

#sampling_rate ⇒ `Object`

.analyze(csv, options = {}) ⇒ `Object`

.sampling_rate(file_size) ⇒ `Object`

#execute ⇒ `Object`