Class: Ragdoll::UnifiedDocumentManagement

Inherits:

Object

Object
Ragdoll::UnifiedDocumentManagement

show all

Defined in:: app/services/ragdoll/unified_document_management.rb

Overview

Unified document management service for text-based RAG system Handles the entire pipeline from document ingestion to searchable text embeddings

Defined Under Namespace

Classes: ProcessingError

Class Method Summary collapse

Instance Method Summary collapse

#add_document(file_path, **options) ⇒ Object

Add a document from file path.
#add_document_from_upload(uploaded_file, **options) ⇒ Object

Add a document from uploaded file.
#batch_process_documents(file_paths, **options) ⇒ Object

Batch processing for multiple documents.
#initialize ⇒ UnifiedDocumentManagement constructor

A new instance of UnifiedDocumentManagement.
#process_document(document_id) ⇒ Object

Process a document by ID.
#processing_stats ⇒ Object

Get processing statistics.
#reprocess_document(document_id, **options) ⇒ Object

Reprocess document with new text conversion.
#search_documents(query, **options) ⇒ Object

Search across all documents.

Constructor Details

#initialize ⇒ `UnifiedDocumentManagement`

Returns a new instance of UnifiedDocumentManagement.



21
22
23

# File 'app/services/ragdoll/unified_document_management.rb', line 21

def initialize
  @converter = Ragdoll::DocumentConverter.new
end

Class Method Details

.add_document(file_path, **options) ⇒ `Object`



9
10
11

# File 'app/services/ragdoll/unified_document_management.rb', line 9

def self.add_document(file_path, **options)
  new.add_document(file_path, **options)
end

.add_document_from_upload(uploaded_file, **options) ⇒ `Object`



13
14
15

# File 'app/services/ragdoll/unified_document_management.rb', line 13

def self.add_document_from_upload(uploaded_file, **options)
  new.add_document_from_upload(uploaded_file, **options)
end

.process_document(document_id) ⇒ `Object`



17
18
19

# File 'app/services/ragdoll/unified_document_management.rb', line 17

def self.process_document(document_id)
  new.process_document(document_id)
end

Instance Method Details

#add_document(file_path, **options) ⇒ `Object`

Add a document from file path

# File 'app/services/ragdoll/unified_document_management.rb', line 26

def add_document(file_path, **options)
  return nil unless File.exist?(file_path)

  # Determine document type
  document_type = @converter.determine_document_type(file_path)

  # Convert to text
  text_content = @converter.convert_to_text(file_path, document_type)

  # Create document
  document = create_unified_document(
    location: File.expand_path(file_path),
    document_type: document_type,
    text_content: text_content,
    **options
  )

  # Process asynchronously if requested
  if options[:async]
    process_document_async(document.id)
  else
    process_document_sync(document)
  end

  document
end

#add_document_from_upload(uploaded_file, **options) ⇒ `Object`

Add a document from uploaded file

# File 'app/services/ragdoll/unified_document_management.rb', line 54

def add_document_from_upload(uploaded_file, **options)
  # Create temporary file to process
  temp_file = nil
  begin
    temp_file = create_temp_file_from_upload(uploaded_file)
    document_type = @converter.determine_document_type(temp_file.path)
    text_content = @converter.convert_to_text(temp_file.path, document_type)

    # Create document
    document = create_unified_document(
      location: uploaded_file.original_filename || "uploaded_file",
      document_type: document_type,
      text_content: text_content,
      **options
    )

    # Process asynchronously if requested
    if options[:async]
      process_document_async(document.id)
    else
      process_document_sync(document)
    end

    document
  ensure
    temp_file&.close
    temp_file&.unlink if temp_file&.path
  end
end

#batch_process_documents(file_paths, **options) ⇒ `Object`

Batch processing for multiple documents

# File 'app/services/ragdoll/unified_document_management.rb', line 133

def batch_process_documents(file_paths, **options)
  results = []
  errors = []

  file_paths.each do |file_path|
    begin
      document = add_document(file_path, **options)
      results << document
    rescue StandardError => e
      errors << { file_path: file_path, error: e.message }
    end
  end

  {
    processed: results,
    errors: errors,
    total: file_paths.length,
    success_count: results.length,
    error_count: errors.length
  }
end

#process_document(document_id) ⇒ `Object`

Process a document by ID

# File 'app/services/ragdoll/unified_document_management.rb', line 85

def process_document(document_id)
  if defined?(Ragdoll::UnifiedDocument)
    document = Ragdoll::UnifiedDocument.find(document_id)
  else
    # Fallback to regular Document
    document = Ragdoll::Document.find(document_id)
  end

  process_document_sync(document)
end

#processing_stats ⇒ `Object`

Get processing statistics

# File 'app/services/ragdoll/unified_document_management.rb', line 165

def processing_stats
  if defined?(Ragdoll::UnifiedDocument)
    base_stats = Ragdoll::UnifiedDocument.stats
    content_stats = Ragdoll::UnifiedContent.stats
  else
    base_stats = Ragdoll::Document.stats
    content_stats = Ragdoll::Content.stats
  end

  {
    documents: base_stats,
    content: content_stats,
    processing_summary: {
      total_documents: base_stats[:total_documents],
      processed_documents: base_stats.dig(:by_status, "processed") || 0,
      total_embeddings: base_stats[:total_embeddings],
      average_processing_time: estimate_average_processing_time
    }
  }
end

#reprocess_document(document_id, **options) ⇒ `Object`

Reprocess document with new text conversion

# File 'app/services/ragdoll/unified_document_management.rb', line 97

def reprocess_document(document_id, **options)
  if defined?(Ragdoll::UnifiedDocument)
    document = Ragdoll::UnifiedDocument.find(document_id)
  else
    document = Ragdoll::Document.find(document_id)
  end

  return nil unless File.exist?(document.location)

  # Re-convert to text
  document_type = @converter.determine_document_type(document.location)
  text_content = @converter.convert_to_text(document.location, document_type, **options)

  # Update document content
  if document.respond_to?(:unified_contents)
    # Unified document approach
    if document.unified_contents.any?
      document.unified_contents.first.update!(content: text_content)
    else
      document.unified_contents.create!(
        content: text_content,
        original_media_type: document_type,
        embedding_model: "text-embedding-3-large",
        metadata: { "reprocessed_at" => Time.current }
      )
    end
  else
    # Fallback to content field
    document.content = text_content
  end

  # Reprocess
  process_document_sync(document)
end

#search_documents(query, **options) ⇒ `Object`

Search across all documents

# File 'app/services/ragdoll/unified_document_management.rb', line 156

def search_documents(query, **options)
  if defined?(Ragdoll::UnifiedDocument)
    Ragdoll::UnifiedDocument.search_content(query, **options)
  else
    Ragdoll::Document.search_content(query, **options)
  end
end

Class: Ragdoll::UnifiedDocumentManagement

Overview

Defined Under Namespace

Class Method Summary collapse

Instance Method Summary collapse

Constructor Details

#initialize ⇒ UnifiedDocumentManagement

Class Method Details

.add_document(file_path, **options) ⇒ Object

.add_document_from_upload(uploaded_file, **options) ⇒ Object

.process_document(document_id) ⇒ Object

Instance Method Details

#add_document(file_path, **options) ⇒ Object

#add_document_from_upload(uploaded_file, **options) ⇒ Object

#batch_process_documents(file_paths, **options) ⇒ Object

#process_document(document_id) ⇒ Object

#processing_stats ⇒ Object

#reprocess_document(document_id, **options) ⇒ Object

#search_documents(query, **options) ⇒ Object