Class: Rspider::DataWasher

Inherits:

Object

Object
Rspider::DataWasher

show all

Defined in:: lib/rspider/DataWasher.rb

Instance Method Summary collapse

#getDiffRows(exampleFile, dataFile) ⇒ Object

根据文章diff的结果取回标题和内容.
#parseDir(srcDir, destDir) ⇒ Object
#parseText(exampleFile, dataFile) ⇒ Object

根据文章diff的结果取回标题和内容.
#parseTextHexun(exampleFile, dataFile) ⇒ Object

根据文章diff的结果取回标题和内容(针对和讯理财).

Instance Method Details

#getDiffRows(exampleFile, dataFile) ⇒ `Object`

根据文章diff的结果取回标题和内容.

# File 'lib/rspider/DataWasher.rb', line 4

def getDiffRows(exampleFile,dataFile)
	diff_res=%x{diff #{exampleFile} #{dataFile}}
	lines=diff_res.split("\n")
	row_id=1
	rows=[]
	cache=""
	lines.each{|l|
		if	(l[0,2] == "--")
		elsif(l[0,1] == "<")
		elsif(l[0,1] == ">")
			cache= cache + l[1,l.length]+"\n"
		else
			rows.push cache
			cache=""
		end
	}
	rows.push cache
	rows	
end

#parseDir(srcDir, destDir) ⇒ `Object`

# File 'lib/rspider/DataWasher.rb', line 24

def parseDir(srcDir,destDir)
	puts "now:parse Directory:#{srcDir}"
	files=[]
	Dir.foreach(srcDir){|f|
		files <<  f unless f == "." or f == ".."	
	}	
	l=files.length
	first=files[0]
	last=files[l-1]
	k=0
	if $ENV == "PRO" 
		files.each{|f|
			if (k==0)
				w=parseText(srcDir+last,srcDir+f) unless File.file?(destDir+f)
				open(destDir+f,"w+").puts  w unless w.nil?
			else
				w=parseText(srcDir+first,srcDir+f) unless File.file?(destDir+f)
				open(destDir+f,"w+").puts  w unless w.nil?
			end
			k=k+1
		}	
	else
		i=0
		files.each{|f|
			if (i>3)
				break
			end
			diffRows=[]
			if (k==0)
				diffRows= getDiffRows(srcDir+last,srcDir+f)
			else
				diffRows= getDiffRows(srcDir+first,srcDir+f)
			end
			puts "\n\n\n ==============Diff Rows[#{i}]================\n"
			x=0
			diffRows.each{ |l|
				puts "\n+ rows[#{x}]:\n"
				puts l
				x=x+1
			}
			k=k+1
			i=i+1
		}	
	end	
end

#parseText(exampleFile, dataFile) ⇒ `Object`

根据文章diff的结果取回标题和内容.

# File 'lib/rspider/DataWasher.rb', line 103

def parseText(exampleFile,dataFile)
	if $_SOURCE == "hexun"
		return parseTextHexun(exampleFile,dataFile)
	else
		puts "not hexun"
	end
	rows=getDiffRows(exampleFile,dataFile)
	i=0
	cur=0
	rows.each{ |l|
		if(l.length>150 )
			cur=i
			break
		end
		i=i+1
	}
	if cur==0 
		return nil
	end
	returns=""
	returns << rows[1]
	returns << "::==++\n"
	returns << rows[cur]
	returns 
end

#parseTextHexun(exampleFile, dataFile) ⇒ `Object`

根据文章diff的结果取回标题和内容(针对和讯理财)

# File 'lib/rspider/DataWasher.rb', line 71

def parseTextHexun(exampleFile,dataFile)
	rows=getDiffRows(exampleFile,dataFile)
	i=0
	cur=0
	contents=[]
	rows.each{ |l|
		if l =~ %r{\s*进入.*吧} 
			puts "got the end of content;#{l}"
			break
		end
		if l =~ %r{^\s*[\d]{1}\*}
			next
		end
		if l =~ %r{^\s*上一页\s*}
			next
		end
		if l =~ %r{^\s*下一页\s*}
			next
		end
		#if l =~ %r{^\s*第[\d]页} and l.length()<25 
		#	next
		#end
		contents.push l if i>3 
		i = i+1
	}
	returns=""
	returns << rows[1].sub("-理财频道-和讯网","")
	returns << "::==++\n"
	returns << contents.join("\n") 
	returns 
end

Class: Rspider::DataWasher

Instance Method Summary collapse

Instance Method Details

#getDiffRows(exampleFile, dataFile) ⇒ Object

#parseDir(srcDir, destDir) ⇒ Object

#parseText(exampleFile, dataFile) ⇒ Object

#parseTextHexun(exampleFile, dataFile) ⇒ Object

#getDiffRows(exampleFile, dataFile) ⇒ `Object`

#parseDir(srcDir, destDir) ⇒ `Object`

#parseText(exampleFile, dataFile) ⇒ `Object`

#parseTextHexun(exampleFile, dataFile) ⇒ `Object`