Limpiando el codigo html en mongo desde python

#!/usr/bin/python2.6
import pymongo
import re
def parseador(firma):
mongo = pymongo.Connection(‘localhost’)
mongo_db = mongo[‘crawler’]
mongo_collection = mongo_db[‘job’]
cadena = mongo_collection.find_one({‘firma’:str(firma)})
#print cadena[‘descripcion’] \s\s+
y =cadena[‘descripcion’]
y =re.sub(‘[\t\r\n\f\v]’,”,y)
y =re.sub(‘\s\s+’,”,y)
y =re.sub(‘<script[^>]*?>.*?</script>’,”,y)
y =re.sub(‘<[^>]*?>’,”,y)

#y =re.sub(‘function.*’,”,y)
mongo_document = mongo_collection.update({‘firma’:firma} , {‘$set’ : {‘descripcion’:y}})
#y=re.sub(‘function.*’,”,y)
print y

 

def recolector():
mongo = pymongo.Connection(‘localhost’)
mongo_db = mongo[‘crawler’]
mongo_collection = mongo_db[‘job’]
coleccion = mongo_collection.find()
for data in coleccion:
print data[‘firma’]
parseador(data[‘firma’])

print “tarea finalizada 🙂 ok !!!”

recolector()

e aqui un buen ejemplo de mongo db con python para limpiar cadenas como las queramos hacer 🙂

código mejorado

Anuncios
Publicado en python

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: