Blog Gestión productiva 1.1 RRPP: Scrapy

1.1. SCRAPY

Scrapy es un respaldo rápido de alto nivel de la pantalla y el marco de rastreo web, utilizado para rastrear sitios web y extraer datos estructurados de sus páginas. Se puede usar para una amplia gama de propósitos, como por ejemplo para la minería de datos, el seguimiento y la prueba automatizada u otros. Las características principales son las siguientes:

ü Simple.-Scrapy fue diseñado pensando en la simplicidad, proporcionando las características que necesita el usuario.

ü Productivo.-Solo tiene que escribir las reglas para extraer los datos de las páginas web y dejar que Scrapy rastree el sitio web

ü Rápido.-Scrapy se utiliza en los rastreadores de producción para raspar completamente más de 500 sitios de proveedores al día, todo en un solo servidor.

ü Extensible.-Proporciona varios mecanismos para conectar nuevas extensiones sin tener que alterar el framework.

ü Portable.- Scrapy está completamente escrito en Python y se ejecuta en Linux, Windows, Mac y BSD.

ü Muy completo.- Contiene extensiones para manejo de cookies, HTTP compresión, HTTP autenticación, HTTP cache, restricción de profundidad, descarga de documentos, etc.

ü Bien documentado y testeado.- Existen guías para su manejo, instalación y pruebas.

Se expone la imagen a continuacion.

S/A(09/18/2014)scrapy.Disponible en: http://4qr7k2a2xza2vctux33bisalkw.wpengine.netdna-cdn.com/wp-content/uploads/2013/09/Scrapy_logo.jpg [consultado el: 14/01/2015]

Herramienta a utilizar

Para scrapear se utilizó la herramienta Scrapy que es un framework para el rastreo de sitios web y extracción de datos estructurados que pueden ser utilizados para una amplia gama de aplicaciones, como ser data mining, procesamiento de datos o archivo histórico de información. Es necesario instalar varias herramientas adicionales como python 2.7.7, luego se instala la librería Beautifulsoup para realizar esta extracción de datos de los cursos. Esto se instaló en el sistema operativo Windows.

A continuacion el video.

Hernan Michael(11/07/2012) Scraping Web Pages with Scrapy.Disponible en: https://www.youtube.com/watch?v=1EFnX1UkXVU [consultado el:14/01/2015]

Conclusión

Cuando se quiere extraer alguna información de un sitio web, pero el sitio web no proporciona ninguna API o mecanismo para acceder a esa información mediante un programa. Con Scrapy se puede solucionar este inconveniente permitiéndonos acceder a esa información. El objetivo principal de scrapeado es extraer datos estructurados procedentes de fuentes no estructuradas, por lo general, las páginas web. Scrapy proporciona la clase ítem para este propósito. Los ítems son simples objetos contenedores utilizados para recoger estos datos.

Los pasos a seguir son los siguientes:

ü Primero se debe elegir un sitio web.

ü Definir los datos que deseas scrapear.

ü Escribir el código para extraer los datos.

ü Ejecutar el código para extraer los datos.

ü Revisar los datos scrapeados.

ü Guardar la información y emplearla para lo que se requiera

Bibliografia:

Jean (17/04/2014)contributing to scrappy. Disponible en: http://doc.scrapy.org/en/master/contributing.html [consultado el:14/01/2015]

Jonaran Herrera

Blog Gestión productiva 1.1 RRPP

miércoles, 14 de enero de 2015

Scrapy

No hay comentarios.:

Publicar un comentario