1.1. SCRAPY
Scrapy es un respaldo rápido de alto nivel de la
pantalla y el marco de rastreo web, utilizado para rastrear sitios web y
extraer datos estructurados de sus páginas. Se puede usar para una amplia gama
de propósitos, como por ejemplo para la minería de datos, el seguimiento y la
prueba automatizada u otros. Las características principales son las
siguientes:
ü Simple.-Scrapy fue diseñado pensando en la simplicidad, proporcionando
las características que necesita el usuario.
ü Productivo.-Solo tiene que escribir las reglas para extraer los datos
de las páginas web y dejar que Scrapy rastree el sitio web
ü Rápido.-Scrapy se utiliza en los rastreadores de producción para
raspar completamente más de 500 sitios de proveedores al día, todo en un solo
servidor.
ü Extensible.-Proporciona varios mecanismos para conectar nuevas
extensiones sin tener que alterar el framework.
ü Portable.- Scrapy está completamente escrito en Python y se ejecuta en
Linux, Windows, Mac y BSD.
ü Muy
completo.- Contiene extensiones para manejo de cookies, HTTP compresión, HTTP
autenticación, HTTP cache, restricción de profundidad, descarga de documentos,
etc.
ü Bien
documentado y testeado.- Existen guías para su manejo, instalación y pruebas.
Se expone la imagen a continuacion.
S/A(09/18/2014)scrapy.Disponible en: http://4qr7k2a2xza2vctux33bisalkw.wpengine.netdna-cdn.com/wp-content/uploads/2013/09/Scrapy_logo.jpg
[consultado el: 14/01/2015]
Herramienta a utilizar
Para scrapear se utilizó la herramienta Scrapy
que es un framework para el rastreo de sitios web y extracción de datos
estructurados que pueden ser utilizados para una amplia gama de aplicaciones,
como ser data mining, procesamiento de datos o archivo histórico de información.
Es necesario instalar varias herramientas adicionales como python 2.7.7, luego
se instala la librería Beautifulsoup para realizar esta extracción de datos de
los cursos. Esto se instaló en el sistema operativo Windows.
A continuacion el video.
Hernan Michael(11/07/2012) Scraping Web Pages with
Scrapy.Disponible en: https://www.youtube.com/watch?v=1EFnX1UkXVU
[consultado el:14/01/2015]
Conclusión
Cuando se quiere extraer alguna información de un
sitio web, pero el sitio web no proporciona ninguna API o mecanismo para
acceder a esa información mediante un programa. Con Scrapy se puede solucionar
este inconveniente permitiéndonos acceder a esa información. El objetivo
principal de scrapeado es extraer datos estructurados procedentes de fuentes no
estructuradas, por lo general, las páginas web. Scrapy proporciona la clase
ítem para este propósito. Los ítems son simples objetos contenedores utilizados
para recoger estos datos.
Los pasos a seguir son los siguientes:
ü Primero se debe
elegir un sitio web.
ü Definir los datos
que deseas scrapear.
ü Escribir el código
para extraer los datos.
ü Ejecutar el código
para extraer los datos.
ü Revisar los datos
scrapeados.
ü Guardar la
información y emplearla para lo que se requiera
Bibliografia:
Jean (17/04/2014)contributing
to scrappy. Disponible en: http://doc.scrapy.org/en/master/contributing.html [consultado el:14/01/2015]
Jonaran Herrera
No hay comentarios.:
Publicar un comentario