¿Qué es un scraper y web scraping?

Qué es un scraper o web scraping, dos términos diferentes pero que tendemos a confundirlos. Además hablaremos de nuevas herramientas para conocer un poco mejor las técnicas de scraping. ¡Vamos allá!.


Qué es web scraping

El web scraping es una técnica utilizada para extraer información de sitios webs a través de herramientas diseñadas específicamente para la extracción. Y, normalmente, se realizan simulando la navegación que realizaría un humando por la web.

Muchas empresas basan su negocio en estas técnicas. Por todos es sabido que Google lee información, la extrae, almacena y posteriormente, la usa para su beneficio. Básicamente, una estrategia de web scraping está compuesta por 3 fases: descarga de datos, análisis y almacenamiento de los mismos.

Los usos que se le dan a estas técnicas son muy variados. Los desarrolladores lo utilizan para ahorrar tiempo ya que no tienen que entrar en las páginas de forma manual, logearse, etc. También se pueden emplear para:

  • Extracción de datos para conocer mejor a tus clientes.
  • Extraer información de contacto.
  • Análisis de tu competencia como por ejemplo: trackeo de precios, impacto que generan…

Y muchos usos más, aunque algunos de dudosa legalidad.

Herramientas para Web Scraping

Algunas de las más usadas son:

Qué es un scraper

Los scrapers son aquellas páginas que se dedican a copiar contenidos de terceros. Se nutren de contenidos ajenos y lo plasman tan cual.

Las técnicas de scraping ofrecen contenidos relevantes del que no son autores. Lo que se traduce en un aumento del número de visitas al site y mayores ingresos por publicidad (al ser más visitado) básicamente a costa del trabajo de otros.

Penalización o pérdida potencial de posicionamiento

Hoy día muy pocas webs se libran de la duplicación de contenidos. Es común encontrarse con scrapers que tienen los contenidos mejor posicionados que la fuente original. Por ese motivo Matt Cutts alega en su twitter la denuncia de los scrapers facilitando una URL donde poder denunciarlos.

En lo que a penalización por duplicación de contenidos se refiere, en principio, tu web podría estar exenta de penalizaciones por Google Panda a no ser que tenga un alto porcentaje de contenidos registrados en otras URLs. También debemos de estar al tanto de que aunque esta técnica no desemboque en una penalización, sí que podríamos sufrir una pérdida potencial de posicionamiento.

Si por el contrario tu web ha sido penalizada por contenido duplicado, en este artículo de Turipano360 te dan las claves para recuperarte de una penalización.

Os dejo aquí esta interesante infografía donde se explica cómo un buscador determina si existe o no contenido duplicado. :)

contenido-duplicado

¿Cómo podemos denunciar ante Google a un scraper?

Google pone a nuestra disposición un formulario a través del cual podremos realizar la denuncia. Esta es su apariencia:


Con esta denuncia no sólo alertamos su presencia sino que si tu web ha sido objetivo de scrapers haces constar que tu contenido es la fuente original puesto que Google podría entender lo contrario y penalizarte siendo tu el autor del contenido.

Periodista y SEO. Autora de éste blog donde comparto mis conocimientos y curiosidades sobre SEO y Márketing Digital. Actualmente, entrepeneur en The Conservas.

Noelia

Periodista y SEO. Autora de éste blog donde comparto mis conocimientos y curiosidades sobre SEO y Márketing Digital. Actualmente, entrepeneur en The Conservas.

Artículos recomendados

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *