visit
Tabla de contenidos
Primero:
Para usar la plantilla, necesita instalar Octoparse en la computadora. Seleccione el modo "Task Template". Vaya a la plantilla de web scraping de Google Search en la categoría "search engine",Segundo: lee las instrucciones de la plantilla
Abre la plantilla. Consulte las instrucciones y la salida de muestra para asegurarse de que esta plantilla le proporcionará los datos que necesita. Puede pasar el cursor sobre los campos de datos para ver qué elementos de los sitios web se extraerán.Consulte los parámetros para comprender mejor lo que necesita ingresar. Los parámetros variarían en diferentes plantillas, porque necesitan diferentes términos de búsqueda para continuar. Puede ser una URL, una palabra clave, una lista de URL/palabras clave , la cantidad de páginas que desea obtener, etc. En este caso, debemos ingresar el término de búsqueda "smoothie"Tercero: Usa la plantilla y comienza datos extracción
Sigue haciendo clic en "use template", luego ingrese "smoothie" y presione "save and run". Si es una-vez proyecto, simplemente puede ejecutar el crawler en su computadora local. Mientras que, si está manejando un proyecto en curso, puede extraer datos en la plataforma de la nube de Octoparse. Después de la extracción, puede exportarla a muchos formatos, como Excel, CSV y txt.Acabamos de presentar cómo usar una plantilla de web scraping para extraer web datos de Google Search. También puede crear su propio crawler utilizando el "Modo avanzado". Es posible que necesita algunas configuraciones, pero es muy flexible en términos de extracción de datos.
Paso 1: Ingrese la URL de destino para
Si está tratando de , puede ingresar una lista de hasta 10,000 URL en el cuadro. En este caso, como solo estamos scraping solo un sitio web, peguemos la URL de destino en el cuadro y haga clic en "save URL" para continuar.Paso 2: Crea un bucle de paginación
Cambie el navegador a Firefox 45. Ahora Octoparse ha cargado la página web en el navegador incorporado con éxito. Luego, debemos crear una paginación haciendo clic en el botón de página "Next" y seleccionando "Loop click next page" en el panel de Consejos de acción. Verá el bucle de paginación que acabamos de crear en el área de flujo de trabajo.Paso 3: Extraer los datos e iniciar la extracción
Ahora podemos extraer los datos. Haga clic en el título de un resultado de búsqueda y haga clic en "select all". Después de seleccionar todos los títulos, se resaltarán en verde. Haga clic en "extract text of the selected element" para extraer todos los títulos. Hagamos una pausa por un momento para ver el flujo de trabajo. Como veis, acabamos de construir un bucle extracción dentro del ciclo de paginación. Todo el proceso de extracción funcionará de esta manera: el bot primero abrirá la página web, extraerá los títulos en la primera página uno por uno, y luego pasará a la página siguiente para repetir la extracción hasta que la extracción se detenga o se complete.Además de Google, las pueden extraer datos de muchos otros sitios web, y se utilizan ampliamente en todas las industrias. Por ejemplo, las compañías pueden extraer mapas de Yellowpages, Yelp y Google para generar oportunidades de ventas. Puede .
Previously published at //www.octoparse.es/blog/scrape-websites-sin-ser-bloqueado