Cómo utilizar ChatGPT para web scraping mediante complementos e intérprete de código

Una guía detallada para el web scraping utilizando ChatGPT Code Interpreter y sus complementos.

Si no le gusta crear alguna novedad, es probable que necesite información previa para comenzar. O tal vez quieras buscar en la competencia aportes valiosos. Además, puede haber innumerables razones para que alguien esté interesado en el contenido de un sitio web específico.

El web scraping es el proceso que sirve para tales casos de uso.

Y hay algunas maneras de hacerlo. Existen herramientas pesadas a las que puede suscribirse para realizar un scraping profesional de sitios web grandes. Alternativamente, es posible que necesite una configuración específica para el procesamiento local.

De cualquier manera, el enfoque es costoso, consume mucho tiempo y es tedioso para los principiantes, especialmente cuando se trata de extraer algunas páginas web.

Descripción general de ChatGPT para Web Scraping

Se supone que no debo presentarte ChatGPT. ¿Lo soy?

En resumen, ChatGPT es una IA generativa que responde como humanos. Obtiene una interfaz de chat para pedirle que complete diversas tareas, como consultar sobre eventos históricos, escribir ensayos, resumir, traducir, codificar, etc.

ChatGPT responde en texto. Sin embargo, existen complementos de ChatGPT que mejoran sus capacidades de muchas maneras. Y usaremos uno de esos complementos. Además, usaremos su intérprete de código para raspar sitios web que tengan estructuras de páginas web complicadas o con protocolos anti-scraping activos.

Tenga en cuenta que ChatGPT tiene versiones gratuitas y de pago. Pero necesitarás la suscripción paga (actualmente, $20 al mes) para usar el complemento web scraper o su motor Code Interpreter.

En secciones posteriores, ilustraré el proceso paso a paso.

Descargo de responsabilidad: antes de continuar, confirme que el sitio web en cuestión permite extraer su contenido. De lo contrario, puede comunicarse con su administrador y ver si lo permiten para evitar problemas legales.

Web scraping usando el complemento ChatGPT

Inicie sesión en su Cuenta abierta AIcoloca el cursor sobre GPT-4 (su versión paga actual) y haz clic en Complementos.

A continuación, haga clic en No hay complementos habilitados, desplácese hacia abajo y haga clic en Tienda de complementos.

Tenga en cuenta que en lugar de No hay complementos habilitados, tendrá un ícono de complemento si hay uno activo. En ese caso, debe hacer clic en ese ícono para abrir el menú desplegable y hacer clic en la tienda de complementos en la parte inferior.

Esto abrirá la tienda de complementos. Busque Scraper y presione Instalar.

Seleccione este complemento en la interfaz ChatGPT.

Una vez seleccionado esto, se debe solicitar ChatGPT, mencionando la URL del asunto y el contenido para raspar.

He hecho esto para algunos sitios web. Mira esto.

Raspado de una publicación

Somos una publicación centrada en la tecnología y he elegido nuestra página de inicio, kirukiru.es.com/, para esta ilustración.

Aquí está el mensaje:

check this webpage: https://kirukiru.es.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

También se puede volver a solicitar que se conviertan los datos al formato CSV, pegarlos en un archivo de texto con extensión .csv y abrirlo en una aplicación de hoja de cálculo como MS Excel.

Eliminación de una página web de ofertas o cupones

La sección de ofertas de kirukiru.es es donde hemos seleccionado algunas ofertas sobre proyectos de alta tecnología. ¿Qué tal buscar cada trato en formato tabular?

Prepare a list of deals from this webpage: https://kirukiru.es.com/deals/. present the result in a tabular format.

Raspado de Wikipedia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Raspado de tiendas de comercio electrónico

Por último, intenté eliminar Amazon.com para las computadoras portátiles aplicando algunos filtros y enviando la URL a ChatGPT. Esto es lo que conseguí:

El problema es que este no es un caso único. Encontrará muchos casos de este tipo en los que los sitios web tienen medidas anti-scraping. En esta situación, necesitará encontrar una alternativa para obtener los datos si suscribirse a raspadores estándar de la industria no es una opción.

Las siguientes secciones abordan una de esas soluciones.

Web Scraping utilizando el intérprete de código ChatGPT

Code Interpreter es un motor ChatGPT recientemente lanzado para atender tareas relacionadas con la programación. Si bien el motor predeterminado depende en gran medida de respuestas de texto, Code Interpreter puede ayudar a visualizar resultados, analizar, depurar y ejecutar código, integrarse con archivos binarios de software y hacer muchas más cosas centradas en la programación.

En este proceso, descargaremos el HTML fuente, lo subiremos al intérprete de código ChatGPT y procederemos con el raspado.

He tomado esta página para la extracción:

Comenzaremos guardando la página web como HTML. Para eso, vaya a la página web y presione Ctrl+S.

Ahora tenemos el archivo para raspar. Averigüemos el mensaje.

Además del mensaje de texto, puede ver que le he proporcionado elementos de muestra para acelerar el raspado. Dado que las estructuras de las páginas web de Amazon son complejas, sin estas muestras, el intento de raspado podría fallar o no resultar en nada.

Y conseguir estos elementos es bastante fácil. Haga clic derecho en cualquier lugar de la página web en cuestión y haga clic en Inspeccionar en la ventana emergente.

Primero, haga clic en el icono superior (marcado como 1). Esto resaltará los detalles mientras selecciona elementos de la página. A continuación, seleccione el elemento contenedor para cualquier producto específico.

Asegúrese de seleccionar el contenedor más interno. Puede pasar el cursor y seguirá resaltando. En el momento en que obtenga el último caparazón que cubre ese bloque, puede hacer clic e ir al lado derecho para copiar la clase div del elemento.

De manera similar, seleccione las muestras para otros elementos.

Finalmente, suba el HTML y aparecerá un mensaje similar a este:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Esto llevará algún tiempo mientras ChatGPT Code Interpreter hace su trabajo. Tendrá algunos detalles, mientras que todo estará en el archivo CSV incrustado.

Puede observar que la tabla tiene algunas entradas que no están presentes en la página web original, especialmente al principio. En tales casos, es necesario volver a verificar y limpiar los datos para detectar posibles redundancias.

Si hay alguno, puede volver a solicitar a ChatGPT que obtenga un CSV limpio.

Pensamientos finales

ChatGPT hace muchas cosas y el web scraping básico es una de ellas. De acuerdo, puede que no sea adecuado para alguien que revisa cientos de páginas. Aún así, lo ayudará a comenzar en la dirección correcta y es ideal para una breve sesión de raspado.

En esta guía, hemos utilizado uno de sus complementos de raspado y Code Interpreter. Si bien los complementos funcionan en muchos sitios web estándar, el segundo método es para estructuras de páginas web personalizadas o si la página tiene elementos dinámicos (desplazamiento sin fin, leer más, etc.).

Y para reiterar, lea los términos del sitio web en cuestión antes de eliminarlos.

PD: consulte estas soluciones de raspado en la nube y nuestra propia API de raspado kirukiru.es.