hero
3,339
companies
3,457
Jobs
If you are a Techstars portfolio companyclaim your profile.

AI Scraper Challenge

Zumma

Zumma

Software Engineering, Data Science
Posted on Jul 11, 2024

AI Scraper Challenge

Este ejercicio consiste en crear un script que vea la información de una pagina web y retorne los campos encontrados y los css selectors correspondientes.
Pasos
Navegar a la pagina web https://e-facturate.com/benavides/
Usando computer vision ver la información de la pagina, por ejemplo usando GPT o OCR.
Usando la información buscar por las opciones:
Numero de referencia
Monto
RFC
Fecha
Nombre
Si alguna de las opciones no se encuentra en la pagina, marcarlas como None. Mantener los nombres de las opciones como se muestran en la lista anterior.
Con la lista de opciones usar LLM u otro método para encontrar los CSS selectors correspondientes, por ejemplo:
YAML
Copy
fields: - name: Numero de referencia selector: '#referencia' - name: Monto selector: '#monto' - name: RFC selector: '#rfc' - name: Fecha selector: '#fecha' - name: Nombre selector: None
Entregables
El resultado debe ser un archivo YAML o JSON con la estructura anterior (#4)
El script debe estar escrito en Python
La navegación a la pagina debe ser hecha con Playwright (https://playwright.dev/python)
Nice to have
El script debe correr en un contenedor de Docker usando docker-compose