O Data Safe é uma plataforma desenvolvida para automatizar o carregamento e o processamento em massa de planilhas contendo dados sensíveis, como CPFs. O foco do projeto está na performance, automação e escalabilidade no tratamento de grandes volumes de dados.
O principal objetivo foi criar uma aplicação capaz de processar mais de 100.000 CPFs de forma automatizada, com extração de dados via web scraping. Também buscamos oferecer uma interface simples para upload e download de planilhas, garantindo estabilidade e rapidez em todo o processo.
O frontend foi desenvolvido com Vite, proporcionando uma experiência leve e rápida para o usuário. No backend, utilizamos Express.js para as rotas da API, Prisma como ORM para interagir com o banco de dados, e Selenium para automação do scraping em sites externos.
A aplicação permite o upload de arquivos CSV, realiza o processamento dos dados com Selenium e disponibiliza o resultado final também em CSV, pronto para ser baixado pelo usuário.
Para garantir alta performance no processamento em lote, implementamos **multithreading**, permitindo que múltiplas instâncias do Selenium rodem em paralelo. Isso otimizou significativamente o tempo total de processamento dos dados.
Um dos principais desafios foi garantir a estabilidade e a performance durante o scraping em lote. Implementamos controle de sessões, delays configuráveis e execução paralela com multithreading para evitar bloqueios e garantir a integridade dos dados.
Também foi necessário otimizar a manipulação de arquivos grandes. Para isso, utilizamos streams no backend e validações em tempo real durante o upload, assegurando a integridade dos dados antes do processamento.