Este projeto faz parte da disciplina de coleta e tratamento de dados do curso de Análise de Dados e Inteligência Artificial da UFMA. O objetivo é realizar a raspagem de dados, tratamento, normalização e transformação dos dados utilizando Python.
O projeto visa:
- Raspar dados públicos do site InfoMoney, com foco nos dados de ações.
- Tratar os dados coletados (valores faltantes, ruídos e outliers).
- Normalizar e transformar os dados para melhor compreensão.
- Garantir que a raspagem respeite os Termos de Uso e o arquivo
robots.txt
do site.
Com não ha termos de uso e somente as política de privacidade do site e não foi itentidicado nenhuma proibição do uso de Web Scraping.
O arquivo robots.txt
do InfoMoney, disponível aqui, não bloqueia o acesso às páginas públicas. Assim, a raspagem para fins acadêmicos está em conformidade.
Para executar o projeto, você precisa ter:
- Python 3.13.1 ou superior.
- Foram usadas as libs
requests
,beautifulsoup4
,pandas
,numpy
,matplotlib
,selenium
,streamlit
eplotly
.
Instale os pacotes necessários com o comando:
pip install -r requirements.txt
Clone este repositório e navegue até a pasta do projeto:
[git clone https://github.com/AbimaelAndrade/webscraping-infomoney.git](https://github.com/AbimaelAndrade/webscraping-infomoney.git)
cd webscraping-infomoney
Execute o script realizar o scraping da página e mostrar os dados no dashboad.
streamlit run app.py
Os dados foram coletados da seção pública de Altas e Baixas das Ações da Bolsa do InfoMoney, acessível aqui.
- Valores faltantes: preenchidos com a média ou valores padrão.
- Outliers: identificados e removidos com base no método IQR.
Contribuições são bem-vindas! Para contribuir:
- Faça um fork deste repositório.
- Crie uma branch:
git checkout -b sua-branch
. - Envie suas alterações:
git push origin sua-branch
. - Abra um pull request.
Este projeto é destinado apenas para fins acadêmicos e segue os Termos de Uso do InfoMoney.
Importante: O uso dos dados deve respeitar as políticas de privacidade e direitos autorais do site.