Skip to content

Commit

Permalink
Merge pull request turing-usp#1 from turing-usp/bandits
Browse files Browse the repository at this point in the history
Adiciona Tarefa 1 - Bandits
  • Loading branch information
Berbardo authored Jul 29, 2021
2 parents 8f389bb + b1ab363 commit 14d9918
Show file tree
Hide file tree
Showing 5 changed files with 576 additions and 2 deletions.
3 changes: 3 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -137,6 +137,9 @@ dmypy.json
# pytype static type analyzer
.pytype/

# vscode
.vscode

# End of https://www.toptal.com/developers/gitignore/api/python

# Custom rules (everything added below won't be overriden by 'Generate .gitignore File' if you use 'Update' option)
8 changes: 6 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,10 +8,14 @@ O projeto será dividido em duas partes:

<img src="img/tarefa1.png" width="100%" />

> descrição aqui
Nessa primeira etapa do projeto você, construirá um agente simples de Aprendizado por Reforço para entender um pouco melhor os principais conceitos da área aplicados em algum tipo de código. Aqui você aprenderá sobre o que é o clássico problema dos *k*-Armed Bandits, como conseguir estimar valores para determinada ações com base na recompensa, como selecionar ações com esse maior valor estimado e como conseguir explorar o ambiente para que o agente descubra novas ações. Você também aprenderá como treinar esse agentes criados.

Para isso, recomendamos nosso **[📰 Turing Talks](https://medium.com/turing-talks/sua-primeira-ia-o-problema-dos-k-armed-bandits-cc63732567b2)** sobre e também a nossa implementação dele no nosso **[🎰 Repositório](https://github.com/turing-usp/Aprendizado-por-Reforco/tree/main/Aprendizado%20por%20Refor%C3%A7o%20Cl%C3%A1ssico/Bandits)**.

Comece agora mesmo acessando o notebook da [Tarefa 1 - Bandits](Tarefa%201%20-%20Bandits.ipynb)!

<img src="img/tarefa2.png" width="100%" />

Na segunda parte do projeto, você deverá implementar e comparar diferentes algoritmos de Aprendizado por Reforço Profundo utilizando a biblioteca [Stable Baselines 3](https://stable-baselines3.readthedocs.io/en/master/).

Este repositório já contém um tutorial simples de como utilizar a biblioteca, que você pode conferir **[aqui](Tutorial%20-%20Stable%20Baselines.ipynb)**!
Este repositório já contém um tutorial simples de como utilizar a biblioteca, que você pode conferir **[aqui](Tutorial%20-%20Stable%20Baselines.ipynb)**!
Loading

0 comments on commit 14d9918

Please sign in to comment.