计算机视觉实战演练：算法与应用 ^📌
Computer Vision in Action

"如果你只是看了这个项目的在线文档，那么你并没有利用好这个项目。太可惜！"

✨ 以用促学，先会后懂 ✨

L0CV ^🔊 一种结合了代码、图示和HTML的在线学习媒介

全面 前沿 免费

计算机视觉实战演练：算法与应用 ^📌
Computer Vision in Action

作者：张伟（Charmve）

跨平台，只需一个浏览器即可！

👉 在线阅读（优先更新实战篇和进阶篇）
- 地址：https://charmve.github.io/computer-vision-in-action/

最新版PDF下载
- 地址：https://github.com/charmve/computer-vision-in-action/releases (马上来 ...)

分享到

Index

💠 全书组织
🌈 愿景
📘 本书目录
🔍 文件浏览
🌼 L0CV-DemoDay
🔑 如何食用
❓ 常见问题
👥 社区互助
❤️ 致谢
📄 LICENSE
👐 参与项目
🤝 关注我们
📎 Citation

🏷️ sec_code 图1 L0CV 结构图

💠 全书组织

🏷️ fig_book_org

全书详细思维导图

本书详细介绍，请移步序言。

第一部分包括基础知识和预备知识。提供深度学习的入门课程，然后在理论篇中，将快速向你介绍实践计算机视觉所需的前提条件，例如如何存储和处理数据，以及如何应用基于线性代数、微积分和概率基本概念的各种数值运算，涵盖了深度学习的最基本概念和技术，例如线性回归、多层感知机和正则化。
第二部分是本书涉及的计算机视觉基础理论，核心部分为神经网络模型，包括神经网络、卷积神经网络、循环神经网络理论讲解，以图像分类、模型拟合与优化作为其代码的实战项目。在模型拟合和优化章节中，着重分享梯度下降、随机梯度下降、动量法、AdaBoost等方法。
接下来的七章集中讨论现代计算机视觉技术实战，也是本书的核心部分。围绕这样的组织逻辑：什么是计算机视觉？计算机视觉解决什么问题，都是怎么解决的？传统方法——以卷积神经网络为中心的神经网络；现代方法——Transformer、强化学习、迁移学习、生成对抗等。各种方法是如何实现的，用到了什么框架？在第7章中，描述了计算机视觉的经典卷积神经网络PyTorch实现，并为我们随后实现更复杂的模型奠定了基础。在随后的几个章节中，我们主要解决图像分类、目标检测、语义分割、3D重建等实际问题，并给出实战项目。
该部分以项目为实战指导，给出详细的项目指导书和代码实现，更为特别的是，给出了notebook可以直接在线运行，跑通结果，免去了本地运行环境的搭建复杂性。于此同时，为了方便读者在本地调试，作者建立了一个名为 L0CV 的第三方包，可以直接在代码中 import L0CV 后使用。
第三部分讨论最近几年出现的“网红”模型，诸如：Transformer、Attention、知识蒸馏、迁移学习、生成对抗模型等。这部分也是此份资料的力挺之作。最后，在 chap_optimization 中，我们讨论了用于训练深度学习模型的几种常用优化算法，如：模型压缩、模型剪枝、微调、蒸馏等。

Index

🌈 愿景

本开源项目代表了我们的一种尝试：我们将教给读者概念、背景知识和代码；我们将在同一个地方阐述剖析问题所需的批判性思维、解决问题所需的数学知识，以及实现解决方案所需的工程技能。

我们的目标是创建一个为实现以下目标的统一资源：

所有人均可在网上免费获取；
提供足够的技术深度，从而帮助读者实际成为计算机视觉应用科学家：既理解数学原理，又能够实现并不断改进方法；
包含可运行的代码，为读者展示如何在实际中解决问题。这样不仅直接将数学公式对应成实际代码，而且可以修改代码、观察结果并及时获取经验；
允许我们和整个社区不断快速迭代内容，从而紧跟仍在高速发展的计算机视觉领域；
由包含有关技术细节问答的论坛作为补充，使大家可以相互答疑并交换经验。

Index

📘 本书目录

👉 在线阅读（优先更新实战篇和进阶篇）
- 地址：https://charmve.github.io/computer-vision-in-action/

📘 详细目录(点击展开)

序言
主要符号表
绪论篇
- 第 0 章计算机视觉概述
  - 0.1 概述
    - 0.1.1 什么是计算机视觉
    - 0.1.2 计算机视觉解决什么问题
    - 0.1.3 行业应用
  - 0.2 计算机视觉基本概念
  - 0.3 发展历史回顾
  - 0.4 典型的计算机视觉任务
    - 图像分类
    - 目标识别与目标检测
    - 实例分割与语义分割
    - 3D 建模
  - 0.5 国内外优秀的计算机视觉团队汇总
  - 小练习
  - 小结
  - 参考文献
理论篇
- 第 1 章神经网络
  - 1.1 线性回归
    - 1.1.1 基本原理
    - 1.1.2 从零实现线性回归
    - 1.1.3 线性回归的简洁实现
  - 1.2 Softmax 回归
    - 1.2.1 softmax回归模型
    - 1.2.2 从零开始实现softmax回归
    - 1.2.3 softmax回归的简洁实现
  - 1.3 多层感知器
    - 1.3.1 基本原理
    - 1.3.2 从零开始实现多层感知器
    - 1.3.3 多层感知器的简洁实现
  - 1.4 反向传播算法
  - 1.5 神经网络
    - 1.5.1 神经学观点
    - 1.5.2 神经网络1-建立神经网络架构
    - 1.5.3 神经网络2-设置数据和损失
    - 1.5.4 神经网络3-学习和评估
    - 1.5.5 案例分析-最小神经网络案例研究
  - 1.6 实战项目 1 - 手写字分类
  - 小结
  - 参考文献
- 第 2 章卷积神经网络
  - 2.1 从神经网络到卷积神经网络
    - 2.1.1 定义
    - 2.1.2 卷积神经网络的架构
  - 2.2 卷积网络的层级结构
    - 2.2.1 数据输入层
    - 2.2.2 卷积计算层
    - 2.2.3 非线性层（或激活层）
    - 2.2.4 池化层
    - 2.2.5 全连接层
  - 2.3 卷积神经网络的几点说明
  - 2.4 实战项目 2 - 动手搭建一个卷积神经网络
  - 小结
  - 参考文献
- 第 3 章图像分类
  - 3.1 数据驱动方法
    - 3.1.1 语义上的差别
    - 3.1.2 图像分类任务面临着许多挑战
    - 3.1.3 数据驱动的方法
  - 3.2 k 最近邻算法
    - 3.2.1 k 近邻模型
    - 3.2.2 k 近邻模型三个基本要素
    - 3.2.3 KNN算法的决策过程
    - 3.2.4 k 近邻算法Python实现
    - 小结
    - 参考文献
  - 3.3 支持向量机
    - 3.3.1 概述
    - 3.3.2 线性支持向量机
    - 3.3.3 从零开始实现支持向量机
    - 3.3.4 支持向量机的简洁实现
  - 3.4 逻辑回归 LR
    - 3.4.1 逻辑回归模型
    - 3.4.2 从零开始实现逻辑回归
    - 3.4.3 逻辑回归的简洁实现
  - 3.5 实战项目 3 - 表情识别
  - 3.6 实战项目 4 - 使用卷积神经网络对CIFAR10图片进行分类
  - 小结
  - 参考文献
- 第 4 章循环神经网络
  - 4.1 循环神经网络 RNN
  - 4.2 循环神经网络的从零开始实现
  - 4.3 循环神经网络的简洁实现
  - 4.4 长短期记忆人工神经网络 LSTM
  - 4.5 门控循环单元（GRU）
  - 小结
  - 练习
  - 参考文献
- 第 5 章图神经网络
  - 5.1 历史脉络
  - 5.2 图神经网络(Graph Neural Network)
    - 5.2.1 状态更新与输出
    - 5.2.2 不动点理论
    - 5.2.3 具体实现
    - 5.2.4 模型学习
    - 5.2.5 GNN与RNN
    - 5.2.6 GNN的局限
  - 5.3 门控图神经网络(Gated Graph Neural Network)
    - 5.3.1 状态更新
    - 5.3.2 实例1:到达判断
    - 5.3.3 实例2:语义解析
    - 5.3.4 GNN与GGNN
  - 5.4 图卷积神经网络(GCNN)
    - 5.4.1 图卷积缘起
    - 5.4.2 图卷积框架(Framework)
    - 5.4.3 再谈卷积
    - 5.4.4 空域卷积(Spatial Convolution)
    - 5.4.5 消息传递网络(Message Passing Neural Network)
    - 5.4.6 图采样与聚合(Graph Sample and Aggregate)
    - 5.4.7 图结构序列化(PATCHY-SAN)
    - 5.4.8 频域卷积(Spectral Convolution)
  - 5.5 生成图表示
    - 5.5.1 图读出操作(ReadOut)
    - 5.5.2 基于统计的方法(Statistics Category)
    - 5.5.3 基于学习的方法(Learning Category)
    - 5.5.4 其他方法
  - 5.6 图神经网络在计算机视觉上的应用
    - 5.6.1 点云分割
    - 5.6.2 点云生成
    - 5.6.3 RGBD图像分割
    - 5.6.4 视觉问答VQA
    - 5.6.5 零次学习ZSL
  - 小结
  - 参考文献
- 第 5 章模型选择、欠拟合和过拟合
  - 5.1 训练误差和泛化误差
  - 5.2 模型选择
  - 5.3 欠拟合和过拟合
  - 5.4 多项式函数拟合实验
  - 5.5 数值稳定性和模型初始化
  - 小结
  - 参考文献
- 第 6 章模型拟合与优化算法
  - 6.1 优化与深度学习
  - 6.2 梯度下降和随机梯度下降
  - 6.3 小批量随机梯度下降
  - 6.4 动量法
  - 6.5 AdaGrad算法
  - 6.6 RMSProp算法
  - 6.7 AdaDelta算法
  - 6.8 Adam算法
  - 小结
  - 参考文献
实战篇
- 第 6 章软件环境搭建与工具使用
  - 6.1 深度学习环境搭建指南
  - 6.2 Pytorch 基础使用介绍
    - 6.2.1 Tensors
    - 6.2.2 Operations
    - 6.2.3 Numpy桥梁
    - 6.2.4 CUDA Tensors
  - 6.3 Python
  - 6.4 Numpy 基础使用
  - 6.5 Pandas 基础使用
  - 6.6 OpenCV 安装及基础使用
  - 6.7 Jupyter Notebook 配置及基础使用
  - 6.8 基本的图像操作和处理
    - 6.8.1 PIL：Python图像处理类库
    - 6.8.2 Matplotlib
    - 6.8.3 NumPy
    - 6.8.4 SciPy
    - 6.8.5 高级示例：图像去噪
  - 6.9 实战项目 5 - 使用OpenCV进行图像全景拼接
  - 小结
  - 参考文献
- 第 7 章经典卷积神经网络架构：原理与PyTorch实现
  - 7.1 卷积神经网络（LeNet）
  - 7.2 深度卷积神经网络（AlexNet）
  - 7.3 使用重复元素的网络（VGG）
  - 7.4 含并行连结的网络（GoogLeNet）
  - 7.5 残差网络（ResNet）
  - 7.6 二阶网络编码解码（U-Net）
  - 7.7 稠密连接网络（DenseNet）
  - 7.8 语义分割网络（SegNet）
  - 7.9 实例分割网络（Mask-RCNN）
  - 7.10 区域卷积神经网络（R-CNN）
  - 7.11 全卷积网络（FCN）
  - 7.12 YOLO: 实时目标检测
  - 小结
  - 参考文献
- 第 8 章著名数据集及基准
  - 8.1 数据集
    - 8.1.1 常见数据集
      - 8.1.1.1 ImageNet
      - 8.1.1.2 MNIST
      - 8.1.1.3 COCO
      - 8.1.1.4 CIFAR-10
    - 8.1.2 Pytorch数据集及读取方法简介
    - 8.1.3 数据增强简介
    - 总结
  - 8.2 基准测试
  - 8.3 评价指标
  - 8.4 实战项目 6 - Kaggle比赛：图像分类（CIFAR-10）
  - 8.5 实战项目 7 - Kaggle比赛：狗的品种识别（ImageNet Dogs）
  - 小结
  - 参考文献
- 第 9 章检测与分割实战项目
  - 9.1 语义分割
    - 9.1.1 语义分割 PyTorch 版
    - 9.1.2 实战项目 8 - 基于PolarNet的点云端到端语义分割项目实战
  - 9.2 目标检测
    - 9.2.1 常用网络
    - 9.2.2 实战项目 9 - 基于PyTorch的YOLO5目标检测项目实战
  - 9.3 实例分割
    - 9.3.1 常用网络
    - 9.3.2 实战项目 10 - 实时高分辨率背景抠图
    - 9.3.3 新方法：滑动窗口, PointRend, PolarMask
  - 小结
  - 参考文献
- 第 10 章计算机视觉课题研究初探
  - 10.1 手写字识别
  - 10.2 文本检测
  - 10.3 车道线检测
    - 10.3.1 常用网络
    - 10.3.2 实战项目 11 - 车道线检测项目实战
  - 10.4 镜面检测
  - 10.5 图像抠图 Matting
  - 10.6 图像超分辨率
  - 10.7 3D 重建
  - 小结
  - 参考文献
进阶篇
- 第 11 章可视化和理解卷积神经网络
  - 11.1 特征可视化
  - 11.2 倒置
  - 11.3 可视化数据梯度
  - 11.4 Embeddings
  - 11.5 对抗样本
  - 11.6 DeepDream 和风格迁移
  - 11.7 实战项目 12: PyTorch 如何使用TensorBoard
    - 11.4.1 创建 TensorBoard
    - 11.4.2 写入 TensorBoard
    - 11.4.3 使用 TensorBoard 检查模型
    - 11.4.4 向 TensorBoard 添加 "Projector"
    - 11.4.5 使用 TensorBoard 跟踪模型训练
    - 11.4.6 使用 TensorBoard 评估训练好的模型
    - 11.4.7 案例总结
  - 小结
  - 参考文献
- 第 12 章生成对抗模型
  - 12.1 Pixel RNN/CNN
  - 12.2 自编码器 Auto-encoder
  - 12.3 生成对抗网络 GAN
    - 12.3.1 概述
    - 12.3.2 GAN的基本思想
    - 12.3.3 GAN浅析
      - 12.3.3.1 GAN的基本结构
      - 12.3.3.2 GAN的训练方式
        
        关于生成器
        
        关于判别器
        
        如何训练
    - 12.3.4 训练相关理论基础
    - 12.3.5 项目实战案例StyleGAN
      - StyleGAN
      - StyleGAN 2.0
    - 12.3.6 实战项目11 - 图像风格迁移
    - 小结
    - 参考文献
  - 12.4 变分自编码器 Variational Auto-encoder, VAE
    - 12.4.1 概述
    - 12.4.2 基本原理
      - 12.4.2.1 定义
      - 12.4.2.2 理论基础：三要素
      - 12.4.2.3 推导过程
    - 12.4.3 VAE v.s. AE 区别与联系
    - 12.4.4 变分自编码器的代码实现
    - 12.4.5 卷积变分自编码器的实现与简单应用
    - 12.4.6 实战项目 13 - 旧照片修复
    - 小结
    - 参考文献
  - 参考文献
- 第 13 章深度增强学习
  - 13.1 引言-如何解决通用人工智能的难点
  - 13.2 什么是深度增强学习
    - 13.2.1 深度学习
    - 13.2.2 增强学习
    - 13.2.3 二者的融合
  - 13.3 怎么利用深度增强学习解决问题
    - 13.3.1 Policy-based DRL
    - 13.3.2 Value-based DRL
    - 13.3.3 Model-based DRL
  - 13.4 深度增强学习在计算机视觉中的应用
  - 小结
  - 参考文献
- 第 14 章视频理解
  - 14.1 概述
  - 14.2 视频理解场景中的主要问题
  - 14.3 常用数据集
  - 14.4 主流方法与模型架构
  - 14.5 指标 METRICS
  - 14.6 可能的未来方向
  - 小结
  - 参考文献
- 第 15 章迁移学习
  - 15.1 概述
    - 15.1.1 背景
    - 15.1.2 定义及分类
    - 15.1.3 关键点
  - 15.2 基于实例的迁移
  - 15.3 基于特征的迁移
  - 15.4 基于共享参数的迁移
  - 15.5 深度学习和迁移学习结合
  - 15.7 实战项目 14 - 蚂蚁和蜜蜂的分类问题
    - 15.7.1 迁移学习在计算机视觉领域的应用
    - 15.7.2 实战项目: 蚂蚁和蜜蜂的分类问题
  - 小结
  - 参考文献
- 第 16 章计算机视觉中的注意力机制 Attention is All You Need
  - 16.1 概述
  - 16.2 Attention with RNNs
  - 16.3 Self-attention 自注意力
  - 16.4 软注意力（soft-attention）
    - 16.4.1 空间域注意力
    - 16.4.2 通道注意力
    - 16.4.3 Positional encoding
    - 16.4.4 混合域模型
    - 16.4.5 Masked attention
    - 16.4.6 Multi-head attention
  - 16.5 强注意力（hard attention）
  - 16.6 Attention九层塔 - 注意力机制的九重理解
  - 小结
  - 参考文献
- 第 17 章跨界模型 Transformer
  - 17.1 思想和框图
  - 17.2 实现细节
  - 17.3 应用任务和结果
    - 17.3.1 NLP领域
    - 17.3.2 CV领域
      - 17.3.2.1 检测DETR
      - 17.3.2.2 分类ViT
      - 17.3.2.3 分割SETR
      - 17.3.2.4 Deformable-DETR
  - 17.4 优点及分析
  - 17.5 缺点及分析
  - 实战项目 15 - 基于Transformer的视频实例分割网络VisTR (CVPR2021)
  - 小结
  - 参考文献
- 第 18 章知识蒸馏
  - 18.1 概要
  - 18.2 KD主要方法
    - 18.2.1 Logits(Response)-based Knowledge
    - 18.2.2 Feature-based Knowledge
    - 18.2.3 Relation-based Knowledge
  - 18.3 知识蒸馏的应用 NLP-BERT
  - 18.4 常见疑问解答
  - 实战项目 16 - 支付宝CVPR细粒度视觉分类挑战赛夺冠方案解读
  - 小结
  - 参考文献
- 第 19 章 Normalization 模型
  - 19.1 从Mini-Batch SGD说起
  - 19.2 Normalization到底是在做什么
  - 19.3 Batch Normalization如何做
    - 19.3.1 前向神经网络中的BN
    - 19.3.2 CNN网络中的BN
    - 19.3.3 Batch Norm的四大罪状
  - 19.4 Layer Normalization、Instance Normalization及Group Normalization
    - 19.4.1 Layer Normalization
    - 19.4.2 Instance Normalization
    - 19.4.3 Group Normalization
    - 19.4.4 用一个故事来总结
  - 19.5 Normalization操作的Re-Scaling不变性
  - 19.6 Batch Normalization为何有效
  - 小结
  - 参考文献
- 第 20 章模型压缩与裁剪
  - 20.1 概述
  - 20.2 模型压缩
    - 20.2.1 线性或非线性量化（1990~2014 - 至今）
    - 20.2.2 结构或非结构剪枝（1989~2014 - 至今
    - 20.2.3 网络结构搜索（2016 - 至今）
    - 20.2.4 权重矩阵的低秩分解（）
    - 20.2.5 知识蒸馏（2014-至今）
  - 20.3 模型优化加速
    - 20.3.1 Op-Level 的快速算法
    - 20.3.2 Layer0-level 的快速算法
    - 20.3.3 硬件计算单元优化算法
      - CPU、GPU和NPU
      - ASIC 和 FPGA
      - PIM（NDP）
  - 20.4 优化工具与库
    - 20.4.1 TensorRT Nvidia)
    - 20.4.2 TVM (Tensor Virtual Machine)
    - 20.4.3 Tensor Comprehension (Facebook)
    - 20.4.4 Distiller (Intel)
  - 小结
  - 参考文献
- 附录
  - A 矩阵
  - B 常用激活函数总结
  - C 梯度下降法
  - D 深度学习调参技巧总结
- 后记
- 参考文献

- 更新中 ...

收起

Index

🔍 文件浏览

按书中内容先后顺序逐章阅读，或者选取特定章节祥读 📁 docs/ ¹，动手实践章节代码，在代码文件 📁 code/ ² 下找到对应代码，本地测试或者Colab 📁 notebooks/ ³ 在线测试。

📁 L0CV/ - 专为本项目建立的 💮 L0CV 包

📁 code/ - 书中完整代码

📁 datasets/ - 本书所用数据集

📁 images/ - 经典图像处理图片

📁 docs/ - 全书按照一下几个篇目进行编写

📁 0_绪论/ - 全书绪论

📁 1_理论篇/ - 基本理论和算法基础

📁 2_实战篇/ - 项目实战教程

📁 3_进阶篇/ - 最新CV模型和算法

📁 附件/ - 所需数学和统计学知识

📁 img/ - 各章节所使用的插图

📁 models/ - 封装可用的预训练模型

📁 notebooks/ - 🚩 全书 Colab notebook，可在线测试

📁 chapter01_neural-networks/ - 第 1 章 - 神经网络 Jupyter Notebook 实现

📁 chapter02_CNN/ - 第 2 章 - 卷积神经网络 Jupyter Notebook 实现

📁 chapter03_Image-Classification - 第 3 章 - 图像分类 Jupyter Notebook 实现

📁 chapter04_recurrent-neural-networks/ - 第 4 章 - 递归神经网络 Jupyter Notebook 实现

📁 chapter05_graph-neural-network/ - 第 5 章 - 图神经网络 Jupyter Notebook 实现

📁 chapter07_optimization/ - 第 6 章 - 模型拟合与优化算法 Jupyter Notebook 实现

📁 chapter08_environment-setup-and-tool-use/ - 第 7 章 - 软件环境搭建与工具使用 Jupyter Notebook 实现

📁 chapter09_convolutional-neural-networks/ - 第 8 章 - 经典神经网络架构：原理与PyTorch实现 Jupyter Notebook 实现

📁 chapter12_practice-projects - 第 12 章 - 计算机视觉课题研究初探 Jupyter Notebook 实现

📁 chapter13_Understanding-and-Visualizing/ - 第 13 章 - 可视化与理解卷积神经网络 Jupyter Notebook 实现

📁 chapter14_GAN/ - 第 14 章 - 生成对抗模型 Jupyter Notebook 实现

📁 chapter15_Transfer-Learning/ - 第 15 章 - 迁移学习 Jupyter Notebook 实现

📁 chapter16_Attention/ - 第 16 章 - 注意力机制 Jupyter Notebook 实现

📁 chapter17_Transformers/ - 第 17 章 - Transformers Jupyter Notebook 实现

...

📁 imgs/ - Jupyter Notebook 中用到的图片

📁 docker/ - 为降低读者的学习成本，目前未进行搭建

📁 res/ - ui 图片及全书思维导图PDF

📄 README.md - 全书介绍及目录

Index

L0CV DemoDay

L0CV-Universe

如果你也是从这里出发，在开源的项目中应用进去，并在标题下给出引用，您的项目将会在这里展现！

以用促学，先会后懂。理解深度学习的最佳方法是学以致用。

*《计算机视觉实战演练：算法与应用》V1.2 部分项目还在更新中

实战项目	章节	Binder
实战项目 1 - 手写字分类	第 1 章 - 神经网络
实战项目 2 - 动手搭建一个卷积神经网络	第 2 章 - 卷积神经网络
实战项目 3 - 基于卷积神经网络的人脸表情识别	第 3 章 - 图像分类
实战项目 4 - 使用卷积神经网络对CIFAR10图片进行分类	第 3 章 - 图像分类
实战项目 5 - 使用OpenCV进行图像全景拼接	第 6 章 - 软件环境搭建与工具使用
实战项目 6 - Kaggle比赛：图像分类（CIFAR-10）	第 8 章 - 著名数据集及基准
实战项目 7 - Kaggle比赛：狗的品种识别（ImageNet Dogs）	第 8 章 - 著名数据集及基准
实战项目 8 - 基于PolarNet的点云端到端语义分割项目实战	第 9 章 - 检测与分割实战项目
实战项目 9 - 基于PyTorch的YOLO5目标检测项目实战	第 9 章 - 检测与分割实战项目
实战项目 10 - 实时高分辨率背景抠图	第 9 章 - 检测与分割实战项目
实战项目 11 - 车道线检测项目实战	第 10 章 - 计算机视觉课题研究初探
实战项目 12 - PyTorch 如何使用TensorBoard	第 13 章 - 可视化和理解
实战项目 13 - 图像样式迁移	第 14 章生成对抗模型
实战项目 14 - 旧照片修复	第 14 章 - 生成对抗模型
实战项目 15 - 动漫头像生成	第 14 章 - 生成对抗模型
项目实战 16 - 视频理解项目实战 SlowFast + Multi-Moments in Time	第 16 章 - 视频理解
实战项目 17 - 蚂蚁和蜜蜂的分类问题	第 17 章 - 迁移学习
实战项目 18 - 基于Transformer的视频实例分割网络VisTR (CVPR2021)	第 19 章 - 跨界模型 Transformer
实战项目 19 - 支付宝CVPR细粒度视觉分类挑战赛夺冠方案解读	第 20 章 - 知识蒸馏
...	...	...

Index

🔑 如何食用

🔎 详细攻略展开

方式一 Jupyter Notebook (推荐方式 ✨)

1. 本地运行

依赖包安装

pip3 install -r requirements.txt

安装 Jupyter

python3 -m pip install --upgrade pip
python3 -m pip install jupyter

查看并运行jupyter

请在终端（Mac / Linux）或命令提示符（Windows）上运行以下命令：

cd notebooks
jupyter notesbook

2. 远程运行

打开每章节首页，点击可直接打开 Google Colab ，点击 [Copy to Drive] 即可在线运行测试。
点击也可在 mybinder 查看和在线运行。

图2 例子：12.3.3 样式迁移

图3 例子：12.3.3 样式迁移 Colab 点击 [Copy to Drive]

方式二使用 `/code`

1. 运行环境 + L0CV 加载

依赖包安装

sudo apt-get update
pip3 install -r requirements.txt

创建 L0CV

python3 setup.py

测试环境

cd code
python3 L0CV_test.py

2. 直接调用每个章节的代码测试

import L0CV

收起

每一小节都是可以运行的 Jupyter 记事本

你可以自由修改代码和超参数来获取及时反馈，从而积累深度学习的实战经验。

Run
locally

Google
Colab

公式 + 图示 + 代码我们不仅结合文字、公式和图示来阐明深度学习里常用的模型和算法，还提供代码来演示如何从零开始实现它们，并使用真实数据来提供一个交互式的学习体验。

Index

❓ 常见问题

在线教程页面无法打开：

测试中存在部分人打不开在线教程的情况。

部分小伙伴反馈尝试切换浏览器后可以正常打开了，如果仍然不行，最有效的解决办法是科学上网。
无法加载图片的解决办法：

根本解决办法还是科学上网，也可以尝试修改host文件看下是否能解决。

解决方案: 修改host文件 Mac Windows
公式无法正常显示解决办法：

GitHub中的Markdown原生是不支持LATEX公式显示的，如果你喜欢在本项目中直接浏览教程，可以安装Chrome的MathJax Plugin for Github插件让大部分公式正常显示。而docs文件夹已经利用docsify被部署到了GitHub Pages上，包含公式的章节强力建议使用《计算机视觉实战演练：算法与应用》在线阅读进行学习。

当然如果你还想跑一下运行相关代码的话还是得把本项目clone下来，然后运行code文件夹下相关代码。
Jupyter Notebook 无法在 GitHub 上呈现？ 使用 nbviewer。

Index

致谢

Index

参考文献

感谢前人的杰出工作，我才得以写出此书。感谢 参考文献 中列出及未列出的，所有对此开源工作有帮助的前辈！

Index

LICENSE

L0CV代码部分采用 Apache 2.0协议进行许可，包括名为 L0CV 的原创第三方库、/code和/notebook下的源代码。遵循许可的前提下，你可以自由地对代码进行修改，再发布，可以将代码用作商业用途。但要求你：
- 署名：在原有代码和衍生代码中，保留原作者署名及代码来源信息。
- 保留许可证：在原有代码和衍生代码中，保留Apache 2.0协议文件。
L0CV文档部分采用知识共享署名 4.0 国际许可协议进行许可。遵循许可的前提下，你可以自由地共享，包括在任何媒介上以任何形式复制、发行本作品，亦可以自由地演绎、修改、转换或以本作品为基础进行二次创作。但要求你：
- 署名：应在使用本文档的全部或部分内容时候，注明原作者及来源信息。
- 非商业性使用：不得用于商业出版或其他任何带有商业性质的行为。如需商业使用，请联系作者。
- 相同方式共享的条件：在本文档基础上演绎、修改的作品，应当继续以知识共享署名 4.0国际许可协议进行许可。

Index

👥 社区互助

如果您在使用的过程中碰到问题，可以通过下面几个途径寻求帮助，同时我们也鼓励资深用户通过下面的途径给新人提供帮助。

通过提问时，建议使用 Q&A 标签。
通过或者提问时，建议加上 L0CV 标签。
微信、知乎、微博开话题可以生成tag，如微信聊天、朋友圈加 #L0CV 可话题交流。
L0CV 读者微信交流群 (加我微信Yida_Zhang2，备注：L0CV-高校/企业-称呼)

Index

💖 Support this project

Donating to help me continue working on this project. I'm appreciate all you in backer list.

CONTRIBUTION

作者会尽最大努力来确保书中内容的准确性，但难免会存在疏漏与不妥之处。欢迎您将发现的问题反馈给我们，帮助提升本开放资源的质量。

Help us make these docs great!

All VC-action docs are open source. See something that's wrong or unclear? Submit a pull request.

Make a contribution

Or, learn how to contribute.

Still need help?

Ask our community Contact support

Index

Citation

Use this bibtex to cite this repository:

@misc{computer-vision-in-action,
  title={计算机视觉实战演练：算法与应用（Computer Vision in Action）},
  author={Charmve},
  year={2021.06},
  publisher={Github},
  journal={GitHub repository},
  howpublished={\url{https://github.com/Charmve/computer-vision-in-action}},
}

Index

Stargazers Over Time

Awesome! Charmve/computer-vision-in-action was created 2 months ago and now has 1546 stars.

Feel free to ask any questions, open a PR if you feel something can be done differently!

🌟 Star this repository 🌟

Created by Charmve & maiwei.ai Community | Deployed on GitHub Page

Name		Name	Last commit message	Last commit date
Latest commit History 584 Commits
.circleci		.circleci
.github		.github
code		code
datasets		datasets
docker		docker
docs		docs
models		models
notebooks		notebooks
res		res
tests		tests
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CITATION.cff		CITATION.cff
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
STYLE_GUIDE.md		STYLE_GUIDE.md
requirements.txt		requirements.txt

License

HITCJM/computer-vision-in-action

Folders and files

Latest commit

History

Repository files navigation

✨ 以用促学，先会后懂 ✨

L0CV 🔊 一种结合了代码、图示和HTML的在线学习媒介

计算机视觉实战演练：算法与应用 📌 Computer Vision in Action

👉 在线阅读（优先更新实战篇和进阶篇）

最新版PDF下载

Index

💠 全书组织

🌈 愿景

📘 本书目录

👉 在线阅读（优先更新实战篇和进阶篇）

序言

主要符号表

绪论篇

理论篇

实战篇

进阶篇

附录

后记

参考文献

🔍 文件浏览

L0CV DemoDay

以用促学，先会后懂。理解深度学习的最佳方法是学以致用。

🔑 如何食用

方式一 Jupyter Notebook (推荐方式 ✨)

1. 本地运行

2. 远程运行

方式二 使用 /code

1. 运行环境 + L0CV 加载

2. 直接调用每个章节的代码测试

每一小节都是可以运行的 Jupyter 记事本

公式 + 图示 + 代码

❓ 常见问题

致谢

参考文献

LICENSE

👥 社区互助

💖 Support this project

CONTRIBUTION

Help us make these docs great!

Still need help?

Citation

Stargazers Over Time

🌟 Star this repository 🌟

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

L0CV ^🔊 一种结合了代码、图示和HTML的在线学习媒介

计算机视觉实战演练：算法与应用 ^📌
Computer Vision in Action

方式二使用 `/code`

Packages