[CS231N]Notes_1-Introduction

发布时间：2022-08-19 13:32

本节主讲人：Justin Johnson

Notes

本节主讲人：Justin Johnson，2017年的第三次CS231N的课程。 CS231N：Convolutional Neural Networks for Visual Recongnition.

CS231N是关于计算机视觉的课程，那么什么是计算机视觉呢？计算机视觉（顾名思义）就是针对视觉数据的研究；受益于各种视觉传感器，过去几年产生了非常多的的视觉数据；在思科2015年的研究中，互联网中80%流量是视频，这些实际上就是视觉数据，所以接下来的关键是如何用算法来开发这些可以利用和理解的数据。视觉数据存在的问题其很难被理解，所以其有时也会被成为互联网中的“暗物质”。例外有一个来自YOUTUBE的例子，大概每秒就有五小时的视频内容被传到youtube，所以很重要就是如何开发算法处理这些海量的视觉数据。

计算机视觉是一个跨学科的领域，其涉及到科学和工程技术的很多不同的领域；比如：Physics（物理）中的光学和成像原理，因为它牵扯到图像是怎样构成的；还有Biology（生物学）和Psychology（心理学），了解生理层面动物大脑如何看到并处理视觉信息；当然还涉及到计算机科学、数学和工程学的技术，其构建实现计算机视觉算法的计算机系统。

上面是这门课和斯坦福其他课程的关系，建议有CS131深度学习的基础，本门课主要集中关注计算机视觉以及研究计算机视觉的出发点。CS231a是更全面的计算机视觉课程，其专注于3D重建、匹配和机器人视觉等方面。CS231N主要关注围绕神经网络的相关算法，特别是CNN。

下面是lifeifei录制的视频，讲解关于计算机视觉的历史：

这部分主要讲两个方面的内容：一是简要介绍一下计算机视觉的发展历程，二是讲解一下CS231N这门课的整体概况。先从历史讲起，谈一谈视觉从何而来，以及视觉现在发展到哪一步了。

物种大爆炸的一种理论是因为动物进化出眼睛，从而很快的演化；现在视觉是智慧动物最重要的感知系统，在人类大脑皮层中几乎有一半的神经元和视觉有关；前面讲的是生物的视觉，那么人类如何让机器获得视觉呢？下面简述了照相机的历史：

这是目前已知的最早的相机，17世纪文艺复兴时期，针孔成像原理。

同时，生物学家也开始研究视觉原理；其中最有影响力启发了计算机视觉的一项研究是：五六十年代使用店生物学的研究；他们关心哺乳动物的视觉处理机制是怎样的，他们选择了大脑视觉处理机制与人类似的猫进行研究；他们发现：视觉处理是始于视觉世界的简单结构，面向边缘，沿着视觉处理途径的移动信息也在变化，大脑构建更加复杂的处理机制直到它可以识别更为复杂的视觉世界。

计算机视觉的历史是从60年代开始的，Block world被认为是第一篇计算机视觉的博士论文，其中视觉世界被简化为简单的几何形状，目的是识别和重建这些形状。

1966年MIT暑期项目：构建视觉系统。

MIT David Marr70年代的书，关于“如何理解视觉，如何处理计算机视觉？”

David的书中提到：原始草图（包含大部分边缘、端点和线条）、2.5D的草图（表面、深度信息层和场景）到之后的 3D 模型；这是一种非常理想化的过程，也是一种非常直观的过程考虑如何构建视觉信息。

上面是广义圆柱体和图形结构；如何用简单的块状表示或识别现实的物体。他们的基本思想：每个物体都由简单的几何图单位组成，这不就是我的世界吗/==。

通过边缘和线构建物体表示。

如果目标检测很难做，那就先做目标分割：这个任务就是把一张图片上的像素点归类到有意义的区域。（2D图像的聚类）

ML的方法实现人脸检测，上述是AdaBoost算法的效果。2000年的时候机器学习非常火热。

基于特征的目标检测，提取特征中表现性和不变性的部分。

空间金字塔匹配。

HoG：方向梯度直方图

PASCAL数据集只有20类。另一方面，随着时间的推移，图像质量越来越好。

大部分机器学习算法都很可能在训练过程中过拟合，部分原因是可视化的数据非常复杂，正因为其太复杂，所以我们的模型往往维数比较高，即输入是高维的模型，则还有一堆参数要调优；当我们的训练数据不够时，很快就会出现过拟合，ImageNet就是为了解决这个问题，整个项目花了三年；ImageNet利用WordNet字典进行排序。