图像识别和分割

分割

语义分割

只将像素进行分割并贴上对应的分类标签。

Idea-1

sliding windows，利用滑动窗口来对个像素进行分类，计算量太大

idea-2

全连接卷积神经网络，可以生成一个CxHxW的张量，对每个像素进行评分，数据集获取昂贵且困难。并且模型训练代价很高。

idea-3

不采用全连接(同尺寸)卷积神经网络，而是采用downsampling和upsampling，在中间层可以用池化或者跨卷积来降低清晰度，但是可以让网络建立的很深。

upsampling

去池化(Unpooling)

1572945307155

Max Unpooling

1572945525749

将池化层和去池化层相对应，其最大元素的相应位置将会被记录。

转置卷积

正常卷积和跨卷积(可以进行downsampling)并且可以学习参数进行下采样

转置卷积

在进行转置卷积时，将每个元素(标量)乘以过滤器(卷积核)，然后将加权后的卷积核叠加于新的输出。

1572946348192

sample：

1572946547455

卷积矩阵化

1572955265649

$44input <—> 44output$

1572955416177

$44input <—>22output$

分类和定位

1572956657061

定位一般使用回归损失函数。

识别

固定几类对象，再输入图片之后将识别图中对象框起来并预测该对象的从属类别。

输入图片的包含对象数量是不确定的。

候选区域方法(Region Proposals)

将输入的图像划分为若干(很多)区域，在应用卷积神经网络对其进行分类。

R-CNN 效率低

Fast R-CNN 不用事先确定候选区而是通过一个卷积神经网络生成特征映射，在特征映射上通过固定函数像素划分确定候选区

Faster R-CNN在确定备选区时自己进行区域选择网络的训练

Detection without Proposals

YOLO(You Only Look Once)/SSD(Single Shot Detection)

利用回归，将输入图片划分为网格。然后预测每个基本的方框的类别权重以及距离对象的信息。

1572970026182

目标分割

1572972443690

两个分支，一个分支进行分类，一个分支进行类似语义分割确定对象的区域。

DeepDream&Feature Inversion

DeepDream：放大存在的特征

Feature Inversion：特征反演

纹理拼接&风格迁移

Gram Matrix

1573008687755

1573008897926

传统风格迁移会消耗大量的资源

Fast Style Transfer

图像识别和分割

分割

语义分割

Idea-1

idea-2

idea-3

upsampling

去池化(Unpooling)

Max Unpooling

转置卷积

分类和定位

识别

候选区域方法(Region Proposals)

Detection without Proposals

YOLO(You Only Look Once)/SSD(Single Shot Detection)

目标分割

DeepDream&Feature Inversion

纹理拼接&风格迁移

可视化和理解卷积神经网络