图像识别和分割

分割

语义分割

只将像素进行分割并贴上对应的分类标签。

Idea-1

sliding windows,利用滑动窗口来对个像素进行分类,计算量太大

idea-2

全连接卷积神经网络,可以生成一个CxHxW的张量,对每个像素进行评分,数据集获取昂贵且困难。并且模型训练代价很高。

idea-3

不采用全连接(同尺寸)卷积神经网络,而是采用downsampling和upsampling,在中间层可以用池化或者跨卷积来降低清晰度,但是可以让网络建立的很深。

upsampling
去池化(Unpooling)

1572945307155

Max Unpooling

1572945525749

将池化层和去池化层相对应,其最大元素的相应位置将会被记录。

转置卷积

正常卷积和跨卷积(可以进行downsampling)并且可以学习参数进行下采样

转置卷积

在进行转置卷积时,将每个元素(标量)乘以过滤器(卷积核),然后将加权后的卷积核叠加于新的输出。

1572946348192

sample:

1572946547455

卷积矩阵化

1572955265649

$44input <—> 44output$

1572955416177

$44input <—>22output$

分类和定位

1572956657061

定位一般使用回归损失函数。

识别

固定几类对象,再输入图片之后将识别图中对象框起来并预测该对象的从属类别。

输入图片的包含对象数量是不确定的。

候选区域方法(Region Proposals)

将输入的图像划分为若干(很多)区域,在应用卷积神经网络对其进行分类。

R-CNN 效率低

Fast R-CNN 不用事先确定候选区而是通过一个卷积神经网络生成特征映射,在特征映射上通过固定函数像素划分确定候选区

Faster R-CNN在确定备选区时自己进行区域选择网络的训练

Detection without Proposals

YOLO(You Only Look Once)/SSD(Single Shot Detection)

利用回归,将输入图片划分为网格。 然后预测每个基本的方框的类别权重以及距离对象的信息。

1572970026182

目标分割

1572972443690

两个分支,一个分支进行分类,一个分支进行类似语义分割确定对象的区域。

DeepDream&Feature Inversion

DeepDream:放大存在的特征

Feature Inversion:特征反演

纹理拼接&风格迁移

Gram Matrix

1573008687755

1573008897926

传统风格迁移会消耗大量的资源

Fast Style Transfer

可视化和理解卷积神经网络