作者 | 文永亮

学校 | 哈尔滨工业大学(深圳)

研究方向 | 视频预测、『时空序列预测』

目录

  • AdderNet — 其实不需要这么多乘法
  • Deep Snake for Real-Time Instance Segmentation — 用轮廓做实例分割
  • Blurry Video Frame Interpolation — 完美的金字塔

AdderNet (<在>深度学习中我们真的需要乘法?)

〖这篇〗论文是北大、诺亚、鹏城、悉大的论文,观点比较有趣,<在>喜提CVPR2020之前也比较火了,下面我可以介绍一下。

论文指出我们可以定义如下公式,「首先我们定义核」大小{为}d,输入通道{为}\(c_{in}\),输出通道{为}\(c_{out}\)的滤波器\(F \in \mathbb{R}^{d \times d \times c_{i n} \times c_{o u t}}\),长宽{为}H, W 的输入特征{为}\(X \in \mathbb{R}^{H \times W \times c_{i n}}\)
\[ Y(m, n, t)=\sum_{i=0}^{d} \sum_{j=0}^{d} \sum_{k=0}^{c_{i n}} S(X(m+i, n+j, k), F(i, j, k, t)) \]

〖其中〗 \(S(\cdot, \cdot)\) {为}相似度计算方法,如果设 \(S(x, y)=x×y\) ,“这就是卷积的一”种定义方法了。 那么论文就引出加法网“络”的基本算子如何定义的:

\[ Y(m, n, t)=-\sum_{i=0}^{d} \sum_{j=0}^{d} \sum_{k=0}^{c_{i n}}|X(m+i, n+j, k)-F(i, j, k, t)| \]

如上定义只用了加法的\(\ell{1}\)距离,可以有效地计算滤波器〖和〗特征之间的相似度。

<在>CIFAR-10〖和〗CIFAR-100以及ImageNet的实验结果:

可以看到<在>把卷积替换成加法之后好像也没有〖太多精度的丢失〗,正如标题说的,我们真的需要这么多乘法吗?

Deep Snake用于实例分割

〖这篇〗工作是来自浙江大学Deepwise AI Lab的,【我起初】看到感觉十分有趣,〖这篇〗论文的实例分割并不是每个像素的去分,而是用轮廓围住了实例。代码已经开源,有兴趣的同学可以去看看。

repo url:https://github.com/zju3dv/snake

基本思想是给实例一个(初始轮廓),用循环卷积(Circular Convolution)方法学习更新轮廓,最后得到offsets。

我<在>下面介绍一下Circular Convolution:


\[ \left(f_{N}\right)_{i} \triangleq \sum_{j=-\infty}^{\infty} f_{i-j N}=f_{i(\bmod N)}\\ \left(f_{N} * k\right)_{i}=\sum_{j=-r}^{r}\left(f_{N}\right)_{i+j} k_{j} \]

我们定义特征{为}蓝色部分的圆圈,那么它可以表达{为}\(f_{i(\bmod N)}\) ,*是标准的卷积操作,整个循环卷积就是每一个蓝色的特征与黄色的kernel相乘得到对应高亮的绿色输出,一圈下来就得到完整的输出,kernel也是共享的。

我们可以通过图(b)看到整个算法的pipeline,首先输入图片,实验中使用了CenterNet作{为}目标检测器, Center Net将检测任务重新定义{为}关键点检测问题,这样得到一个初始的box,(然后取每边的)中点连接作{为}初始的Diamond contour(实际实验中作者说他upsample〖成〗了40个点),然后通过变形操作使点回归到实例的边界点,然后通过边界点一半向外拓展1/4的边长得到一个Octagon contour(八边形轮廓),再做变形操作最终回归到目标的形状边界。

作者<在>三个数据集上做了实验,《分别是》Cityscapes, Kins, Sbd。可以看到<在>Kins【上的数据集的】AP{值比}Mask RCNN好一些。

《其分割》的效果也不错且【有点】有趣:

<可以看到确实挺快的>, Sbd数据集的512 × 512 的图片,<在>Intel i7 3.7GHz,GTX 1080 Ti GPU《达到》32.3 fps。

BIN 模糊视频插帧

〖这篇〗paper「是上海交通大学的翟广」涛教授组的模糊视频插帧技术,主要是{为}了提高视频质量并且《达到》插帧的效果,我觉得〖这篇〗论文十分优秀,只可惜代码还<在>重构中,repo说6.14公布,“这也有点久啊”。

repo url : https://github.com/laomao0/BIN

〖这篇〗论文设计的很精巧,模型构建中分{为}两块:

  • 1.《金字塔模块》

  • 2.金字塔间的递归模块

如下图所示:

其实这网络结构很容易理解,\(B_0,B_2,B_4,B_6,B_8\)都是输入,当我们取Scale 2《的时》候,输入取\(B_0,B_2,B_4\), 我们可通过\(B_0,B_2\)得到中间插帧\(\hat{{I}}_1\),同理可得\(\hat{I}_3\),<最后>通过\(\hat{{I}}_1\)〖和〗\(\hat{I}_3\)插帧得到\(\hat{{I}}_2\)

数学表达如下:
\[ \hat{\mathbf{I}}_{1: 1: 2 N-1}=\mathcal{F}\left(\mathbf{B}_{0: 2: 2 N}\right) \]

\[ \hat{\mathbf{I}}_{1}=\mathcal{F}_{\mathrm{b}}\left(\mathbf{B}_{0}, \mathbf{B}_{2}\right) \]

但是Scale 3〖和〗4(《的时》候就不一样了),我举例Scale 3《的时》候,Scale 4同理
\[ \hat{\mathbf{I}}_{1}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{0}, \mathbf{B}_{2}\right)\\ {\mathbf{I'}}_{3}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{2}, \mathbf{B}_{4}\right)\\ \hat{\mathbf{I}}_{2}=\mathcal{F}_{\mathrm{b_2}}\left(\mathbf{\hat{I}}_{1}, \mathbf{I'}_{3}\right)\\ \hat{\mathbf{I}}_{3}=\mathcal{F}_{\mathrm{b_2}}\left(\mathbf{\hat{I}}_{2}, \mathbf{\hat{I}}_{4},\mathbf{B}_{3},\mathbf{B}_{4}\right)\\ {\mathbf{I'}}_{5}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{4}, \mathbf{B}_{6}\right) \]
这样通过\(B_0,B_2,B_4,B_6\)就会得到中间1,3,5{的}插帧,或许有人疑惑{为}什么会有\(\mathbf{I'}_{3}\) 〖和〗\(\hat{\mathbf{I}}_{3}\) ,这两个有什么区别,这里主要就是因{为}作者做了一个Cycle Consistency的loss,主要是保证中间产生的帧与金字塔最后产生的‘帧保持空间’上的一致性。

《金字塔模块》的构建有(a)Backbone (b)Residual Dense Block 两种

〖其中〗《金字塔模块》具有可调节的空间感受域〖和〗时间范围,可以从图中看到,作者采用了三种scale,随着scale的增加,‘网络将会’拓展的更深,『因此具有更大的空』间感受域,同时<在>时间范围内输入的数量会需要更多,所以说时间范围也正是如此,从而控制计算复杂度〖和〗<复原能力>。《金字塔模块》使用普通的卷积神经网络搭建而成,〖其中〗同一级的共享权重,这其实节省了很多参数空间,但是这样是否就缺乏了时间上的信息呢?

如果采用Scale 2《的时》候,我们可以分析金字塔之『间如何传递信息的』,如图中(b)部分:

ConvLSTM构成的Inter-Pyramid Recurrent Module实际上就是{为}了传递时空上的信息,这里Time Step{为}2,\(B_2^{t}\)\(B_2^{t+1}\) ‘实际上是同’一张输入,但是进入了两个不同的模块,整体step前进了一步,〖其中〗的ConvLSTM就是{为}了传递C〖和〗H的,其公式如下:
\[ \mathbf{H}^{t}, \mathbf{C}^{t}=\mathcal{F}_{\mathrm{c}}\left(\hat{\mathbf{I}}_{3}^{t}, \mathbf{H}^{t-1}, \mathbf{C}^{t-1}\right) \]
损失函数非常的简单,这里不做过多的说明,分{为}了重构误差\(L_p\) (Pixel Reconstruction) 〖和〗 一致性误差\(L_c\) (Cycle Consistency) :
\[ \rho(x)=\sqrt{x^{2}+\epsilon^{2}}\\ \mathcal{L}_{p}=\frac{1}{T} \sum_{t=1}^{T} \sum_{n=1}^{2 M-1} \rho\left(\hat{\mathbf{I}}_{n}^{t}-\mathbf{G}_{n}^{t}\right)\\ \mathcal{L}_{c}=\frac{1}{T} \sum_{t=1}^{T} \sum_{n \in \Omega} \rho\left(\mathbf{I}_{n}^{t}-\hat{\mathbf{I}}_{n}^{t}\right)\\ \mathcal{L}=\mathcal{L}_{p}+\mathcal{L}_{c}\\ \]
数据集用的是:Adobe240〖和〗YouTube240,(可以看到论文的效)果取了Scale=4《的时》候跟GT已经看不出太大的区别了。

而且Scale越大图片质量就越好

,

Sunbet

Sunbet www.0-577.com欢迎您的加入。

Allbet欧博官网声明:该文看法仅代表作者自己,与本平台无关。转载请注明:『廊坊地图』:CVPR 2020 三篇有趣的论文解读
发布评论

分享到:

九江自考网:拯救书店!白岩松团结众多作家,一起为实体书店聚拢人气
5 条回复
  1. 温州新闻
    温州新闻
    (2020-03-19 03:25:28) 1#

    SunbetSunbet www.cangzhoujinchang.com Sunbet简单方便,游戏种类繁多,现推出手机客户端app,在sunbet即可下载,随时随地体验游戏带来的精彩!厉害了,还能这样写

    1. 环球UG官方网
      环球UG官方网
      (2020-03-31 17:41:16)     

      联博以太坊www.326681.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。还是你最好看~

    2. UG环球注册
      UG环球注册
      (2020-04-27 10:33:52)     

      AllbetGmaing电脑版下载欢迎进入AllbetGmaing电脑版下载(www.aLLbetgame.us):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。路过看看不走了

  2. 环球UG注册
    环球UG注册
    (2020-06-26 07:03:14) 2#

    欧博客户端下载欢迎进入欧博客户端下载(Allbet Game):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。你会红的

  3. 欧博亚洲客户端
    欧博亚洲客户端
    (2020-07-14 00:42:17) 3#

    apple developer enterprise account for rentproviding apple enterprise developer accounts for rent, rent your own enterprise account for app signing. with high quality, stable performance and affordable price.很值,优点无数

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。