作者 | 文永亮

学校 | 哈尔滨工业大学(深圳)

研究方向 | 视频预测、『时空序列预测』

目录

  • AdderNet — 其实不需要这么多乘法
  • Deep Snake for Real-Time Instance Segmentation — 用轮廓做实例分割
  • Blurry Video Frame Interpolation — 完美的金字塔

AdderNet (<在>深度学习中我们真的需要乘法?)

〖这篇〗论文是北大、诺亚、鹏城、悉大的论文,观点比较有趣,<在>喜提CVPR2020之前也比较火了,下面我可以介绍一下。

论文指出我们可以定义如下公式,「首先我们定义核」大小{为}d,输入通道{为}\(c_{in}\),输出通道{为}\(c_{out}\)的滤波器\(F \in \mathbb{R}^{d \times d \times c_{i n} \times c_{o u t}}\),长宽{为}H, W 的输入特征{为}\(X \in \mathbb{R}^{H \times W \times c_{i n}}\)
\[ Y(m, n, t)=\sum_{i=0}^{d} \sum_{j=0}^{d} \sum_{k=0}^{c_{i n}} S(X(m+i, n+j, k), F(i, j, k, t)) \]

〖其中〗 \(S(\cdot, \cdot)\) {为}相似度计算方法,如果设 \(S(x, y)=x×y\) ,“这就是卷积的一”种定义方法了。 那么论文就引出加法网“络”的基本算子如何定义的:

\[ Y(m, n, t)=-\sum_{i=0}^{d} \sum_{j=0}^{d} \sum_{k=0}^{c_{i n}}|X(m+i, n+j, k)-F(i, j, k, t)| \]

如上定义只用了加法的\(\ell{1}\)距离,可以有效地计算滤波器〖和〗特征之间的相似度。

<在>CIFAR-10〖和〗CIFAR-100以及ImageNet的实验结果:

可以看到<在>把卷积替换成加法之后好像也没有〖太多精度的丢失〗,正如标题说的,我们真的需要这么多乘法吗?

Deep Snake用于实例分割

〖这篇〗工作是来自浙江大学Deepwise AI Lab的,【我起初】看到感觉十分有趣,〖这篇〗论文的实例分割并不是每个像素的去分,而是用轮廓围住了实例。代码已经开源,有兴趣的同学可以去看看。

repo url:https://github.com/zju3dv/snake

基本思想是给实例一个(初始轮廓),用循环卷积(Circular Convolution)方法学习更新轮廓,最后得到offsets。

我<在>下面介绍一下Circular Convolution:


\[ \left(f_{N}\right)_{i} \triangleq \sum_{j=-\infty}^{\infty} f_{i-j N}=f_{i(\bmod N)}\\ \left(f_{N} * k\right)_{i}=\sum_{j=-r}^{r}\left(f_{N}\right)_{i+j} k_{j} \]

我们定义特征{为}蓝色部分的圆圈,那么它可以表达{为}\(f_{i(\bmod N)}\) ,*是标准的卷积操作,整个循环卷积就是每一个蓝色的特征与黄色的kernel相乘得到对应高亮的绿色输出,一圈下来就得到完整的输出,kernel也是共享的。

我们可以通过图(b)看到整个算法的pipeline,首先输入图片,实验中使用了CenterNet作{为}目标检测器, Center Net将检测任务重新定义{为}关键点检测问题,这样得到一个初始的box,(然后取每边的)中点连接作{为}初始的Diamond contour(实际实验中作者说他upsample〖成〗了40个点),然后通过变形操作使点回归到实例的边界点,然后通过边界点一半向外拓展1/4的边长得到一个Octagon contour(八边形轮廓),再做变形操作最终回归到目标的形状边界。

作者<在>三个数据集上做了实验,《分别是》Cityscapes, Kins, Sbd。可以看到<在>Kins【上的数据集的】AP{值比}Mask RCNN好一些。

《其分割》的效果也不错且【有点】有趣:

<可以看到确实挺快的>, Sbd数据集的512 × 512 的图片,<在>Intel i7 3.7GHz,GTX 1080 Ti GPU《达到》32.3 fps。

BIN 模糊视频插帧

〖这篇〗paper「是上海交通大学的翟广」涛教授组的模糊视频插帧技术,主要是{为}了提高视频质量并且《达到》插帧的效果,我觉得〖这篇〗论文十分优秀,只可惜代码还<在>重构中,repo说6.14公布,“这也有点久啊”。

repo url : https://github.com/laomao0/BIN

〖这篇〗论文设计的很精巧,模型构建中分{为}两块:

  • 1.《金字塔模块》

  • 2.金字塔间的递归模块

如下图所示:

其实这 *** 结构很容易理解,\(B_0,B_2,B_4,B_6,B_8\)都是输入,当我们取Scale 2《的时》候,输入取\(B_0,B_2,B_4\), 我们可通过\(B_0,B_2\)得到中间插帧\(\hat{{I}}_1\),同理可得\(\hat{I}_3\),<最后>通过\(\hat{{I}}_1\)〖和〗\(\hat{I}_3\)插帧得到\(\hat{{I}}_2\)

数学表达如下:
\[ \hat{\mathbf{I}}_{1: 1: 2 N-1}=\mathcal{F}\left(\mathbf{B}_{0: 2: 2 N}\right) \]

\[ \hat{\mathbf{I}}_{1}=\mathcal{F}_{\mathrm{b}}\left(\mathbf{B}_{0}, \mathbf{B}_{2}\right) \]

但是Scale 3〖和〗4(《的时》候就不一样了),我举例Scale 3《的时》候,Scale 4同理
\[ \hat{\mathbf{I}}_{1}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{0}, \mathbf{B}_{2}\right)\\ {\mathbf{I'}}_{3}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{2}, \mathbf{B}_{4}\right)\\ \hat{\mathbf{I}}_{2}=\mathcal{F}_{\mathrm{b_2}}\left(\mathbf{\hat{I}}_{1}, \mathbf{I'}_{3}\right)\\ \hat{\mathbf{I}}_{3}=\mathcal{F}_{\mathrm{b_2}}\left(\mathbf{\hat{I}}_{2}, \mathbf{\hat{I}}_{4},\mathbf{B}_{3},\mathbf{B}_{4}\right)\\ {\mathbf{I'}}_{5}=\mathcal{F}_{\mathrm{b_1}}\left(\mathbf{B}_{4}, \mathbf{B}_{6}\right) \]
这样通过\(B_0,B_2,B_4,B_6\)就会得到中间1,3,5{的}插帧,或许有人疑惑{为}什么会有\(\mathbf{I'}_{3}\) 〖和〗\(\hat{\mathbf{I}}_{3}\) ,这两个有什么区别,这里主要就是因{为}作者做了一个Cycle Consistency的loss,主要是保证中间产生的帧与金字塔最后产生的‘帧保持空间’上的一致性。

《金字塔模块》的构建有(a)Backbone (b)Residual Dense Block 两种

〖其中〗《金字塔模块》具有可调节的空间感受域〖和〗时间范围,可以从图中看到,作者采用了三种scale,随着scale的增加,‘ *** 将会’拓展的更深,『因此具有更大的空』间感受域,同时<在>时间范围内输入的数量会需要更多,所以说时间范围也正是如此,从而控制计算复杂度〖和〗<复原能力>。《金字塔模块》使用普通的卷积神经 *** 搭建而成,〖其中〗同一级的共享权重,这其实节省了很多参数空间,但是这样是否就缺乏了时间上的信息呢?

如果采用Scale 2《的时》候,我们可以分析金字塔之『间如何传递信息的』,如图中(b)部分:

ConvLSTM构成的Inter-Pyramid Recurrent Module实际上就是{为}了传递时空上的信息,这里Time Step{为}2,\(B_2^{t}\)\(B_2^{t+1}\) ‘实际上是同’一张输入,但是进入了两个不同的模块,整体step前进了一步,〖其中〗的ConvLSTM就是{为}了传递C〖和〗H的,其公式如下:
\[ \mathbf{H}^{t}, \mathbf{C}^{t}=\mathcal{F}_{\mathrm{c}}\left(\hat{\mathbf{I}}_{3}^{t}, \mathbf{H}^{t-1}, \mathbf{C}^{t-1}\right) \]
损失函数非常的简单,这里不做过多的说明,分{为}了重构误差\(L_p\) (Pixel Reconstruction) 〖和〗 一致性误差\(L_c\) (Cycle Consistency) :
\[ \rho(x)=\sqrt{x^{2}+\epsilon^{2}}\\ \mathcal{L}_{p}=\frac{1}{T} \sum_{t=1}^{T} \sum_{n=1}^{2 M-1} \rho\left(\hat{\mathbf{I}}_{n}^{t}-\mathbf{G}_{n}^{t}\right)\\ \mathcal{L}_{c}=\frac{1}{T} \sum_{t=1}^{T} \sum_{n \in \Omega} \rho\left(\mathbf{I}_{n}^{t}-\hat{\mathbf{I}}_{n}^{t}\right)\\ \mathcal{L}=\mathcal{L}_{p}+\mathcal{L}_{c}\\ \]
数据集用的是:Adobe240〖和〗YouTube240,(可以看到论文的效)果取了Scale=4《的时》候跟GT已经看不出太大的区别了。

而且Scale越大图片质量就越好

,

Sunbet

Sunbet www.0-577.com欢迎您的加入。

Allbet欧博官网声明:该文看法仅代表作者自己,与本平台无关。转载请注明:『廊坊地图』:CVPR 2020 三篇有趣的论文解读
发布评论

分享到:

usdt充值(caibao.it):在大坝前摄影要求赔偿被拒。管理处:罚没票。对此你怎么看?
7 条回复
  1. 温州新闻
    温州新闻
    (2020-03-19 03:25:28) 1#

    SunbetSunbet www.cangzhoujinchang.com Sunbet简单方便,游戏种类繁多,现推出手机客户端app,在sunbet即可下载,随时随地体验游戏带来的精彩!厉害了,还能这样写

    1. 环球UG官方网
      环球UG官方网
      (2020-03-31 17:41:16)     

      联博以太坊www.326681.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。还是你最好看~

    2. UG环球注册
      UG环球注册
      (2020-04-27 10:33:52)     

      AllbetGmaing电脑版下载欢迎进入AllbetGmaing电脑版下载(www.aLLbetgame.us):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。路过看看不走了

    3. 联博API接口
      联博API接口
      (2020-11-20 21:30:53)     

      联博统计接口www.326681.com采用以太坊区块链高度哈希值作为统计数据,联博以太坊统计数据开源、公平、无任何作弊可能性。联博统计免费提供API接口,支持多语言接入。有才华的人

  2. 环球UG注册
    环球UG注册
    (2020-06-26 07:03:14) 2#

    欧博客户端下载欢迎进入欧博客户端下载(Allbet Game):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。你会红的

  3. 欧博亚洲客户端
    欧博亚洲客户端
    (2020-07-14 00:42:17) 3#

    apple developer enterprise account for rentproviding apple enterprise developer accounts for rent, rent your own enterprise account for app signing. with high quality, stable performance and affordable price.很值,优点无数

  4. allbetgaming
    allbetgaming
    (2021-01-09 00:06:38) 4#

    今年最棒的文

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。