谷歌的新技术使得文字几乎贴在地面上即使在尘土飞扬的场景中是如此头条
如何更流畅地添加水印。
谷歌的新技术使得文字几乎贴在地面上,即使在尘土飞扬的场景中也是如此。
方法也很简单。
只需输入视频并指定对象的粗略遮罩。
那么这个对象的所有相关场景元素都可以解锁了!
比如人和狗的影子。
也有被黑天鹅慢慢拂过的涟漪~
还有上面提到的赛车超速产生的灰尘。
无论任何物体或主体,无论它如何运动,所有的元素都可以被挖掘出来。
这是谷歌最新的视频分层技术,——omnimatte,入选CVPR 2021口述。
目前,这项技术已经开源。
如何实施
计算机视觉在分割图像或视频中的物体越来越有效,但场景效果与物体有关。
阴影,反射和烟雾等场景效果经常被忽略。
识别这些场景的效果对于提高AI的视觉理解非常重要,那么Google的新技术是如何实现的呢。
简单来说,就是通过分层神经网络渲染方法对CNN进行自监督训练,将主体从背景图像中分离出来。
由于CNN独特的结构,它倾向于学习图像效果之间的相关性,但相关性很强,所以CNN更容易学习。
输入带有移动对象和一个或多个用于标记主题的粗略分割遮罩的视频。
首先,利用现有的分割网络,如Mask RCNN,将这些主体分为若干个掩膜层和背景噪声层,按照一定的规则进行排序。
例如,在一个骑手,一辆自行车和几个路人的场景中,骑手和自行车将被分组到一层,人群将被分组到第二层。
Omnimatte模型是一个二维的UNet,逐帧处理视频每一帧都使用现成的技术来计算对象遮罩,标记移动的对象,并找到遮罩中未捕捉到的效果并将其关联起来,以重建输入帧
为了确保不捕获其他静态背景元素,研究人员引入了稀疏损失。
此外,计算视频中每个帧和连续帧之间的密集光流场,以向网络提供与该层中的对象相关的流量信息。
目前该技术已经开源,配置环境如下:
Linux操作系统
Python 3.6
英伟达图形处理器CUDA CuDNN
有什么用
技术效果如此,有什么用。
您可以先复制或删除图像。
顺利切换背景。
这个经典的操作也可以实现,让依次摔倒的孩子一起下水~
背后的团队
最后说说背后的团队。
这项研究由谷歌研究院,牛津大学和魏茨曼科学研究所完成。
其中,第一篇论文是牛津大学四年级博士生Erika Lu,曾在谷歌实习,获得麻省理工学院计算机科学与工程学士学位。
论文链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。