CV Code|计算机视觉开源周报20200503期

阅读量：577 次

发布时间：2019-03-09

本文共 3117 字，大约阅读时间需要 10 分钟。

2020年5月第3周 CV领域新开源或即将开源的代码资源整理

本周整理了多个CV方向的最新研究成果，涵盖目标检测、图像分割、语音处理、医学影像、图像生成等多个热门方向。这些开源项目不仅提供了丰富的工具，还对技术创新和实际应用具有重要贡献。以下是本周值得关注的几项内容：

目标检测

[1] Train in Germany, Test in The USA: Making 3D Object Detectors Generalize

研究内容：研究者发现德国训练的3D目标检测模型在美国的道路上表现下降严重，主要原因是汽车尺寸差异大。通过简单的尺度归一化优化，模型的泛化能力得到了显著提升。

参与单位：康奈尔大学；硅谷数据标注公司；哥伦比亚大学；俄亥俄州立大学

论文：https://arxiv.org/abs/2005.08139

代码：github.com/cxy1997/3D_adapt_auto_driving（尚未开源）

[2] WW-Nets: Dual Neural Networks for Object Detection

研究内容：提出了一种双神经网络框架，包括"What Network"和"Where Network"，通过整合选择性关注和定位分类，显著提升了目标检测性能。实验结果在PASCAL VOC和COCO数据集上均超越了现有SOTA。

参与单位：加州大学

论文：https://arxiv.org/abs/2005.07787

代码：github.com/mkebrahimpour

[3] U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection

研究内容：通过两层嵌套的U型结构，捕获了更多上下文信息并增加了模型深度。实验结果表明该方法在多个目标检测数据集上均表现优异。

参与单位：阿尔伯塔大学

论文：https://arxiv.org/abs/2005.09007

代码：github.com/NathanUA/U-2-Net

传感器融合

[4] A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection

研究内容：提出了一种将雷达数据与摄像头数据融合的目标检测网络，能够检测遮挡或图像质量较差的目标。实验结果表明该方法优于仅使用RGB数据的算法。

参与单位：慕尼黑工业大学

论文：https://arxiv.org/abs/2005.07431

代码：github.com/TUMFTM/CameraRadar

密集目标检测

研究内容：提出了一种动态细化网络，用于检测有方向且密集的目标（如遥感图像中的船只）。网络通过特征选择模块和动态细化头实现了精度提升。

参与单位：中科院自动化研究所；优图实验室；CASIA-LVision联合实验室；快手AI实验室

论文：https://arxiv.org/abs/2005.09973

代码：github.com/Anymake/DRN_CVPR2020

神经架构搜索 (NAS)

[6] Optimizing Neural Architecture Search using Limited GPU Time in a Dynamic Search Space: A Gene Expression Programming Approach

研究内容：通过基因表达编程在有限的GPU资源下高效搜索神经架构，实现了CIFAR-10上的最低2.82%错误率。

参与单位：巴西巴拉那联邦大学

论文：https://arxiv.org/abs/2005.07669

代码：github.com/jeohalves/nasgep

语音与视频

[7] AOWS: Adaptive and optimal network width search with latency constraints

研究内容：在网络延迟限制下，找到最优网络宽度，同时提升模型精度。实验结果表明该方法在ImageNet分类任务中性能优于现有高效网络。

参与单位：Amazon Go；鲁汶大学

论文：https://arxiv.org/abs/2005.10481

代码：github.com/bermanmaxim/AOWS

医学影像处理

[8] Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model

研究内容：提出了一种基于关系驱动的半监督学习模型，改进了医学图像分类性能，打败了大多数SOTA方法。

参与单位：港中大；中科院；斯坦福

论文：https://arxiv.org/abs/2005.07377

代码：github.com/liuquande/SRC-MT

图像生成与增强

[9] Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting

研究内容：提出了一种上下文残差聚合方法，用于超高分辨率图像修复，在GTX 1080 Ti GPU上实现了实时性能。

参与单位：加拿大华为技术有限公司

论文：https://arxiv.org/abs/2005.09704

代码：github.com/Atlas200dk/sample-imageinpainting-HiFill

图像描述与检索

研究内容：提出了一种Bi-modal Transformer，结合视觉和音频信息，实现了密集视频字幕生成。实验结果在AVA-ActiveSpeaker数据集上取得了87.1% mAP的改进。

参与单位：坦佩雷大学

论文：https://arxiv.org/abs/2005.08271

代码：github.com/v-iashin/bmt

图像分割

[11] Single-Stage Semantic Segmentation from Image Labels

研究内容：提出了一种单级语义分割方法，通过弱监督和自监督训练方案，在单阶段中从图像级标注训练语义蒙版。实验结果与复杂算法相比表现出色。

参与单位：达姆施塔特工业大学

论文：https://arxiv.org/abs/2005.08104

代码：github.com/visinf/1-stage-wseg

图像增强与质量评估

[12] Instance-aware Image Colorization

研究内容：结合目标检测的实例感知信息，实现了高质量的图像着色，实验结果达到了最先进的性能。

参与单位：清华大学（新竹）；弗吉尼亚理工学院暨州立大学

论文：https://arxiv.org/abs/2005.10825

代码：github.com/ericsujw/InstColorization

如需更多信息，请关注各项目的GitHub仓库或官方网站。

如需加入细分方向的交流，请访问我的社交媒体账号或投稿邮箱。

转载地址：http://ojysz.baihongyu.com/

你可能感兴趣的文章

oracle dblink 创建使用垮库转移数据

查看>>

oracle dblink结合同义词的用法 PLS-00352:无法访问另一数据库

查看>>

Oracle dbms_job.submit参数错误导致问题(ora-12011 无法执行1作业)

查看>>

oracle dg switchover,DG Switchover fails

查看>>

Oracle E-Business Suite软件任意文件上传漏洞（CVE-2022-21587）

查看>>

Oracle EBS OPM 发放生产批

查看>>

Oracle EBS-SQL (BOM-15):检查多层BOM(含common BOM).sql

查看>>

Oracle EBS环境下查找数据源(OAF篇)

查看>>

oracle Extract 函数

查看>>

uni-app开发环境自动部署的一个误区（App running at...）

查看>>

Oracle GoldenGate Director安装和配置（无图）

查看>>

Oracle Goldengate在HP平台裸设备文件系统OGG-01028处理

Oracle JDBC 连接卡死后 Connection Reset

查看>>

Oracle JDK vs OpenJDK

查看>>

ORACLE MERGE INTO (2)

查看>>

oracle ogg 单实例双向复制搭建（oracle-oracle）--Oracle GoldenGate

查看>>

Oracle ora-12514报错解决方法

查看>>

2020年5月第3周 CV领域新开源或即将开源的代码资源整理

目标检测

[1] Train in Germany, Test in The USA: Making 3D Object Detectors Generalize

[2] WW-Nets: Dual Neural Networks for Object Detection

[3] U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection

传感器融合

[4] A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection

密集目标检测

[5] Dynamic Refinement Network for Oriented and Densely Packed Object Detection

神经架构搜索 (NAS)

[6] Optimizing Neural Architecture Search using Limited GPU Time in a Dynamic Search Space: A Gene Expression Programming Approach

语音与视频

[7] AOWS: Adaptive and optimal network width search with latency constraints

医学影像处理

[8] Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model

图像生成与增强

[9] Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting

图像描述与检索

[10] Dense Video Captioning with Bi-modal Transformer

图像分割

[11] Single-Stage Semantic Segmentation from Image Labels

图像增强与质量评估

[12] Instance-aware Image Colorization