机器之心&ArXiv Weekly Radiostation
参与:杜伟,楚航,罗若天
本周既有港科大、哈工程等机构提出的观察课堂学生情绪变化、注意力集中程度的 EmotionCues 系统,也有斯坦福学者制作的半生物半机械羽毛翅膀的「鸽子机器人」。
目录:
- EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
- Ultrafast Video Attention Prediction with Coupled Knowledge Distillation
- DeepShift: Towards Multiplication-Less Neural Networks
- Pose-Assisted Multi-Camera Collaboration for Active Object Tracking
- Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion
- AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
- Escaping from saddle points on Riemannian manifolds
- ArXiv Weekly Radiostation:NLP、CV、ML更多精选论文(附音频)。
论文 1:EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
- 作者:Haipeng Zeng、Xinhuan Shu、Yanbang Wang 等
- 论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010
摘要:近日,一篇有关课堂监控技术的论文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在论文中,来自香港科技大学、哈尔滨工程大学等机构的研究者提出了一种名为 EmotionCues 的系统。该系统主要关注如何记录学生面部表情,并据此来分析学生在课堂上的情绪变化、注意力集中程度。
作者之一、香港科技大学计算机教授屈华民介绍说,这个系统「为教师提供了一种更快速、更方便去衡量学生在课堂上参与度的方法。」这项研究的初衷是「善意」的:依靠该系统去监控学生在课堂上的情绪反馈,判断学生在什么时候开始感到无聊,什么时候注意力更加集中,以此来提醒老师该如何改善课堂内容、提高授课质量。
整个系统的工作流程,包括数据处理和视觉探索两大阶段。
研究者设计了一个摘要视图,让老师可以看到学生情感的静态和动态演变数据。图(a)显示的是学生的情感档案,用于展示学生的情感分布(静态摘要);图(b)显示的是学生的情感变化曲线(动态摘要)。
情感变化的可视化图示。
推荐:港科大、哈工程的研究者开发的这种用 AI 摄像头记录、分析学生情感变化的系统,不仅能知道学生什么时候开始走神,还能具体看到每个学生一整节课的「心路历程」。
论文 2:Ultrafast Video Attention Prediction with Coupled Knowledge Distillation
- 作者:Kui Fu、eipei Shi、Yafei Song 等
- 论文链接:https://arxiv.org/pdf/1904.04449.pdf
摘要:由于传统的高精度视频显著区域检测模型往往对计算能力和存储能力有较高要求,处理速度较慢,造成了资源的浪费。因此,视频显著区域检测需要解决如下两个问题:1)如何降低模型的计算量和存储空间需求,提高处理效率?2)如何从视频中提取有效时空联合特征,避免准确率下降?针对这些问题,来自北航、爱奇艺等机构的研究者提出了耦合知识蒸馏的轻量级视频显著区域检测方法。轻量级视频显著区域检测的难点在于模型泛化能力不足,时域空域线索结合难,影响方法的检测性能。
研究者提出了一种轻量级的网络架构 UVA-Net,并利用耦合知识蒸馏的训练方法提高视频显著区域检测性能。这种轻量级的网络架构在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的速度分别达到 10,106FPS,404FPS,比之前的模型提升了 206 倍。
本文提出的耦合知识蒸馏方法的总体架构图,包含空间教师流、时序教师、学生流和时空流。训练分为两步:知识蒸馏和时空联合优化。
MobileNet V2 卷积块和 CA-Res 卷积块详细流程图。
本文提出的网络架构与其他 6 种控制变量模型在 AVS1K 数据集上的各指标结果对比。
推荐:基于耦合知识蒸馏的超高速视频显著区域检测算法与现有的国际高水平方法相比,计算精度与 11 种国际高水平方法相当,并且该技术已经应用到爱奇艺图片搜索、视频素材检索等方向,对爱奇艺很多业务具有启发意义。
论文 3:DeepShift: Towards Multiplication-Less Neural Networks
- 作者:Mostafa Elhoushi、Farhan Shafiq、Ye Henry Tian 等
- 论文链接:https://arxiv.org/pdf/1905.13298.pdf
摘要:深度学习模型,尤其是深度卷积神经网络(DCNN),在多个计算机视觉应用中获得很高的准确率。但是,在移动环境中部署时,高昂的计算成本和巨大的耗电量成为主要瓶颈。而大量使用乘法的卷积层和全连接层正是计算成本的主要贡献者。
华为的这篇论文提出了解决该问题的新方法,即引入两种新型运算:卷积移位(convolutional shift)和全连接移位(fully-connected shift),从而用按位移位(bitwise shift)和按位取反(bitwise negation)来取代乘法。使用了卷积移位和全连接移位的神经网络架构族即 DeepShift 模型。DeepShift 模型可以在不使用乘法的情况下实现,且在 CIFAR10 数据集上获得了高达 93.6% 的准确率,在 ImageNet 数据集上获得了 70.9%/90.13% 的 Top-1/Top-5 准确率。
研究者将多种著名 CNN 架构的卷积层和全连接层分别进行卷积移位和全连接移位转换,并进行了大量实验。实验结果表明,有些模型的 Top-1 准确率下降程度低于 4%,Top-5 准确率下降程度低于 1.5%。
模型在 MNIST 验证集上的准确率。
模型在 CIFAR10 验证集上的评估结果。
模型在 ImageNet 数据集上的结果。
推荐:机器之心之前报道过北大、华为诺亚等合著的一篇论文,探讨了不用乘法用加法能不能做深度学习。最近,我们又看到华为的另一篇论文,这次没有用加法替代乘法,而是用「按位移位」和「按位取反」来取代乘法运算。
论文 4:Pose-Assisted Multi-Camera Collaboration for Active Object Tracking
- 作者:Jing Li、Jing Xu、Fangwei Zhong 等
- 论文链接:https://arxiv.org/abs/2001.05161
摘要:对相机进行智能控制从而实现目标追踪是一项非常具有挑战性的任务。由于环境的复杂性,相机所接收到的视觉信息常常是不完美的,比如环境中存在的障碍物对目标极容易造成遮挡,目标距离远的情况下形态变得不够清晰,相似的背景容易导致目标的混淆等等。传统的方法只靠视觉信息做追踪,在视觉信息质量不够高的情况下很容易导致相机追踪的失败。
因此在本文中,来自北大、上交等机构的研究者提出引入相机姿态的多相机协同合作机制进行监控场景下的目标追踪。通过对比不同测试环境上的实验结果,本文证实了这种合作机制的有效性和可拓展性。
文中多相机协同追踪系统演示图。
多相机协同追踪系统架构图。
3D 园林和城市环境中的实验对比结果。
推荐:对于监控场景下的多相机主动追踪任务,本文提出的这种多相机协同追踪系统可以在视觉信息不完善的情况下保证追踪性能,得出了优于以往方法的结果。在全新测试环境(Garden/UrbanCity)上的结果展示了本文方法可以有效地拓展到更多场景。
论文 5:Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion
- 作者:Eric Chang、Laura Y. Matloff、Amanda K. Stowers、David Lentink
- 论文链接:https://robotics.sciencemag.org/content/5/38/eaay1246
摘要:千百年来,人类从未停止过追求如鸟类一般自由飞翔。凭借着一对灵活的羽毛翅膀,鸟类可以在天空中飞行,飞越海洋和大陆。一百多年前,人类受鸟类启发发明了飞机,依靠坚硬的机翼和螺旋桨来飞向既定的方向。但传统机翼的缺陷也很明显:它既会给你想要的升力,也会产生你不需要的阻力。飞机诞生之后,人类仍然在追求对鸟类飞行进行更精确的模拟。
近日,《Science》和《Science Robotics》杂志分别刊登了来自斯坦福大学的两篇论文,在这两项研究中,研究者揭示了鸟类是如何通过调整翅膀形状来控制飞行的。他们为一个叫做「PigeonBot」的飞行机器人装上一款半生物半机械的「可变形翅膀」。
斯坦福大学研究者研发的人造翅膀。
鸽子机器人羽翼主体包含四部分:肱骨、桡骨、尺骨和前肢。
鸽子机器人整体羽翼架构包含一个螺旋桨驱动的仪表板和一个欠驱动的真实羽毛变形翼。
推荐:研究团队称,这款鸽子机器人的机动性更强,并且也能够承受更高的风速。目前,PigeonBot 只是一款原型。这项研究对于改进现有飞行器的机翼设计非常有启发意义。
论文 6:AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
- 作者:Ning Liu、Xiaolong Ma、Zhiyuan Xu 等
- 论文链接:https://arxiv.org/abs/1907.03141
摘要:近年来,随着深度神经网络模型性能不断刷新,模型的骨干网络参数量愈发庞大,存储和计算代价不断提高,从而导致难以部署在资源受限的嵌入式平台上。
滴滴 AI Labs 与美国东北大学王言治教授研究组合作,联合提出了一种基于 AutoML 思想的自动结构化剪枝的算法框架 AutoCompress,能自动化的去寻找深度模型剪枝中的超参数,去除模型中不同层的参数冗余,替代人工设计的过程并实现了超高的压缩倍率。从而满足嵌入式端上运行深度模型的实时性能需求。
文中 AutoCompress 框架示意图。
在 VGG-16 上基于 CIFAR-10 数据集的权重剪枝对比结果。
在 ResNet-18 (NISP 和 AMC 结果为 ResNet-50) 上基于 CIFAR-10 数据集的权重剪枝对比结果。
推荐:与其他方法相比,AutoCompress 的效果超过各种神经网络压缩方法与框架。这一研究使得高效率,高精度地获取深度神经网络高压缩率模型成为可能,并且得到的高效神经网络模型可以在嵌入式移动系统中实现实时推理运算。
论文 7:Escaping from saddle points on Riemannian manifolds
- 作者:Yue Sun、Nicolas Flammarion、Maryam Fazel
- 论文链接:https://arxiv.org/pdf/1906.07355.pdf
摘要:「优化」通常指将函数最大化或最小化,而函数的集合通常表示遵循约束条件的可选择范围。我们可以对比集合内不同的函数选择,来确定哪个函数是「最优」的。另一方面,学习是模型迭代地学习最小化某个误差函数或者最大化某个奖励函数的过程。拿用于分类任务的简单线性回归为例,误差函数是模型输出和数据真值输出之间的均方差,学习过程即找出线性函数 y = a^Tx b 的系数 a_i 和 b_i,以最小化 y(模型输出)和 y(真值输出)间的误差。
例如,学习(即优化)通常使用梯度下降算法通过反向传播来迭代进行。在每一次迭代中,系数 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一个选择,算法将学习到能够最小化误差函数的下一组系数。因此,模型的学习过程归根结底还是优化问题。
本文则深入探索了优化问题的细节,这对理解机器学习的底层数学知识非常重要。
算法 1:扰动黎曼梯度下降算法。
论文作出了多项假设,前两个假设关于 f,最后一个假设关于 M。
推荐:该论文研究了受限优化问题,即对满足多个流形约束条件和一些关于 f(x) 假设的函数 f(x) 执行最小化。该研究证明,只要函数和流形具备恰当的平滑度,则扰动黎曼梯度下降算法能够避开鞍点。ArXiv Weekly Radiostation
本周 10 篇 NLP 精选论文是:
1. Joint Reasoning for Multi-Faceted Commonsense Knowledge. (from Gerhard Weikum)2. A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. (from Minlie Huang)
3. Bi-Decoder Augmented Network for Neural Machine Translation. (from Yueting Zhuang, Deng Cai)
4. FGN: Fusion Glyph Network for Chinese Named Entity Recognition. (from Zhenyu Xuan)
5. Language Models Are An Effective Patient Representation Learning Technique For Electronic Health Record Data. (from Nigam H. Shah)
6. Robust Speaker Recognition Using Speech Enhancement And Attention Model. (from Thomas Hain)7. ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training. (from Ruofei Zhang)8. Lexical Sememe Prediction using Dictionary Definitions by Capturing Local Semantic Correspondence. (from Maosong Sun)9. CLUENER2020: Fine-grained Name Entity Recognition for Chinese. (from Cong Yu)10. Learning to Multi-Task Learn for Better Neural Machine Translation. (from Gholamreza Haffari)
本周 10 篇 CV 精选论文是:
1. 180-degree Outpainting from a Single Image. (from Alan Bovik)2. Learning multiview 3D point cloud registration. (from Leonidas J. Guibas)
3. Visual Question Answering on 360{\deg} Images. (from Ming-Hsuan Yang)
4. CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency. (from Ming-Hsuan Yang)
5. Learning Transformation-Aware Embeddings for Image Forensics. (from Kevin Bowyer)
6. Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics. (from Wen Gao)
7. Single Image Dehazing Using Ranking Convolutional Neural Network. (from Jia Li, Xiaogang Wang)
8. Few-shot Action Recognition via Improved Attention with Self-supervision. (from Philip H. S. Torr)
9. Rethinking Class Relations: Absolute-relative Few-shot Learning. (from Philip H. S. Torr)
10. Unifying Training and Inference for Panoptic Segmentation. (from Philip H.S. Torr)
本周 10 篇 ML 精选论文是:
1. Smart Data based Ensemble for Imbalanced Big Data Classification. (from Salvador García, Francisco Herrera)
2. Symplectic networks: Intrinsic structure-preserving networks for identifying Hamiltonian systems. (from George Em Karniadakis)
3. Lipschitz Lifelong Reinforcement Learning. (from Michael L. Littman)
4. Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems. (from Tong Zhang)
5. On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width. (from Lior Wolf)
6. Unsupervised Learning of the Set of Local Maxima. (from Lior Wolf)
7. A Formal Approach to Explainability. (from Lior Wolf)
8. Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN). (from Carsten Rother)
9. HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset. (from Stephen Roberts)
10. Autoencoding undirected molecular graphs with neural networks. (from Jeppe Johan Waarkjær Olsen)
,