信息无障碍通道 | 滚动新闻 | RSS订阅 | 网站地图 |
你好,游客 登录 注册 搜索

斯坦福学者造出机器鸽;港科大等提出学生情绪分析新系统

发布时间:2020-01-20 10:09:12  来源:机器之心 企鹅号   采编:郭椿砾  背景: 无障碍通道

  机器之心&ArXiv Weekly Radiostation

  参与:杜伟,楚航,罗若天

  本周既有港科大、哈工程等机构提出的观察课堂学生情绪变化、注意力集中程度的 EmotionCues 系统,也有斯坦福学者制作的半生物半机械羽毛翅膀的「鸽子机器人」。

  目录:

  EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos

  Ultrafast Video Attention Prediction with Coupled Knowledge Distillation

  DeepShift: Towards Multiplication-Less Neural Networks

  Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

  Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion

  AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

  Escaping from saddle points on Riemannian manifolds

  ArXiv Weekly Radiostation:NLP、CV、ML更多精选论文(附音频)。

  论文 1:EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos

  作者:Haipeng Zeng、Xinhuan Shu、Yanbang Wang 等

  论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010

  摘要:近日,一篇有关课堂监控技术的论文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在论文中,来自香港科技大学、哈尔滨工程大学等机构的研究者提出了一种名为 EmotionCues 的系统。该系统主要关注如何记录学生面部表情,并据此来分析学生在课堂上的情绪变化、注意力集中程度。

  作者之一、香港科技大学计算机教授屈华民介绍说,这个系统「为教师提供了一种更快速、更方便去衡量学生在课堂上参与度的方法。」这项研究的初衷是「善意」的:依靠该系统去监控学生在课堂上的情绪反馈,判断学生在什么时候开始感到无聊,什么时候注意力更加集中,以此来提醒老师该如何改善课堂内容、提高授课质量。

  整个系统的工作流程,包括数据处理和视觉探索两大阶段。

  研究者设计了一个摘要视图,让老师可以看到学生情感的静态和动态演变数据。图(a)显示的是学生的情感档案,用于展示学生的情感分布(静态摘要);图(b)显示的是学生的情感变化曲线(动态摘要)。

  情感变化的可视化图示。

  推荐:港科大、哈工程的研究者开发的这种用 AI 摄像头记录、分析学生情感变化的系统,不仅能知道学生什么时候开始走神,还能具体看到每个学生一整节课的「心路历程」。

  论文 2:Ultrafast Video Attention Prediction with Coupled Knowledge Distillation

  作者:Kui Fu、eipei Shi、Yafei Song 等

  论文链接:https://arxiv.org/pdf/1904.04449.pdf

  摘要:由于传统的高精度视频显著区域检测模型往往对计算能力和存储能力有较高要求,处理速度较慢,造成了资源的浪费。因此,视频显著区域检测需要解决如下两个问题:1)如何降低模型的计算量和存储空间需求,提高处理效率?2)如何从视频中提取有效时空联合特征,避免准确率下降?针对这些问题,来自北航、爱奇艺等机构的研究者提出了耦合知识蒸馏的轻量级视频显著区域检测方法。轻量级视频显著区域检测的难点在于模型泛化能力不足,时域空域线索结合难,影响方法的检测性能。

  研究者提出了一种轻量级的网络架构 UVA-Net,并利用耦合知识蒸馏的训练方法提高视频显著区域检测性能。这种轻量级的网络架构在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的速度分别达到 10,106FPS,404FPS,比之前的模型提升了 206 倍。

  本文提出的耦合知识蒸馏方法的总体架构图,包含空间教师流、时序教师、学生流和时空流。训练分为两步:知识蒸馏和时空联合优化。

  MobileNet V2 卷积块和 CA-Res 卷积块详细流程图。

  本文提出的网络架构与其他 6 种控制变量模型在 AVS1K 数据集上的各指标结果对比。

  推荐:基于耦合知识蒸馏的超高速视频显著区域检测算法与现有的国际高水平方法相比,计算精度与 11 种国际高水平方法相当,并且该技术已经应用到爱奇艺图片搜索、视频素材检索等方向,对爱奇艺很多业务具有启发意义。

  论文 3:DeepShift: Towards Multiplication-Less Neural Networks

  作者:Mostafa Elhoushi、Farhan Shafiq、Ye Henry Tian 等

  论文链接:https://arxiv.org/pdf/1905.13298.pdf

  摘要:深度学习模型,尤其是深度卷积神经网络(DCNN),在多个计算机视觉应用中获得很高的准确率。但是,在移动环境中部署时,高昂的计算成本和巨大的耗电量成为主要瓶颈。而大量使用乘法的卷积层和全连接层正是计算成本的主要贡献者。

  华为的这篇论文提出了解决该问题的新方法,即引入两种新型运算:卷积移位(convolutional shift)和全连接移位(fully-connected shift),从而用按位移位(bitwise shift)和按位取反(bitwise negation)来取代乘法。使用了卷积移位和全连接移位的神经网络架构族即 DeepShift 模型。DeepShift 模型可以在不使用乘法的情况下实现,且在 CIFAR10 数据集上获得了高达 93.6% 的准确率,在 ImageNet 数据集上获得了 70.9%/90.13% 的 Top-1/Top-5 准确率。

  研究者将多种著名 CNN 架构的卷积层和全连接层分别进行卷积移位和全连接移位转换,并进行了大量实验。实验结果表明,有些模型的 Top-1 准确率下降程度低于 4%,Top-5 准确率下降程度低于 1.5%。

  模型在 MNIST 验证集上的准确率。

  模型在 CIFAR10 验证集上的评估结果。

  模型在 ImageNet 数据集上的结果。

  推荐:机器之心之前报道过北大、华为诺亚等合著的一篇论文,探讨了不用乘法用加法能不能做深度学习。最近,我们又看到华为的另一篇论文,这次没有用加法替代乘法,而是用「按位移位」和「按位取反」来取代乘法运算。

  论文 4:Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

  作者:Jing Li、Jing Xu、Fangwei Zhong 等

  论文链接:https://arxiv.org/abs/2001.05161

  摘要:对相机进行智能控制从而实现目标追踪是一项非常具有挑战性的任务。由于环境的复杂性,相机所接收到的视觉信息常常是不完美的,比如环境中存在的障碍物对目标极容易造成遮挡,目标距离远的情况下形态变得不够清晰,相似的背景容易导致目标的混淆等等。传统的方法只靠视觉信息做追踪,在视觉信息质量不够高的情况下很容易导致相机追踪的失败。

  因此在本文中,来自北大、上交等机构的研究者提出引入相机姿态的多相机协同合作机制进行监控场景下的目标追踪。通过对比不同测试环境上的实验结果,本文证实了这种合作机制的有效性和可拓展性。

  文中多相机协同追踪系统演示图。

  多相机协同追踪系统架构图。

  3D 园林和城市环境中的实验对比结果。

  推荐:对于监控场景下的多相机主动追踪任务,本文提出的这种多相机协同追踪系统可以在视觉信息不完善的情况下保证追踪性能,得出了优于以往方法的结果。在全新测试环境(Garden/UrbanCity)上的结果展示了本文方法可以有效地拓展到更多场景。

  论文 5:Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion

  作者:Eric Chang、Laura Y. Matloff、Amanda K. Stowers、David Lentink

  论文链接:https://robotics.sciencemag.org/content/5/38/eaay1246

  摘要:千百年来,人类从未停止过追求如鸟类一般自由飞翔。凭借着一对灵活的羽毛翅膀,鸟类可以在天空中飞行,飞越海洋和大陆。一百多年前,人类受鸟类启发发明了飞机,依靠坚硬的机翼和螺旋桨来飞向既定的方向。但传统机翼的缺陷也很明显:它既会给你想要的升力,也会产生你不需要的阻力。飞机诞生之后,人类仍然在追求对鸟类飞行进行更精确的模拟。

  近日,《Science》和《Science Robotics》杂志分别刊登了来自斯坦福大学的两篇论文,在这两项研究中,研究者揭示了鸟类是如何通过调整翅膀形状来控制飞行的。他们为一个叫做「PigeonBot」的飞行机器人装上一款半生物半机械的「可变形翅膀」。

  斯坦福大学研究者研发的人造翅膀。

  鸽子机器人羽翼主体包含四部分:肱骨、桡骨、尺骨和前肢。

  鸽子机器人整体羽翼架构包含一个螺旋桨驱动的仪表板和一个欠驱动的真实羽毛变形翼。

  推荐:研究团队称,这款鸽子机器人的机动性更强,并且也能够承受更高的风速。目前,PigeonBot 只是一款原型。这项研究对于改进现有飞行器的机翼设计非常有启发意义。

  论文 6:AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

  作者:Ning Liu、Xiaolong Ma、Zhiyuan Xu 等

  论文链接:https://arxiv.org/abs/1907.03141

  摘要:近年来,随着深度神经网络模型性能不断刷新,模型的骨干网络参数量愈发庞大,存储和计算代价不断提高,从而导致难以部署在资源受限的嵌入式平台上。

  滴滴 AI Labs 与美国东北大学王言治教授研究组合作,联合提出了一种基于 AutoML 思想的自动结构化剪枝的算法框架 AutoCompress,能自动化的去寻找深度模型剪枝中的超参数,去除模型中不同层的参数冗余,替代人工设计的过程并实现了超高的压缩倍率。从而满足嵌入式端上运行深度模型的实时性能需求。

  文中 AutoCompress 框架示意图。

  在 VGG-16 上基于 CIFAR-10 数据集的权重剪枝对比结果。

  在 ResNet-18 (NISP 和 AMC 结果为 ResNet-50) 上基于 CIFAR-10 数据集的权重剪枝对比结果。

  推荐:与其他方法相比,AutoCompress 的效果超过各种神经网络压缩方法与框架。这一研究使得高效率,高精度地获取深度神经网络高压缩率模型成为可能,并且得到的高效神经网络模型可以在嵌入式移动系统中实现实时推理运算。

  论文 7:Escaping from saddle points on Riemannian manifolds

  作者:Yue Sun、Nicolas Flammarion、Maryam Fazel

  论文链接:https://arxiv.org/pdf/1906.07355.pdf

  摘要:「优化」通常指将函数最大化或最小化,而函数的集合通常表示遵循约束条件的可选择范围。我们可以对比集合内不同的函数选择,来确定哪个函数是「最优」的。另一方面,学习是模型迭代地学习最小化某个误差函数或者最大化某个奖励函数的过程。拿用于分类任务的简单线性回归为例,误差函数是模型输出和数据真值输出之间的均方差,学习过程即找出线性函数 y = a^Tx + b 的系数 a_i 和 b_i,以最小化 y(模型输出)和 y(真值输出)间的误差。

  例如,学习(即优化)通常使用梯度下降算法通过反向传播来迭代进行。在每一次迭代中,系数 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一个选择,算法将学习到能够最小化误差函数的下一组系数。因此,模型的学习过程归根结底还是优化问题。

  本文则深入探索了优化问题的细节,这对理解机器学习的底层数学知识非常重要。

  算法 1:扰动黎曼梯度下降算法。

  论文作出了多项假设,前两个假设关于 f,最后一个假设关于 M。

  推荐:该论文研究了受限优化问题,即对满足多个流形约束条件和一些关于 f(x) 假设的函数 f(x) 执行最小化。该研究证明,只要函数和流形具备恰当的平滑度,则扰动黎曼梯度下降算法能够避开鞍点。

  ArXiv Weekly Radiostation

  本周 10 篇 NLP 精选论文是:

  1. Joint Reasoning for Multi-Faceted Commonsense Knowledge. (from Gerhard Weikum)

  2. A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. (from Minlie Huang)

  3. Bi-Decoder Augmented Network for Neural Machine Translation. (from Yueting Zhuang, Deng Cai)

  4. FGN: Fusion Glyph Network for Chinese Named Entity Recognition. (from Zhenyu Xuan)

  5. Language Models Are An Effective Patient Representation Learning Technique For Electronic Health Record Data. (from Nigam H. Shah)

  6. Robust Speaker Recognition Using Speech Enhancement And Attention Model. (from Thomas Hain)7. ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training. (from Ruofei Zhang)8. Lexical Sememe Prediction using Dictionary Definitions by Capturing Local Semantic Correspondence. (from Maosong Sun)9. CLUENER2020: Fine-grained Name Entity Recognition for Chinese. (from Cong Yu)10. Learning to Multi-Task Learn for Better Neural Machine Translation. (from Gholamreza Haffari)

  本周 10 篇 CV 精选论文是:

  1. 180-degree Outpainting from a Single Image. (from Alan Bovik)

  2. Learning multiview 3D point cloud registration. (from Leonidas J. Guibas)

  3. Visual Question Answering on 360{\deg} Images. (from Ming-Hsuan Yang)

  4. CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency. (from Ming-Hsuan Yang)

  5. Learning Transformation-Aware Embeddings for Image Forensics. (from Kevin Bowyer)

  6. Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics. (from Wen Gao)

  7. Single Image Dehazing Using Ranking Convolutional Neural Network. (from Jia Li, Xiaogang Wang)

  8. Few-shot Action Recognition via Improved Attention with Self-supervision. (from Philip H. S. Torr)

  9. Rethinking Class Relations: Absolute-relative Few-shot Learning. (from Philip H. S. Torr)

  10. Unifying Training and Inference for Panoptic Segmentation. (from Philip H.S. Torr)

  本周 10 篇 ML 精选论文是:

  1. Smart Data based Ensemble for Imbalanced Big Data Classification. (from Salvador García, Francisco Herrera)

  2. Symplectic networks: Intrinsic structure-preserving networks for identifying Hamiltonian systems. (from George Em Karniadakis)

  3. Lipschitz Lifelong Reinforcement Learning. (from Michael L. Littman)

  4. Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems. (from Tong Zhang)

  5. On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width. (from Lior Wolf)

  6. Unsupervised Learning of the Set of Local Maxima. (from Lior Wolf)

  7. A Formal Approach to Explainability. (from Lior Wolf)

  8. Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN). (from Carsten Rother)

  9. HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset. (from Stephen Roberts)

  10. Autoencoding undirected molecular graphs with neural networks. (from Jeppe Johan Waarkj r Olsen)


本文来源:机器之心 企鹅号

本文评论
再憋大招!神秘地标现身,荣耀正在加快科技创新步伐
11月2日,荣耀官方微博发布了一张#解锁新地标#的海报,海报中充满了科技元素,并有“深圳·荣耀智慧制造产业园”的定位字样,并发文表示...
日期:11-04
混动集大成之作 迈凯伦Artura科技揭秘
“我们曾率先将高性能混合动力技术运用于P1和Speedtail车型,现如今问世的全新Artura(参数|询价)堪称我们在该技术领域的集大成之作,它将演绎新一代...
日期:10-20
特斯拉将向车主提供新版 FSD,驾驶记录良好才能获得
北京时间 9 月 18 日早间消息,特斯拉将向用户推送备受争议的新版全自动驾驶 Full Self-Driving(简称 FSD)软件,谁能获得最新测试版软件呢?特斯拉将会调...
日期:09-18
特斯拉太阳能设备突然涨价引不满:欲恢复原价平息此事
北京时间 9 月 18 日早间消息,据报道,根据今年提交给美国加州圣何塞地区法院的最新文件,由于部分特斯拉客户抱怨太阳能价格在今年早些时候突然上涨,该...
日期:09-18
华为:正式加入互联网路由安全规范 MANRS
9 月 18 日消息 昨日,华为宣布正式成为 MANRS(Mutually Agreed Norms for Routing Security,互联网路由安全规范)的 EVP(Equipment Vendor Program,设...
日期:09-18
外媒:三星90Hz笔记本电脑OLED面板有望用于苹果MacBook Pro
9月17日消息,据国外媒体报道,当地时间周四,三星显示在官网上宣布,他们已开始大规模生产90Hz刷新率的笔记本电脑OLED面板,并将向华硕供货,用于他们即...
日期:09-17
特斯拉 CEO 马斯克:中国汽车制造商具备全球竞争力,特别是在软件设计方面
9 月 17 日上午消息,2021 世界新能源汽车大会继续在海南进行。特斯拉公司 CEO 埃隆・马斯克在演讲中透露,特斯拉正在研发处于第一阶段的训练芯片,并基...
日期:09-17
炭黑产业网:打造炭黑产业互联网供应链平台!
炭黑产业网于2021年上线,是炭黑行业内率先成立的首个第三方“互联网+”电商平台,炭黑产业网是“互联网+”行动计划重点扶持企业,该...
日期:09-16
消息称吉利将启动沃尔沃上市计划:估值200亿美元
沃尔沃上市再传新消息!
  9月16日,据媒体报道,吉利正在与银行就其沃尔沃汽车部门在未来几周内上市进行深入讨论,预计将成为今年欧洲最大的首次...
日期:09-16
现代汽车集团与 LG 合资印尼电池工厂已开建,投资 11 亿美元
对致力于发展电动汽车的汽车厂商来说,稳定可靠的电池供应至关重要,决定着电动汽车的产量,汽车厂商也在寻找可靠的电池供应商,签订长期的供应协议。
日期:09-15
芯片短缺,8 月份韩国汽车出口仍增长 4%
9 月 15 日消息,据国外媒体报道,受芯片短缺等因素影响,今年 7 月份韩国汽车出口量有下滑,同比下滑近 3%。
日期:09-15
要想拍摄 4K ProRes 视频,需要购买至少 256GB 存储的苹果 iPhone 13 Pro
9 月 15 日消息 全新的 iPhone 13 Pro 系列支持 4K ProRes 视频录制,但如果你想以最高质量拍摄视频,有一个限制:你需要购买至少有 256GB 存储空间的 iP...
日期:09-15
华米黄汪:下月发布旗下最高屏占比新品,苹果 Apple Watch 7 没血压功能略感意外
9 月 15 日消息 苹果在今日凌晨的 2021 秋季新品发布会上正式发布了 Apple Watch Series 7 智能手表,拥有更高的屏占比,比上代增大了 20%,屏幕边框比上...
日期:09-15
比亚迪工程师真实工资曝光:211硕士起薪6800元 4年涨4900
作为当前国内新能源汽车的领军品牌,比亚迪集团内部的工程师,工资有多高呢?答案可能会出乎你的意料。
日期:09-14
博世回应车用芯片价格暴涨 300 倍:短缺确实存在,尽全力保供
9 月 14 日消息 此前有消息称,受马来西亚疫情影响,博世 ESP 芯片单价被炒至约 4000 元,而正常供货情况下原价仅 13 元,涨幅高达 300 倍。
日期:09-14
Mac 和 iPad 还得等等,苹果下半年的发布会可能不止一场
北京时间 9 月 13 日消息,北京时间周三凌晨 1 点,苹果公司将举行特别活动,主角是 iPhone 13。别着急,这或许只是第一场。
日期:09-13
小米汽车工厂选址地即将水落石出,消息称采用北京、武汉“双工厂”模式
9 月 13 日消息 据财联社报道,近日从多位消息人士处了解到,小米汽车或将采用“双工厂”模式,即,在通过收购方式以获得产能和生产资质,以便...
日期:09-13
产能稳了!苹果iPhone 13将至:富士康已招工超10万人生产
一年一度的“苹果春晚”即将拉开帷幕,作为科技界最重磅、最受期待的苹果秋季新品发布会,每年都能成为众多数码爱好者和媒体关注的焦点。
日期:09-13
消息称苹果 M1X MacBook Pro”将在“几周”后到货
9 月 12 日消息 苹果公司将会于 9 月 15 日凌晨举行发布会,预计将会推出 iPhone 13 系列等产品。
日期:09-13
中国6G专利申请全球第一 专家警告:一定要避免臆想、武断
国内在5G专利上位列全球第一,现在也在5G建设上领先全球,5G基站已经建成99.3万座,占全球2/3以上。日前华为更一步表态6G网络将在2030年建成。
日期:09-13