机器之心报道
参与:路雪、蒋思源
EMNLP 是自然语言处理领域的顶级会议,EMNLP 2017 将于 9 月 7 日至 9 月 11 日在丹麦哥本哈根召开。本次 EMNLP 共录用 323 篇论文,包括 216 篇长论文和 107 篇短论文。今日,EMNLP 2017 最佳论文出炉,在这篇文章中我们对获奖论文进行了摘要介绍。
8 月 16 日,由中国中文信息学会青年工作委员会主办,搜狗搜索承办的「自然语言处理前沿技术研讨会暨 EMNLP 2017 论文报告会」在中科院软件所举行。报告会邀请了国内部分被录用论文的作者报告其研究成果,探讨自然语言处理领域的前沿技术。
18 位来自中科院、清华、北大、哈工大等科研机构和高校的研究人员、老师、同学分享和展示了他们的论文(论文列表附在文后)。整场报告会分为四个部分:文本摘要及情感分析、机器翻译、信息抽取及自动问答、文本分析及表示学习。演讲者和台下观众进行了很好的互动,共同探讨自然语言处理领域的新技术。
最佳长论文:
论文: Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints
作者:Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez 和 Kai-Wei Chang
地址:https://arxiv.org/abs/1707.09457
论文:Depression and Self-Harm Risk Assessment in Online Forums
作者:Andrew Yates, Arman Cohan 和 Nazli Goharian.
最佳短论文:
论文:Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog
作者:Satwik Kottur, José Moura, Stefan Lee 和 Dhruv Batra
地址:https://arxiv.org/abs/1706.08502
最佳资源论文:
论文:Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps
作者:Tobias Falke 和 Iryna Gurevych.
地址:https://arxiv.org/abs/1704.04452
最佳长论文:Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints
摘要:支持从网上收集图像的自然语言越来越多地用于定义丰富的视觉识别问题。这些任务使用结构化预测模型以利用视觉输入和同现标签的关联性,但是这种关联性经常编码了网站语料库中的社会偏见。在本论文中,我们研究了与多标签目标分类和视觉语义角色标注(visual semantic role labeling)相关联的数据和模型。我们发现(a)这些任务的数据集包含严重的性别偏见,(b)在这些数据集上训练的模型放大了这些偏见。例如,在训练集中,做饭涉及到女性的概率要比男性高33%,而训练后的模型在测试集上将这一概率放大到了68%。我们建议可以注入用于校准现有结构化预测模型的语料库级约束,并基于拉格朗日松弛设计一种算法以进行群体推断。我们的方法几乎在识别任务上没有性能损失,但是降低了偏见放大的数量级,在多标签分类和视觉语义角色标注任务上分别降低了47.5%和40.5%。
最佳短论文:Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog
摘要:近期大量研究提出适用于合作多智能体群(cooperative multi-agent population)通信协议的端到端学习技术,同时还发现智能体开发的协议中出现基础的人类可翻译的语言,这种语言是在无人类监督的情况下学得的!
在本论文中,我们将 Task & Talk reference 游戏作为对两个智能体进行测试的平台,展示了一串「负」结果最终生成了一个「正」结果,这证明尽管智能体创造的大部分语言是有效的(即可获取近乎完美的任务奖励),但这些语言显然不可翻译或合成。本质上,我们发现自然语言不是「自然」出现的,尽管人们可能从近期文献中获取自然语言的出现很容易的假象。我们讨论的是如何使创造出的语言随着两个智能体更多的交流限制而变得越来越像自然语言。
最佳资源论文:Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps
摘要:概念图(concept map)可用于准确呈现重要信息和理清大型文档集的结构。因此,我们研究了一种多文档摘要的方法,它以概念图的形式生成摘要。但是,目前仍缺乏适用于该任务的评估数据集。为了填补这个鸿沟,我们展示了一个新建的概念图语料库,它概述了教育主题的异质网页文档集。该语料库使用新型的众包方法创建,该方法帮助我们高效确定大型文档集中的重要元素。除语料库外,我们还发布了一个基线系统,并提出一项评估协议,以促进该领域的进一步研究。
自然语言处理前沿技术研讨会暨EMNLP 2017论文报告会展示论文列表:
论文:Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video
作者: Haoran Li, Junnan Zhu, Cong Ma, Jiajun Zhang and Chengqing Zong
,
论文:Affinity-Preserving Random Walk for Multi-Document Summarization
作者: Kexiang Wang, Tianyu Liu, Zhifang Sui and Baobao Chang
论文:A Question Answering Approach for Emotion Cause Extraction
作者: Lin Gui, Jiannan Hu, Yulan He, Ruifeng Xu, Lu Qin and Jiachen Du
论文:Towards a Universal Sentiment Classifier in Multiple languages
作者: Kui Xu and Xiaojun Wan
论文:Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision
作者: Leyi Wang and Rui Xia
论文:Translating Phrases in Neural Machine Translation
作者: Xing Wang, Zhaopeng Tu, Deyi Xiong and Min Zhang
论文:Neural Machine Translation with Word Predictions
作者: Rongxiang Weng, Shujian Huang, Zaixiang Zheng, XIN-YU DAI and Jiajun CHEN
论文:Towards Bidirectional Hierarchical Representations for Attention-based Neural Machine Translation
作者: Baosong Yang, Derek F. Wong, Tong Xiao, Lidia S. Chao and Jingbo Zhu
论文:EarthMover's Distance Minimization for Unsupervised Bilingual Lexicon Induction
作者:Meng Zhang, Yang Liu, Huanbo Luan and Maosong Sun
论文:Incorporating Relation Paths in Neural Relation Extraction
作者: Wenyuan Zeng, Yankai Lin, Zhiyuan Liu and Maosong Sun
论文:End-to-End Neural Relation Extraction with Global Optimization
作者: Meishan Zhang, Yue Zhang and Guohong Fu
论文:Reasoning with Heterogeneous Knowledge for Commonsense Machine Comprehension
作者:Hongyu Lin, Le Sun and Xianpei Han
论文:Learning to Predict Charges for Criminal Cases with Legal Basis
作者: Bingfeng Luo, Yansong Feng, Jianbo Xu, Xiang Zhang and Dongyan Zhao
论文:Neural Response Generation via GAN with an Approximate Embedding Layer
作者: Zhen Xu, Bingquan Liu, Baoxun Wang, Chengjie SUN, Xiaolong Wang, Zhuoran Wang and Chao Qi
论文:Part-of-Speech Tagging for Twitter with Adversarial Neural Networks
作者:Tao Gui, Qi Zhang, Haoran Huang, Minlong Peng and Xuanjing Huang
论文:Chinese Zero Pronoun Resolution with Deep Memory Network
作者:Qingyu Yin, Yu Zhang, Weinan Zhang and Ting Liu
论文:Ngram2vec: Learning Improved Word Representations from Ngram Co-occurrence Statistics
作者:Zhe Zhao, Tao Liu, Shen Li, Bofang Li and Xiaoyong Du
论文:Idiom-Aware Compositional Distributed Semantics
作者:Pengfei Liu, Kaiyu Qian, Xipeng Qiu and Xuanjing Huang