关注我们
学术桥-订阅号
学术桥-小程序

清华大学孙茂松研究组的论文在人工智能顶级国际会议发表

2015-04-27 清华大学新闻网

清华大二本科生在人工智能顶级国际会议发表论文   清华新闻网4月25日电 4月17日,清华大学计算机系孙茂松教授研究组的论文“字符与词汇表示的联合学习模型”(Joint Learning of Character and Word Embeddings)被人工智能领域顶级会议...

  原标题:清华大二本科生在人工智能顶级国际会议发表论文

  清华新闻网4月25日电 4月17日,清华大学计算机系孙茂松教授研究组的论文“字符与词汇表示的联合学习模型”(Joint Learning of Character and Word Embeddings)被人工智能领域顶级会议“人工智能国际联合大会”(International Joint Conference on Artificial Intelligence,IJCAI 2015)接收。该研究成果由刘知远和孙茂松老师联合指导,由计算机系二年级本科生徐磊与计算机系博士生陈新雄合作完成,徐磊与陈新雄为论文共同第一作者。这是计算机系首次有大二本科生以第一作者身份在顶级国际学术会议发表论文。

  徐磊同学在大一下学期通过计算机系学术新星计划加入孙茂松教授研究组从事词汇表示学习研究,通过一年的不懈努力,与陈新雄合作取得了该研究成果。论文探索了利用汉字信息增强中文词汇表示学习能力的方法,对中文深度计算相关技术发展具有参考价值。

  词汇表示旨在研究如何在计算机中结构化地表示词汇语义信息。伴随大数据时代的来临,如何从大规模文本数据中自动学习词汇表示,成为人工智能与自然语言处理领域的重要研究课题。英语词汇由字母组合而成,与此不同,中文大部分词汇的意义与其中汉字的意义密切相关。然而长期以来,大部分学者主要以英语为对象探索词汇表示学习方法。这些方法难以利用中文词汇内部的汉字信息。

  研究组本项目受到国家重点基础研究发展计划(973计划)和国家自然科学基金的支持,聚焦于面向深度学习的低维向量表示方案,提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型——字符-词汇联合表示模型(Character Word Embedding,CWE,如图所示)。在词汇相似度计算和类比推理两个验证任务上的实验表明,与传统词汇表示学习模型相比,由于考虑了中文词汇的汉字信息,CWE能够显著提升中文词汇的表示能力。

  Character Word Embedding(CWE)与传统CBOW模型对比

  IJCAI始于1969年,最初每2年举行一次,从2014年开始改为每年一次,是人工智能领域的顶级学术会议,被中国计算机学会推荐国际学术会议列表认定为A类会议。IJCAI 2015将于7月底在阿根廷布宜诺斯艾利斯召开,今年共收到1996篇投稿,录用575篇,录用率为28.8%。

  消息来源:http://news.tsinghua.edu.cn/publish/news/4209/2015/
20150425101330668125647/20150425101330668125647_.html

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性。
如果作者不希望被转载,请与我们联系。
扫码关注学术桥
关注人才和科研