学术动态
当前位置:首页  学术动态
我实验室2021级博士生冯子豪的论文被COLING 2022 录取为Oral论文
发布人:朱聪慧  发布时间:2022-08-19   浏览次数:10

       COLING(International Conference on Computational Linguistics)会议,是自然语言处理领域重要的国际会议。我实验室赵铁军老师和曹海龙老师指导的2021级博士生冯子豪同学题为《Cross-lingual Feature Extraction from Monolingual Corpora for Low-resource Unsupervised Bilingual Lexicon Induction》的长文COLING 2022 录取为Oral 论文

题目:Cross-lingual Feature Extraction from Monolingual Corpora for Low-resource Unsupervised Bilingual Lexicon Induction

       简介:跨语言词语表示能够把两种或多种人类语言的词语表示在一个统一的、共同的空间中借助统一跨语言词语表示框架,在某一种语言建立起来应用系统或者用这种语言表示的信息,都可以推广或迁移到其他语言上。因此,跨语言词语表示研究具有非常重要的科学意义。然而在低资源的场景下,获得大规模平行语料十分困难,模型的性能受到了限制。在本篇工作中,我们提出了一种无监督的跨语言词表示方法(CFE),我们希望仅仅借助单语语料信息,利用在单语语料中词语之间的距离来表示其语义关系,进而得到每个词的跨语言表示,即在不同语言中具有相同含义的单词有相似的向量表示。我们在模型初始化阶段提出了向量融合(ECB)和相似度融合(SCB)两种方法融合现有的预训练向量和我们的跨语言向量,利用融合后的结果先进行粗对齐,再完成之后的迭代工作。该方法对比目前的无监督跨语言词抽取工作,在低资源的语言对上取得了显著的提升,消融实验也证明了我们的跨语言向量与现有的预训练向量在表示上有互补的关系。