11月22日晚上,天津财经大学杨贵军教授应邀在兰州财经大学段家滩校区图书馆小学术报告厅作了题为《基于稳定词典词组的Bi-LSTM+CRF中文分词方法研究》的报告。该场报告是统计学院学术月系列活动之五,报告由统计学院副院长郭精军教授主持,统计学院部分老师和全体研究生共100余人参加了报告会。
杨贵军教授针对基于深度学习的中文分词方法存在词组跨越标记切分现象,提出一种稳定词组词典修正的Bi-LSTM+CRF中文分词方法。利用Bi-LSTM+CRF模型对待测语料进行初始序列标注,综合了Bi-LSTM自主学习的优势和CRF对标签特征的约束。然后,利用基于词典的正向和逆向最大匹配方法对序列标注的结果进行两阶段分词修正,给出一种可以有效删除跨越标记并构建稳定词组词典的方法。
杨贵军教授简介:博士生导师,天津财经大学统计学院院长。南开大学获得博士学位,并在天津财经大学从事博士后研究。从事统计学理论方法及其在经济领域应用研究,主持完成国家级项目2项,发表学术论文60余篇,获省部级奖励3项。入选教育部新世纪优秀人才支持计划,入选百千万人才工程。
甘公网安备 62010002000486号
Copyright©2006-2019中国甘肃在线(甘肃地方门户网). All Rights Reserved