gdp1368@outlook.com 's Blog
Love Leanote!
Toggle navigation
gdp1368@outlook.com 's Blog
主页
About Me
归档
标签
fasttext
2018-12-25 13:49:11
14
0
0
gump_don
## **论文浅尝《Bag of tricks for Efficient Text Classification》** --- ### **模型结构**  优化函数: $$min -\frac{1}{N}{\sum_{n=1}^{N}{y_n}{\log(f(BAx_n))}}$$ 其中,A是词表权重矩阵,$y_n$是标签,B是权重矩阵,$x_n$是词袋特征。 ### **层级softmax结构** 利用huffman编码,对label分层,节省训练时间。 ### **N-gram features** hashing trick对n-gram模型做映射。 --- ## **模型训练** ### **数据预处理** #### **转化成训练格式** 示例: > __label__command 唱歌 来 看 #### **数据集划分** 1. 训练集测试集划分:`sklearn.model_selection.train_test_split`。可选参数:test_size=0.2 2. K阶数据划分:`StratifiedKFold`。可选参数:K=5 ### **训练模型** 设计参数池,对池中每张参数列表进行K折训练,求出平均精度和平均召回率。对精度进行排序,选择精度最高一组参数值。 根据最优一组参数值去训练整个数据集。 参数池:`{'lr': 0.1, 'epoch': 10, 'wordNgrams': 4, 'dim': 300, 'minCount': 10, 'minn': 1, 'maxn': 3,'bucket': 500000, 'loss': 'softmax'}` ### **优化方案** 1. 加入OOV; 建立训练词库表,过滤超出词表的词。 2. 重新划分意图; 目前的意图有:chat, command, memory, music, intelligent_home, LBS, alarm, weather, query, volume, bag, story, greet, radio, machine, news, time, sleep, face。 重新划分大类意图,在大类意图下再重新训练字意图。(待商议) 3. 使用集成学习方法; 综合其他机器学习模型,例如随机森林,xgboost,综合得出结果。 4. 使用自己训练的词向量。 **重点! 训练数据整理!**
上一篇:
意图模型评测
下一篇:
211服务器上安装部署OpenPose
0
赞
14 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册