lee-romantic 's Blog
Everything is OK!
Toggle navigation
lee-romantic 's Blog
主页
About Me
归档
标签
关于embedding的一些笔记
2019-03-04 12:08:45
259
0
0
lee-romantic
经常会遇到`embedding`的概念,要搞清楚`embeding`先要弄明白他和`one hot encoding`的区别,以及他解决了什么`one hot encoding`不能解决的问题。 `独热编码(One-hot encoding)`向量是高维且稀疏的。假如说我们在做自然语言处理(NLP)的工作,并且有一个包含 2000 个单词的字典。这意味着当我们使用独热编码时,每个单词由一个含有 2000 个整数的向量来表示,并且其中的 1999 个整数都是 0。在大数据集下这种方法的计算效率是很低的。 但是one-hot编码的优势在于,`计算方便快捷、表达能力强。` 有没有一种办法将独热编码转换一下,化稀疏为密集,提高其效率?这个转换过程就是`embedding,嵌套`!最开始主要是应用在nlp自然语言处理中的。正如Keras 文档里是这么写embedding的:“把正整数(索引)转换为固定大小的稠密向量”。 转换方法可类比下面(实际上就是个转换函数,可以有很多其他方式):  直观上就可以发现,编码矩阵已经减小了一半了! 达到了“降维”的效果。而其中转换的矩阵,可以理解为转换表,过渡矩阵,whatever~ 更详细的可以参考: https://blog.csdn.net/weixin_42078618/article/details/82999906 https://blog.csdn.net/anshuai_aw1/article/details/83586404 https://spaces.ac.cn/archives/4122
上一篇:
python3二维字典更新的问题
下一篇:
熵与信息增益的理解
0
赞
259 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册