发布于 2018-10-18   202人围观   0条评论
先看实例代码 val sdf = new SimpleDateFormat("yyyyMMdd") sc.textFile(Constants.trainPath) .map(date=>{ val l=Try(sdf.parse(date).getTime).toOption (date,l) }) .foreach(p
查看更多
TransmogrifAI    发布于 2018-10-11   10人围观   0条评论
##前提 提取特征 val sex=FeatureBuilder.PickList[Passenger].extract(d=>d.sex.map(_.toString).toSet[String].toPickList).asPredictor ![](https://leanote.com/api/file/getImage?fileId=5bb42bb0ab64416b760
查看更多
HBase    发布于 2018-09-28   13人围观   0条评论
# 1 写入阻塞 表现为服务器数据无法写入,RegionServer经常宕机,修复方法优先级从高到低: ##1.1 RegionServer堆内存设置太小 默认1GB,Memstore占40%,非常容易阻塞 ##1.2 HFile达到了最大的数量阀值 如果HFile达到了hbase.hstore.blockingStoreFiles最大数量,Memstore就不能继续刷写数据到HDFS,而数据还
查看更多
TransmogrifAI    发布于 2018-09-25   4人围观   0条评论
#基本步骤: ##1 构建环境,基础数据caseClass //生成基本数据Schema case class Passenger ( id: Long, survived: Double, pClass: Option[Long], name: Option[String], ...
查看更多
HBase    发布于 2018-09-17   22人围观   0条评论
#1 Region拆分 一个Region代表一个表的一段Rowkey的数据集合,当Region太大,Master会将其拆分。Region太大会导致读取效率太低,遍历时间太长,通过将大数据拆分到不同机器上,分别查询再聚合,Hbase也被人称为“一个会自动分片的数据库”。 Region可以手动和自动拆分。 ##1.1 Region自动拆分 ###1.1.1 ConstantSizeRegionSp
查看更多
HBase    发布于 2018-09-17   84人围观   0条评论
#1 WAL优化 一个Region有一个WAL实例,WAL实例启动后再内存中维护了一个ConcurrentNavigableMap,是一个线程安全的并发集合,包含了很多个WAL文件的引用,当一个WAL文件写满之后就会开始下一个文件,WAL文件数量不断增长知道达到一个阈值之后开始滚动。相关的优化参数有: #Region中最大的WAL文件数量,默认值32(当前版本已舍弃) hbas
查看更多
HBase    发布于 2018-09-12   12人围观   0条评论
#1 JVM调优 ##1.1 堆内存 默RegionServer的堆内存为1G,这里Memstore默认站40%,也就是400M,在实际场景中很容易因为Memstore太小导致阻塞,修改参数,在cong/hbase-env.sh: export HBASE_HEAPSIZE=8G 该参数会将Master和RegionServer的堆内存都设置为8G,所以有需要的话尽量使用专用的堆内存设
查看更多
Kubernetes    发布于 2018-08-31   9人围观   0条评论
转载自简单之美[原文连接:](http://shiyanjun.cn/archives/1671.html) #Kubernetes是什么 Kubernetes是一个开源的容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。我们在完成一个应用程序的开发时,需要冗余部署该应用的多个实例,同时需要支持对应用的请求进行负载均衡,在Kubernetes中,我们可以把这个应用的多个实例分别启动
查看更多
HBase    发布于 2018-08-30   26人围观   0条评论
##先放一张自己总结的图 ![hbase原理](https://leanote.com/api/file/getImage?fileId=5b7fdcfdab6441191000238e) #数据模型 - 一个RegionServer会管理多个Region,一个表的一段键值会生成一个REgion,个别情况一行数据太大也会导致同一段Region根据列族切分为不同Region。 - 每个Reg
查看更多
HBase    发布于 2018-08-24   65人围观   0条评论

    hbase中的宽表是指很多列较少行,即列多行少的表,一行中的数据量较大,行数少;高表是指很多行较少列,即行多列少,一行中的数据量较少,行数大。

hbase的row key是分布式的索引,也是分片的依据。
hbase的row key + column family + column qualifier + timestamp + value 是HFile中数据排列依据。HFile据此,

查看更多
HBase    发布于 2018-08-24   89人围观   0条评论

RowKey长度原则

    Rowkey在最终被存储为一个二进制码流,官方建议设计10-100个字节,但是更多人建议不超过16个字节,原因有以下几点:

  • 数据的持久化文件HFile中是按照KeyValue存储的,如果RowKey过长比如达到100字节,1亿数据中RowKey就要消耗100*10^8=100亿个字节,将近10G数据,会影响到HFile的存储效率;
  • MemStore会将魂村
查看更多
Scala    发布于 2018-08-21   195人围观   0条评论
#书签 ##添加普通书签 将会生成一个普通默认书签,使用✔作为标记,全局只能有一个该书签,使用F11来打标签 F11 ## 添加特殊书签 可以指定书签的具体标记,可以是数字或者字母,按下Ctrl+F11,弹出一个小选择框,选择标记之后就成功打上了标记, Ctrl+F11 ## 删除书签 在已经添加书签的行按下Ctrl+F11即可删除书签。 或者在Favorites页面选中书签
查看更多
Docker    发布于 2018-08-14   39人围观   0条评论
  DockerFile在我理解就是可以将所需要构建镜像的功能、组件都天前配置好,然后直接生成一个Image,而不是先生成镜像,再通过修改容器的方法来生成最终需要的镜像。   镜像的定值实际上就是定值每一层所需要添加的配置、文件,将每一层修改、安装、构建、操作的命令都写入一个脚本,最后使用脚本来构建镜像。Dockerfile的每一条指令(instruction)构建一层,描述了该层该如何构建。
查看更多
Docker    发布于 2018-08-12   167人围观   0条评论
# 镜像基本操作 ### 拉取镜像 docker pull index.alauda.cn/alauda/centos(从灵鹊云拉取) ### 镜像仓库操作 docker login -u 用户名 -p 密码 镜像仓库地址 docker logout ### 查看、删除镜像 docker images 查看镜像 docker rmi 镜
查看更多
Docker    发布于 2018-08-12   134人围观   0条评论
# 什么是Docker   这两周公司新才用了一种基于Docker的分布式计算系统,是集团总部下发的,闭源,所以就不说名字了,但是其设计思想非常值得借鉴。使用Docker的虚拟化技术在计算节点上创建Docker来实现分布式集群搭建,而且可以使用非Spark等的分布式框架,甚至只是使用c++直接编写就可以。因为是闭源,没有做太多了解,但是发现Docker真是一个神奇的东西。   首先,我个人理解的
查看更多