2018-01-22 14:03:00    63    0    0
通过垃圾箱恢复 HDFS提供了垃圾箱的功能,如果我们执行了-rmr删除命令,文件并不是马上删除,而是会被移动到这个操作用户的.Trash目录下边,登道一定时间爱你之后会真正执行删除操作。 <property>     <name>fs.trash.interval</name>   &nbs
2018-01-17 10:46:08    1    0    0
简介测试使用了3台24核,200G的服务器,每个结点有22块磁盘,给ElasticSearch配置了13块磁盘。最开始没有进行任何优化,使用mapreduce导入勉强达到10000条/S,Spark可以达到11000条/S,使用了下边介绍的一些优化方法,最快可以达到30万条/S。有了30倍左右的提升。 综合来说,提升速度可以从一下几方面入手: 优化磁盘件的任务均匀情况,将shard尽量均匀分不到物理主机的各个磁盘上。 加大index refresh间隔,目的是降低io,业界iangdi了segmentmerge的频率 translog flush间隔调整从2.x开始,默认设置下,translo
2018-01-17 10:18:49    0    0    0
1、简介 说到分析器就必须介绍一下Elasticsearch的索引分析了,ES会把一个文本块分析成一个个单独的词(term),为后边的倒排索引做准备。然后标准化这些词为标准形式,提高可搜索性,这些工作是分析器analyzers完成的。一个分析器包括: (1)字符过滤器(character filter) 将字符串去除HTML标记,或者转换&为and。 (2)分词器(tokeniz
2018-01-17 10:17:24    1    0    0
Logstash作为Elastic技术栈中的数据手机工具,拥有非常多的数据处理插件,包括数据输入、数据过滤、数据编码、数据输出四类。本次主要使用到了kafka导入插件以及elasticsearch导出插件。在Logstash6.x版本中,已经内置了kafka-input插件以及elasticsearch-output插件。 在解压Logstash服务之后,只需要配置一个config文件即可。在c
2018-01-17 09:39:19    1    0    0
Elastic内置或者第三方配置了非常多的插件,插件又分为3类 站点插件:相当于一个web服务,只需要在一台节点上部署即可; java插件:相当于一些jar包,需要在每个集群上部署,并且需要重启集群; 混合插件,也就是站点插件和java插件的混合,部署方式和java插件一样。 插件安装 elasticsearch-plugin install 插件名称或地址 ela
2018-01-15 09:55:47    0    0    0
新建es用户 这里需要注意的是, es  规定  root  用户不能启动  es ,所以需要创建一个用户来启动  es # 创建用户名为 es 的用户 useradd es # 设置 es 用户的密码 passwd es # 创建 es&n
2018-01-14 22:34:23    164    0    0
简介Accumulator是Spark提供的累加器,使用的时候相当于一个全局的变量,该变量只允许数值增加,并且只有Driver能获取Accumulator的值(通过value方法),Task只能对其进行增加操作(通过+=或者add方法)。当为Accumulator进行单独命名时候,就可以在监控页面中看到其结果了。 使用(在Spark2.x中)默认累加器    //允许定义longAccumulator,doubleAccumulator以及collectionAccumulator,每个方法可以定义名称。     
2018-01-14 16:12:31    0    0    0
1.尽量将需要展现的字段作为维度,没必要所有的一股脑加进去。 2.每次查询或者要经常group by的字段作为Mandatory维度。且该维度放在rowkey的最前面。 3.将数量相近也就是说某两个字段通过select count("字段名")获取的结果近似1:1,设置为joint维度。 4.rowkey的顺序按查询频率从高到低,从前往后排。 5.将经常出现在同一SQL中的不同维度放置在一个维度组中,将从不出现在一个SQL查询中的不同维度设置在不同的维度组中。 6.Dictionary默认为dict类型,如果某个字段中的值非常大(小幽遇到过的一个字段中的值保存成文本足足有23Kb!!!),大到