MapReduce 电信项目    2019-03-20 23:26:32    1    0    0
[TOC] --- ### **3.3、数据分析**   我们的数据已经完整的采集到了 HBase 集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个 mapreduce-job 的方式,如果情景允许,我们会采取一个 mapreduce 分析多个业务指标的方式来进行任务。具体何时采用哪种方式,我们后续会详细探讨。   
MySQL    2019-03-19 00:38:00    3    0    0
**【mysql】count(*)、count(1)和count(column)区别** 小结:   `count(*)` 对行的数目进行计算,包含NULL。   `count(column)` 对特定的列的值具有的行数进行计算,不包含NULL值。   `count(1)` 这个用法和`count(*)`的结果是一样的。 性能问题:   1、任何情况下 `SELECT COUNT(*) FR
MySQL    2019-03-19 00:37:53    112    0    0
[TOC] --- ## **一、前言**   在工作中经常要与 mysql 打交道,但是对 mysql 的各个字段类型一直都是一知半解,因此写本文总结记录一番。 ## **二、简介** ![](https://s2.ax1x.com/2019/03/19/An8X3n.png)   对于 int 类型的一些基础知识其实上图已经说的很明白了,在这里想讨论下常用的 int(11) 代表什么意
HDFS Zookeeper Kafka Flume HBase Linux 电信项目    2019-03-18 15:22:59    5    0    0
[TOC] --- ## **一、项目背景** >   通信运营商每时每刻会产生大量的通信数据,例如:通话记录,短信记录,彩信记录,第三方服务资费等等繁多信息。数据量如此巨大,除了要满足用户的实时查询和展示之外,还需要定时定期的对已有数据进行离线的分析处理。例如:当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等。我们以此为背景,寻找一个切入点,`学习其中的方法论`。 ## **
Linux Hadoop MapReduce HBase Zookeeper JVM    2019-03-18 11:50:11    154    0    0
[TOC] --- ## **一、通用优化** ### **1.1、NameNode 的元数据备份使用 SSD** ### **1.2、定时备份 NameNode 上的元数据**   建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 ### **1.3、为 NameNode 指定多个元数据目录**   使用 dfs.name.di
Hadoop CentOS7 NTP    2019-03-17 09:22:52    63    0    0
## **一、NTP 配置时间服务器**   当集群中各个节点的时间不同步,误差超过某个范围时,会导致一些集群的服务无法正常进行,这时我们应该想办法做一个定时同步集群所有节点时间的任务。 ### **1.1、检查当前系统时区** 选择某台机器,作为集群中时间服务器的主节点,然后其他机器同步该机器的时间即可。但是在开始这步操作之前,我们需要确保所有节点的时区是统一的: ``` # date -R
Oozie Hadoop    2019-03-12 19:02:21    179    0    0
[TOC] --- ## **第1章 Oozie 的简介** >   Oozie 英文翻译为:驯象人。一个`基于工作流引擎`的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。`Oozie 需要部署到 Java Servlet 容器中运行`。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。 ## *
Azkaban Hadoop    2019-03-10 19:19:32    268    0    0
[TOC] --- ## **一 概述** ### **1.1 为什么需要工作流调度系统** 1)一个完整的数据分析系统通常都是由大量任务单元组成:   shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。 2)各任务单元之间存在时间先后及前后依赖关系。 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。   例如,我们可能有这样一个需求,
Sqoop Hadoop HBase MySQL    2019-03-10 14:29:49    265    0    0
[TOC] --- ## **第1章 Sqoop 简介** >   Sqoop 是一款开源的工具,主要用于`在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递`,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
HBase Hadoop    2019-03-10 01:05:57    157    0    0
## **第8章 HBase 实战之谷粒微博** ### **8.1 需求分析**   1) 微博内容的浏览,数据库表设计   2) 用户社交体现:关注用户,取关用户   3) 拉取关注的人的微博内容 数据库表设计: ![](https://leanote.com/api/file/getImage?fileId=5c829826ab64413eab0082ed) ### **8.2 代码实