特征工程    2018-04-15 22:52:02    117    0    0
  一 分箱法(Bucketizer) 1.1 算法简介     分箱数位n+1时候,将产生n个区间,除了最后一个区间外,每个区间范围都是由分箱的x,y决定,分箱必须是严格递增的。分箱(区间)在分箱指定外的值江北归为错误,两个分裂的例子为Array(Double.NegativeInfinity,0.0,1.0,Double.PositiveInfinity
机器学习    2018-04-15 19:48:23    4    0    0
一 KMeans聚类算法     是一个迭代求解的聚类算法,属于划分(Partitioning)型的聚类方法,首先创建K个划分,然后迭代的将样本从一个划分转移到另一个划分来改善最终聚类的质量。 1.1 算法介绍: 根据给定的K值,选取K个样本点作为初始划分中心。 计算所有样本点到每一个划分中心的距离,并将所有样本点划分到距离最近的划分中心,距离有多个函数可以选择,常
机器学习    2018-04-03 09:36:36    6    0    0
1、协方差     表示两个变量是同方向变化还是反方向变化,同方向则协方差为正。     表示xy两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值只差”得到的乘积,在对这个每时每刻乘积求和,再求平均值,相当于求期望了。     有时候,x和y的运动并不是单纯
Scala    2018-04-01 22:03:04    32    0    0
 一、不可变Map  1.1 增删查 //创建 var map=Map[String,Int]() //新增 map+(k->v)    map+(k->v,k2->v2)  map.updated(k,v)//返回一个新map map+=(k->v)  &
机器学习 特征工程    2018-03-14 09:23:42    6    0    0
λ " data-mce-tabindex="0" 一 归一化(Normalization) λ " data-mce-tabindex="0"     归一化可以把数据映射为[0,1],或者[-1,1]之间的小数,为处理数据而生。也会将数据从有量纲的表达式转变为无量纲的表达式,称为标量。其对于不同
机器学习    2018-03-12 19:26:48    8    0    0
 一 XGBoost on Spark import ml.dmlc.sgboost4j.scala.Booster import ml.dmlc.xgboost4j.scala.spark.XGBoost import org.apache.spark.sql.SparkSession object SparkWithDataFrame{ &
机器学习    2018-03-07 09:54:01    8    0    0
git clone --recursive https://github.com/dmlc/xgboost cd xgboost; make -j4 <dependency> <groupId>ml.dmlc</groupId> <artifactId>xgboost4j</a
CarbonData Spark    2018-03-01 17:41:37    48    1    0
1 系统环境 测试环境使用3台24核+200G+12T的CentOS7 JDK1.8.0+ Git 1.8.3.1 Maven 3.5.2(保证3.4以上) Hadoop 2.7.3 Scala 2.11.12 Spar 2.2.0 Thrift 0.11.0 1.1 Thrift部署     除了thrift其他都是大数据工程师比较常见的使用框架,所
CarbonData    2018-03-01 16:30:10    26    0    0
1 预聚合表PRE-Aggregate     对于OLAP场景,carbonData提出了创建多个预聚合表,在执行olap查询的时候加快速度,就像一个镜像表。可以创建多个预聚合表来提高查询性能,但是会占更大的内存以及load数据的速度。 1.1 预聚合表支持sum、Avg、max、min、count。 //创建sales数据表 CREATE TAB
CarbonData    2018-02-28 11:21:30    67    0    0
1 创建表 创建表必须在shell或者代码情况,不能直接使用spark-shell中,因为需要指定hdfs目录 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.CarbonSession._ val carbon = SparkSession.build