kobeliuziyang | 发布于 2018-07-13 14:19:39 | 阅读量 246 |
发布于 2018-07-13 14:19:39 |

    HA模式不同于普通模式直接使用ip:8020这种方式访问。HA模式使用多NameNode,直接访问NameNode是不被允许的,所以为HDFS集群另外设置了一个命名空间namespace,以及两个NameNode的名称,在访问时候直接访问namespace即可。访问方式有两种,需要依赖Hadoop-Client包。在Spark中:

通过配置参数的方式访问

        v
继续阅读
kobeliuziyang | 发布于 2018-01-26 11:26:36 | 阅读量 194 | 特征工程
发布于 2018-01-26 11:26:36 | 特征工程

本节主要包含了一些基于向量的特征变换,当然,不论什么样的特征最后都需要变换为向量才可以被ML所计算,那么在向量中进行一些特征变换也很有必要,本节介绍了:

PCA、Normallizer、MinMaxScaler、MaxAbsScaler、StandardScaler、Bucketizer、ElementwiseProduct、VectorAssembler、QuantileDiscr

继续阅读
kobeliuziyang | 发布于 2018-02-09 15:27:43 | 阅读量 14 | 机器学习
发布于 2018-02-09 15:27:43 | 机器学习

该包下的三个Object都包含实验标签。

1、ChiSquareTest

算法介绍:

    假设检验。其含义就是实际值与期望值之间的偏离度,实际值与期望值之间的偏离度程度决定卡方值的大小,卡方值越大则越偏离,卡方值越小那么说明数据越接近,如果为0那么就相等了。目前spark.ml中支持的是卡方检验,用于类别型数据的卡方检验测试

    对每一个具有标签的特征进行独立测试,每一个特征标

继续阅读
kobeliuziyang | 发布于 2018-07-03 17:32:53 | 阅读量 10 | Python
发布于 2018-07-03 17:32:53 | Python

1、os.system(shell_command)

import os
status=os.system(shell_command)​​

直接在终端执行输出结果,返回执行状态0,1。会启动一个子进程,在子进程中执行command,执行完毕之后返回退出状态,如果command有执行内容,会在标准输出显示。

缺点:这个函数在执行command命令时候需要重新打开一个终端,并且无法保存

继续阅读
kobeliuziyang | 发布于 2018-01-26 11:27:57 | 阅读量 185 | 特征工程
发布于 2018-01-26 11:27:57 | 特征工程

为了方便算法的实现,经常需要将标签数据(一般是字符串)转化为整数索引,或者是在计算结束之后将整数索引还原为相应的标签。所有的转换器都位于org.apache.spark.ml.feature包下。与机器学习算法一样,转换器也是属于Pipeline模型的一部分。

1、StringIndexer(Estimator)

算法介绍:

    可以把一列类别型特征或标签进行编码,使其数值化,索

继续阅读
kobeliuziyang | 发布于 2018-04-03 09:36:36 | 阅读量 17 | 机器学习
发布于 2018-04-03 09:36:36 | 机器学习

1、协方差

    表示两个变量是同方向变化还是反方向变化,同方向则协方差为正。

    表示xy两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值只差”得到的乘积,在对这个每时每刻乘积求和,再求平均值,相当于求期望了。

    有时候,x和y的运动并不是单纯的正相关或是负相关,可能出现混乱的情况,可能某一时刻Y-\mu _{y}的乘积为正,另外一时刻却为负,每一时刻的乘积加在一起,可能导

继续阅读
kobeliuziyang | 发布于 2018-06-18 22:52:30 | 阅读量 182 |
发布于 2018-06-18 22:52:30 |

一 步骤

1.1 数据分析

  • 总体预览数据,了解每一列的数据含义、格式等;
  • 数据初步分析,使用统计学和绘图,初步了解数据之间的相关性,为构造特征工程以及模型简历做准备。   

1.2 特征工程

  • 根据业务,常识,以及之前的数据分析构造特征工程;
  • 将特征转换为模型可以辨别的类型,处理缺失值,处理文本NLP等;

1.3 模型选择

  • 根据目标函数来确定学习类型,监督学习还是非监督
继续阅读
kobeliuziyang | 发布于 2018-06-25 18:44:31 | 阅读量 218 | 机器学习
发布于 2018-06-25 18:44:31 | 机器学习

一 梯度提升迭代树回归-GBDT

算法介绍:

    Gradient-Boosted Trees(GBDT)又名梯度提升决策树,是一种决策树的集成方法,通过反复迭代训练决策树来最小化损失函数。与决策树有一致的优势,具有可处理类别特征、易扩展到多分类问题,不需要特征缩放等特质。

什么是梯度提升算法  

    GB(Gradient Boosting)梯度提升算法

   

继续阅读
kobeliuziyang | 发布于 2018-03-12 19:26:48 | 阅读量 71 | 机器学习 xgboost
发布于 2018-03-12 19:26:48 | 机器学习 xgboost



一 XGBoost 参数调整注意事项

 

    有大神说,参数调整时机器学习的一门暗艺术,模型的最优参数依赖于很多场景,所以创建一个全面的最优是不可能的。

1.1 理解Bias-Variance(偏差-方差)权衡

    这可能是机器学习中最重要的概念之一,如果我们允许模型变得更加复杂,比如深度更深,模型将会具有更好的你和训练数据的能力,会产生一个较少的偏差模型,但是这样

继续阅读
kobeliuziyang | 发布于 2018-01-29 14:03:15 | 阅读量 156 | 机器学习
发布于 2018-01-29 14:03:15 | 机器学习

在模型训练完成后,最终要的任务就是模型选择了,一般我们会使用多组参数来训练相同或不同的模型,通过本节的方法来找到具体问题的最佳模型以及参数,这个过程也叫作调试(Tunning)。调试可以在独立的估计器中完成,也可以在工作流中完成。我们应该一次性调优整个工作流,而不是每个组成部分。

1、交叉验证(CrossValidator)

算法介绍:

    交叉检验,将数据集分为若干子集进行训练和测

继续阅读