风之声

聚类是将样本集合中相似的样本(实例)分配到相同的类，不相似的样本分配到不同的类。聚类时，样本通常是欧式空间中的向量，类别不是事先给定，而是从数据中自动发现，但类别的个数通常要预先给定。样本之间的相似度或距离由度量决定。如果一个样本只能属于一

2020-09-21 统计学习

kmeans，层次聚类，谱聚类

降维是将训练数据中的样本(实例)从高维空间转换到低维空间。假设样本原本存在于低维空间，或者近似地存在于低维空间，通过降维则可以更好地表示样本数据的结构，即更好地表示样本之间的关系。高维空间通常是高维的欧式空间，而低维空间则是低维的欧式空间或

2020-09-21 统计学习

PCA, ISOMAP, MDS, LLE

是夜，余观《王立群读史记》毕，感于司马相如与卓文君之逸事，为此文，记后世文学之演绎。白头吟(卓文君)皑如山上雪，皎如云间月。闻君有两意，故来相决绝。今日斗酒会，明旦沟水头。躞蹀御沟上，沟水东西流。凄凄复凄凄，嫁娶不须啼。愿得一

2020-09-20 闲谈

历史逸事

本文将就python中对时间标识的处理做一点讲解，在进行数据分析时，有些时候我们需要对时间序列数据进行处理，比如像下面这样一组数据

2020-09-19 python学习

编程技能，时序数据

这部分总结下传统统计学习的最后一部分内容——非监督学习，非监督学习又称无监督学习，我们前面讲的大部分算法都是需要样本的标签的，通过标签来构造损失函数，进而进行模型学习，但在有的情况下我们并没有数据的标签，这种情况下我们就什么都不能做了么？当

2020-09-11 统计学习

降维，聚类，概率密度估计

这一部分介绍一种特殊的神经网路模型——生成对抗网络(GAN)，生成对抗网络由Lan Goodfellow于2014年提出，该算法在形式上表现为两个神经网络的彼此对抗，对于生成对抗网络，我们可以从以下几个角度来对其进行限定：本质：学习训

2020-09-09 统计学习

GAN

在前面介绍深度学习的理论知识时，相信大家可以感受到，神经网络的实现主要有以下两个难题：当网络结构复杂起来时，手写一个神经网络是非常困难(尤其是进行反向误差传播时)，也是十分费时的。一个神经网络有着大量的参数，对计算机的计算能力要求非常

2020-09-06 统计学习

pytorch，深度学习框架

近些年来，神经网络算法家族蓬勃发展，本部分主要介绍一下这些算法的一些通用原理基础，该部分按照以下结构组织: 神经元模型多层神经网络反向传播算法(BP) 网络训练中常见问题常见网络模型介绍

2020-09-02 统计学习

BP算法，深度学习， CNN

对于一个特定机器学习问题，我们可能会建立很多模型，这些单个模型可能表现都不是非常好，由此便会引出一个问题: 问题1: 能否通过一个算法将这些模型组合起来(Ensemble)，产生一个效果更好的组合模型？这个问题的答案是肯定的，历史上，

2020-09-01 统计学习

Bagging, AdaBoost, 提升树模型

线性判别分析(LDA)是一种经典的线性学习方法，在二分类问题上最早由fisher提出，因此线性判别分析又称Fisher线性判别，该部分按照以下结构组织: LDA算法思想 LDA算法推导多分类任务

2020-09-01 统计学习

线性判别分析

这一部分介绍下决策树算法，决策树是一种基本的分类与回归表示方法，决策树模型呈树形结构，在分类问题中，可以表示为基于特征对实例进行分类的过程。决策树可以认为是”if-then”规则的集合，也可以认为是定义在特征空间与类空间上的概率分分布。本文

2020-08-30 统计学习

树模型,categorical变量

首先讲一个有意思的现象，早期的主流人工智能专注于以逻辑为基础来进行形式化和推理，但这样很难定量地对不确定事件进行表达和处理，后来随着机器学习算法的井喷，大家都更加关注于对定量的数据进行处理。但现在，很多人发现在解决某些任务的时候，加入一些行

2020-08-27 统计学习

规则学习，定性关联