数据小站
数据科学成长之路

机器学习

百度NLP分词工具-LAC

百度开源的中文分词、词性标注、专名识别的中文自然语言处理工具,提供python java c 调用借口。 安装 pip install lac LAC使用 对中文语言处理,主要通过调用LAC 类实现 class LAC(object): "...

sklearn中特征工程feature_extraction的使用方法

sklearn的特征工程在 feature_extraction模块中,提供了一系列将文本内容转换成词向量的方法。有字典特征提取DictVectorizer、散列特征提取FeatureHasher、文本特征提取、图片特征提取多种方式。 字典...

sklearn中的线性回归api使用

导入线性回归中用到的模块 sklean中的线性回归模型,在liner_model模块中,常用有线性回归、SGD回归,和岭回归等不同的分类器:LinearRegression,SGDRegressor,Ridge。不同分类器在计算时采用的方式...

jieba结巴分词使用 python3中文分词

在中文的自然语言处理中,需要对中文进行分词。在python3的中文分词中,可以使用jieba来进行中文分词。 jieba分词是一款免费的中文分词工具,既然是免费的,就凑合用吧。和不同领域专业的分词工具,区别在于词库上。像医疗中的很多名词,显...

sklearn一般数据集接口使用 sklearn dataset api

klearn提供的数据集都在sklearn.dataset包中,有load和fetch两种方式,数据类型都是集成字典类型 load加载的小数据集,是安装sklearn时已经打包下载到本地,可以直接加载就能使用,fetch的数据线需要先下载才...

sklearn常用算法API

常用接口 from sklearn import datasets from sklearn.feature_extraction import DictVectorizer from sklearn.model_selection imp...

sklearn一般接口使用

数据接口 sklearn提供的数据集都在sklearn.dataset包中,有load和fetch两种方式,数据类型都是集成字典类型 load方式加载的是小数据,不用下载直接load即可使用, fetch的数据集需要下载 from skle...

Decision Trees

一、Decision Trees Decision Trees决策树是用于分类和回归的无参监督学习方法,在sklearn.tree中 1.DecisionTree分类问题 1.1 sklearn库API使用方法:DecisionTreeCl...