技术文档分享-数据科学小站技术文档分享

数据小站
数据科学成长之路
机器学习

sklearn一般数据集接口使用 sklearn dataset api

klearn提供的数据集都在sklearn.dataset包中,有load和fetch两种方式,数据类型都是集成字典类型 load加载的小数据集,是安装sklearn时已经打包下载到本地,可以直接加载就能使用,fetch的数据线需要先下载才...

python

浅谈python3中的编码问题

什么是编码问题 计算机,只能识别0/1这种标识。我们在网络中收到的语音、视频、图片,在计算机处理过程中,也是一串由0101组合成的字节流,计算机通过对这些0101进行分析处理后,才能让人们视觉所接受。 二进制: 计算机既然只能识别0和1,那...

大数据

客户端io流操作hdfs

使用到的hdfs的包文件: org.apache.hadoop.fs.FSDataInputStream:hdfs文件系统输入流 io流方式上传文件 当数据在系统中不是以文本形式存在时,可以通过io流对接的方式写入hdfs,省去了将数据流先...

大数据

eclipse通过api接口操作hdfs

hdfs的操作,主用是获取文件系统、文件的上传下载、文件夹的创建删除、名称变更及信息查看。操作hdfs用到的class对象主用有 : Configuration: 配置文件对象,操作hdfs的桥梁 FileSystem : 文件系统对象,操...

python应用

python中md5加密

python3中的md5加密,在hashlib模块中 import hashlib m5 = hashlib.md5() # 生成HASH对象,class '_hashlib.HASH' string = 'abcde' m5.update...

大数据

hadoop集群的客户端操作方式

在正常业务应用场景中,大数据集群都运行在服务器机房。与集群的交互方式需要本地编写jar包然后提交服务器运行。可以在本地搭建客户端,通过eclipse操作集群。 win10下eclipse客户端 配置环境 win10、hadoop3.1.3、...

大数据

hadoop分布式集群的配置

ssh免密登陆 ssh免密登陆能够使hadoop集群通过ssh服务,实现节点的数据通信 免密登陆注意事项,ssh免密登陆配置区分用户,需要给集群文件归属的用户配置ssh免密登陆,正常开发环境中,root、集群、个人用户都是独立的用户,不可能...