数据小站
数据科学成长之路

大数据

hadoop 用户命令

hadoop用户命令有archive、distcp、fs、fsck、jar、job、pipes、version、CLASSNAME hadoop version 查看当前hadoop的版本信息 distcp 递归拷贝文件信息 hadoop ...

客户端io流操作hdfs

使用到的hdfs的包文件: org.apache.hadoop.fs.FSDataInputStream:hdfs文件系统输入流 io流方式上传文件 当数据在系统中不是以文本形式存在时,可以通过io流对接的方式写入hdfs,省去了将数据流先...

eclipse通过api接口操作hdfs

hdfs的操作,主用是获取文件系统、文件的上传下载、文件夹的创建删除、名称变更及信息查看。操作hdfs用到的class对象主用有 : Configuration: 配置文件对象,操作hdfs的桥梁 FileSystem : 文件系统对象,操...

hadoop3与2中端口号的更改

Hadoop 3 端口号的改变 Namenode 端口: NNPorts Namenode 8020 → 9820NNPorts NN HTTP UI 50070 → 9870NNPorts NN HTTPS UI 50470 → 9871...

hadoop集群的客户端操作方式

在正常业务应用场景中,大数据集群都运行在服务器机房。与集群的交互方式需要本地编写jar包然后提交服务器运行。可以在本地搭建客户端,通过eclipse操作集群。 win10下eclipse客户端 配置环境 win10、hadoop3.1.3、...

hadoop分布式集群的配置

ssh免密登陆 ssh免密登陆能够使hadoop集群通过ssh服务,实现节点的数据通信 免密登陆注意事项,ssh免密登陆配置区分用户,需要给集群文件归属的用户配置ssh免密登陆,正常开发环境中,root、集群、个人用户都是独立的用户,不可能...

maven项目管理

maven体系 约定的目录结构、pom文件,坐标、仓库、依赖、生命周期、继承、聚合 目录结构 src src -main -java -package -test -java -package 构建的几个过程: 清理 编译 测试:自动测试,...

hadoop篇--伪分布式环境配置

配置环境:centos7、hadoop3.13,jdk1.8 ,ssh 官方配置文档: http://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-common/Singl...