解决Hadoop集群zkfc服务无法启动

发表于2017-07-21|更新于2019-06-01|Hadoop

|总字数:132|阅读时长:1分钟|浏览量:

新建集群以后，由于fs.defaultFS的配置与hdfs-site.xml的配置不一致，后来集群运行以后用重新修改了配置，重启集群后发现zkfc服务无法启动，导致namenode不自动切换了。

解决办法：
原因是因为修改配置文件后，重启集群，会把zookeeper中的znode给删除，为什么会删除我也不清楚，反正我在zookeeper中没有发现这个目录。
只需要执行如下命令即可：

1	hdfs zkfc -formatZK

文章作者: Charles

文章链接: https://dev.net.cn/hadoop-zkfc-start-error/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源码农笔记！

赞助

wechat
alipay

相关推荐

macOS使用brew安装Hadoop

前言通常我一直在虚拟机中安装Hadoop、Hive、Hbase等大数据相关的组件，但随着我的笔记本使用年限越爱越长，性能也下降的很快，已经达到开虚拟机就会开的地步，于是我就考虑直接将Hadoop安装到macOS上，避免了虚拟机对资源的消耗，为了更好的管理，我选择使用brew来安装。安装Hadoop使用brew安装Hadoop非常方便，执行如下命令即可： 1brew install hadoop 安装前建议提前安装好JDK，并且配置JAVA_HOME。为了方便使用，我还配置了hosts 123sudo vim /etc/hosts127.0.0.1 hadoop 配置Hadoop配置免密登录macOS默认是关闭了远程登入的功能，所以需要先打开它。打开系统偏好设置 -> 共享，左边勾选远程登录，右边选择仅这些用户，并且把当前用户添加进去。然后生成秘钥和公钥 123456789# 生成公钥和私钥ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa # 将公钥追加到authorized_keys,实现免密登录c...

Kerberos认证后访问HDFS提示Not attempting to re-login错误

场景CDH6.3.4集群，开通了Kerberos认证，在客户端得机器上已经通过了Kerberos得认证并且缓存了票据。由于是新装的系统，安装了最新的jdk-8u371。报错执行hdfs dfs -ls / 命令频繁的打印如下错误： 1org.apache.hadoop.security.UserGroupInformation Not attempting to re-login since the last re-login was attempted less than 600 seconds before 错误原因找了很久，忽然想到了曾经遇到过这种问题，是JDK版本太低导致的，但我安装了最新的JDK1.8，那就有可能是JDK版本太高导致的。解决办法下载了一个jdk-8u221版本，完美解决问题。CDH虽然写了支持JDK1.8，但小版本也会影响到它的正常运行，所以以后遇到类似得情况先调整下JDK版本，别太高也别太低。最好是看下官方有没有推荐的版本。

hbase 异常 Server is not running yet

发现问题同步时间后，发现Hbase统统挂掉了，重启hadoop后，发现Hbase无法正常启动了，报如下错误： 123456789Caused by: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yetat org.apache.hadoop.hbase.regionserver.RSRpcServices.checkOpen(RSRpcServices.java:886)at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:1956)at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.jav...

Hadoop Timed out waiting 20000ms

今天发现测试环境Hadoop集群开始频繁宕掉，查看namenode日志发现有如下报错信息： 1java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond. 原因是因为namenode与journalnode通信时，超过20000ms，触发了默认设置的超时时长，解决办法：在hdfs-site.xml中加入如下配置 123456789101112<property> <name>dfs.qjournal.start-segment.timeout.ms</name> <value>90000</value></property><property> <name>dfs.qjournal.select-input-streams.timeout.ms</name> <value>90000</value></property&...

关闭Hadoop集群时提示no xxx to stop

今天迁移机器的时候，需要手动关闭所有的机器。那么关机之前当然是要先安全的关闭hadoop的相关服务，但是由于这个集群不是我搭建的，发现有些机器在关闭集群的时候出现no xxx to stop，就我发现的来说有namenode，journalnode，jobtracker这三个。问题的原因Hadoop在stop的时候依据的是启动是保存到pid文件的pid.而默认的进程号保存在/tmp下，Linux 默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉pid文件后，namenode自然就找不到datanode上的这个进程了。(不同的进程的进程id文件名会有变化) 解决办法临时解决针对这次集群关闭,我们需要做的是:首先保证集群没有负载,然后去手动杀死datanode/journalnode/zkfc最后去杀死namenode(注意顺序) 永久解决在配置文件hadoop_env.sh中配置export HADOOP_PID_DIR可以解决这个问题。

Hadoop数据迁移

最近有个工作是把数据从CDH5.8迁移到新集群CDH6.1，数据迁移首先想到的就是hadoop distcp命令，distcp(distributed copy)是用于大型集群间/集群内复制的工具。它使用MapReduce来实现其分发，错误处理和恢复以及报告。它将文件和目录的列表扩展为映射任务的输入，每个任务都会复制源列表中指定的文件分区。同版本集群间数据迁移对于Hadoop版本一致或差一两个小版本，可以使用HDFS协议即可,在target集群运行如下命令 1hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo 其中hdfs://nn1:8020/foo/bar为source集群，hdfs://nn2:8020/bar/foo为目标集群。不同版本集群减数据迁移对于版本差距较大，互相不兼容的集群，可以使用hftp协议和webhdfs来实现数据迁移。 hftp协议在target集群运行如下命令: 1hadoop distcp hftp://nn1:8020/foo/bar hdfs://nn2:80...

评论

WalineDisqus