故障表现
近期发现只要是挂载nfs的服务器,不定期的出现服务器卡死,发现是在ansible自动化发布的时候出现一直卡死,然后登录服务器端发现发现命令不能用,如: ls、df等命令无法正常使用。在客户端查看系统日志没有任何错误。查看系统资源,资源利用率也足够。
故障解决
nfs服务端
登录nfs服务端查看系统的日志发现:
1 | Dec 23 09:01:01 dev-nfs systemd: Removed slice User Slice of root. |
发现nfs的服务端出现 kernel
内核的异常,于是乎登录google得知。发现nfs线程数不够了,提示要增加一些数量的threads。
当前nfs状态
1 | # cat /proc/net/rpc/nfsd |
查看线程数
1 | # cat /proc/fs/nfsd/threads |
原来nfs默认启动了8个thread,应该是不够了,可以手动修改增加一些。修改nfs的默认线程数方式如下
修改nfs的默认线程数
1 | # vim /etc/sysconfig/nfs |
需要重启nfs
验证
1 | # cat /proc/net/rpc/nfsd |