MON配置Ceph监视器(MONs)存储并维护client用来查找MON和OSD节点的集群映射。Ceph客户端必须连接到一个MON来检索集群映射,然后才能向osd读写任何数据。
一般要求奇数个
mon角色有这几种:Leader:第一个获得最新版本集群映射的MON。provider:拥有集群映射最新版本的MON,但不是领导者。Requester:没有集群映射最新版本的MON,必须与provider同步才能重新加入quorum
1234567ceph mon state5: 3 mons at {cephadm-1=[v2:192.168.10.141:3300/0,v1:192....
集群配置方式ceph通过以下来源来获得它的配置 :
编译默认值
集中式数据库(推荐)
本地主机上的配置文件(不推荐)
环境变量
命令行参数(推荐)
运行时参数
集群配置文件ceph.conf每个ceph节点都会存储一个本地集群配置文件,默认位置在/etc/ceph/ceph.conf
这是cephadm创建的初始ceph配置文件
示例文件/usr/share/doc/ceph/sample.ceph.conf
全局配置 → 组件级配置 → 实例级配置
下层配置覆盖上层同名配置
123456789101112131415161718192021222324252627282930...
ubuntu20.04nfs-subdir-external-provisioner:v4.0.0
NFS123456789sudo mkdir /data/nfssudo chmod 777 /data/nfssudo apt install -y nfs-kernel-serversudo vim /etc/exports/data/nfs 172.16.100.0/24(rw,sync,no_subtree_check) # 关闭子树检查sudo exportfs -arvsudo systemctl enable nfs-server
供应商123456789101112131...
方法1:使用官方软件源1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253# 首先确保驱动已经被卸载干净了sudo /usr/bin/nvidia-uninstallsudo apt-get purge nvidia-*sudo apt-get autoremove *# 添加官方推荐源sudo add-apt-repository ppa:graphics-drivers/ppasudo apt update# 查看可用版本sudo ubuntu...
之前看了下使用gpu-operator部署的,那个太复杂了,带了一堆组件。组件越多可能遇到的问题越多,有空再研究吧
这里直接使用官方文档进行部署
前期准备
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364需要安装完nivida驱动(略)nvidia-smi需要安装nvidia-container-toolkitcurl -fsSL https://nvidia.github.io/libnvidia-...
ceph版本说明
代号
版本号
状态
发布时间
支持截止
重要特性
Octopus
15.2
终止支持
2020-03-20
2022-06
引入 cephadm
Pacific
16.2
LTS 支持中
2021-03-31
2025-03
RBD 即时克隆
Quincy
17.2
LTS 稳定版
2022-04-19
2026-05
增强安全性
Reef
18.2
STS 稳定版
2023-05-31
2024-05
性能优化
Squid
19.2
开发中
-
-
下一代版本
其中红帽 Ceph Storage 5 对应上游 Ceph 的 Octopus...
这个故障我没有去issue里找,但是大概率是bug了
故障背景与现象
在一个父子chart结构的helm工程中,原本有两个老的子chart,mysql与redis,它俩自己是没问题的
后面准备新加minio服务作为依赖项加入chart,我就找了个比较新的minio chart 16.0.10版本,25年4月22的,相当新了
12345依赖项配置: - name: minio version: 16.0.10 repository: "file://./charts/minio" condition: minio.enabled
结果调了一下参数,...
其实之前已经学过ceph了,但是很多都忘了,现在学红帽ceph,再对原本的笔记做一下精简与补充
ceph关键组件
Monitor(MON)Ceph Monitors是维护集群映射的守护进程。集群映射是五个映射的集合,其中包含关于集群状态及其配置的信息
Monitor需要奇数个Monitor来配置ceph集群,因为会需要仲裁
Ceph Object Storage Devices(OSD)OSD是Ceph存储集群的底层块设备,一般认为一块磁盘就是一个OSD,比如sda sdb sdc。
Ceph客户端和OSD守护进程都使用了CRUSH算法来高效地计算对象位置信息,而不是依赖于中央查找表。
...
这个东西整了我三天,贼累,多主节点再说吧,以后有空学一学
在Kubernetes集群中,节点的IP地址是其身份识别的关键部分。当IP地址改变时,会导致以下核心问题:
证书失效Kubeadm使用节点IP地址来生成证书,所有依赖证书的通信,如apiserver,etcd都会因此失败
kubelet 配置失效工作节点上的kubelet使用配置文件连接到apiserver,改变之后工作节点无法找到apiserver
控制平面组件配置失效主节点上会有一些包含绑定到旧IP的配置,如apiserver的–advertise-address, etcd的–listen-peer-urls、–liste...
软件版本说明:Rocky-linux 8.10k8s v1.30.0docker 26.1.3containerd 1.7.15circtl 1.30calico: 3.29.4
需求镜像列表:calico/pod2daemon-flexvol:v3.29.4calico/node:v3.29.4calico/cni:v3.29.4calico/kube-controllers:v3.29.4calico/typha:v3.29.4calico/apiserver:v3.29.4calico/node-driver-r...