1.
1.1 首先列出可量化目标:可用性(99.95%), PUE, 网络吞吐, 温湿度合规率, UPS/电池健康, 冷却设备效率。
1.2 在日本运营需加入合规与语言要求:指标名/注释使用日英双语,时间时区设为 Asia/Tokyo,告警联系人包含日本值班组。
2.
2.1 基础类:机柜温度、机柜/机房平均温湿度、CRAC出风/回风温度、机柜风速。
2.2 电力类:供电电压、每机柜功率(PDU测量)、总配电负载、UPS负荷和电池放电容量。
2.3 网络类:交换机利用率、链路带宽使用率、丢包率、时延。
2.4 设备健康:服务器CPU/内存/磁盘IO、硬盘SMART、风扇转速。
3.
3.1 物理传感器与BMS:优先通过Modbus/TCP或BACnet读取温湿度、冷冻机状态,示例读取命令按厂商手册配置。
3.2 网络与服务器:使用SNMP(v2c或v3)拉取交换机/路由器MIB、使用node_exporter或Telegraf采集服务器指标,使用IPMI收集服务器硬件信息。
3.3 电力监测:PDU常见支持SNMP或HTTP API,UPS通常提供SNMP或专用Modbus接口,确认OID或API字段并记录。
4.
4.1 推荐方案:Prometheus(指标采集,短期高精度),配合Long-term存储如VictoriaMetrics或InfluxDB用于历史查询。
4.2 配置Retention与采样:高频指标(温度、电流)采集间隔10-30s,保留14天;概览类(每日PUE)1h采样,保留1-3年。
4.3 示例Prometheus scrape配置:在prometheus.yml中定义targets并添加job_name、metrics_path、scrape_interval。
5.
5.1 在采集端或Telegraf/Prometheus relabel时统一标签:site=tokyo-dc, room=rackroom1, rack=rack42, device=crac01。
5.2 为日本使用需添加locale标签locale=ja_JP,便于多语展示和过滤。
5.3 对采集到的值做范围校验(例如温度合理范围-10~80°C),异常值丢弃或标记为NaN。
6.
6.1 数据源配置:在Grafana添加Prometheus/InfluxDB数据源,设置Timeout为30s,默认时区选择Asia/Tokyo。
6.2 面板类型:时间序列折线用于温度/功率趋势,单值卡(SingleStat)用于当前PUE或总负载,表格用于告警历史,柱状图用于带宽分布。
6.3 设计原则:左上放总览SingleStat(UP/Down、PUE),中部为温湿度热图与每列机柜温度趋势,右侧为电力与网络细节。
7.
7.1 新建Dashboard → Add Panel → 选择“Time series”。在查询编辑器输入PromQL,例如:avg_over_time(room_temperature_celsius{room="rackroom1"}[5m])。
7.2 面板阈值与颜色:在Field -> Thresholds 设置绿色(<27°C)、黄色(27-30°C)、红色(>30°C)。开启警报不可替代PrometheusAlertManager(建议使用Alertmanager统一告警)。
7.3 模板变量:在Dashboard settings -> Variables添加变量:site、room、rack,类型为Query,从Prometheus使用label_values(site)填充。
8.
8.1 编写规则文件(prometheus.rules.yml),示例:- alert: RackHighTemp expr: avg_over_time(room_temperature_celsius{rack="rack42"}[5m]) > 30 for: 5m labels: severity: critical annotations: summary: "机柜 rack42 温度过高".
8.2 Alertmanager配置:route按site分发,日本站点发送到指定Slack、邮件或PagerDuty;配置静默窗口和抑制规则。
8.3 告警接收人表单化:在工单中包含日语/英语模板,确保值班能按步骤联动供电/制冷。
9.
9.1 Grafana用户权限:按Team分配Viewer/Editor/Admin。对外共享只给只读链接并设置过期。
9.2 仪表板版本化:将Dashboard JSON导出到Git仓库,使用CI在更新时自动校验变量和面板ID冲突。
9.3 机房运维手册:将关键Dashboard截图与操作步骤(如何切换变量、如何查看历史)写入日语手册并放入知识库。
10.
10.1 Prometheus高可用:对关键指标做HA采集(两台Prometheus互为备用),并使用远程写入到长期存储(VictoriaMetrics)。
10.2 Grafana面板性能:避免在单面板加载大量series,使用聚合函数(avg、max),分页加载表格数据。
10.3 预估存储:按采样率与指标量计算TPS与磁盘需求,示例:1000个series,30s采样,约2.9M点/天,历史14天约40M点。
11.
11.1 验收脚本:编写脚本模拟传感器数据、断电场景以验证告警与面板展示,记录恢复时间。
11.2 日常巡检:每周核对标签、每月检查数据丢失、每季度检验告警规则并更新文档。
11.3 故障排查:若面板无法刷新,先检查Prometheus targets、Prometheus到数据源的HTTP状态、Grafana数据源连接日志。
12.
答:优先级为:机房可用性(uptime)、PUE、电力负载/UPS状态、机柜温度与湿度、网络链路利用率。日本站点还要关注合规记录与对地震/断电快速响应能力。
13.
答:在Dashboard变量与面板标题使用占位符并通过JSON导入不同语言版本;或在面板描述与注解中同时写日英两种文字,模板变量可加locale标签由前端选择locale=ja_JP或en_US。
14.
答:先定位采集链路:检查传感器到采集器(SNMP/IPMI/Modbus)是否丢包,检查采集器到Prometheus抓取是否超时,查看Prometheus target状态与scrape_duration_seconds。必要时在采集层加缓存或降采样,并对比PDU/UPS原始日志以确认数据源准确性。