建议把可用性(Availability)、平均时延(RTT)、丢包率(Packet Loss)、抖动(Jitter)、吞吐量(Throughput)和单向延迟作为核心指标。可用性按分钟或小时口径计算,目标通常≥99.95%;RTT、丢包和抖动应按业务类型设阈值(如VoIP需丢包<1%、抖动<30ms)。同时定义SLA测量点(客户侧、骨干侧、目的地)和统计窗口(5m/15m/24h)。
告警分级非常重要:信息类、警告类、紧急类。对SLA相关指标设置多级阈值(阈值1:短时抖动或瞬间丢包;阈值2:持续降级;阈值3:严重故障)。告警触发要包含上下文(时间窗口、测点、历史值)并支持抑制与去重,避免告警风暴。建议绑定自动化动作(比如流量切换、故障单自动创建)和明确的值班/升级流程(S1->S2->厂商)。
日志包括链路层(BGP、PPP、接口状态)、网络层(ICMP、SNMP traps)、应用层(SNMP/NetFlow/sFlow)和监控系统自身日志。统一使用时间同步的UTC时间戳并包含测点ID、事件类型、原始采样值和上下文。建议采用结构化日志(JSON)便于检索与关联,所有日志应经TLS加密传输至集中日志平台,并支持索引与生命周期管理。
推荐实施合成监测(Synthetic Testing)和真实业务抽样双轨检测。合成探针定时对关键路径发起事务,验证端到端体验;真实流量采样用于捕捉间歇性问题。结合自动化脚本实现故障切换与回滚演练,并定期进行故障恢复(DR)与告警处置演练,验证Runbook的有效性及SLA响应时间。
根据合规要求(如个人信息法、行业合规)和排查需求设定不同日志级别的保留期:关键事件与审计日志建议保留1-3年,性能采样与流量摘要保留3-12个月,原始流量仅在需时保留。采用冷热分层存储(热库快速查询、冷库归档)和日志压缩/采样策略降低成本。强烈建议对敏感字段做脱敏或加密,并定期清理过期数据以满足最小权限和最小保留原则。