引言:在云计算运维中,日志管理是系统可观测性的核心。Amazon CloudWatch 作为 AWS 的监控服务,能高效收集、分析和告警日志数据。本文结合企业常见需求,提供 5 步快速搭建监控体系的实操指南。
第一步:创建日志组(Log Group)
日志组是 CloudWatch 的基础存储单元,按应用或服务分类:
登录 AWS 控制台 → CloudWatch → 日志组
点击「创建日志组」,命名规范建议:/app/service_name(如 /ecommerce/payment)
设置日志保留策略(默认永久保存,建议按合规要求调整)
企业痛点解决:通过分类存储,避免混合日志导致的检索混乱。
第二步:配置日志流(Log Stream)
日志流代表组内的具体数据源(如单台服务器):
在目标日志组中点击「创建日志流」
命名建议包含实例 ID(如 i-0a1b2c3d4e5f6g7h8)
自动关联 EC2 实例或 Lambda 函数
第三步:部署 CloudWatch 代理
通过代理收集服务器日志:
# 在 EC2 实例执行sudo yum install amazon-cloudwatch-agentsudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
第四步:设置指标过滤器
将日志转换为量化监控指标:
在日志组中选择「创建指标过滤器」
使用过滤语法(如 [IP, User, Timestamp, Request] 解析 Nginx 日志)
关键场景配置:
错误率监控:ERROR 或 5xx
安全审计:”Failed login”
性能瓶颈:”response_time > 1000ms”
第五步:配置告警与自动化
阈值告警:当错误日志 > 5 条 / 分钟时触发 SNS 通知
自动化处理:
关联 Lambda 自动归档旧日志至 S3
通过 EventBridge 联动 Auto Scaling 扩容
成本优化:设置日志生命周期策略自动清理调试日志
