高效排查和解决问题,改进应用程序运行状况,提供更好的客户体验
三个基本的可观测性信号是指标、日志(半结构化数据)和跟踪(跨所有依赖项从开始到结束的请求流程)。这些信号是监控环境的输出,例如容器、微服务和应用程序。目标是为 DevOps 和站点可靠性工程师提供集成体验,以隔离关键事件并使用所有可观测性信号将问题隔离到在任何位置运行的容器化应用程序和微服务。Amazon OpenSearch Service 将日志和跟踪数据结合到单个解决方案中。
可观测性操作
Amazon OpenSearch Service 提供了新功能,以帮助解决您的可观测性问题。
功能
使用开放接口收集、路由和转换遥测数据(包括 OpenTelemetry、Fluentd、Fluent Bit、Logstash、Data Prepper 等)。您可以使用本地功能搜索和分析大量半结构化数据。您可以使用 OpenSearch 控制面板的异常检测可观测性功能进行可视化、监控和警报,并使用查询界面竖线处理语言(PPL)对数据进行交互式分析和可视化。
收集
首先,您需要收集数据以进行分析。收集包括从多个来源收集、补充、筛选、转换和规范化数据。
检测
客户通常不会在问题开始时立即发现问题,从问题开始形成到您得知之间通常存在延迟。您希望尽量减少这个延迟。检测应该是主动的和多方面的(如遥测警报)。异常检测是一个关键工具,也是一项将相关警报链接在一起以减少警报疲劳的功能。检测的一个核心组件也是可视化和监控,Amazon OpenSearch Service 使用名为 OpenSearch Dashboards 的组件来实现这一点。 您甚至可以使用 PPL 等工具交互式分析数据。
调查
调查是人们在操作事件中花费最多时间的地方,调查通常需要多人参与。这是平均事件发生时间(MTTI)和平均恢复时间(MTTR)的最大贡献因素。突破混乱并了解应该关注什么仍然是一项艰巨的任务。使用日志、指标和跟踪帮助您在 AWS、本地或其他云端快速进行根本原因分析,同时跨指标、日志和跟踪进行关联。使用 OpenSearch Dashboard 笔记本协作进行调查并记录您的分析。
修复
确定故障原因后,您需要进行修复。没有什么比试图解决问题然后让情况变得更糟更坏的结果了。不要忘记进行事后分析,才能确定如何从一开始就防止失败。记录建议的更改,以防止问题再次发生。您的目标应该是确保不再发生相同的问题;但如果发生了,您也可以自动识别并修复。
应用程序性能监控
有时,应用程序性能监控(APM)是可观测性的第一个成熟度等级。只有 APM 是不够的。在您的应用程序监控控制面板全是绿色的情况下,您的应用程序实际上是否按预期执行? 您的客户是否获得了他们所需的用户体验? 您的应用程序有何用途? 您的应用程序的哪些部分达到了扩展限制? 您在哪个地理区域看到了最快的增长? 您可以可视化和规划哪些趋势? 如果您可以收集指标,您就可以确信在部署新代码或更改基础架构时,您可以看到这些更改的影响。可观测性推动 APM 回答这些其他问题。