문제를 효율적으로 찾고 수정하며, 애플리케이션 상태를 개선하고 더 나은 고객 경험을 제공함

세 가지 기본 관측성 신호는 지표, 로그(반구조 데이터) 및 추적(모든 종속성에 걸쳐 처음부터 끝까지의 요청 흐름)입니다. 이러한 신호는 컨테이너, 마이크로 서비스 및 애플리케이션과 같이 모니터링되는 환경의 출력입니다. 목표는 DevOps 및 사이트 신뢰성 엔지니어가 중요한 이벤트를 격리하고 모든 관측성 신호를 사용하여 어디에서나 실행되는 컨테이너형 애플리케이션 및 마이크로서비스로 문제를 격리할 수 있는 통합된 환경을 제공하는 것입니다. Amazon OpenSearch Service는 로그 및 추적 데이터 분석을 단일 솔루션으로 통합합니다.

AWS On Air의 Amazon OpenSearch Service로 관측성을 소개합니다(21:19).

관측성 연산

Amazon OpenSearch Service는 관측성 문제를 해결하는 데 도움이 되는 새로운 기능을 제공합니다. 개방형 인터페이스를 사용하여 원격 측정 데이터(OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper 등)를 수집, 라우팅 및 변환합니다. 기본 기능으로 대량의 반구조화 데이터를 검색하고 분석할 수 있습니다. OpenSearch Dashboard의 이상 탐지 관측 기능을 통해 시각화, 모니터링 및 경고를 수행할 수 있으며 쿼리 인터페이스인 파이프 처리 언어(PPL)를 통해 데이터에 대한 대화형 분석 및 시각화를 수행할 수 있습니다.

Amazon OpenSearch Service는 관찰 가능성, 추적 분석, 로그 분석 및 애플리케이션 성능 모니터링(APM) 문제를 4가지 차원에서 접근합니다.

수집: 먼저 분석을 위해 데이터를 수집해야 합니다. 수집에는 여러 소스에서 데이터를 수집, 농축, 필터링, 변환 및 정규화하는 작업이 포함됩니다.

탐지: 고객은 문제를 시작되어도 바로 탐지하지 못하는 경우가 많으며, 문제가 시작되는 시점과 알림을 받는 시점 사이 지연 시간이 발생하는 경우가 많습니다. 이 지연 시간을 가능한 많이 줄이기를 원합니다. 탐지는 사전 예방적이고 다면적이어야 합니다(예, 텔레메트리의 경보). 이상 탐지는 알람 피로를 줄이기 위한 중요한 도구이자 피로를 줄일 수 있도록 관련 알람을 연결할 수 있는 기능입니다. 탐지의 핵심 구성 요소는 시각화 및 모니터링이며, Amazon OpenSearch Service는 OpenSearch 대시보드라는 구성 요소를 사용합니다. PPL과 같은 도구를 사용하여 대화식으로 데이터를 분석할 수도 있습니다.

조사: 조사는 운영 이벤트 중에 사람들이 가장 많은 시간을 소비하는 곳이며, 조사에는 보통 여러 명이 필요합니다. 조사는 MTTI(평균 문제 원인 파악 시간) 및 MTTR(평균 문제 해결 시간)의 가장 큰 기여자입니다. 혼란 속에서 무엇에 집중해야 하는지 이해하는 것은 여전히 어려운 과제입니다. AWS와 온프레미스 또는 기타 클라우드에서 로그, 지표 및 추적을 활용하여 지표, 로그 및 추적 간에 상관 관계를 유지하면서 근본 원인 분석을 신속하게 수행할 수 있습니다. OpenSearch Dashboard 노트북을 사용하여 공동 조사를 수행하고 분석을 문서화할 수 있습니다.

해결: 장애 원인을 파악한 후에는 이를 해결해야 합니다. 무언가를 고치려고 노력하다가 상황을 더 악화시키는 것이 최악입니다. 처음부터 실패를 방지할 수 있었던 방법을 알아내기 위해 사후 분석을 수행하는 것을 잊지 마세요. 제안된 변경사항을 문서화하여 문제가 반복되지 않도록 할 수 있습니다. 목표는 동일한 문제가 다시는 발생하지 않도록 하는 것이지만, 만약 발생하더라도 자동으로 문제를 식별하고 해결할 수 있도록 합니다.

작동 방식: OpenSearch Service

작동 방식 - OpenSearch Service

로그 분석을 위해 수집 파이프를 구축하는 몇 가지 작업이 있습니다. 생산업체는 OpenTelemetry, AWS Distro for OpenTelemetry, Jaeger, Zipkin 등과 같은 백엔드 서버, AWS 서비스, 웹 서버 등입니다. 수집기는 데이터를 원본에서 이동하기 때문에 데이터를 로컬로 변환할 수 있습니다. AWS 기본 서비스의 경우, Amazon Kinesis 에이전트 또는 Amazon CloudWatch 에이전트를 사용할 수 있습니다. 오픈 소스의 경우 일반적인 수집기는 Elastic Beats, Fluentd, Fluentbit, 또는 OpenTelemetry 수집기입니다. 집계기는 수집기에서 정보를 버퍼링하므로 Amazon OpenSearch Service에 대한 전체 연결이 상당히 줄어듭니다. 그런 다음 Amazon OpenSearch Service가 집계기의 결과를 인덱싱하고 분석합니다. 결과를 시각화하고 모니터링하기 위해 OpenSearch Dashboards 또는 Kibana를 사용할 수 있습니다.

애플리케이션 성능 모니터링

애플리케이션 성능 모니터링(APM)은 관측성의 완성도를 높이기 위한 첫 단계로 여겨집니다. 하지만 APM 하나로는 충분하지 않습니다. 애플리케이션 모니터링 대시보드가 모두 녹색인 경우에도 애플리케이션이 실제로 예상대로 작동합니까? 고객이 필요한 사용자 경험을 얻고 있습니까? 애플리케이션은 어떤 용도로 사용됩니까? 애플리케이션의 어느 부분이 확장 한계에 도달하고 있습니까? 가장 큰 성장을 경험하고 있는 리전이 어디입니까? 어떤 추세를 시각화하고 계획할 수 있습니까? 지표를 수집할 수 있다면 새 코드를 배포하거나 인프라를 변경할 때 이러한 변경사항이 미치는 영향을 확인할 수 있다는 확신을 가질 수 있습니다. 관측성은 APM이 이러한 추가 질문에 답하도록 발전시킵니다.

고객

Chase International: 규모에 맞는 상시 고객 경험
Dow Jones 및 3M: Amazon OpenSearch Service를 통한 관측성

관측성 리소스

블로그 및 설명서

AWS 새로운 소식 게시물


새로운 관측성 인터페이스 및 로그 분석

이제 Amazon OpenSearch Service는 관측성 인터페이스 및 로그 모니터링 기능을 포함합니다. 이를 통해 개발자와 DevOps 엔지니어에게 성능 문제를 보다 빠르게 진단하고 애플리케이션 가동 중단을 줄이는 데 필요한 인사이트를 제공할 수 있습니다.

AWS 빅 데이터 블로그


Trace Analytics 시작하기

개발자와 IT 운영 팀은 이 기능을 사용하여 분산 애플리케이션의 성능 및 가용성 문제를 해결할 수 있습니다.

AWS 설명서


Amazon OpenSearch Service용 Trace Analytics

OpenSearch Observability 플러그인의 일부인 Trace Analytics를 사용하여 분산 애플리케이션의 추적 데이터를 분석하는 방법에 대해 알아봅니다.

관측성 사용 사례


관측성이란 무엇입니까?

OpenSearch Observability 플러그인의 일부인 Trace Analytics를 사용하여 분산 애플리케이션의 추적 데이터를 분석하는 방법에 대해 알아봅니다.

관찰성 관련 기사


Beyond Efficiency: Overcoming digital complexity through observability(효율성을 넘어서: 관찰성을 통해 디지털 복잡성을 극복)

조직 내 시스템 성능을 최적화할 방법을 모색하는 와중에 오히려 최적화 기회를 놓치고 있습니다. 이 보고서에서는 관찰성 사례를 통합하여 효율성을 높이고, 보안 위협에 대한 인사이트를 제공하며, 브랜드 평판을 높이는 방법을 알아봅니다.

워크숍

Amazon OpenSearch Service의 관측성 기능을 사용하면 단순한 모니터링을 넘어 어떤 이벤트가 발생하고 있는지뿐만 아니라 이벤트가 발생하는 이유를 파악할 수 있습니다. 이 워크샵에서 사용자 프런트 엔드부터 서비스 백엔드 및 그 사이의 모든 것을 계측, 수집 및 분석하는 방법에 대해 알아보세요. Amazon OpenSearch Service, AWS Distro for OpenTelemetry, FluentBit 및 Data Prepper을 함께 통합하세요.

AWS 참조 아키텍처 다이어그램

로그, 추적 및 지표를 통한 관측성

자세히 알아보기 »

동영상

관측성 솔루션으로 신뢰성과 가동 시간 보장
Amazon OpenSearch Service를 통한 관측성 소개

팟캐스트

FAQ

Q: Trace Analytics는 무엇인가요?
Trace Analytics는 개발자와 IT 운영자가 분산된 애플리케이션에서 성능 문제를 찾아 해결할 수 있는 Amazon OpenSearch Service의 새로운 기능으로, 이를 통해 문제 해결 시간을 단축할 수 있습니다. Trace Analytics는 API, 라이브러리, 에이전트 및 수집기 서비스의 단일 세트를 제공하여 분산된 추적과 지표를 캡처하는 Cloud Native Computing Foundation(CNCF) 프로젝트인 OpenTelemetry를 사용하도록 구축되었으므로 고객은 애플리케이션을 다시 계측하지 않고도 Trace Analytics를 활용할 수 있습니다. Trace Analytics는 오픈 소스로서 누구나 무료로 다운로드 및 사용할 수 있는 OpenSearch 프로젝트로 구동합니다.

Q: Trace Analytics를 사용해야 하는 이유는 무엇인가요?
개발자와 IT Ops 이 분산된 애플리케이션의 성능 문제를 찾아 해결하려면 Trace Analytics가 필요합니다. Amazon OpenSearch Service의 기존 로그 분석 기능에 추적 데이터를 추가함으로써 고객은 동일한 서비스를 사용해 성능 문제의 원인을 파악하고 근본 원인을 진단할 수 있습니다. 또한 OpenTelemetry 표준에 대한 지원을 통해 Trace Analytics는 두 개의 인기 있는 오픈 소스 분산 추적 시스템인 JaegerZipkin SDK와 통합할 수 있으므로 개발자는 이 SDK를 계속 사용함으로써 애플리케이션을 다시 계측할 필요가 없습니다.

Q: Trace Analytics는 Amazon OpenSearch Service와 어떤 관련이 있으며 어떻게 작동하나요?
Trace Analytics는 Amazon OpenSearch Service의 통합 기능입니다. 추가 비용 없이 모든 고객에게 무료로 제공됩니다. Trace Analytics는 추적 데이터를 시각화하고 탐색할 수 있는 OpenSearch 대시보드 및 Kibana 기반 사용자 인터페이스를 갖추고 있으며 이상 탐지, 알림, 세분화된 액세스 제어 및 엔터프라이즈 보안과 같은 Amazon OpenSearch Service의 주요 기능과 통합할 수 있습니다. Trace Analytics는 애플리케이션 성능 문제를 해결할 때 로그 데이터 검색 및 분석을 위한 고객의 Amazon OpenSearch Service 사용을 보완합니다.

Q: Trace Analytics는 어떤 데이터 소스를 지원하나요?
Trace Analytics는 현재 Jaeger, ZipkinX-Ray SDK를 포함하여 오픈 소스 OpenTelemetry Collector와 호환되는 애플리케이션 라이브러리 및 SDK의 추적 데이터 수집을 지원합니다. 또한 Trace Analytics는 OpenTelemetry API, SDK 및 에이전트/수집기의 배포인 AWS Distro for OpenTelemetry와 통합됩니다. OpenTelemetry 구성 요소의 성능이 뛰어나고 안전한 배포는 프로덕션 사용을 위해 테스트를 거쳤으며 AWS에서 지원합니다. 고객은 AWS Distro for OpenTelemetry를 사용하여 Amazon OpenSearch Service, 추적 데이터용 AWS X-Ray, 지표용 Amazon CloudWatch 등 여러 모니터링 솔루션에 대한 추적과 지표를 수집할 수 있습니다.

Q: Trace Analytics의 사용을 시작하려면 어떻게 해야 하나요?
Trace Analytics를 시작하려면 여기에서 설명서를 참조하세요.

Amazon OpenSearch Service 요금에 대해 자세히 알아보기
요금 페이지로 이동하기

Amazon OpenSearch Service 요금에 대해 자세히 알아보세요.

자세히 알아보기 
무료 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작
구축할 준비가 되셨습니까?

AWS 관리 콘솔에서 구축을 시작하세요.

시작하기