Discover, AWS를 사용하여 분석을 가속화하고 빠른 시간 내에 인사이트를 확보
2020년
Discover Financial Services는 신용 등급 개선, 대학 교육비 지불 및 부채 통합과 같은 재정적 목표를 달성하는 데 도움이 되는 뱅킹 및 신용 제품을 제공합니다. 이 회사는 내부와 외부에서 데이터 및 분석을 적극적으로 활용하여 그 약속을 이행하고 고도로 경쟁적인 산업에서 회사를 차별화합니다. Discover Financial Services의 데이터 과학 기술 부문 Brandon Harris 이사는 “고객 데이터가 많다”면서 “이 데이터를 차별화 요소로 사용하여 더 나은 고객 경험을 지속적으로 제공해야 한다”고 말했습니다.
지난 몇 년간 Discover의 팀 및 사업부 안에서는 개별 분석 업무가 나타나기 시작했습니다. 12개 팀에서 약 8~10개의 도구 세트가 사용되었습니다. 각 업무에는 서로 다른 기술 세트와 다양한 도구가 필요했습니다. Discover 경영진은 이러한 업무와 팀을 하나로 통합하여 분석을 개선하고 조직 전체에 일관된 도구를 만들 수 있다고 믿었습니다.
Discover의 기술 팀은 일반적으로 내부에서 새 솔루션을 구축합니다. 엔드 투 엔드 기술을 제어하고 자체 데이터 센터를 관리하는 것을 선호하기 때문입니다. Harris 이사와 팀은 회사의 데이터 사이언티스트들이 Air9이라는 내부 데이터 과학 워크벤치인 공통 환경에서 협업할 수 있는 중앙 집중식 플랫폼을 만들어 달라는 요청을 받았습니다.
Amazon EFS는 확장성 및 비용 측면에서 목적에 정확히 부합합니다. 또한 Kubernetes 커뮤니티에서 서비스와 관련하여 이미 만들어 놓은 스토리지급 기능을 활용할 수 있습니다."
Brandon Harris
Discover Financial Services 데이터 과학 기술 부문 이사
클라우드 네이티브 데이터 과학 플랫폼 구축
Harris 이사가 이끄는 팀이 Air9에 대해 동의한 첫 번째 설계 원칙 중 하나는 다양성에 강점을 두는 것입니다. Harris 이사는 “팀과 경험의 다양성 뿐만 아니라 다양한 접근 방식과 도구를 의미한다”면서 “당사는 잘 확립되어 있는 분석 커뮤니티에 획일적인 데이터 과학 접근 방식을 제공할 생각이 없었다”고 말했습니다.
Harris 이사의 팀은 Kubernetes가 Air9을 호스트하기에 적합하다고 판단했습니다. 회사에서 이미 사용하던 데이터 과학 도구의 다수가 컨테이너화에 적합했기 때문입니다. 전용 컨테이너를 두면 워크로드를 분리하고 사용자 지정 패키지를 설치하며 환경을 변경할 수 있습니다. 이러한 작업은 다중 테넌트 환경에서는 관리하기가 어려울 수 있습니다. Discover는 Amazon Web Services(AWS)의 장기 고객이고 Amazon Simple Storage Service(Amazon S3)를 사용하고 있기 때문에 팀은 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스도 배포하기로 결정했습니다. 이 접근 방식을 사용함으로써 여러 국가의 데이터 사이언티스트 883명이 이제 Amazon EC2 인스턴스 크기, 유형 및 수량을 선택하고 애플리케이션을 이 인스턴스에 자동 탑재하여 데이터 집합을 사용할 수 있습니다.
AWS로 확장성, 스토리지 및 비용 개선
완전관리형 클라우드 네이티브 파일 스토리지의 공유 스토리지 기능은 Air9의 또 다른 중요한 구성 요소였습니다. Harris 이사는 “서로 다른 이 모든 환경을 실행하는 경우 데이터를 저장하고 협업할 수 있는 공통된 방법이 필요하다”고 말
그러나 이 프로젝트는 Discover 팀에서 스토리지 계층을 설계하기 시작했을 때 난관에 봉착했습니다. Harris 이사는 “분석 팀에서는 회사의 클라우드 데이터 웨어하우스에 있는 아주 큰 데이터 집합을 가지고 작업해야 했는데 이 작업을 수행하려면 로컬 스토리지와 팀 간에 데이터를 공유할 수 있는 메커니즘에 대한 계획이 필요했다”면서 “게다가 이 스토리지 계층은 복원력이 아주 높아야 했고 시간이 지남에 따라 엄청난 성장을 지원할 수 있어야 했다”고 말했습니다.
Harris 이사는 팀과 함께 오픈 소스 분산 스토리지 솔루션을 데이터 과학 플랫폼의 스토리지 계층으로 활용하려고 했지만 실행 및 관리 비용이 높고 많은 시간이 소요된다는 것을 곧 알게 되었습니다. Harris 이사는 “자체 스토리지 플랫폼을 실행하는 것과 관련된 월 비용이 컴퓨팅 비용을 초과하는 것을 보고 뭔가 잘못되었다는 것을 알았다”면서 “궁극적으로 초과 비용의 원인은 분산 스토리지의 복제 요인에 있었지만 비용을 줄일, 즉 복제 요인을 줄일 절충안 또한 받아들이기 편한 것은 아니었다”고 말했습니다.
플랫폼의 컴퓨팅 측면에서 Amazon EC2를 통해 성공을 거두었기 때문에 팀은 스토리지에 대해서도 AWS 관리형 서비스를 검토했고 Amazon Elastic File System(Amazon EFS)을 배포하기로 선택했습니다. Harris 이사는 “Amazon EFS는 확장성 및 비용 측면에서 목적에 정확히 부합한다. 또한 Kubernetes 커뮤니티에서 서비스와 관련하여 이미 만들어 놓은 스토리지급 기능을 활용할 수 있다. 또한 AWS에서는 다양한 데이터 유형에 서로 다른 환경을 사용할 수 있기 때문에 보다 민감한 유형의 데이터에 대한 보호를 강화할 수 있었다”고
이전에는 각 팀에 홈 디렉터리와 팀 디렉터리가 있었습니다. Amazon EFS를 활용하여 회사는 데이터 과학 도구, 프로젝트 및 데이터 집합 전체에서 공유 액세스를 손쉽게 제공함으로써 보다 원활한 협업을 지원할 수 있었습니다. Amazon S3를 사용하면 저렴한 오버헤드 비용으로 장기 데이터 아카이브 기능을 사용할 수 있으므로 Discover는 백업 프로세스를 사용자 지정하여 안전하게 보관하기 위해 데이터의 두 번째 복사본을 만들 수도 있었습니다.
Harris 이사는 “우리는 Amazon EFS를 협업 계층으로 사용하지만 다른 데이터 집합 또는 수명 주기 관리 목적의 아카이브 및 기록 계층도 있다”면서 “특정 데이터 집합은 수년에 걸친 지정된 기간 동안 보관되어야 한다. Amazon S3와 Amazon S3 Glacier 스토리지 클래스는 데이터 사이언티스트들이 만들고 사용하는 모든 데이터를 비용 효율적으로 저장하기에 유용했다”고 말했습니다.
협업을 개선하고 인사이트 확보 시간을 단축
현재, Air9은 Discover 데이터 과학 팀의 생산성과 효율성을 증진합니다. 분석 애플리케이션을 AWS의 중앙 위치에서 실행하고, 공유 스토리지 환경에서 협업하며, 정형 및 비정형 데이터 원본을 활용하고, 여러 소스의 데이터를 처리하고 저장할 수 있기 때문입니다. 그 덕에 Discover의 데이터 과학 팀에서는 데이터를 분석하여 인사이트를 더 빠르고 쉽게 도출할 수 있습니다.
이전의 데이터 플랫폼은 업그레이드에 몇 주가 걸렸는데 그 이유는 스토리지 자체에 제약이 있었고 추가 스토리지가 필요할 때 이전 스토리지 클러스터 크기를 조정하고 늘려야 했기 때문입니다. Amazon EFS는 이 모든 작업을 자동으로 수행하기 때문에 이제 팀은 데이터 플랫폼을 몇 시간 안에 업데이트할 수 있습니다. 이 플랫폼은 또한 셀프 서비스를 지원하므로 동료의 경험에 영향을 미치지 않고 데이터 사이언티스트의 생산성을 유지할 수 있습니다. Harris 이사는 “이전의 온프레미스 환경에는 데이터 사이언티스트 간의 대화와 상호 작용을 용이하게 하는 메커니즘이 없었다”고 말했습니다.
AWS 솔루션을 사용한 후 Harris 이사는 팀에서 스토리지 관리에 들이는 시간이 90%까지 줄었다고 예측합니다. 또한 내부에서 아키텍처를 설계하고 구축할 필요 없이 AWS를 통해 서비스를 관리하고 중복성을 제공하므로 Discover는 50~60%의 비용을 절감했습니다.
이와 같은 변화는 Discover의 전체 디지털 트랜스포메이션 노력을 발전시키는 데에도 도움이 되고 있습니다. Harris 이사는 “작업에 필요한 도구를 사용자에게 제공하는 데 몇 주가 걸렸었다”면서 “이제는 몇 시간 안에 제공하여 인사이트를 얻고 거의 즉시 고객에게 가치를 제공할 수 있다”고 말했습니다.
자세히 알아보려면 aws.amazon.com/efs를 방문하세요.
참조 아키텍처
참조 아키텍처
Discover Financial Services 소개
Discover Financial Services는 디지털 뱅킹 및 결제 서비스 회사입니다. 1985년에 설립되어 시카고 북부에 본사를 둔 이 회사의 미션은 현명한 소비, 효과적인 채무 관리 및 더 많은 저축을 돕는 것입니다.
AWS의 이점
- 스토리지 관리 시간을 90% 단축하고 비용을 50~60% 절감
- 컴퓨팅 및 스토리지 크기를 온디맨드로 조정
- 공유 스토리지를 통해 데이터 사이언티스트의 협업 증진
- 백업 프로세스를 사용자 지정할 수 있는 무제한 스토리지
- 데이터 플랫폼을 몇 주가 아닌 몇 시간 내에 업데이트
- 데이터 사이언티스트가 기술이 아닌 인사이트에 집중할 수 있음
사용된 AWS 서비스
Amazon Elastic File System
Amazon Elastic File System(Amazon EFS)은 AWS 클라우드 서비스와 온프레미스 리소스에서 사용할 수 있는, 간단하고 확장 가능하며 탄력적인 완전관리형 NFS 파일 시스템을 제공합니다. 이 제품은 애플리케이션을 중단하지 않고 온디맨드 방식으로 페타바이트 규모까지 확장하도록 구축되어 파일을 추가하고 제거할 때 자동으로 확장하고 축소하며 확장 규모에 맞게 용량을 프로비저닝 및 관리할 필요가 없습니다.
Amazon S3
Amazon Simple Storage Service(Amazon S3)는 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다.
Amazon S3 Glacier 및 S3 Glacier Deep Archive
Amazon S3 Glacier 및 S3 Glacier Deep Archive는 데이터 아카이빙 및 장기 백업을 위한 안전하고 내구성이 뛰어나고 매우 저렴한 Amazon S3 클라우드 스토리지 클래스입니다.
Amazon EC2
Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다. Amazon EC2의 간단한 웹 서비스 인터페이스를 통해 간편하게 필요한 용량을 얻고 구성할 수 있습니다.
시작하기
모든 산업에서 다양한 규모의 조직이 AWS를 통해 매일 혁신하고 임무를 수행하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.