Illumina, AWS를 사용하여 유전체학 샘플에서 답을 얻다
2021
지난 10년간 유전체학은 전문 연구 영역에서 강력한 임상 도구로 발전하여 환자 중심 의료라는 새로운 시대를 열었습니다. 유전체 염기서열 결정 및 분석이 더 간편해지고 저렴해지고 포괄적으로 바뀌면서 임상의가 개별 환자의 유전자 검사를 지시하고 연구원이 수천 개 샘플을 검사하여 유전 변이와 인간 질병 간의 관계를 도출하는 것이 현실적으로 가능해졌습니다. 처음 인간 유전체의 염기서열을 분석하는 데에는 수십 년이 걸렸지만 이제는 전체 인간 유전체의 염기서열을 24시간 내에 효율적으로 분석할 수 있습니다.
Illumina의 사명은 유전체의 비밀을 풀어 인류의 건강을 개선하는 것입니다. AWS 파트너인 이 회사는 유전체학의 기술 발전을 뒷받침한 원동력이었습니다. 염기서열 결정 장비 공급업체에서 완전한 유전체학 솔루션 제공업체로 발전한 이 회사는 2013년부터 Amazon Web Services(AWS)에서 소프트웨어 솔루션을 배포하고 있습니다. Illumina의 AWS 지원 소프트웨어 솔루션은 진입 장벽을 낮추고 연구원들이 매일 새로운 발견을 할 수 있도록 지원하며 신약 개발을 촉진합니다.
Illumina의 최고 상업 책임자인 Susan Tousi는 “유전체학 산업은 D2C(소비자 직접) 검사부터 개인화된 암 백신에 이르는 모든 방향에서 확장 중”이라면서 “Illumina의 목표는 유전체 기술에 대한 접근성을 전 세계적으로 대중화하는 것이다. 당사는 고객에게 필요한 답을 주기 위해 처음부터 AWS와 파트너십을 맺었다. 지난 10년에 걸쳐 AWS에서 소프트웨어 포트폴리오를 확장했고, 이제는 즉시 배포하거나 특정 요구 사항에 맞게 사용자 지정할 수 있는 원활하고 전체적인 솔루션 제품군을 제공하고 있다”고 말합니다.
샘플 준비부터 3차 분석에 이르는 전체 워크플로가 안전한 AWS 환경에서 제공되며 이 안전한 환경에서 염기서열 결정 전과 후에 생성되는 모든 정보를 집계하고 분석할 수 있습니다.”
Rami Mehio
Illumina 생물정보학 및 장비 소프트웨어 부문 부사장
샘플에서 답을 찾는 여정
차세대 유전체학의 전체 워크플로는 샘플 수집, 준비 및 염기서열 결정에서 시작되지만 이는 단지 시작에 불과합니다. 그 이후에는 원시 판독값 품질 제어, 데이터 전처리 및 정렬 등 생물정보학과 관련된 힘든 작업을 처리해야 합니다. 그런 다음 변이 검출과 같은 2차 분석으로 이동하고 최종적으로는 관심사에 따라 고급 3차 분석을 시행할 수 있습니다. 이 3차 분석에는 계통 발생학적 주석, 유전자형 연관 및 기타 작업이 포함될 수 있습니다. 생물정보학 전문가가 아닌 연구원과 임상의의 경우 개별 플랫폼에서 각 단계를 수행하는 것이 버거울 수 있습니다.
Illumina는 이 전체 유전체학 워크플로를 간소화하고 모든 단계에서 통합된 솔루션을 제공합니다. BaseSpaceTM Clarity LIMS(실험실 정보 관리 시스템)를 사용하면 처음부터 샘플을 추적하고 염기서열 결정 워크플로를 최적화하는 데 도움이 됩니다. 염기서열 결정 장비에서 Illumina Connected Analytics(ICA) 플랫폼으로 직접 데이터를 업로드한 다음 AWS의 플랫폼 내에서 데이터 세트를 관리하고 분석 도구를 활용할 수 있습니다. DRAGENTM Bio-IT 플랫폼은 정확하고 매우 빠른 2차 분석 결과를 제공합니다. 동시에 BaseSpace Correlation Engine은 액세스가 개방되고 제어되는 공용 데이터 세트가 포함된 리포지토리에 각 개인의 데이터 세트와 쿼리를 통합하여 광범위한 3차 분석을 지원합니다.
이 플랫폼의 데이터는 확장 가능한 객체 스토리지 서비스인 Amazon Simple Storage Service(S3)에 저장됩니다. Illumina 고객은 클라우드에서 안전하고 크기 조정이 가능한 컴퓨팅 용량을 제공하는 웹 서비스인 Amazon Elastic Compute Cloud(Amazon EC2)에서 실행 중인 DRAGEN을 통해 분석을 구동하고 극적으로 가속화할 수 있습니다.
Illumina의 소프트웨어 및 생물정보학 부문 부사장인 Rami Mehio는 “샘플 준비부터 3차 분석에 이르는 전체 워크플로가 안전한 AWS 환경에서 제공되며 이 안전한 환경에서 염기서열 결정 전과 후에 생성되는 모든 정보를 집계하고 분석할 수 있다”면서 “시간대별로 샘플을 추적하고 공개된 데이터베이스를 사용하여 데이터를 교차 참조하며 인사이트를 통해 결과를 빠르게 얻고자 하는 고객을 위한 아주 강력한 도구”라고 말합니다.
고급 사용자는 ICA 및 DRAGEN 같은 도구를 사용자 지정하여 고유한 연구를 수행할 수 있습니다. 그러나 Illumina는 특정 용도에 즉시 사용할 수 있는 기능이 포함된 엔드 투 엔드 솔루션도 제공합니다. 예를 들어 TruSightTM Software Suite는 희귀 질환에 관한 인사이트를 얻을 수 있는 변이 분석 소프트웨어 솔루션이고, TruSight Oncology 500은 종양을 분석하고 면역항암제의 생물 지표를 식별하는 데 사용되는 정밀한 염기서열 결정 시료입니다.
Mehio는 “AWS의 강력한 도구는 유전체학 관련 알고리즘을 설계할 수 있는 기반”이라면서 “연구원과 임상의의 요구 사항이 변경되면 제품의 새 기능과 버전을 손쉽게 배포할 수 있다”고 말합니다.
AWS에서 저장 비용 절감
Illumina는 창립 이후로 무어의 법칙을 초과하는 속도로 유전체학 기술 비용을 절감해 왔습니다. 2001년에 인간 유전체 1개의 염기서열을 결정하는 데 드는 비용은 1억 USD였습니다. 20년 후인 지금은 600 USD에 불과합니다.
Tousi는 “유전체학 기술에 대한 접근성을 대중화하고자 한다. 이 노력의 중요한 부분은 절감된 비용을 고객에게 돌려주는 것”이라면서 “연구 또는 임상 적용을 결정하는 요인이 비용이 되어서는 안 된다. 데이터를 사용할 수 있다고 예상되는 방식에 따라 염기서열 결정과 분석을 수행해야 한다”고 말합니다.
Illumina는 다양한 데이터 요구 사항에 따라 Amazon S3 스토리지 클래스를 사용자 지정함으로써 최대한의 비용 절감을 달성할 수 있습니다. 자주 액세스되지 않는 페타바이트 단위의 데이터를 Amazon S3 Glacier Deep Archive에 저장하여 스토리지 비용의 90% 이상을 절감합니다. 마찬가지로 DRAGEN은 Amazon EC2 F1 인스턴스에서 실행되는데, 이 인스턴스는 Illumina에 필요한 병렬 처리를 지원할 수 있는 가속화된 컴퓨팅을 저렴한 요금으로 제공합니다. F1 인스턴스는 DRAGEN field-programmable gate array(FPGA)를 탑재한, 사용자 지정 가능한 하드웨어 가속 기능을 제공합니다. F1 인스턴스에서 DRAGEN을 조정하기 위해 회사는 배치 컴퓨팅 워크로드를 계획, 예약 및 실행하는 완전관리형 배치 처리 서비스인 AWS Batch를 사용했습니다.
Mehio는 “AWS에서는 속도, 유연성 및 비용을 기준으로 최적화할 수 있고 최종 고객의 사용 사례와 요구 사항에 맞출 수 있다”면서 “유전자 분석을 최대한 빠르게 수행해야 하는 사용자가 있는 반면, 속도를 포기하는 대신 비용을 낮추고 연구비를 절감하는 쪽을 선택하는 학술적 사용자도 있다. 사용자는 다양한 F1 인스턴스 유형과 스토리지 옵션을 활용하여 유연성을 유지하면서 필요에 따라 스케일 업하고 스케일 다운할 수 있다”고 말합니다.
Illumina는 온디맨드 요금 대비 최대 90% 할인된 요금으로 사용 가능한 Amazon EC2 스팟 인스턴스에서 플랫폼의 많은 컴퓨팅 작업을 실행하여 고객의 비용을 추가로 절감합니다. Tousi는 “지난 한 해에만 수십만 시간의 스팟 인스턴스가 사용되었는데, 고객에게 상당한 비용 절감 효과를 제공해주었다”고 말합니다.
비용 절감과 기술적 장점을 모두 누릴 수 있습니다. Illumina는 최근에 3차 분석용 Correlation Engine을 AWS로 마이그레이션하여 비용을 절감하는 동시에 데이터 모으기 파이프라인을 6배 확장하여 기술 자료의 속도와 성능을 개선했습니다.
글로벌 유전체학의 확장을 위한 안전한 솔루션
인간 유전체 데이터는 개인 건강 정보에 연결될 수 있으며 전 세계 의료 조직에 대한 데이터 침해 위험은 나날이 증가하고 있습니다. 이러한 이유로 보안은 Illumina와 고객에게 다른 무엇보다 중요한 고려 사항입니다. 또한 고객 중 다수는 갈수록 엄격해지는 데이터 관리 규정을 준수해야 합니다.
Tousi는 “보안은 0순위 작업이며 모든 일의 중심”이라면서 “아주 기본적인 수준에서는 AWS Shared Responsibility Model을 통해 기반 클라우드 인프라의 엔터프라이즈급 보안 및 규정 준수를 보장할 수 있다. 전 세계의 Amazon EC2 리전을 활용하면 컴퓨팅을 데이터에 연결하고 모든 리전의 고객을 지원하는 동시에 데이터 주권을 보장할 수 있다”고 말합니다.
AWS는 HIPAA, GDPR, ISO 27001 및 ISO 13485를 포함한 수천 개의 보안 표준과 규정 준수 인증을 지원하여 유전체학 워크플로 전체에서 규정 준수 요구 사항을 충족할 수 있도록 합니다. Illumina는 각 고객의 데이터를 분리하는 논리적으로 격리된 사용자 지정 가상 네트워크에서 다른 AWS 리소스를 시작하는 Amazon Virtual Private Cloud(VPC)에서 데이터 관리를 제공하여 고객의 걱정을 추가로 덜어줍니다.
이 글로벌 확장성 및 배포 접근 방식은 장기 프로젝트와 긴급한 위기 대응 시 유용한 협업을 촉진합니다. 2020년과 2021년 상반기에 Illumina의 COVID-19 BaseSpace 앱에서 전 세계적으로 처리된 COVID-19 관련 샘플은 371,000개가 넘습니다. Tousi는 “이 작업이 온프레미스에서만 가능했다면 심각한 제약을 겪었을 것이다. 이 정도의 글로벌 팬데믹 대응을 가능하게 한 열쇠는 클라우드에 있었다”고 말합니다.
유전체학과 생명공학의 미래를 구축
대규모 유전자 이니셔티브가 부상하고 ICA와 같은 강력한 분석 소프트웨어 솔루션에 대한 접근성이 확대됨에 따라 Illumina는 유전체학에서 ‘빅 데이터’의 기능을 전적으로 수용하여 방대한 볼륨의 염기서열 결정 데이터에서 풍부한 인사이트를 찾는 고객들을 돕고 있습니다. 이러한 프로젝트는 개인화된 유전체학이라는 새로운 시대에 불을 지피게 될 것이고 연구원들은 소규모 샘플에서는 분명하지 않았던 유전자와 건강 사이의 관계를 도출할 수 있게 될 것입니다.
Illumina 플랫폼은 멀티오믹의 미래로 연구를 원활하게 전환하는 데에도 도움이 됩니다. 일례로 클라우드 기반 DRAGEN Single-Cell RNA Pipeline을 사용하면 과학자들은 개별 세포에 유전자 발현 주석을 달 수 있습니다. DRAGEN 가속을 통해 이 플랫폼은 약 53분 안에 3개의 세포 샘플을 병렬로 동시에 처리할 수 있습니다.
Mehio는 “당사는 ICA, DRAGEN 및 AWS에 배포된 다른 도구를 통해 NGS 및 건강 데이터를 포함한 모든 데이터 유형을 집계하고 이 대규모 집단에서 새로운 정보를 추출하며 인류의 건강을 대규모로 개선할 수 있는 솔루션을 제공하고 있다”고 말합니다.
자세히 알아보기
인류의 건강을 개선하기 위한 여정에서 AWS의 지원을 받고 있는 다른 선도적인 생명과학 조직의 사례를 확인하세요.
Illumina 소개
Illumina는 유전적 변이와 생물학적 기능을 분석하기 위한 통합 시스템을 개발, 제조 및 출시합니다.
AWS의 이점
- 사용자 지정이 가능하고 간편하며 통합된 샘플-분석 워크플로에 손쉽게 액세스
- Amazon EC2 스팟 인스턴스와 Amazon S3 Glacier를 통해 컴퓨팅 및 스토리지 비용을 극적으로 절감
- 연구를 가속화하고 전 세계 고객의 협업을 증진하여 371,000개 이상의 COVID-19 관련 샘플을 처리
- 연구를 가속화하고 전 세계 고객의 협업을 증진하여 371,000개 이상의 코로나 19 관련 샘플을 처리
사용된 AWS 서비스
Amazon EC2
Amazon Elastic Compute Cloud(Amazon EC2)는 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹 서비스입니다. 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었습니다.
Amazon S3
Amazon Simple Storage Service(S3)는 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스입니다.
AWS Virtual Private Cloud
Amazon Virtual Private Cloud(VPC)를 사용하면 사용자가 정의하는 논리적으로 격리된 가상 네트워크에서 AWS 리소스를 시작할 수 있습니다.
Amazon EC2 스팟 인스턴스
Amazon EC2 스팟 인스턴스를 사용하면 AWS 클라우드에서 미사용 EC2 용량을 활용할 수 있습니다. 스팟 인스턴스는 온디맨드 요금과 비교하여 최대 90% 할인된 금액으로 제공됩니다.
시작하기
산업 분야를 불문하고 다양한 규모의 기업들이 AWS를 통해 매일 비즈니스를 혁신하고 있습니다. 지금 전문가와 상담하고 AWS 클라우드로의 여정을 시작하세요.