Zoox がスケーラブルなハイパフォーマンスコンピューティングに AWS を採用し、自動運転車のテストを高速化
2021 年
Amazon の独立系子会社で、自動運転車を手掛ける Zoox では、車両の安全性を検証するシミュレーションを実行するためのオンプレミスのインフラストラクチャを見直す必要が生じていました。シミュレーションのワークロードはバーストしやすいため、Zoox ではマシンが処理できる以上のコンピューティング能力が必要になったのです。同社はハイブリッドインフラストラクチャモデルを構築することを決定し、社内のスーパーコンピュータのクラスターを補完するためのハイパフォーマンスコンピューティングの実現をアマゾン ウェブ サービス (AWS) に求めました。
Zoox は、プロセッサ、ストレージ、ネットワーキング、オペレーティングシステム、購入モデルを選択できる広範なコンピューティングソリューションを提供する Amazon Elastic Compute Cloud (Amazon EC2) と、AWS パートナーである SchedMD のオープンソースのワークロードマネージャー Slurm を並行して利用することで、大量のデータのテストと開発を高速化し、市場投入までの時間を短縮しました。2024 年の終わりまでに、AWS で数百ペタバイトのデータを使用する、と Zoox は予測しています。
単一の AWS リージョン内で 1,000 のノードを起動し、数時間でジョブを実行すれば、重要な研究や開発実験の結果をすばやく取得できます」。
Conrad Herrmann 氏
Zoox、スタッフソフトウェアエンジニア
コンピューティング能力を効率的に拡張
2014 年に設立された Zoox は、都市環境での混雑や汚染の軽減を目的としたライドヘイリングサービスで使用される、自律型でシンメトリカルなバッテリー式電気自動車のフリートを生産しています。同社の車両では、ドライバーよりも乗客のエクスペリエンスが優先されています。座席では乗客同士が向かい合って座るため、ソーシャルなやり取りが促進されます。双方向車両は、駐車スペースで乗客を降ろした後、前進しているかのようにバックで駐車スペースから出ることができます。 このような車両の開発と生産において安全性を検証するには、膨大な数のさまざまな運転シナリオをシミュレーションすることが不可欠です。
Zoox のワークロードのほとんどはシミュレーションでしたが、他にも、パーセプション能力を向上させる機械学習や、データインジェストおよびデータ処理などがあります。Zoox では、さまざまなワークロードに必要なコンピューティング能力の多くを利用できるオンプレミスクラスターを使用してきました。しかし、会社が成長するとともにワークロードは劇的に変動し、効率的なスケーリングが困難であるオンプレミスクラスターのキャパシティを超えてしまうこともありました。Zoox では、その計算量に対処するため、マシンの台数を増やすことが必要になりました。
スケーラビリティや、必要な場合にのみコンピューティング能力を使用して料金を支払う柔軟性が得られることから、同社は AWS を選択しました。これにより Zoox は、複雑な技術的課題を解決するための革新的な新しいプロジェクトにリソースを割り当てられるようになりました。「当社は AWS を使用して、データの近くで実行する必要がある専門ワークロードに対応しています」と、Zoox のスタッフソフトウェアエンジニアである Conrad Herrmann 氏は言います。SchedMD のワークロードマネージャーである Slurm を使用して、ハイパフォーマンスコンピューティングと人工知能に対応するミッションクリティカルなワークロードの速度、スループット、リソース消費を最適化していますが、この Slurm もまた AWS を使用しています。「ハイパフォーマンスコンピューティングの世界で使用されるジョブコントローラーはほんの一握りしかありませんが、Slurm は以前からよく使用されてきたものです」と、Herrmann 氏は言います。「Slurm は当社の力になってくれるという確信がありました」。
ハイブリッドモデルを使用して速度、コラボレーション、コスト削減を加速
Zoox は始めに、さまざまなユースケースで任意の量のデータを保存、保護できる Amazon Simple Storage Service (Amazon S3) からデータを取得する、AWS 上の 1 つのワークロードをテストしました。その後、起こり得る問題を検出するためのインデックス作成を行いました。次に、AWS で実行するよう設計された機械学習タスクなどのソフトウェアの実験版を構築し、Amazon EC2 インスタンスとマッチングさせてパフォーマンスを測定しました。それから、本番ワークロードを作成して AWS で実行し、設定した時間内に完了できるかどうかをテストしました。「このような状況で AWS を使用するのは、より早く結果を取得して開発を加速させたいからです」と、Herrmann 氏は言います。「安全性のシミュレーションで車両が適切に動作しない場合は、運転システムの動作を変更し、何百万もの異なる状況で正しく動作するまで再試行します」。
Zoox のコンピューティング能力は AWS に依存しているため、さまざまな規模のマシン、メモリ、ネットワークアクセスで、料金設定、信頼性、可用性のニーズを満たす Amazon EC2 インスタンスを選択できます。「コストや結果を考慮し、環境に最適なアーキテクチャを把握する必要があります」と、Herrmann 氏は言います。「他のコストをすべて削減しても、結果を待つ必要があれば、総コストは増えてしまいます。AWS を使用すれば、遅滞なく車両を開発する効果的な方法を考案できるのです」。 この柔軟性によって、Zoox のチームはより効果的にコラボレーションできるようにもなりました。「コスト、アーキテクチャ、ジョブの間には、複雑な一連の相互関係が存在します」と、Herrmann 氏は言います。「すべてのバランスをとるためには、多岐にわたる分野において非常に緊密に協力し合うことが不可欠です。AWS を使用すれば、これらのジョブを効率的に実行するためのパズルのピースをすべて組み立てることができます」。
さらに、Zoox は AWS を使用して、計算量が多くなる期間にも対処できるようにしています。「車両設計エンジニアが走行制御システムに変更を加える場合、CPU と GPU を使用して、何百時間もかけてその変更を検証する必要があります」と、Herrmann 氏は言います。「Slurm と AWS を使用することで、当社のクラスターは、コンピューティングタスクに使用できる CPU と GPU の数を 2 倍以上に増やすことができました。このバースト機能によって、快適で安全な自動運転システムを作るための重要な要素である、センサーのパーセプション、機械学習、運転シナリオのシミュレーションが高速化されます」。
Zoox では、長時間実行されるサービスや不定期のジョブ用の Amazon EC2 インスタンスを管理するため、Amazon Elastic Kubernetes Service (Amazon EKS)を使用しています。これは、企業がハイブリッド環境で Kubernetes クラスターとアプリケーションを管理する際に役立ちます。Slurm では、需要に基づいて動的に割り当てられる Amazon EC2 インスタンスを含む仮想プライベートクラウドを使用します。Slurm コントローラーにジョブを送信すると、コントローラーでクラウドでの実行を選択し、使用するインスタンスの数を選択できます。「単一の AWS リージョン内で 1,000 個のノードを起動し、数時間でジョブを実行すれば、重要な研究や開発実験の結果をすばやく取得できます。これらのノードがオンプレミスのデータセンターで利用できるようになるまで待つ必要はなく、別のデータセンターを構築する必要もありません」と、Herrmann 氏は言います。
Zoox は、数十ペタバイトのデータを Amazon S3 に保存しています。「車両、計算、シミュレーションの数が増えれば、ペタバイト単位のデータに合わせてストレージを非常にすばやく拡張する必要があります」と、Herrmann 氏は言います。Slurm は、データにすばやくアクセスして効率的に計算を実行できる Amazon EC2 インスタンスを起動します。Zoox は、モニタリングデータと運用データを収集し、AWS とオンプレミスのサーバーで実行される AWS のリソース、アプリケーション、サービスの統合されたビューを提供する Amazon CloudWatch を使用して、Amazon S3 のデータをモニタリングしています。「Amazon CloudWatch を使用すれば、現在の状況や動作状態を把握できます」と、Herrmann 氏は言います。
スケーリングにより、AWS で数百ペタバイトのデータの保存、シミュレートが可能に
Zoox は、今後数年間でワークロードを実験のステージから本番のステージに進め、数百ペタバイトのデータを使用するようになると想定しています。Zoox は、AWS で大量のデータを高速かつコスト効率よく取り込み、大規模なシミュレーションを実行するハイブリッドインフラストラクチャを構築し、自動運転車のテストと開発を高速化してきました。Herrmann 氏は言います。「マネージド型の AWS のサービスを使用すれば複雑なシステムを構築でき、他のシステムの心配をすることなくミッションに集中できます。問題が発生すれば、AWS が解決してくれます」。
Zoox について
Zoox は 2014 年に設立された自動運転車を手掛ける企業であり、都市部における混雑や汚染の軽減を目的としたライドヘイリングサービスで使用される、自律型でシンメトリカルな、双方向型のバッテリー式電気自動車のフリートを生産しています。
AWS の利点
- 数十ペタバイトのデータを保存および処理
- 1,000 個のノードをすばやくスピンアップ
- ハイブリッドインフラストラクチャを推進
- チーム間のコラボレーションを強化
- Amazon EC2 インスタンスを使用してワークロードを最適化
- 今後数年間で数百ペタバイトのデータを使用する見込み
利用している AWS のサービス
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。デベロッパーがウェブスケールのクラウドコンピューティングを簡単に利用できるように設計されています。
Amazon S3
Amazon Simple Storage Service (Amazon S3) は、業界随一のスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。
Amazon EKS
Amazon Elastic Kubernetes Service (Amazon EKS) は、クラウドまたはオンプレミスで Kubernetes アプリケーションを実行、スケールするマネージドコンテナサービスです。
Amazon CloudWatch
Amazon CloudWatch は、DevOps エンジニア、デベロッパー、サイト信頼性エンジニア (SRE)、および IT マネージャーのために構築されたモニタリング/オブザーバビリティサービスです。
開始方法
あらゆる業界のさまざまな規模の組織が AWS を活用してビジネスを変革し、日々ミッションを遂行しています。当社のエキスパートにお問い合わせいただき、今すぐ AWS ジャーニーを開始してください。