概要
最も影響力のあるデータ主導型のインサイトは、ビジネスとカスとマーの全体像を把握することから得られます。これを実現できるのは、複数の部門、サービス、オンプレミスツール、およびサードパーティアプリケーションにまたがるすべてのデータソースのデータを接続する場合のみです。
AWS とのデータ統合により、保存場所に関係なく、すべてのデータに簡単に接続して操作できます。AWS のデータ統合機能を使用すると、複数のソースからのデータをまとめることができます。また、データを変換、運用、管理して、データレイクやデータウェアハウス全体に高品質のデータを提供できます。
AWS とのデータ統合の利点
-
データは、サードパーティがホストするアプリケーション、オンプレミスのデータストア、運用データストアなど、さまざまな形式のさまざまなソースから取得されます。AWS のサービスは、サードパーティのサービスとしてのソフトウェア (SaaS)、オンプレミス、その他のクラウドを含む何百ものデータソースに接続します。データをデータレイク、ウェアハウス、データベースに接続または移動すると、組織全体で安全に利用できるようになります。
-
AWS Glue は、多くの AWS データ統合サービスの1つであり、データ検出、抽出、変換、ロード (ETL)、クレンジング、変換、一元化されたカタログ作成などの主要なデータ統合機能を 1 か所に統合します。サーバーレスで、必要に応じて自動的にワーカーをプロビジョニングおよび管理できます。
-
AWS には、データエンジニア、ETL デベロッパー、ビジネスアナリストのニーズを満たすツールが用意されており、あらゆる技術レベルのユーザーがインタラクティブにデータを探索して操作できるよう支援しています。AWS Glue Studio のドラッグアンドドロップインターフェイスでデータを視覚的に変換したり、データ準備ツールの AWS Glue DataBrew でデータをクリーニングして正規化したり、お好みの統合開発環境 (IDE) またはノートブックを使用してデータをテストしたりできます。
-
多くの場合、組織は ETL、リバース ETL、抽出、読み込み、変換 (ELT) などのさまざまなデータ処理フレームワークだけでなく、バッチ、マイクロバッチ、ストリーミングなどのさまざまなワークロードをサポートする必要があります。AWS はすべてのフレームワークとワークロードを柔軟にサポートし、オープンソース標準を活用することでポータビリティを実現しています。
AWS によるデータ統合の課題への対処
AWS では、保存されている場所ならどこからでもデータにアクセスして統合できるため、データ統合チームはデータの価値を最大化する価値の高い活動に集中できます。
AWS Glue はあらゆる規模ですべてのデータを容易に検出、準備、統合できます。AWS Database Migration Service は、データベースと分析のワークロードを迅速かつ安全に、ダウンタイムを最小限に抑え、データ損失なしで AWS に移行するのに役立ちます。Apache Airflow 向け Amazon マネージドワークフロー (MWAA) は、Apache Airflow 向けの安全で可用性の高いマネージドワークフローオーケストレーションを提供します。AWS Data Exchange は、300 以上のデータプロバイダーと 3,500 以上のデータ製品からのサードパーティデータと接続します。
データを変換したり、データを正規化したり、未加工データストアからデータを取り込む前にデータ品質をチェックしたり、テーブルの列、行、データサイズを縮小したりする必要がある複雑なユースケースでは、AWS Glue を使用するとデータの準備と統合が容易になります。
ETL が定期的に繰り返される一般的なユースケースでは、AWS ゼロ ETL 機能を使用できます。これにより、ETL パイプラインを構築および管理する必要がなくなります。AWS ゼロ ETL 機能を使用すると、Apache Kafka 向けの Amazon マネージドストリーミングから Amazon Redshift にストリーミングデータを直接取り込んだり、Amazon Redshift を使用して Amazon Aurora データをほぼリアルタイムで分析したりできます。
データを操作する技術的能力は企業全体でさまざまであり、適切なツールがないと操作できない場合があります。
AWS は、デベロッパーからビジネスユーザーまで、すべてのユーザータイプにスキル固有のインターフェイスとジョブ作成ツールを提供しています。AWS Glue Studio は ETL コードを自動的に生成し、ETL デベロッパーやビジネスアナリストがコードなしのインターフェイスでデータを変換できるようにします。AWS Glue では、デベロッパーやエンジニアが好みの IDE、ノートブック、処理エンジンを使用することもできます。Apache Airflow 向け Amazon マネージドワークフローにより、科学者やエンジニアはエンドツーエンドのデータパイプラインを調整できます。
AWS は、ロックインなしでさまざまなワークロードをサポートします。
AWS Glue Studio を使用すると、Apache Spark の専門家でなくても拡張性が高い ETL ジョブを作成し、構造化データと非構造化データをデータウェアハウスやデータレイクにロードできます。Apache Kafka (MSK) と Amazon Kinesis 向けの Amazon マネージドストリーミングにより、ストリーミングデータをリアルタイムで簡単に取り込んで処理できます。その他の一般的なワークロードには、バッチデータ変換、データベースレプリケーション、SaaS からのデータインジェクト、チーム間のデータ共有、サードパーティデータへのサブスクリプションなどがあります。
関連する AWS サービスと機能
AWS Glue — あらゆる規模のすべてのデータを検出、準備、統合できます
AWS Q for Data Integration — AI を活用したジェネレーティブな AWS Glue 機能により、自然言語を使用してデータ統合ジョブを構築できます。
Apache Airflow 向け Amazon マネージドワークフロー — Apache Airflow 向けの安全で可用性の高いマネージドワークフローオーケストレーション
Amazon AppFlow — サービスとしてのソフトウェア (SaaS) と AWS サービス間のデータフローを自動化します
Amazon Aurora ゼロ ETL と Amazon Redshift の統合 — Aurora のペタバイト規模のトランザクションデータに対してほぼリアルタイムの分析と機械学習を実行します
Amazon Aurora PostgreSQL と Amazon のゼロ ETL 統合
Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合
Amazon RDS for MySQL と Amazon Redshift のゼロ ETL 統合
Amazon DynamoDB と Amazon OpenSearch Service のゼロ ETL 統合
AWS データベース移行サービス — データベースと分析ワークフローを迅速かつ安全に、ダウンタイムを最小限に抑え、データ損失なしで AWS に移行します
Amazon Athena — ペタバイトスケールのデータを、存在する場所で簡単かつ柔軟に分析できます
Amazon Redshift — クラウドデータウェアハウジングに最適なコストパフォーマンス
AWS Lake Formation — データレイクを数日で構築、管理、保護できます
AWS Data Exchange — クラウド内のサードパーティーデータを簡単に検索、登録、使用できます
AWS Glue カタログ — AWS クラウドでのメタデータの保存、注釈付け、共有
Amazon DataZone — 組み込みのガバナンスにより、組織の境界を越えてデータを活用できます