AWS Athenaの基本とS3のSQL分析

Amazon Athenaとは？サーバーレスでS3のデータを直接分析する仕組み

「S3にCSVファイルを置いただけで、そのままSQLが実行できる」——最初にAmazon Athenaの存在を知った時、私はとても驚きました。データ分析というと、専用のデータベースを用意してデータを流し込む（ロードする）といった大掛かりな準備が必要だと思い込んでいたからです。

Athenaは、そうした面倒なインフラの構築や管理が一切不要な「サーバーレス」のクエリサービスです。サーバーレスとは、裏側で動いているサーバーの台数や性能を利用者側で考える必要がない仕組みのことです。AWSマネジメントコンソール（管理画面）で数回クリックするだけで、Amazon S3（AWSの定番オブジェクトストレージサービス）に保存されたデータに対して、すぐに標準SQLで分析を始められます。

S3に置いたデータにSQLで直接アクセスできるメリット

従来のデータベースを使う場合、データを分析するには「ETL（抽出・変換・書き出し）」と呼ばれる前処理がよく必要でした。ログファイルなどから必要なデータを抽出し、データベースが読み込める形式に変換してから書き込む作業です。これは時間も手間もかかります。

Athenaの最大の魅力は、このETLをすっ飛ばしてアドホック（その場限りの目的向け）な分析ができる点にあります。

例えば、Webサーバーのアクセスログが1ヶ月分あって「特定のエラーコードがどの時間帯に多く発生しているか」というふとした疑問が浮かんだとします。そのログファイルがS3に置いてあれば、Athenaのコンソールを開いて SELECT 文を書くだけで、数秒〜数十秒で結果が返ってきます。データを別の場所に移動させる必要がないため、最新のデータに即座にアクセスできるのも大きな強みです。

多様なデータ形式（CSV、JSON、Parquetなど）への対応

Athenaが便利なもう一つの理由は、私たちが普段よく使うデータ形式にそのまま対応していることです。表計算ソフトでも扱うような「CSV」や、Web APIでよく使われる「JSON」といったテキストベースのファイルは、S3にアップロードした瞬間にクエリの対象になります。

ただ、本格的にビッグデータを扱うようになると「Parquet（パーケット）」という形式もよく登場します。これは「列指向フォーマット」と呼ばれるもので、データを縦の列（カラム）単位で保存する仕組みです。

ちょっと比較してみましょう。例えば「名前、年齢、住所、電話番号」というデータが100万件あるとします。その中から「年齢の平均」だけを知りたい場合、CSV（行指向）だと1行ずつすべてのデータを読み込む必要があります。一方、Parquet（列指向）なら「年齢」の列だけをピンポイントで読み込めば済むため、読み込むデータ量が圧倒的に少なくなります。

Tip

手軽に分析を始めるなら扱い慣れたCSVやJSONで問題ありませんが、日常的に大量のデータを分析する運用を見据えるなら、保存時にParquet形式に変換しておくと、後々のパフォーマンス向上とコスト削減に繋がります。

Amazon QuickSightとの連携によるデータ可視化

「SQLでデータを抽出できたら、次はどうするのか？」——エンジニア同士なら、抽出した結果のCSVをSlackに貼って「これ見てください」で済むこともあるかもしれません。しかし、経営陣や営業担当など非エンジニアのビジネスユーザーに分析結果を提供するとなると、ただの数字の羅列では伝わりません。

そこで活躍するのが、AWSが提供しているBI（ビジネスインテリジェンス）ツールである「Amazon QuickSight」です。AthenaはQuickSightとネイティブに連携でき、数クリックでデータソースとしてAthenaを指定できます。

具体的なユースケースとして、ECサイトのアクセスログをAthenaで毎日分析し、その結果をQuickSightのダッシュボードとしてグラフ化するケースがよくあります。「時間帯別のアクセス数」「人気のページ」「コンバージョン率」などの指標を自動更新されるレポートにすることで、ビジネス側は自分でSQLを書かなくても、最新のデータに基づいた意思決定ができるようになります。Athenaが「データを取り出す引擎」だとしたら、QuickSightは「データを分かりやすく見せる鏡」のような役割を果たしてくれます。

従来のデータベースとの決定的な違い：「Schema-on-Read」の考え方

ここまでAthenaがS3のデータをSQLで直接検索できる手軽なサービスだとお伝えしてきましたが、実は裏側で従来のデータベースとは全く異なる考え方で動いています。このセクションでは、Athenaの根幹をなす「Schema-on-Read」という概念について解説します。

データ書き込み時と読み取り時のスキーマ適用の違い

まず「スキーマ」という言葉についてです。データベースの世界では、データの構造を定義した設計図のようなものをスキーマと呼びます。「この列には日付を入れる」「この列は数字だけを許可する」といったルールの集まりだと思ってください。

一般的なリレーショナルデータベース（MySQLやPostgreSQLなど）では、データを保存する前に必ずこのスキーマを作成します。新しいデータを登録しようとすると、その設計図に厳密に従っているかチェックされ、ルールから外れたデータは弾かれます。この方式を「Schema-on-Write（書き込み時のスキーマ適用）」と呼びます。まるで、荷物を箱に入れる前に「この箱にはこの形の荷物しか入れてはいけない」という厳格なルールを設けるようなイメージです。

一方でAthenaが採用しているのは「Schema-on-Read（読み取り時のスキーマ適用）」というアプローチです。データをS3に保存する段階では、どんな形のデータでもそのまま放り込んで構いません。スキーマのチェックは行われません。そして、クエリを実行する瞬間になって初めて、「1列目は日付、2列目は文字列として解釈してね」というスキーマを上から被せてデータを読み取ります。

ビッグデータの世界では、日々のシステムログやセンサーデータなど、形式がバラバラだったり将来的に変わったりするデータを大量に扱うことがよくあります。そのような環境で、保存するたびに厳格なスキーマを定義してデータを変換するのは非常に手間がかかります。Schema-on-Readであれば、とりあえずS3にデータを蓄積しておいて、分析したい時に合わせて読み方を変えるという柔軟な対応が可能になります。

Note

Schema-on-Readは「Schema-less（スキーマレス）」とは異なります。データそのものに構造がないわけではなく、データの構造を定義するタイミングが「保存時」から「読み取り時」に移動しているだけです。

元データを変更せずに読み取り専用で分析できる仕組み

Schema-on-Readの仕組みによってもたらされる最大のメリットの一つが、元データの完全な保護です。

AthenaはS3上にあるファイルに対してクエリを実行しますが、その際にファイルの中身を書き換えることは一切ありません。先ほど説明した通り、読み取る瞬間にスキーマを被せるだけなので、元のCSVやJSONファイルはクエリを実行した前も後も全く同じ状態を保ちます。

これは実務上、とても大きな安心感につながります。例えば、本番環境のWebサーバーから出力される重要なアクセスログがS3に保存されているとします。もし従来のデータベースのようにデータをコピーして読み込む必要がある場合、分析の途中でうっかりデータを更新したり削除したりしてしまうリスクがゼロではありません。

しかしAthenaであれば、S3のファイルに対して読み取り専用のアクセス権限を与えておけば、どれだけ複雑なクエリを実行しても、どれだけ集計を間違えても、元のログファイルが破壊されることは絶対にありません。データの正確性を担保したまま、誰でも気軽に分析を試行錯誤できるというのは、データ分析のハードルを下げる上で非常に重要な設計思想だと思います。

Important

Athenaは基本的にS3上のファイル（CSVやJSONなど）を直接書き換えることはありませんが、Apache Iceberg形式のテーブルを利用することで、UPDATEやDELETEといったデータ変更SQL文を実行できるようになります。Icebergテーブルを使わない通常のテーブルに対しては、データの加工や変換を行いたい場合でも別の仕組み（ETLツールなど）が必要になります。

データのメタデータ管理におけるAWS Glue Data Catalogの役割

前のセクションで、Athenaがデータを読み取るタイミングでスキーマを適用する（Schema-on-Read）という仕組みについてお話ししました。でも、ふと疑問に思いませんか？

「Athenaはどうやって、S3のどの階層に、どんな形式のデータが置いてあるかを知っているの？」

S3は本来ただのファイル置き場なので、ファイルをポンと置いただけでは、「ここにCSVがあって、1列目は日付、2列目はユーザーIDだよ」という情報は自動的には伝わりません。実はここで活躍しているのが、「AWS Glue Data Catalog」というサービスです。このセクションでは、Athenaを裏で支えるこの目に見えない仕組みについて解説します。

テーブル定義とS3パスを紐付けるメタデータストアの役割

AWS Glue Data Catalogは、一言でいうと「データに関するデータ（メタデータ）をまとめておく辞書」です。

図書館に例えると、S3バケットが「本棚」で、そこに入っているCSVやJSONファイルが「本」だとします。本棚に本がぎっしり入っていても、背表紙にタイトルが書いていなければ目的の本は探せませんよね。Data Catalogは、まさにその「蔵書目録」の役割を果たしています。

具体的には、以下のような情報を管理しています。

S3のどこにあるか（Location）：例）s3://my-bucket/logs/
データ形式は何か（Format）：例）CSV、JSON、Parquet
カラム構造はどうなっているか（Schema）：例）user_id (string), action (string), timestamp (timestamp)

Athenaで SELECT * FROM access_logs というSQLを実行すると、裏側ではまずこのData Catalogに「access_logsというテーブルの定義を教えて」と問い合わせに行きます。すると、Data Catalogが「それはS3のこのパスにあって、こういうカラムを持ったCSV形式のデータだよ」と返してくれるのです。Athenaはその情報を元に、初めてS3にアクセスしてデータを読み取り、結果を返します。

Important

AthenaはData Catalogに登録された情報を絶対的な正として扱います。そのため、S3に実際に置かれているファイルの構造（例えばカンマ区切りのCSVなのに、カタログにはタブ区切りと登録してある等）と、Data Catalogの定義がズレていると、クエリエラーになったり、データが正しく表示されなくなったりします。必ず両者の整合性を保つようにしてください。

他のAWS分析サービスとのカタログ共用によるメリット

ここで一つ、とても嬉しい事実をお伝えします。Data Catalogは、実はAthena専用の機能ではありません。

AWSのデータ分析サービスの多くは、このData Catalogを共通のメタデータストアとして利用できるよう設計されています。代表的なところだと、データウェアハウスサービスである「Amazon Redshift」の拡張機能「Redshift Spectrum」や、ビッグデータ処理基盤の「Amazon EMR」などがこれに該当します。

これがどんな時に便利になるか、具体的なシナリオで考えてみましょう。

例えば、日々のアクセスログをAthenaでサクッと確認していたとします。その後、「やっぱりこのログデータと、別の社内データベースにある顧客データを JOIN して、より複雑な分析をRedshiftでやりたいな」という要求が出てきたとします。

もし各サービスが独自のメタデータを持っている場合、Redshift側でもう一度「どこに何のデータがあるか」をゼロから定義し直さないといけません。手間がかかる上、人の手で再度定義するとカラム名のタイポなどで「Athenaでは出た結果が、Redshiftではエラーになる」といった悲しい事態も起こり得ます。

しかし、Data Catalogを共用していれば、Redshiftから「Athenaと同じカタログを見てね」と設定するだけで済みます。一度作ったテーブル定義を複数のサービスで使い回せるため、設定の手間を大幅に削減できますし、組織内で「このデータはこういう構造だ」という認識を統一（データガバナンス）することにもつながるのです。

Tip

Athenaのコンソール画面からテーブルを作成する際、「AWS Glue Data Catalogにテーブルを作成する」オプションを選ぶと、自動的にGlue Data Catalogにメタデータが登録されます。もし手動でCREATE TABLE文を書く場合は、EXTERNAL TABLEとして作成し、LOCATIONプロパティで正しいS3パスを指定するようにしましょう。これにより、後から他のAWSサービスとカタログを共有したくなった時にもスムーズに移行できます。

パフォーマンスとコスト最適化に不可欠な「パーティション」の概念

Athenaの便利さに慣れてきて、色々なデータをサクサク分析できるようになってくると、次にぶつかる壁が「クエリの実行時間」や「請求額」ではないでしょうか。私も最初は「SQLが動けばいいや」と思っていて、月末にAWSの請求を見て少し冷や汗をかいたことがあります。

ここからは、Athenaを本格的に使いこなすために絶対に知っておきたい「パーティション」という考え方について解説します。難しく聞こえるかもしれませんが、パソコンの中身を「年ごと」「月ごと」のフォルダに整理するのと同じような、とても直感的な仕組みです。

S3のディレクトリ構造によるデータの分割（パーティショニング）とは

パーティショニングとは、簡単に言うと「S3上のデータを、特定のキーごとにディレクトリ（正確にはプレフィックスと呼びます）に分けて保存する」ことです。

例えば、Webサーバーのアクセスログを1年間分S3に置いているとします。パーティショニングをしていない場合、データはすべて同じ階層にflatに置かれます。

s3://my-bucket/logs/access_log_20250101.csv
s3://my-bucket/logs/access_log_20250102.csv
（中略）
s3://my-bucket/logs/access_log_20251231.csv

これに対して、日付ごとにフォルダ分けをするのがパーティショニングです。

s3://my-bucket/logs/year=2025/month=01/day=01/access_log.csv
s3://my-bucket/logs/year=2025/month=01/day=02/access_log.csv

このように key=value という形式でディレクトリ名をつける方法を、「Hive（ハイブ）スタイル」と呼びます。Athenaをはじめとするビッグデータ処理の世界ではデファクトスタンダード（事実上の標準）となっている書き方です。

このディレクトリ名がそのまま「ここには2025年1月1日のデータが入っていますよ」という目印（メタデータ）になります。パーティションキーには「年月日」のほかに、「リージョン（例：region=ap-northeast-1）」や「部署（例：department=sales）」など、分析でよく絞り込む条件を選ぶのが一般的です。

Tip

Hiveスタイルでディレクトリ名を key=value にしておくと、MSCK REPAIR TABLE というSQLコマンド一発でAthenaにパーティション情報を自動認識させることができます。手動で一つひとつ登録する手間が省けるため、まずはこの形式を採用することをおすすめします。

スキャン量の削減がもたらすコストとパフォーマンスの向上

なぜわざわざフォルダ分けのような手間をかけるのかというと、これがコストとパフォーマンスに直結するからです。

Athenaは、クエリを実行する際にS3からデータを読み取りますが、この時の「読み取ったデータの量（スキャン量）」に応じて課金されます（標準的なSQLクエリの場合、1TBあたり5ドル）。

ここで、先ほどのパーティショニングされたログデータを使って、「2025年1月1日のエラーログだけ調べたい」というシーンを想像してみてください。

SQLのWHERE句で WHERE year = '2025' AND month = '01' AND day = '01' と指定すると、Athenaは賢いことに「この条件なら、year=2025/month=01/day=01/ の中身だけを読めばいいんだな」と判断します。他の364日分のディレクトリには一切目を向けません。これを「パーティション・プルーニング」と呼びます。

仮に1年分のログが合計1TB（1日分あたり約3GB）あったとします。パーティショニングなしで全件スキャンした場合、1TB分の課金が発生し、結果が返ってくるまで数分待たされるかもしれません。しかし、パーティショニングされていれば、読み取るのはたった3GBのみ。課金額は1/300以下になり、数秒で結果が返ってきます。

Warning

パーティショニングされていない大量の小さなファイルがS3に置かれている状態でクエリを実行すると、Athenaは「どのファイルを対象にすべきか」を確認するためにS3へ大量のリクエスト（GETリクエスト）を一気に送ります。これがS3のリクエスト制限に引っかかり、エラーでクエリが失敗する原因になることがあります。データ量が増えてきたら、パフォーマンスやコストのためだけでなく、安定動作のためにもパーティショニングを検討してください。

データを物理的に整理するというシンプルな作業が、Athenaにおいては最強の最適化手法になります。S3にデータを置く段階で、将来「どんな条件で検索するか」を想像しながらディレクトリ構造を設計してみてください。その一手間が、後々のあなたを必ず助けてくれます。

S3以外も検索可能！フェデレーテッドクエリの仕組みと活用範囲

ここまで「AthenaはS3のデータを直接SQLで分析するサービス」として解説してきました。私も最初は「要するにS3専用の検索ツールだな」と思っていたのですが、実はAthenaの能力はS3の枠に留まらないんです。

今回は、S3以外の様々なデータソースにも直接SQLを投げられる「フェデレーテッドクエリ（Federated Query）」という、非常に便利で強力な機能について解説します。

データをS3に移動させずに直接クエリするアプローチ

フェデレーテッドクエリとは、簡単に言うと「S3以外の場所にあるデータに対して、Athenaから直接SQLを実行できる機能」です。

例えば、システムのメインデータベースとして使っているAmazon RDS（MySQLやPostgreSQLなどのリレーショナルデータベースを簡単に構築・運用できるAWSサービス）や、高速なNoSQLデータベースであるAmazon DynamoDB、データウェアハウスのAmazon Redshiftなどにデータが入っているとします。

従来のデータ分析のアプローチですと、これらのデータを分析するために一度S3にエクスポート（コピー）してからAthenaでクエリする、という手順を踏むことが多かったです。しかし、フェデレーテッドクエリを使えば、データをS3に移動させる手間ゼロで、その場のデータにSQLでアクセスできます。

具体的なユースケースとして、「毎月の売上ログはS3にあるけど、今日の最新の顧客情報はRDSにある。この2つを合わせて分析したい」というケースを想像してみてください。わざわざRDSのデータをS3にエクスポートしてパーティションを切って……という面倒な作業をしなくても、Athenaのコンソール上でSQLを書くだけで今あるデータをそのまま分析できます。データ転送の時間もコストも省けるため、ふとした瞬間の「ちょっと今のデータを確認したい」というアドホックな分析にぴったりです。

Lambda経由での接続と複数データソースの横断検索

「いったいどうやってRDSやDynamoDBと繋がっているの？」と不思議に思うかもしれません。裏側では、AWS Lambda（サーバーの管理なしでプログラムを実行できるサービス）の「コネクタ」という仕組みが動いています。Athenaがクエリを受け取ると、裏でLambdaが起動して対象のデータベースに接続し、データを取得してAthenaに返す、という流れです。

この仕組みのすごいところは、対応しているデータソースの多さです。AWSが公式に提供しているコネクタだけでも30種類以上あり、CloudWatch LogsやCloudWatch Metricsといったログ・監視データはもちろん、SQL ServerやOracleなどのオンプレミス（自社サーバー内）のデータベースにも接続可能です。

さらに、これら複数のデータソースを1つのSQLで「横断的」に検索できる点が最大の魅力です。

SQLには「JOIN」という、複数のテーブルを共通のキー（例えば「顧客ID」など）で結合する機能があります。フェデレーテッドクエリを使うと、「S3にある過去のアクセスログ」「RDSにある顧客マスタ」「DynamoDBにある今日のセッション情報」を、1本のSQLの中でJOINして一気に分析することができるのです。

Caution

フェデレーテッドクエリは非常に便利ですが、裏側でLambdaを経由してデータをやり取りする仕組み上、S3に直接クエリする場合と比べて応答速度が遅くなる傾向にあります。また、大量のデータを結合するとLambdaの実行時間上限（最大15分）に達してタイムアウトしたり、データ転送料金が跳ね上がったりするリスクがあります。本番環境の重いデータ処理に使うのではなく、あくまで手軽な確認や軽量なデータの結合にとどめるのが現実的です。

このように、Athenaは「S3のデータを分析するツール」という枠を超えて、社内に散在するあらゆるデータにSQLでアクセスするための「万能の窓口」として活用できるのです。次のセクションでは、そんなAthenaを使う上で絶対に知っておきたい「料金体系の落とし穴」についてお話しします。

料金体系と無駄なコストを防ぐためのクエリ設計の基本

ここまでAthenaの便利な機能や仕組みを見てきましたが、使い方を間違えると「あっという間に想定外の請求が来る」という落とし穴が待っています。Athenaを仕事で安全に使うために、ここで一度しっかりと料金の仕組みと、コストを抑えるための考え方を整理しておきましょう。

スキャンしたデータ量（TB）に基づく従量課金の注意点

Athenaの料金体系は、クエリを実行した「時間」ではなく、クエリによってS3から読み取った「データの量」に基づいて従量課金されます。具体的には、スキャンしたデータ量が1TB（テラバイト）につき5ドル（リージョンによって変動あり）というシンプルな単価です。

この仕組みの最大の注意点は、「どんなに少ない結果を得たい場合でも、裏側で大量のデータを読み取ってしまえばその分だけ課金される」という点にあります。例えば、数億行のアクセスログから「特定のIPアドレスのレコードを10件だけ欲しい」としても、条件に合致するかどうかを判定するために、対象のファイルをすべて読み込む必要があります。

Warning

SELECT * FROM テーブル名; のような全件取得クエリは、Athenaにおいて最も危険な操作です。使わないカラムがあっても、ファイル内の全データを強制的にスキャンするため、数GBのデータでも気づかないうちに高額な請求に繋がります。データの全体像をざっくり確認したいだけでも、必ず必要なカラムを指定する癖をつけましょう。

私の周りでも、S3に置いたままのALB（ロードバランサー）のアクセスログに対して、確認のつもりで SELECT * を実行してしまい、一瞬で数十ドルの請求が発生したという失敗談をよく耳にします。Athenaは「データを触る＝お金がかかる」という意識を持ってクエリを書くことが重要です。

データ圧縮と列指向フォーマットによるベストプラクティス

スキャン量に基づく課金において、根本的な対策となるのが「読み取るデータ量を物理的に小さくする」というアプローチです。ここで大活躍するのが、Parquet（パーケット）やORCと呼ばれる「列指向フォーマット」です。

私たちが普段よく目にするCSVやJSONは「行指向フォーマット」と呼ばれます。1行分のデータ（例えば「日時、IPアドレス、URL、ステータスコード…」）がまとまって保存されています。そのため、「ステータスコード」だけを集計したい場合でも、CSVファイルを最初から最後まで丸ごと読み込まなければなりません。

一方、Parquetなどの列指向フォーマットは、データを「カラム（列）ごと」にまとめて保存します。これにより、「ステータスコード」の列だけをピンポイントで読み込むことができるようになります。

具体例で比較してみましょう。100列あるデータのうち、たった3列だけを取得するクエリを実行したとします。

CSVの場合：100列すべてのデータをスキャンするため、スキャン量は100%です。
Parquetの場合：必要な3列のデータだけを読み取るため、スキャン量をおよそ3%にまで削減できます。

さらに、ParquetやORCはバイナリ形式で高度なデータ圧縮が行われるため、元のテキストファイルと比べてファイルサイズ自体も劇的に小さくなります。同じデータでも、CSVのまま保存するよりもParquet形式に変換しておくだけで、ファイルサイズが5分の1〜10分の1になることは珍しくありません。つまり、圧縮効果と列の絞り込み効果のダブルパンチで、スキャン量を極限まで減らすことができます。

Tip

日々蓄積されるログデータなどをS3に保存する段階で、最初からParquet形式に変換しておくのがベストプラクティスです。AWS GlueやLambdaなどを活用して、「生のログ（CSVやJSON）がS3に置かれたら、自動でParquetに変換して別のバケットに保存する」というパイプラインを組んでおくと、Athenaでの分析コストを劇的に下げることができます。

ワークグループを活用したコスト管理とクエリの制限

データ形式やクエリの工夫も重要ですが、「ユーザーが誤って全件スキャンを実行してしまう」という人的ミスを防ぐ仕組みも導入しておくべきです。そこで活用できるのが「ワークグループ（Workgroup）」という機能です。

ワークグループは、クエリを実行するユーザーやチームをグループ分けして、それぞれに独立した設定を適用できる仕組みです。例えば、以下のような運用が可能になります。

データスキャン量の制限: 「このワークグループでは、1回のクエリでスキャンできるデータ量の上限を10GBまでにする」といった制限を設けることができます。これにより、誤って巨大なテーブルに対して SELECT * を実行しても、制限値に達した時点でクエリが自動的にキャンセルされ、想定外のコスト発生を防ぎます。
コストの把握: ワークグループごとに使用量を分けて集計できるため、「どのチームがどれくらいAthenaを利用しているか」を可視化しやすくなります。

初心者が学習用に触る環境と、業務で利用する本番環境とでワークグループを分けておくことで、安全にコストを管理しながらAthenaを活用できます。