hamayuzinの日記

エンジニアとかデータサイエンティストとかやってます。あの時 あれやってたな的な備忘録にできれば。

【nginx/fluentd/s3/athena】fluentdでs3にlogを出してathenaで分析できるようにする その3

auto scale関係で、サーバーのログがすぐ消えてしまう環境で、ログをどこかに置いておきたい場合がある。 今回は、nginxのaccess_logを、fluentdでS3にアップロードし aws athenaで分析できるようにする

環境は、aws ec2のamazon linux上。

【目次】

  1. ec2にfluentdをセットアップ
  2. ecからs3にファイルアップロード
  3. athenaで分析する <- いまここ

athenaの設定

基本GUIをクリックするだけでできる

データベースの作成とS3のデータの場所を指定

f:id:hamayuzin:20180204204623p:plain

データの形式を指定

今回はJSON形式 f:id:hamayuzin:20180204204704p:plain

データベースの設計・カラム決め

bulkで f:id:hamayuzin:20180204204744p:plain

パーティション設定

今回はせず、作成 f:id:hamayuzin:20180204204813p:plain

あとは、適当にクエリを投げると返ってくる

雑感

テーブル構造を決めないといけなかったりして、やらなきゃいけないこと多くて、GBQと比較するとちょっとうーむ感が。。。