Google Cloud Platform、BigQuery体験ハンズオンに参加しました

スポンサーリンク

2018年11月21日に五反田で開催された、Google Cloud Platform 体験ハンズオンに参加させていただきました。そこで得られた「Google BigQuery」に関する知見を共有したいと思います。

イベント概要

Google Cloud Platform 体験ハンズオン(無料)
https://enisias.connpass.com/event/105843/
会場
(株)エニシアス/セミナールーム
東京都品川区東五反田1-20-7(神野商事第2ビル 3F)

Google Cloud Platformの特徴

Googleの提供するクラウドサービスGCPの特徴としては、Googleの敷いた数千マイルの光ファイバーケーブル(6Tbps)というバックボーンを持ち、複数サーバによる冗長性も持ち合わせています。
提供されているツールは増え続け、現在は100を超えています。
料金体系としては従量課金であり、クラウドに対して上りは無料/下りは有料という特徴があります。適しているシステムは、WEBシステム、サーバの負荷が増減するもの、バックアップサーバなど。

https://cloud.google.com
Google Cloud Platform(グーグル クラウド プラットフォーム)とは、Googleが運営しているクラウドコンピューティングのプラットフォーム。Google検索やYouTubeなどのエンドユーザー向けのサービスと同じインフラストラクチャーで運営されている。簡単なウェブサイトから複雑なアプリケーションの開発まで対応している。

サービス一覧
Google Cloud Platform は複数の商品群から構成され、それぞれ、ウェブのユーザインタフェース、コマンドラインツール、REST API が提供されている。
Google App Engineグーグル・アップ・エンジン – ウェブアプリケーションのための Platform as a Serviceプラットフォーム・アズ・ア・サーヴィス
Google BigQueryグーグル・ビッグクエリー
Google Compute Engineグーグル・コンピュート・エンジン – Linuxリナックス や Windows Serverウィンドウズ・サーヴァー などの仮想マシンを動かせる Infrastructure as a Serviceインフラストラクチャー・アズ・ア・サーヴィス
Google Container Engineグーグル・コンテイナ・エンジン – Dockerドッカー コンテナを実行できる
Google Cloud Bigtableグーグル・クラウド・ビッグテイブル
Google Cloud CDNグーグル・クラウド・シーディーエヌ
Google Cloud Datastoreグーグル・クラウド・デイタストア
Google Cloud Deploymentグーグル・クラウド・デプロイメント
Google Cloud DNSグーグル・クラウド・ディーエヌエス
Google Cloud Endpointsグーグル・クラウド・エンドポインツ
Google Cloud Loggingグーグル・クラウド・ロギング
Google Cloud Monitoringグーグル・クラウド・モニタリング
Google Cloud Pub/Subグーグル・クラウド・パブ・サブ
Google Cloud SQLグーグル・クラウド・エスキューエル
Google Cloud Storageグーグル・クラウド・ストレイジ
Google Cloud Spannerグーグル・クラウド・スパナー
Google Dataflowグーグル・デイタフロウ
Google Interconnectグーグル・インターコネクト
Google Load Balancingグーグル・ロード・バランシング
Google Prediction APIグーグル・プレディクション・エイピーアイ
Google Translate API

BigQueryの特徴

BigQueryは、GCPで提供されるビッグデータ解析プラットフォーム。膨大なデータに対して、集計・分析を高速に実行できます。

https://cloud.google.com/bigquery/
BigQuery は、Google が提供するサーバーレスでスケーラビリティに優れたエンタープライズ向けデータ ウェアハウスです。すべてのデータ アナリストの生産性が向上するように設計されており、他のプロバイダでは実現できない低料金で提供されています。インフラストラクチャの管理が不要なため、有用な情報を見つけるためのデータ分析に専念できます。また、データベースの操作には使い慣れた SQL を使用でき、データベース管理者も必要ありません。
オブジェクト ストレージやスプレッドシートのデータだけでなく、カラム型のマネージド ストレージに論理データ ウェアハウスを作成して、すべてのデータを分析できます。簡単な SQL を使用して機械学習ソリューションを構築、運用化できます。また、データセット、クエリ、スプレッドシート、レポートとして分析情報を組織の内外で安全かつ容易に共有できます。BigQuery では、強力なストリーミング取り込み機能を使用してリアルタイムにデータを取得、分析できるため、常に最新の分析情報が得られます。さらに、毎月最大 1 TB のデータ分析と 10 GB の保存データ容量が無料でご利用いただけます。

データを貯める

高速分析 AI
10GB/月まで無料

データの高速分析

必要な知識はSQLのみ
サーバーレス
クエリでスキャンしたデータ量 1TB/月まで無料(10GBを100回叩けば1TB)
課金を抑えるには カラムを絞ったクエリが重要 条件は課金額に関係ない 時間を意識したパーテーションテーブルを利用

AI

SQLのみで予測分析 機械学習モデルが数分で作成可能

カラム思考ストレージ

SQLエンジンアーキテクャ 数千台のサーバで分散処理

向き不向き

BigQuery(GCP) サーバーレス アドホック分析向き 溜まったからやってみる用途
Redshift(AWS) 仮想サーバ、インスタンスを建てるイメージ 定常的に分析したい方 毎日やる用途

「Google BigQuery」でデータ分析を体験してみようハンズオン

BigQueryの構造

以下のような構造です。projectの中にデータセットが配置され、データセットは一つ以上のテーブルを持つ構造です。
project内には、複数のjobを配置できます。

project
 データセット 一つ以上のテーブルを持つ
 テーブル
  job

データセットを作ってみよう

ブラウザでの打ち込み、JSONの流し込みなどで、データセットをアップします。

クエリを叩いてみよう

jobの種類

標準SQL
テーブル結合
日付分割テーブル
取り込み時間分割テーブル

テーブルコピー エクスポート インポート 等の三機能は、無料で使える。効果的に使うことで課金額を低減できそう。

データポータルで可視化しよう

・データポータルで、新しいレポートの作成

・データソースの作成

様々なデータソースを迅速に可視化、期間などのフィルタリングも可能。
しかも最新のデータが常に確認できるところが良いですね。

・BigQuery GIS GeoVizでは、地図に連動したデータを表示可能

まとめ

BigQueryを使うことで、膨大なデータであっても数秒で集計・分析ができることを実感できました。様々な用途に活用していきたいと思います。

スポンサーリンク

シェアする