はじめに

「データは21世紀の石油」なんて言われるように、最近はどの会社でも「データ活用」が重要!って言われてますよね。でも、「データ活用って具体的に何をすればいいの?」「ウチみたいな中小企業でもできるの?」と悩んでいる方も多いのではないでしょうか。

今回は、そんなデータ活用の「はじめの一歩」となる「データ基盤」について、Google Cloudを使った作り方を、ITに詳しくない方にも分かるように解説します!

(この記事は「改訂新版 Google Cloudではじめる実践データエンジニアリング入門」の第一章を参考にしています)

そもそもデータ基盤って何?

データ基盤の役割 ~バラバラなデータをまとめて活用!~

データ基盤を一言でいうと、「社内のあちこちに散らばっているデータを、使いやすい形に整理整頓してくれる仕組み」です。

  • お店のPOSレジの売上データ
  • Webサイトのアクセス履歴
  • 工場にある機械のセンサーデータ

…など、会社には色々なデータがありますよね。データ基盤があれば、これらのデータをまとめて分析したり、レポートを作ったり、さらにはAIに学習させて未来予測をしたり…といったことができるようになります。

今までは、こういったデータがバラバラに管理されていたので、「あのデータとこのデータを組み合わせて分析したい!」と思っても、すごく時間がかかったり、そもそもできなかったり…。これでは、せっかくのデータも宝の持ち腐れですよね。

データ基盤ってどうやって作るの? ~主な構成要素~

データ基盤は、いくつかの「部品」を組み合わせて作ります。それぞれの「部品」が連携して、データをスムーズに活用できる流れを作ります。

部品の名前役割例:Google Cloudのサービス
データレイク/レイクハウスいろんな種類のデータを、とりあえず全部ためておく場所。Cloud Storage, BigLake
データウェアハウス/データマート分析しやすいように、キレイに整理整頓されたデータを置いておく場所。BigQuery
ETL/ELT処理データを、使いやすい形に「抽出」「変換」「格納」する作業。Dataform, Dataflow
ストリーミング処理データが新しく入ってくるたびに、リアルタイムで処理する仕組み。Pub/Sub, Dataflow
ワークフロー管理データ処理の順番を決めたり、自動で実行させたりする司令塔。Cloud Composer, Cloud Data Fusion
メタデータ管理(ちょっと難しいけど大事!)「このデータは何のデータ?」「誰が使っていいの?」といった情報を管理して、データの信頼性を高める。Data Catalog, Dataplex

【図解】データ基盤のイメージ

この図のように、色々な場所にあるデータが、パイプラインを通ってキレイになり、分析しやすい場所に集まってくる…というイメージです。そして、全体の流れはワークフロー管理で自動化されているので、一度作ってしまえば、あとは手間いらず!

Google Cloudを使うと何がいいの? ~データ基盤作りの強い味方!~

Google Cloudを使ってデータ基盤を作ると、こんな嬉しいことがあります。

  1. 初期費用を抑えられる!
    • クラウドサービスなので、最初に大きなサーバーを買う必要がありません。使った分だけお金を払えばOKなので、お試しで始めることもできます。
  2. データが増えても大丈夫!
    • データがどんどん増えても、Google Cloudが自動でパワーアップしてくれるので安心です。
  3. 必要なものが全部そろってる!
    • データ基盤作りに必要なサービスが、全部Google Cloudの中にそろっています。バラバラのツールを組み合わせる必要がないので、設定もラクラクです。

【対応表】Google Cloudの主なサービス

サービス名役割
BigQuery分析しやすいデータを置いておく場所(データウェアハウス)
Cloud Storage色々なデータをためておく場所(データレイク)
Pub/Subリアルタイムでデータを処理する仕組み
Dataflowデータを使いやすい形に加工する仕組み
Cloud Composerデータ処理の自動化
Data Catalogデータの情報を管理

まとめ ~今日からあなたもデータ活用の一歩を踏み出そう!~

今回は、データ基盤の「キホン」を学びました。

  • データ基盤は、バラバラなデータをまとめて、色々なことに活用できるようにする仕組み。
  • データレイク、データウェアハウス、ETL…など、いくつかの「部品」を組み合わせて作る。
  • Google Cloudを使うと、手軽に、しかも本格的なデータ基盤が作れる!

この記事を読んで、「データ基盤って意外と簡単そう?」「ウチの会社でもできるかも!」と思っていただけたら嬉しいです。Google Cloudの各サービスを使えば、今日からあなたもデータ活用の一歩を踏み出せます!

※ もっと詳しい技術的な話や、各サービスの使い方については、専門書やGoogle Cloudの公式ドキュメントを見てください。

By takumi