The Self-Service Data Roadmap について
この記事は、datatech-jp Advent Calendar 2021の7日目の記事となります。
The Self-Service Data Roadmapという本がとても評判良さそうで、読んでみたいけど英語版しかないので1人で読むのは厳しいなぁ・・・って思っていたところ、Twitterから発展してあれよあれよと輪読会が開催されることになりました。 amzn.to
輪読会は現在はdatatech-jpというコミュニティに発展をしています。
詳細は@syou6162さんがブログに書いてくださっているのでこちらを参考にしてください。
The Self-Service Data Roadmapの輪読会で私が担当した章は最初のIntroだったので、この本の全体感をここでは説明させてもらいます。
それぞの章の細かい内容は別の日のAdventCalendarでも触れてくれる方がいらっしゃる予定です。
The Self-Service Data Roadmapで述べられている内容は、タイトルの通り、Selfでデータを価値に変換出来るような基盤を作っていくにはどのようにしたら良いかが書かれています。
また、出てくるアーキテクチャの内容としては著者の関係もあるのか、Hadoopエコシステムに少し偏っていますが抽象化して考えればHadoop以外にも適用出来るものが多いです。
まず最初に3つの失敗するパターンが書かれています。
- データエンジニアとデータユーザの食い違い
- 新しい技術に飛びつく
- 全てに取り組む
データエンジニアの認識とデータユーザの認識齟齬とかどこの組織でもあるあるなのかなと思います。
このような失敗パターンがある上で、ではどのようにSelf-Service基盤を作っていけば良いかというと
まず全体を4つの工程に分けます
その上でさらに工程毎に細かく分けていきます
細かく分けることが出来たらそれぞれどれぐらい最終的にインサイトを出すために時間を掛かってるか見積もりします
もっとも時間のかかっている2~3メトリクスを特定/分析し、自動化までのロードマップを作成しましょう!!!
という流れです。
それぞれの time to XXX
というメトリクスの詳細と改善方法はそれぞれ章毎に案内がされています。
なので全体を読まなくても例えばコンプライアンスに関して知りたい!でしたら、 time to comply
の章だけを読むという読み方でも良さそうでした。
中には こんな夢のような基盤本当に世の中に実現するのか!?
というような基盤の説明もありましたが、どこの章でも共通して書いてあったのは
銀の弾丸はない
でした。これを解決すればよい!というのはやはりなく、複合的に少しずつ解決していくのが遠回りなようでSelf-serviceへの近道なのかもしれません。
私が作成した資料はこちらですので興味ある方は是非とも読んでみてくださいmm
Advent Calendar 明日は@nana7dataさんです。よろしくお願いします!