GOのデータ基盤では、3,500万ダウンロードのタクシーアプリ『GO』のデータなど、1日に10億レコード規模のデータを収集し、活用しています。
データの主な活用方法は二つあります。
一つはデータプロダクトの開発であり、データをもとにAIや高度なアルゴリズムを開発しタクシーアプリ『GO』に機能として組み込んでいます。
もう一つは意思決定支援であり、約30名のデータアナリストやデータサイエンティストがデータ分析し、その結果を元にビジネス担当やプロダクトマネージャがプロジェクトの効果測定や意思決定をしています。
本ポジションは、このデータ基盤を支えるデータエンジニアです。
仕事内容
データ基盤とデータプロダクトの実行基盤を担当いただきます。
●データ基盤
・大規模な車両データをDataflow等を用いてBigQueryに収集
・3,500万ダウンロードのアプリケーションのDBとログのデータをBigQueryに収集
・地図を始めとした外部データをデータ基盤に収集
・データ加工バッチの開発・運用、Google Cloudの様々なサービスを用いて実現
・StreamlitやLookerなど分析ツールのホスティング
・100人規模の利用者の管理、セキュリティコントロール
●データプロダクト実行基盤
・タクシーアプリ『GO』でAIや高度なアルゴリズムを用いたデータプロダクトの実行基盤を設計・開発・運用
・データサイエンティストの開発支援
・AIモデルの学習バッチや、本番での推論サービング
・高性能かつ高可用性を担保するための設計・実装・システム運用
・24/365のオンコール体制(待機なし・システム障害時に当番順にコールがあり対応)
●業務内容の変更範囲
会社が指定する業務全般
開発環境
●データ基盤
・データストア: BigQuery
・ETL: Dataflow, 独自開発(Python)
・SQLフレームワーク: Dataform
・ワークフローエンジン: Cloud Composer(Airflow) + GKE
・メタデータ管理:Dataplex
・その他ツール: Streamlit, Kepler.gl, Kubeflow
・言語: Python
●データプロダクト実行基盤
・データストア:Redis, AWS Aurora(MySQL, PostgreSQL)
・実行基盤:AWS:AKE etc
・言語: Go, Python
・モニタリング: Grafana, Sentry
・その他ツール:Feast
●開発環境
・LLM: Github Copilot, Claude code, gemini, MCPs etc
・IDE: VS Code etc
・CI / CD: GitHub Action
・VCS: GitHub
・その他 Google Workspace, Slack
所属組織
AI技術開発部 データプラットフォームグループ:4名
※関連チーム
・データサイエンティスト:20名
・データアナリスト:8名
・データアーキテクト:5名