[主にGoogleが提唱するSREプラクティス](https://www.googlecloudcommunity.com/gc/Community-Blogs/Site-Reliability-Engineering-SRE-Fundamentals/ba-p/472590) を参考にし、以下のような領域に取り組んでいただきます。
●Emergency Response: 緊急対応の品質担保のための仕組みづくりと訓練、実際のトラブル対処から再発防止までのリード
●Metrics & Monitoring: オブザーバビリティの導入推進、プロダクト方針に基づくSLI/SLOの実装〜運用
●Capacity Planning: サービスの成長に伴う負荷の予測、負荷テストの設計や実施、インフラだけでなくアプリケーションにも踏み込んだボトルネックの改善
●Change Management: 漸進的デリバリーなどの普及を含めたリリースエンジニアリング
※入社後の業務は上記に限定されるものではありません。
プロダクト戦略や事業状況に応じて最大の成果を出せるよう、適宜見直していく予定です。
開発環境
フロントエンド:TypeScript,React,Next.js
バックエンド:Rust(axum),TypeScript,Node.js(Express,Fastify,NestJS)
機械学習・アルゴリズム:Rust,Python,OpenCV,PyTorch,TorchServe,Elasticsearch,Vertex AI
インフラ:Google Cloud,Google Kubernetes Engine,Anthos Service Mesh,Istio,Cloudflare,Argo Workflows
Event Bus:Cloud Pub/Sub
DevOps:GitHub,GitHub Actions,ArgoCD,Kustomize,Helm,Terraform,Datadog,MixPanel,Sentry
Data:CloudSQL(PostgreSQL),AlloyDB,BigQuery,dbt,trocco
API:GraphQL,REST,gRPC
認証: Auth0
開発ツール:GitHub Copilot,Figma,Storybook
コミュニケーションツール:Slack,Discord,JIRA,Miro,Confluence