【JAPAN AI】AI Evaluation Scientist / Japanese
AI Quality Scientist / Japanese
ミッション
"AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する"
LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。本ポジションは「テストする人」ではなく、 「何をもって良いAIとするかを定義し、測定する科学者」 です。
期待する役割について
AI Evaluation Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。
●評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します
●自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します
●レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します
●統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します
●評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します
約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します
業務内容
AI Evaluation Scientistとして、 AIエージェントの評価基盤 (Evaluation Infrastructure) の設計・構築・運用をリードしていただきます。
●評価メトリクスの研究開発
・LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
・評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
・報酬モデリング / preference learning の評価への応用研究
・評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
●自動評価パイプラインの設計・構築
・スケーラブルな自動評価パイプラインの設計・実装
・CI/CD への評価パイプライン組込みと品質ゲートの構築
・エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
・評価パイプラインの再現性・信頼性の担保
●安全性・品質検証
・自動レッドチーミング (automated adversarial testing) の研究・実装
・安全性 / ポリシー準拠の検証フレームワーク構築
・ハルシネーション検出・校正手法の研究・実装
・プロンプト / ツール回帰テストの設計・実行
●統計分析・実験設計
・統計的実験計画 (A/B テスト、有意差検定) の設計・分析
・品質トレンドの可視化・回帰検出の自動化
・品質レポート作成と改善提案
・評価シグナルの研究・開発チームへのフィードバック
業務シナリオ ※以下は想定される業務シナリオの例です
●シナリオ1: LLM-as-Judge の校正と妥当性検証
新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。
●シナリオ2: 新モデル導入時の品質ゲート
LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。
●シナリオ3: 自動レッドチーミングによる安全性検証
金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率99%以上を達成します。
●従事すべき業務の変更の範囲
会社の定める業務
成果責任 (KR/メトリクス)
●評価カバレッジ率(テストケース網羅率)
●回帰検出率(リリース前の品質劣化検出率 ≥ 95%)
●評価パイプライン実行時間(CI/CD内で完了)
●LLM-as-Judge と人間評価の一致率
●False Positive / Negative 率
●安全性インシデント発生率(リリース後)
チーム体制
約120名が開発組織に在籍しています。
AI Evaluation Scientistは品質保証の専門チームとして、以下のチームと密接に連携します:
●密接に連携する役割:
・Agentic Product Engineer — エージェント機能開発
・Research Engineer — 研究開発・モデル改善
・Agent Harness Engineer / Software Engineer (AI Platform) — AI 実行基盤開発
・Product Manager — プロダクト設計・品質要件定義
開発環境
●言語 : Python (評価パイプライン・分析), TypeScript / React / Next.js (フロントエンド部) / NX
●評価 / QA : pytest, LangSmith, Weights & Biases, custom eval frameworks
●データ : BigQuery, Spark, Pandas
●インフラ : GCP (コンテナ / K8s), Docker, Terraform
●CI/CD : GitHub Actions
●ツール : Slack, Confluence, Linear, Google Workspace, GitHub, Notion
●AI 開発支援 : Claude Code MAX Plan, Cursor, ChatGPT, Devin
●作業環境 : Mac (Apple Silicon), デュアルモニタ対応