仕事内容
仕事内容
"AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する" LLM / AI エージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。 評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、「AI 評価科学」という新しい研究領域を社内に確立し、約 200 社が本番利用するプロダクトの品質を科学的に保証します。 AI Quality Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。 ●評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します ●自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します ●レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します ●統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します ●評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します 約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します ●評価メトリクスの研究開発 ・LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) ・評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) ・報酬モデリング / preference learning の評価への応用研究 ・評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) ・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス ●自動評価パイプラインの設計・構築 ・スケーラブルな自動評価パイプラインの設計・実装 ・CI/CD への評価パイプライン組込みと品質ゲートの構築 ・エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) ・評価パイプラインの再現性・信頼性の担保 ●安全性・品質検証 ・自動レッドチーミング (automated adversarial testing) の研究・実装 ・安全性 / ポリシー準拠の検証フレームワーク構築 ・ハルシネーション検出・校正手法の研究・実装 ・プロンプト / ツール回帰テストの設計・実行 ●統計分析・実験設計 ・統計的実験計画 (A/B テスト、有意差検定) の設計・分析 ・品質トレンドの可視化・回帰検出の自動化 ・品質レポート作成と改善提案 ・評価シグナルの研究・開発チームへのフィードバック ●シナリオ1: LLM-as-Judge の校正と妥当性検証 新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。 人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。 construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。 ●シナリオ2: 新モデル導入時の品質ゲート LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。 原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。 ●シナリオ3: 自動レッドチーミングによる安全性検証 金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。 adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。 ポリシー準拠率99%以上を達成します。 ●従事すべき業務の変更の範囲 会社の定める業務
この求人の魅力
●Evaluation Science の実践 : Apple・Anthropic・Scale AI・Google DeepMind 等が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。 評価手法そのものを研究対象とする、世界的にも希少なポジションです ●ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。 報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります ●品質がプロダクトの信頼を決める : 約200社が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。 品質保証がビジネスインパクトに直結する手応えを実感できます ●新設ポジション : AI エージェントの品質評価科学という新しい専門領域を、ゼロから設計・構築できます。 評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、大きな裁量を持って取り組めます ●AI安全性の最前線 : 自動レッドチーミング、adversarial testing、ポリシー準拠検証など、Responsible AI の実践に携われます。 AI エージェントが「企業の脳」として業務を自律実行する世界で、安全性を科学的に保証する役割を担います ●急成長環境 : 設立3年で200名以上の規模、9プロダクト展開のスタートアップで、技術的意思決定に大きな裁量を持てます。 Research Engineer や Agent Harness Engineer と密接に連携し、プロダクト全体の品質に影響を与えるポジションです
採用条件
必須条件
●コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験 ●MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上 ●LLM / 生成AIの評価手法に関する深い知識 ●統計学・実験計画法の実践的知識 ●Pythonでの ML / 評価パイプライン構築経験 ●機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 ●評価メトリクスの設計・実装経験 ●言語レベル : いずれか必須 ・日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) ・英語 : ビジネスレベル
歓迎要件
●ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験 ●報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験 ●LLM-as-Judge の校正・rubric設計の経験 ●AI安全性・Responsible AI・レッドチーミングに関する知識・経験 ●ベンチマーク設計・妥当性検証(IRT, construct validity)の経験 ●マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験 ●大規模データ処理(Spark / BigQuery等)の経験 ●CI/CDパイプラインへのML/評価パイプライン組込み経験 ●論文読解・再現実装の能力 ●英語での技術コミュニケーション能力
雇用形態
雇用形態
正社員
試用期間
試用期間:1か月
想定年収
年収下限~上限
800~1,600万円
給与備考
∟基本給:¥410,915~¥821,830 ∟固定残業手当 (45時間分) : ¥160,514~¥321,027 ∟SO付与制度あり ※45時間を超える時間外手当は別途支給 ※昇給機会年2回(4月、10月)、賞与年2回(5月、11月) ※給与は経験・能力・前職経験によりご相談に応じます。
勤務地
勤務地
東京都新宿区西新宿住友不動産新宿オークタワー 5/6階 ●就業の場所の変更の範囲 会社の定める場所
勤務時間
勤務時間
10:00~19:00
備考
ハイブリッド勤務 : 週3出社、週2リモート フレキシブルな勤務時間帯 : コアタイムは要相談 柔軟性 : 将来的により柔軟なワークスタイルの検討も可能 ※土日祝は休業日となります ※出向の場合は、出向先の規程に準じます
休日・福利厚生
休日・休暇
完全週休二日制 所定休日:土・日・祝日 休暇:年次有給休暇、夏季休暇(3日)、年末年始休暇(12月31日〜1月3日)、慶弔休暇
福利厚生・諸手当
・書籍購入補助(半期 30,000円まで) ・リフレッシュ手当(毎月 5,000円まで) ・部活動手当(毎月5,000円まで) ・家賃手当(当社指定の駅を対象とし毎月30,000円まで) ・シャッフルランチ/ディナー(四半期に一度ランチ1,000円まで、ディナー5,000円まで) ・資格取得支援制度、英語学習支援制度(業務に必要な場合のみ) ・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日) ・定期健康診断(年1回) ・従業員持株会
受動喫煙対策
敷地内禁煙(屋外に喫煙場所設置)
選考形式
選考フロー
書類選考 → コーディングテスト → 面接(4~5回)→ 内定 ※最終面接までにリファレンスチェックをご対応いただきます
補足情報
補足情報
●JAPAN AI株式会社について JAPAN AI株式会社は、AI技術を駆使して働く人々の可能性を飛躍的に高めることを目指し、上場企業である株式会社ジーニーのグループ企業として2023年4月に設立されました。当社は最先端のAI技術を活用し、国内外での研究開発を推進しています。 私たちが目指しているのは、単なる AI チャットボットの提供ではありません。企業の全 SaaS を統合し、AI が自律的に業務を実行する「企業の脳」— 次世代の基幹システムを構築することです。「JAPAN AI STUDIO」を中核に、DB さえあればアプリ不要、AI が作業して結果だけを返す世界を実装しています。 私たちはAIの持つ変革力を通じて、新たな価値を創出し、社会全体の進歩に貢献することを目指しています。AIによるイノベーションをリードし、テクノロジーが人々をより多くのことを達成できるようにする未来を共に創造しましょう。
JAPAN AI株式会社の詳細情報
設立年月日
2023年4月14日
代表者
工藤 智昭
資本金
2,000万円
本社所在地
東京都新宿区西新宿6-8-1 住友不動産新宿オークタワー5/6階
事業内容
人工知能の研究開発、人工知能に関するコンサルティングサービス
JAPAN AI株式会社が募集している他の求人・転職情報
品質コンサルタント・QAマネージャーの他の求人・転職情報

