【JAPAN AI】AI Evaluation Scientist / Japanese - JAPAN AI株式会社の求人・転職情報

仕事内容

ミッション "AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する" LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。本ポジションは「テストする人」ではなく、「何をもって良いAIとするかを定義し、測定する科学者」です。期待する役割について AI Evaluation Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。 ●評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します ●自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します ●レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します ●統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します ●評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します業務内容 AI Evaluation Scientistとして、 AIエージェントの評価基盤 (Evaluation Infrastructure) の設計・構築・運用をリードしていただきます。 ●評価メトリクスの研究開発・LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) ・評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) ・報酬モデリング / preference learning の評価への応用研究・評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) ・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス ●自動評価パイプラインの設計・構築・スケーラブルな自動評価パイプラインの設計・実装・CI/CD への評価パイプライン組込みと品質ゲートの構築・エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) ・評価パイプラインの再現性・信頼性の担保 ●安全性・品質検証・自動レッドチーミング (automated adversarial testing) の研究・実装・安全性 / ポリシー準拠の検証フレームワーク構築・ハルシネーション検出・校正手法の研究・実装・プロンプト / ツール回帰テストの設計・実行 ●統計分析・実験設計・統計的実験計画 (A/B テスト、有意差検定) の設計・分析・品質トレンドの可視化・回帰検出の自動化・品質レポート作成と改善提案・評価シグナルの研究・開発チームへのフィードバック業務シナリオ ※以下は想定される業務シナリオの例です ●シナリオ1: LLM-as-Judge の校正と妥当性検証新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。 ●シナリオ2: 新モデル導入時の品質ゲート LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。 ●シナリオ3: 自動レッドチーミングによる安全性検証金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率99%以上を達成します。 ●従事すべき業務の変更の範囲会社の定める業務成果責任 (KR/メトリクス) ●評価カバレッジ率(テストケース網羅率) ●回帰検出率(リリース前の品質劣化検出率 ≥ 95%) ●評価パイプライン実行時間(CI/CD内で完了) ●LLM-as-Judge と人間評価の一致率 ●False Positive / Negative 率 ●安全性インシデント発生率(リリース後) チーム体制約120名が開発組織に在籍しています。 AI Evaluation Scientistは品質保証の専門チームとして、以下のチームと密接に連携します: ●密接に連携する役割: ・Agentic Product Engineer — エージェント機能開発・Research Engineer — 研究開発・モデル改善・Agent Harness Engineer / Software Engineer (AI Platform) — AI 実行基盤開発・Product Manager — プロダクト設計・品質要件定義開発環境 ●言語 : Python (評価パイプライン・分析), TypeScript / React / Next.js (フロントエンド部) / NX ●評価 / QA : pytest, LangSmith, Weights & Biases, custom eval frameworks ●データ : BigQuery, Spark, Pandas ●インフラ : GCP (コンテナ / K8s), Docker, Terraform ●CI/CD : GitHub Actions ●ツール : Slack, Confluence, Linear, Google Workspace, GitHub, Notion ●AI 開発支援 : Claude Code MAX Plan, Cursor, ChatGPT, Devin ●作業環境 : Mac (Apple Silicon), デュアルモニタ対応

この求人の魅力

●Evaluation Science の実践 : Apple・Anthropic・Scale AI・Google DeepMind 等が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです ●ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります ●品質がプロダクトの信頼を決める : 約200社が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品質保証がビジネスインパクトに直結する手応えを実感できます ●新設ポジション : AI エージェントの品質評価科学という新しい専門領域を、ゼロから設計・構築できます。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、大きな裁量を持って取り組めます ●AI安全性の最前線 : 自動レッドチーミング、adversarial testing、ポリシー準拠検証など、Responsible AI の実践に携われます。 AI エージェントが「企業の脳」として業務を自律実行する世界で、安全性を科学的に保証する役割を担います ●急成長環境 : 設立3年で200名以上の規模、9プロダクト展開のスタートアップで、技術的意思決定に大きな裁量を持てます。 Research Engineer や Agent Harness Engineer と密接に連携し、プロダクト全体の品質に影響を与えるポジションです

採用条件

必須条件

●コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験 ●MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上 ●LLM / 生成AIの評価手法に関する深い知識 ●統計学・実験計画法の実践的知識 ●Pythonでの ML / 評価パイプライン構築経験 ●機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験 ●評価メトリクスの設計・実装経験 ●言語レベル : いずれか必須・日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル) ・英語 : ビジネスレベル本ポジションはAI出力の評価科学(Evaluation Science)を担う研究開発職です。MLモデル評価・LLM評価における研究または実装経験を必須としています。

歓迎要件

●ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験 ●報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験 ●LLM-as-Judge の校正・rubric設計の経験 ●AI安全性・Responsible AI・レッドチーミングに関する知識・経験 ●ベンチマーク設計・妥当性検証(IRT, construct validity)の経験 ●マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験 ●大規模データ処理(Spark / BigQuery等)の経験 ●CI/CDパイプラインへのML/評価パイプライン組込み経験 ●論文読解・再現実装の能力 ●英語での技術コミュニケーション能力

雇用形態

正社員

試用期間

試用期間:1か月

想定年収

年収下限～上限

800～1,600万円

給与備考

∟基本給:¥410,915～¥821,830 ∟固定残業手当 (45時間分) : ¥160,514～¥321,027 ∟SO付与制度あり ※45時間を超える時間外手当は別途支給 ※昇給機会年2回(4月、10月)、賞与年2回(5月、11月) ※給与は経験・能力・前職経験によりご相談に応じます。

勤務地

東京都新宿区西新宿住友不動産新宿オークタワー 5/6階 ●就業の場所の変更の範囲会社の定める場所

勤務時間

10:00～19:00

備考

ハイブリッド勤務 : 週3出社、週2リモートフレキシブルな勤務時間帯 : コアタイムは要相談柔軟性 : 将来的により柔軟なワークスタイルの検討も可能 ※土日祝は休業日となります ※出向の場合は、出向先の規程に準じます

休日・福利厚生

休日・休暇

完全週休二日制所定休日:土・日・祝日休暇:年次有給休暇、夏季休暇(3日)、年末年始休暇(12月31日〜1月3日)、慶弔休暇

福利厚生・諸手当

・書籍購入補助(半期 30,000円まで) ・リフレッシュ手当(毎月 5,000円まで) ・部活動手当(毎月5,000円まで) ・家賃手当(当社指定の駅を対象とし毎月30,000円まで) ・シャッフルランチ/ディナー(四半期に一度ランチ1,000円まで、ディナー5,000円まで) ・資格取得支援制度、英語学習支援制度(業務に必要な場合のみ) ・リフレッシュ休暇制度(3年間継続勤務した社員へ毎年付与される特別休暇 2日) ・定期健康診断(年1回) ・従業員持株会

受動喫煙対策

敷地内禁煙(屋外に喫煙場所設置)

選考形式

選考フロー

書類選考 → コーディングテスト → 面接(4～5回)→ 内定 ※最終面接までにリファレンスチェックをご対応いただきます

補足情報

●JAPAN AI株式会社について JAPAN AI株式会社は、AI技術を駆使して働く人々の可能性を飛躍的に高めることを目指し、上場企業である株式会社ジーニーのグループ企業として2023年4月に設立されました。当社は最先端のAI技術を活用し、国内外での研究開発を推進しています。私たちが目指しているのは、単なる AI チャットボットの提供ではありません。企業の全 SaaS を統合し、AI が自律的に業務を実行する「企業の脳」— 次世代の基幹システムを構築することです。「JAPAN AI STUDIO」を中核に、DB さえあればアプリ不要、AI が作業して結果だけを返す世界を実装しています。私たちはAIの持つ変革力を通じて、新たな価値を創出し、社会全体の進歩に貢献することを目指しています。AIによるイノベーションをリードし、テクノロジーが人々をより多くのことを達成できるようにする未来を共に創造しましょう。学習と開発の支援 ●AIツール利用サポート・JAPAN AI SaaS サービス, Cursor, ChatGPT, ClaudeなどAIツール全般を会社負担で利用可能 ●開発ツール支援・利用したい開発ツールが有償である場合、その費用を負担 (年3万円まで) ●書籍購入補助・技術書など学習のために利用する書籍を会社費用で購入可能 (半期3万円まで) ●語学学習 / 資格取得支援・日本語や英語の学習プログラムや資格の取得を会社費用で利用可能 ●リフレッシュ手当・ご自身のリフレッシュのために使用するサービスの費用を負担 (月5000円まで) ・e.g. ジム, ヨガ, 整体、水族館、映画, テーマパークのチケットなど各種適用可能 ●家賃手当・該当エリアにお住いの方に家賃手当を支給 (月3万円まで) 働き方ハイブリッド勤務 : 週3出社、週2リモートフレキシブルな勤務時間帯 : コアタイムは要相談柔軟性 : 将来的により柔軟なワークスタイルの検討も可能

JAPAN AI株式会社の詳細情報

設立年月日

2023年4月14日

代表者

工藤智昭

資本金

2,000万円

本社所在地

東京都新宿区西新宿6-8-1 住友不動産新宿オークタワー5/6階

企業HP

https://japan-ai.co.jp/

事業内容

人工知能の研究開発、人工知能に関するコンサルティングサービス

JAPAN AI株式会社が募集している他の求人・転職情報

JAPAN AI株式会社

【JAPAN AI】カスタマーサクセス

カスタマーサクセスエンジニア

600～800万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】AI AGENT CS(HR・CS AGENT担当)

AI・機械学習（LLM）エンジニア / プロダクトマネージャー（PdM） / 社内SE

500～750万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】AI Product Manager (Sales Domain)

AI・機械学習（LLM）エンジニア / プロジェクトリーダー（PL） / エンジニアリングマネージャー（EM）

900～1,600万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】シニアプロジェクトマネージャー

プロジェクトマネージャー（PM） / PMO

1,200～2,000万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】プリセールスエンジニア

業務系アプリケーションエンジニア

700～1,400万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】カスタマーサクセス_部長候補

プロジェクトリーダー（PL） / カスタマーサクセスエンジニア

1,000～2,000万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】Human-AI Collaboration Architect / Japanese

UI・UXデザイナー / プロダクトデザイナー

700～1,600万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】フルスタックエンジニア (FDE) / 第二新卒歓迎

バックエンドエンジニア（サーバーサイドエンジニア） / フルスタックエンジニア

500～800万円

東京都（新宿区）

詳細を見る

JAPAN AI株式会社

【JAPAN AI】Forward Deployed Engineer (FDE)

AI・機械学習（LLM）エンジニア / フルスタックエンジニア

700～2,000万円

東京都（新宿区）

詳細を見る

この企業の求人一覧を見る

品質コンサルタント・QAマネージャーの他の求人・転職情報

株式会社日立製作所

官公庁分野におけるシステム開発・基盤構築プロジェクトの品質保証業務(官公庁・外郭団体)

品質コンサルタント・QAマネージャー / QAエンジニア

720～800万円

東京都（品川区）

詳細を見る

株式会社日立製作所

One Hitachiグローバル活動における品質保証の推進

品質コンサルタント・QAマネージャー

830～1,080万円

神奈川県（川崎市）

詳細を見る

株式会社日立製作所

自治体分野(西日本・地方公共団体)におけるシステム開発・基盤構築プロジェクトの品質保証業務

品質コンサルタント・QAマネージャー / SET（テスト自動化・アーキテクト） / テストエンジニア・テスター / QAエンジニア

830～1,080万円

大阪府（大阪市）

詳細を見る

日本たばこ産業株式会社

【品質保証】分析ラボ運営(紙巻きたばこ等)

データアーキテクト / 品質コンサルタント・QAマネージャー / 社内SE / コーポレートIT

620～1,050万円

東京都（墨田区）

詳細を見る

株式会社日立ハイテク

【第二新卒歓迎】ソフトウェア品質保証(DNAシーケンサ、遺伝子検査装置など)エンジニア/茨城勤務【QA2615】

組み込みエンジニア / 品質コンサルタント・QAマネージャー / テストエンジニア・テスター / QAエンジニア

519～731万円

茨城県（ひたちなか市）

詳細を見る

三菱自動車工業株式会社

100790(勤務地:田町/担当:開発人事)ソフトウェア品質管理のチームリーダー業務

スタッフエンジニア / 品質コンサルタント・QAマネージャー

450～950万円

東京都（港区）

詳細を見る

株式会社日立ハイテク

ソフトウェア品質保証(DNAシーケンサ、遺伝子検査装置など)エンジニア/茨城勤務【QA2615】

組み込みエンジニア / 品質コンサルタント・QAマネージャー / テストエンジニア・テスター / QAエンジニア / フィールドエンジニア（インフラ）

556～878万円

茨城県（ひたちなか市）

詳細を見る

三菱ふそうトラック・バス株式会社

品質保証 - 量産部品品質エンジニア /QM - Series Parts Quality Engineer ( Engine, Powertrain & Raw Materials)

品質コンサルタント・QAマネージャー / テストエンジニア・テスター

神奈川県（川崎市）

詳細を見る

株式会社日立ハイテク

ソフトウェア検査(臨床検査用生化学・免疫自動分析装置など)エンジニア/茨城勤務【QA40】

組み込みエンジニア / 品質コンサルタント・QAマネージャー / テストエンジニア・テスター / QAエンジニア

519～878万円

茨城県（ひたちなか市）

詳細を見る

品質コンサルタント・QAマネージャーの求人を見る