ITエンジニア転職ならテックゴー

QAエンジニア・テストエンジニア（テスター）(Spark)の求人・転職情報

該当求人数 3 件

1~3件を表示

JAPAN AI株式会社

【JAPAN AI】AI Evaluation Scientist / Japanese

QAエンジニア・テストエンジニア（テスター）

800～1,600万円

Spark

Docker

Confluence

React

Snowflake

Kubernetes

正社員

東京都新宿区

ミッション "AI の出力品質を科学する — 評価手法の研究・開発で、エージェントの信頼性を証明する" LLM / AIエージェントの出力品質を、機械学習・統計学・計量心理学の手法で定量的に評価・改善します。本ポジションは「テストする人」ではなく、「何をもって良いAIとするかを定義し、測定する科学者」です。期待する役割について AI Evaluation Scientist として、AI エージェントの品質評価基盤の設計・構築・運用をリードしていただきます。 ●評価メトリクスの研究開発 — LLM-as-Judge の校正、報酬モデリング、ベンチマーク設計を通じて「何をもって品質とするか」を科学的に定義します ●自動評価パイプラインの設計・構築 — 研究成果を本番 CI/CD に組み込み、スケーラブルな品質ゲートを実現します ●レッドチーミング・安全性検証 — adversarial testing の自動化、ポリシー準拠検証フレームワークを構築します ●統計的実験計画に基づく品質改善 — A/B テスト・有意差検定でプロンプト戦略やモデル変更の効果を定量的に検証します ●評価シグナルの研究・開発チームへのフィードバック — モデル改善の複利ループを構築します約 200 社が本番利用するプロダクトの品質を「科学する」アプローチで担保します業務内容 AI Evaluation Scientistとして、 AIエージェントの評価基盤 (Evaluation Infrastructure) の設計・構築・運用をリードしていただきます。 ●評価メトリクスの研究開発・LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules) ・評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection) ・報酬モデリング / preference learning の評価への応用研究・評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection) ・評価セット (合成データ + 実ログ) の設計・構築・メンテナンス ●自動評価パイプラインの設計・構築・スケーラブルな自動評価パイプラインの設計・実装・CI/CD への評価パイプライン組込みと品質ゲートの構築・エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応) ・評価パイプラインの再現性・信頼性の担保 ●安全性・品質検証・自動レッドチーミング (automated adversarial testing) の研究・実装・安全性 / ポリシー準拠の検証フレームワーク構築・ハルシネーション検出・校正手法の研究・実装・プロンプト / ツール回帰テストの設計・実行 ●統計分析・実験設計・統計的実験計画 (A/B テスト、有意差検定) の設計・分析・品質トレンドの可視化・回帰検出の自動化・品質レポート作成と改善提案・評価シグナルの研究・開発チームへのフィードバック業務シナリオ ※以下は想定される業務シナリオの例です ●シナリオ1: LLM-as-Judge の校正と妥当性検証新しい評価メトリクスとして LLM-as-Judge を導入する際、judge モデルの校正 (calibration) を実施します。人間評価との一致率を統計的に検証し、rubric 設計を反復改善します。construct validity を確認した上で、自動評価パイプラインに組み込み、評価コストを 80% 削減しながら人間評価と同等の信頼性を実現します。 ●シナリオ2: 新モデル導入時の品質ゲート LLMプロバイダーが新モデルをリリースした際、既存のベンチマークスイートで回帰テストを実行し、factualityスコアが3%低下していることを検出します。原因を分析し、プロンプト調整で品質を維持したまま新モデルへの移行を完了します。 ●シナリオ3: 自動レッドチーミングによる安全性検証金融機関向けにJAPAN AI AGENTを導入する際、自動レッドチーミングパイプラインを構築します。adversarial promptの自動生成・分類器による脆弱性検出を実装し、業界固有のリスクシナリオ(機密情報漏洩、不適切な金融アドバイス等)を網羅的にテストします。ポリシー準拠率99%以上を達成します。 ●従事すべき業務の変更の範囲会社の定める業務成果責任 (KR/メトリクス) ●評価カバレッジ率(テストケース網羅率) ●回帰検出率(リリース前の品質劣化検出率 ≥ 95%) ●評価パイプライン実行時間(CI/CD内で完了) ●LLM-as-Judge と人間評価の一致率 ●False Positive / Negative 率 ●安全性インシデント発生率(リリース後) チーム体制約120名が開発組織に在籍しています。 AI Evaluation Scientistは品質保証の専門チームとして、以下のチームと密接に連携します: ●密接に連携する役割: ・Agentic Product Engineer — エージェント機能開発・Research Engineer — 研究開発・モデル改善・Agent Harness Engineer / Software Engineer (AI Platform) — AI 実行基盤開発・Product Manager — プロダクト設計・品質要件定義開発環境 ●言語 : Python (評価パイプライン・分析), TypeScript / React / Next.js (フロントエンド部) / NX ●評価 / QA : pytest, LangSmith, Weights & Biases, custom eval frameworks ●データ : BigQuery, Spark, Pandas ●インフラ : GCP (コンテナ / K8s), Docker, Terraform ●CI/CD : GitHub Actions ●ツール : Slack, Confluence, Linear, Google Workspace, GitHub, Notion ●AI 開発支援 : Claude Code MAX Plan, Cursor, ChatGPT, Devin ●作業環境 : Mac (Apple Silicon), デュアルモニタ対応

詳細を見る

まずは相談する

【JAPAN AI】AI Evaluation Scientist / Japanese

QAエンジニア・テストエンジニア（テスター）

正社員

800～1,600万円

東京都新宿区

Spark

Docker

Confluence

React

Snowflake

Kubernetes

JAPAN AI株式会社

詳細を見る

この求人について問い合わせる

株式会社SUBARU

〇[東京事業所]DevOpsエンジニア - アイサイト画像認識ソフトCI/CD・テスト自動化推進(ADAS開発部)

QAエンジニア・テストエンジニア（テスター）

550万円～

Datadog

Unity

LESS

Python

Spark

正社員

東京都三鷹市

アイサイトの画像認識ソフトウェアを対象とした、・オンプレミスやクラウドのインフラ上でのCI/CD・テスト自動化プラットフォーム構築・CI/CD・テスト自動化プラットフォームの設計や利用するツール群の選定 <具体的には> 画像認識ソフトウェアを対象とした、 ①ソフトウェア構成管理ツール(Git)を活用した、CI/CDシステムの構築。 ※:GitのCI/CDの機能を使った、CI/CDシステムの構築。 ②オンプレミスとクラウドのテスト自動化プラットフォームの構築。 ※:オンプレミスとクラウドの両方を活用した、テスト自動化環境のプラットフォーム設計と構築。 ③CI/CD・テスト自動化プラットフォームで利用するツール群の選定 ※:オープンソースソフトウェアや有償ツールなどのCI/CDやテスト自動化プラットフォームを構築する上で必要なツール群を選定する。 <使用言語/環境/ツール/資格等> ・開発言語:C/C++ ・リポジトリ管理ツール:GitLab , GitHub ・OS:Linux、Windows ・コンテナ:Docker、Kubernetes ・クラウドサービス:AWS 【取り扱っていただくプロダクト/技術】・アイサイトのステレオカメラの画像認識ソフトウェア当社が実現する「予防安全」は国内外の安全性評価において常にトップクラスの評価をいただいていますが、リアルワールドで安心して使える技術を追及して、2030年に死亡交通事故ゼロを実現していきます。アイサイトは、ステレオカメラを搭載することで、人の目と同じように、あらゆる物体に対する高い認識性能を実現しつつ、高精度な物体の位置・速度を測ることができ、多様な検知情報を組み合わせることで、高度な運転支援機能を実現する事が出来ます。これらの一部を(画像認識)ソフトウェアにて実現しています。【変更の範囲】会社の定める業務(※) (※)業務の都合によっては会社外の職務に従事するため出向又は転属を命じることがあります。

詳細を見る

まずは相談する

〇[東京事業所]DevOpsエンジニア - アイサイト画像認識ソフトCI/CD・テスト自動化推進(ADAS開発部)

QAエンジニア・テストエンジニア（テスター）

正社員

550万円～

東京都三鷹市

Datadog

Unity

LESS

Python

Spark

株式会社SUBARU

詳細を見る

この求人について問い合わせる

株式会社メドレー

NEW

QAエンジニア/医療プラットフォーム本部東京

QAエンジニア・テストエンジニア（テスター）

500～1,100万円

Jenkins

生成AI・LLM

Spark

正社員

東京都港区

医療機関・患者双方に支持されるプロダクトの品質保証を担い、開発チームと伴走しながら以下業務を推進していただきます。・仕様レビュー・設計段階からの品質観点の提案・改善・新機能開発・改修におけるテスト計画、設計、実施、バグ管理・API / UI / E2E テストの自動化設計・実装・運用・CI/CD 環境への QA プロセス組み込み、KPI 設計・モニタリング・品質改善やチームの生産性向上に向けたプロセス最適化、ナレッジ共有各プロダクト QAメンバーとの連携、横断的な品質戦略の策定・推進 ※業務の変更の範囲:会社の定める業務

詳細を見る

まずは相談する

NEW