【<JAPAN AI>AI Quality Scientist/ Japanese】AIプロダクトを牽引/様々なサービス展開/多国籍企業でグローバルな働き方/赴任旅費やリフレッシュ手当などの福利厚生充実/グループ企業唯一の0から立
職種: AI・機械学習エンジニア
雇用形態: 正社員
エリア: 東京都新宿区西新宿6-8-1住友不動産新宿オークタワー 5/6階

業務内容
【募集背景】
JAPAN AI STUDIO が「企業の脳」として稟議承認・リソース配置・見込み顧客探索などの業務を自律的に実行する世界では、AI の出力が間違えれば、承認すべきでない稟議が通り、誤った人員配置が行われ、不適切な顧客にアプローチしてしまいます。「企業の脳」が信頼されるためには、生成回答の正確性・安全性・一貫性を科学的に評価・保証する仕組みが不可欠です。
従来の QA エンジニアリングでは、テストケースの設計・実行が中心でした。しかし、LLM エージェントの品質保証には、評価メトリクスそのものの研究開発、LLM-as-Judge の校正理論、報酬モデリング、統計的実験計画、ベンチマーク設計といった ML / DS の専門性が求められます。
海外の先進AI企業が確立しつつある "Evaluation Science" の領域を、日本のエンタープライズ AI の文脈で実践するポジションです。
【業務内容】
・評価メトリクスの研究開発
LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
報酬モデリング / preference learning の評価への応用研究
評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
・自動評価パイプラインの設計・構築
スケーラブルな自動評価パイプラインの設計・実装
CI/CD への評価パイプライン組込みと品質ゲートの構築
エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
評価パイプラインの再現性・信頼性の担保
・安全性・品質検証
自動レッドチーミング (automated adversarial testing) の研究・実装
安全性 / ポリシー準拠の検証フレームワーク構築
ハルシネーション検出・校正手法の研究・実装
プロンプト / ツール回帰テストの設計・実行
・統計分析・実験設計
統計的実験計画 (A/B テスト、有意差検定) の設計・分析
品質トレンドの可視化・回帰検出の自動化
品質レポート作成と改善提案
評価シグナルの研究・開発チームへのフィードバック
【このポジションの魅力】
・Evaluation Science の実践 : Apple・Anthropic・Scale AI・Google DeepMind 等が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです
・ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります
・品質がプロダクトの信頼を決める : 約200社が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品質保証がビジネスインパクトに直結する手応えを実感できます
・新設ポジション : AI エージェントの品質評価科学という新しい専門領域を、ゼロから設計・構築できます。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、大きな裁量を持って取り組めます
・AI安全性の最前線 : 自動レッドチーミング、adversarial testing、ポリシー準拠検証など、Responsible AI の実践に携われます。AI エージェントが「企業の脳」として業務を自律実行する世界で、安全性を科学的に保証する役割を担います
・急成長環境 : 設立3年で200名以上の規模、9プロダクト展開のスタートアップで、技術的意思決定に大きな裁量を持てます。Research Engineer や Agent Harness Engineer と密接に連携し、プロダクト全体の品質に影響を与えるポジションです
JAPAN AI STUDIO が「企業の脳」として稟議承認・リソース配置・見込み顧客探索などの業務を自律的に実行する世界では、AI の出力が間違えれば、承認すべきでない稟議が通り、誤った人員配置が行われ、不適切な顧客にアプローチしてしまいます。「企業の脳」が信頼されるためには、生成回答の正確性・安全性・一貫性を科学的に評価・保証する仕組みが不可欠です。
従来の QA エンジニアリングでは、テストケースの設計・実行が中心でした。しかし、LLM エージェントの品質保証には、評価メトリクスそのものの研究開発、LLM-as-Judge の校正理論、報酬モデリング、統計的実験計画、ベンチマーク設計といった ML / DS の専門性が求められます。
海外の先進AI企業が確立しつつある "Evaluation Science" の領域を、日本のエンタープライズ AI の文脈で実践するポジションです。
【業務内容】
・評価メトリクスの研究開発
LLM-as-Judge の校正手法の研究・実装 (rubric 設計、バイアス検出、proper scoring rules)
評価ベンチマークの設計・構築・妥当性検証 (construct validity、contamination detection)
報酬モデリング / preference learning の評価への応用研究
評価メトリクスの選定・設計 (win rate、task success、factuality、harm detection)
評価セット (合成データ + 実ログ) の設計・構築・メンテナンス
・自動評価パイプラインの設計・構築
スケーラブルな自動評価パイプラインの設計・実装
CI/CD への評価パイプライン組込みと品質ゲートの構築
エージェント評価ハーネスの設計 (マルチターン・ツール利用・ロングコンテキスト対応)
評価パイプラインの再現性・信頼性の担保
・安全性・品質検証
自動レッドチーミング (automated adversarial testing) の研究・実装
安全性 / ポリシー準拠の検証フレームワーク構築
ハルシネーション検出・校正手法の研究・実装
プロンプト / ツール回帰テストの設計・実行
・統計分析・実験設計
統計的実験計画 (A/B テスト、有意差検定) の設計・分析
品質トレンドの可視化・回帰検出の自動化
品質レポート作成と改善提案
評価シグナルの研究・開発チームへのフィードバック
【このポジションの魅力】
・Evaluation Science の実践 : Apple・Anthropic・Scale AI・Google DeepMind 等が注力する「AI 評価科学」を、日本のエンタープライズ AI の文脈で実践できます。評価手法そのものを研究対象とする、世界的にも希少なポジションです
・ML/DS スキルの新しい応用 : 機械学習・統計学の専門性を「モデル開発」ではなく「モデル評価」に応用します。報酬モデリング、LLM-as-Judge の校正理論、ベンチマーク設計など、研究と実装の両面で知的挑戦があります
・品質がプロダクトの信頼を決める : 約200社が利用する本番環境で、あなたが構築した評価基盤がリリース品質の最後の砦になります。品質保証がビジネスインパクトに直結する手応えを実感できます
・新設ポジション : AI エージェントの品質評価科学という新しい専門領域を、ゼロから設計・構築できます。評価メトリクスの研究開発から自動評価パイプラインの本番実装まで、大きな裁量を持って取り組めます
・AI安全性の最前線 : 自動レッドチーミング、adversarial testing、ポリシー準拠検証など、Responsible AI の実践に携われます。AI エージェントが「企業の脳」として業務を自律実行する世界で、安全性を科学的に保証する役割を担います
・急成長環境 : 設立3年で200名以上の規模、9プロダクト展開のスタートアップで、技術的意思決定に大きな裁量を持てます。Research Engineer や Agent Harness Engineer と密接に連携し、プロダクト全体の品質に影響を与えるポジションです
※本求人は、株式会社キッカケクリエイションによる職業紹介での求人ご紹介となります。
求める人物像
■必須条件
・コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
・MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
・LLM / 生成AIの評価手法に関する深い知識
統計学・実験計画法の実践的知識
・Pythonでの ML / 評価パイプライン構築経験
・機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
・評価メトリクスの設計・実装経験
・言語レベル : いずれか必須
日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
英語 : ビジネスレベル
■歓迎要件
・ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
・報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
・LLM-as-Judge の校正・rubric設計の経験
・AI安全性・Responsible AI・レッドチーミングに関する知識・経験
・ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
・マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
・大規模データ処理(Spark / BigQuery等)の経験
・CI/CDパイプラインへのML/評価パイプライン組込み経験
・論文読解・再現実装の能力
・英語での技術コミュニケーション能力
・コンピュータサイエンス、ソフトウェア工学、人工知能、機械学習、数学、物理、計量心理学などの関連分野における修士号以上、または同等の実務経験
・MLエンジニア / DS / リサーチエンジニア / ML評価関連職種の実務経験 3年以上
・LLM / 生成AIの評価手法に関する深い知識
統計学・実験計画法の実践的知識
・Pythonでの ML / 評価パイプライン構築経験
・機械学習フレームワーク(PyTorch, JAX, TensorFlow等)の実務経験
・評価メトリクスの設計・実装経験
・言語レベル : いずれか必須
日本語 : Fluent (プロダクト開発において齟齬なく議論を行えるレベル)
英語 : ビジネスレベル
■歓迎要件
・ML / NLPトップカンファレンス(NeurIPS, ICML, ICLR, ACL, EMNLP等)での論文発表経験
・報酬モデリング / preference learning(RLHF, DPO等)の研究・実装経験
・LLM-as-Judge の校正・rubric設計の経験
・AI安全性・Responsible AI・レッドチーミングに関する知識・経験
・ベンチマーク設計・妥当性検証(IRT, construct validity)の経験
・マルチエージェント・ワークフロー / ツール利用 / ロングコンテキストの評価経験
・大規模データ処理(Spark / BigQuery等)の経験
・CI/CDパイプラインへのML/評価パイプライン組込み経験
・論文読解・再現実装の能力
・英語での技術コミュニケーション能力
募集要項
| 職種 | AI・機械学習エンジニア |
|---|---|
| 雇用形態 | 正社員 |
| 勤務体系 | 固定時間制 |
| 就業時間 | 10:00~19:00 |
| 休日 | 土日祝休み,完全週休二日制,有給休暇,年末年始休暇,夏季休暇,慶弔休暇 |
| 給与 | 年俸:8,000,000円 〜 16,000,000円 固定残業:なし 賞与:年2回(5月,11月) ※45時間を超える時間外手当は別途支給 ※昇給機会年2回(4月、10月)、賞与年2回(5月、11月) ※給与は経験・能力・前職経験によりご相談に応じます。 |
| 試用期間 | 試用期間:あり 期間:1ヶ月 条件:本採用時と同様 |
| リモートワーク制度 | ハイブリッドリモート |
| 通勤手当 | あり |
| 待遇・福利厚生 | 資格取得支援,書籍購入補助制度,通勤手当,住宅手当,家族手当,社員持株会制度,リモートワーク制度 |
| 加入保険 | 健康保険あり・労災保険あり・厚生年金あり・雇用保険あり |
| 受動喫煙防止措置 | あり |
| 就業場所 | 東京都新宿区西新宿6-8-1住友不動産新宿オークタワー 5/6階 |
| 勤務先名 | 株式会社ジーニー |
| 勤務先本社所在地 | 東京都新宿区西新宿住友不動産新宿オークタワー 6階 |
| 勤務先ウェブサイトURL | https://geniee.co.jp/ |
| 勤務先従業員数 | 877 |
| 選考について | 書類選考 → コーディングテスト → 面接(4~5回)→ 内定 ※最終面接までにリファレンスチェックをご対応いただきます |
| 応募書類等 | 履歴書、職務経歴書 |
紹介会社情報
| 企業名 | 株式会社キッカケクリエイション |
|---|---|
| 業種 | 人材派遣・人材紹介 |
| 代表者名 | 川島 我生斗 |
| 所在地 | 東京都渋谷区桜丘町22番14号 N.E.Sビル N棟3階 |
| 事業内容 | 有料職業紹介・派遣事業 有料職業紹介許可番号:13-ユ-312698 労働者派遣許可番号:派13-316232 |
| 電話番号 | 090-8226-6875 |
