業務内容
①担当業務内容
AI検索サービス向けデータ基盤において、データの品質保証(Data Quality)、およびETLパイプラインの実装・運用を担当します。
1.データ品質管理(Data Quality)の実装と監視:40%
AIモデルが常に「正しいデータ」を利用できるよう、データの品質を監視・維持する仕組みを実装します。
・データテストの実装: Dataformやdbt等を用い、データの欠損・重複・異常値を検知するテストコード(Assertion)の作成と実装。
・モニタリング環境の整備: データの鮮度や品質低下を検知した際、即座にSlack等へ通知し、原因を特定できるダッシュボードや監視フローの構築。
・データリネージの管理: データの発生源から利用箇所までの流れ(リネージ)を整理し、メタデータ管理ツールへの登録・更新を行い、トレーサビリティを確保する。
2.データパイプライン(ETL/ELT)の開発・改善:40%
設計されたアーキテクチャに基づき、実際のデータ処理フローを開発します。
・ETL処理の実装: PythonやSQLを用いて、ログデータや商品データを収集・加工する処理のコーディング。
・ワークフローの移行・自動化: 手動で行われている既存のデータ処理を、Workflow Engine(Airflow/Vertex AI Pipelines)上での自動実行ジョブへと書き換える。
・パフォーマンスチューニング: クエリの最適化を行い、データ処理時間の短縮やコスト削減(BigQueryのコスト管理等)を行う。
3.データサイエンティストとの連携・サポート:20%
・データサイエンティストからの「こんな特徴量が欲しい」「データがおかしい」といった要望・問い合わせに対し、SQLを用いた調査やデータ抽出、マート作成を行う。
②仕事のやりがい(面白さ)
・AIの精度向上に直結: 自身が整備・クレンジングしたデータによって、検索精度やレコメンドの質が向上する様子をダイレクトに感じられます。
・モダンな技術スタックでの経験: GCP (BigQuery, Vertex AI) や Dataform といったモダンなデータ基盤技術を使用し、大規模データ処理(Big Data)の実務スキルを高められます。
・「データ品質」という専門性: 昨今注目されている「データ信頼性(Data Reliability)」や「データオブザーバビリティ」の領域で経験を積むことができます。
③3~5年後の想定されるキャリアパス
データ品質とETL開発のプロフェッショナルである「シニアデータエンジニア」
データ基盤全体の設計を担う「データアーキテクト」
機械学習の運用基盤構築へ幅を広げ「MLOpsエンジニア」
④業務上の課題
データの種類や量が増えるにつれ、「データの欠損」や「予期せぬフォーマット変更」によるエラーが散発しています。現在は手動での調査や修正対応に追われることも多く、システム的な自動検知(テスト)の網羅率を上げ、運用の安定化を図ることが急務です。
⑤使用ツール
・クラウド・インフラ : Google Cloud Platform (GCP) 主体
・データウェアハウス・加工 : BigQuery, Dataform, Redshift
・ワークフロー・ML : Vertex AI, Airflow
・言語 : SQL, Python
・IaC・CI/CD : Terraform, GitHub Actions
・コミュニケーション : MS Teams, GitHub Issues
⑥その他
リモートワークと出社のハイブリッド勤務、フリーアドレス制など、柔軟で働きやすい環境です。
AI検索サービス向けデータ基盤において、データの品質保証(Data Quality)、およびETLパイプラインの実装・運用を担当します。
1.データ品質管理(Data Quality)の実装と監視:40%
AIモデルが常に「正しいデータ」を利用できるよう、データの品質を監視・維持する仕組みを実装します。
・データテストの実装: Dataformやdbt等を用い、データの欠損・重複・異常値を検知するテストコード(Assertion)の作成と実装。
・モニタリング環境の整備: データの鮮度や品質低下を検知した際、即座にSlack等へ通知し、原因を特定できるダッシュボードや監視フローの構築。
・データリネージの管理: データの発生源から利用箇所までの流れ(リネージ)を整理し、メタデータ管理ツールへの登録・更新を行い、トレーサビリティを確保する。
2.データパイプライン(ETL/ELT)の開発・改善:40%
設計されたアーキテクチャに基づき、実際のデータ処理フローを開発します。
・ETL処理の実装: PythonやSQLを用いて、ログデータや商品データを収集・加工する処理のコーディング。
・ワークフローの移行・自動化: 手動で行われている既存のデータ処理を、Workflow Engine(Airflow/Vertex AI Pipelines)上での自動実行ジョブへと書き換える。
・パフォーマンスチューニング: クエリの最適化を行い、データ処理時間の短縮やコスト削減(BigQueryのコスト管理等)を行う。
3.データサイエンティストとの連携・サポート:20%
・データサイエンティストからの「こんな特徴量が欲しい」「データがおかしい」といった要望・問い合わせに対し、SQLを用いた調査やデータ抽出、マート作成を行う。
②仕事のやりがい(面白さ)
・AIの精度向上に直結: 自身が整備・クレンジングしたデータによって、検索精度やレコメンドの質が向上する様子をダイレクトに感じられます。
・モダンな技術スタックでの経験: GCP (BigQuery, Vertex AI) や Dataform といったモダンなデータ基盤技術を使用し、大規模データ処理(Big Data)の実務スキルを高められます。
・「データ品質」という専門性: 昨今注目されている「データ信頼性(Data Reliability)」や「データオブザーバビリティ」の領域で経験を積むことができます。
③3~5年後の想定されるキャリアパス
データ品質とETL開発のプロフェッショナルである「シニアデータエンジニア」
データ基盤全体の設計を担う「データアーキテクト」
機械学習の運用基盤構築へ幅を広げ「MLOpsエンジニア」
④業務上の課題
データの種類や量が増えるにつれ、「データの欠損」や「予期せぬフォーマット変更」によるエラーが散発しています。現在は手動での調査や修正対応に追われることも多く、システム的な自動検知(テスト)の網羅率を上げ、運用の安定化を図ることが急務です。
⑤使用ツール
・クラウド・インフラ : Google Cloud Platform (GCP) 主体
・データウェアハウス・加工 : BigQuery, Dataform, Redshift
・ワークフロー・ML : Vertex AI, Airflow
・言語 : SQL, Python
・IaC・CI/CD : Terraform, GitHub Actions
・コミュニケーション : MS Teams, GitHub Issues
⑥その他
リモートワークと出社のハイブリッド勤務、フリーアドレス制など、柔軟で働きやすい環境です。
※本求人は、株式会社キッカケクリエイションによる職業紹介での求人ご紹介となります。
求める人物像
■必須条件
いずれもの条件を満たす方
・SQLを用いたデータ抽出・集計・加工作業の実務経験(目安:1年以上 / 複雑なJOINやウィンドウ関数が書けるレベル)
・Python等のスクリプト言語を用いた開発経験
・何らかのDB(RDBまたはDWH)におけるテーブル設計やデータ管理の基礎知識
・データの不整合やエラーに対し、根気強く原因を調査し解決した経験
■求める人物像
・「正確さ」に拘れる方: 1つのデータミスがAIの挙動を変えてしまうことを理解し、細部まで確認を怠らない方
・改善マインドを持つ方: 同じエラーや手作業が繰り返されることを嫌い、「次はどう自動化するか」「どう検知するか」を主体的に考えられる方
・コミュニケーション力: データサイエンティストやリーダーと連携し、仕様の確認やアラート報告をスムーズに行える方
■歓迎要件
<経験>
・GCP (BigQuery) または AWS (Redshift, Athena) でのデータ処理経験
・Dataform, dbt 等のELTツールを用いたデータモデリング・テスト実装経験
・Airflow 等のワークフローエンジンを用いたジョブ管理の経験
・Git / GitHub を用いたチーム開発経験
<知識・スキル>
・データ品質(Data Quality)に関する関心・知識
・Webサービスのログ設計やデータ収集に関する知識
いずれもの条件を満たす方
・SQLを用いたデータ抽出・集計・加工作業の実務経験(目安:1年以上 / 複雑なJOINやウィンドウ関数が書けるレベル)
・Python等のスクリプト言語を用いた開発経験
・何らかのDB(RDBまたはDWH)におけるテーブル設計やデータ管理の基礎知識
・データの不整合やエラーに対し、根気強く原因を調査し解決した経験
■求める人物像
・「正確さ」に拘れる方: 1つのデータミスがAIの挙動を変えてしまうことを理解し、細部まで確認を怠らない方
・改善マインドを持つ方: 同じエラーや手作業が繰り返されることを嫌い、「次はどう自動化するか」「どう検知するか」を主体的に考えられる方
・コミュニケーション力: データサイエンティストやリーダーと連携し、仕様の確認やアラート報告をスムーズに行える方
■歓迎要件
<経験>
・GCP (BigQuery) または AWS (Redshift, Athena) でのデータ処理経験
・Dataform, dbt 等のELTツールを用いたデータモデリング・テスト実装経験
・Airflow 等のワークフローエンジンを用いたジョブ管理の経験
・Git / GitHub を用いたチーム開発経験
<知識・スキル>
・データ品質(Data Quality)に関する関心・知識
・Webサービスのログ設計やデータ収集に関する知識
募集要項
| 職種 | データエンジニア |
|---|---|
| 雇用形態 | 正社員 |
| 勤務体系 | フレックスタイム制度 |
| 就業時間 | 09:00~17:30 |
| 休日 | 年間休日124日, 土日祝休み,完全週休二日制,有給休暇,年末年始休暇,慶弔休暇, ※ただし、業務の都合で休日を他の日に振替えることがある ・特別休暇 |
| 給与 | 年俸:6,500,000円 〜 8,500,000円 固定残業:なし 賞与:年2回(6月,12月) |
| 試用期間 | 試用期間:あり 期間:3ヶ月 条件:本採用時と同様 |
| リモートワーク制度 | ハイブリッドリモート |
| 通勤手当 | あり |
| 待遇・福利厚生 | 残業手当,通勤手当,退職金制度,企業型確定拠出年金,リモートワーク制度,研修制度 |
| 加入保険 | 健康保険あり・労災保険あり・厚生年金あり・雇用保険あり |
| 受動喫煙防止措置 | 屋内禁煙 |
| 育児休業取得実績 | あり |
| 学歴 | 専門学校卒以上 |
| 年齢 | 28歳〜35歳 |
| 就業場所 | 東京都千代田区九段南1丁目6番5号九段会館テラス |
| 沿線・最寄駅 | 九段下駅(東京メトロ半蔵門線・東西線、都営新宿線)より徒歩1分 |
| 勤務先名 | 株式会社ミスミグループ |
| 勤務先本社所在地 | 東京都千代田区九段南一丁目6番5号九段会館テラス |
| 勤務先ウェブサイトURL | https://www.misumi.co.jp/ |
| 勤務先事業内容 | FAなどの自動機の標準部品を主に扱うFA事業、自動車や電子・電気機器などの金型部品を主に扱う金型部品事業、新たな流通事業としてミスミブランド以外の他社商品も含めた生産設備関連部品、製造副資材やMRO(消耗品)などを販売するVONA事業で構成されております。 |
| 応募書類等 | 履歴書、職務経歴書 |
紹介会社情報
| 企業名 | 株式会社キッカケクリエイション |
|---|---|
| 業種 | 人材派遣・人材紹介 |
| 代表者名 | 川島 我生斗 |
| 所在地 | 東京都渋谷区桜丘町22番14号 N.E.Sビル N棟3階 |
| 事業内容 | 有料職業紹介・派遣事業 有料職業紹介許可番号:13-ユ-312698 労働者派遣許可番号:派13-316232 |
| 電話番号 | 090-8226-6875 |

