Scale AI?

Scale AI?


Scale AIは、AI(人工知能)開発の加速をミッションに掲げるアメリカの企業です。AIモデルの学習に不可欠な高品質な「データ」に特化したインフラとサービスを提供しており、「AI時代のデータファウンドリー(製造工場)」とも呼ばれています。

その事業内容は多岐にわたりますが、主に以下の3つの柱で構成されています。

1. データ生成・ラベリング(アノテーション)

AI、特に機械学習モデルを賢くするためには、大量の「教師データ」が必要です。これは、AIに「これが猫の写真です」「この音声は『こんにちは』と言っています」と教えるための、人間がお手本を示したデータのことです。Scale AIの中核事業は、この教師データを作成するプロセスを効率化・大規模化することです。

  • 主なサービス:
    • 画像・動画アノテーション: 自動運転車が歩行者や信号機を認識したり、医療AIがレントゲン写真から病変を見つけたりするために、画像や動画に写っている物体に「これは人間」「これは信号機」といったラベルを付けます。
    • テキスト・音声アノテーション: チャットボットがユーザーの意図を正確に理解したり、音声アシスタントが話し言葉を正しくテキストに変換したりできるよう、文章の構造を解析したり、音声データに書き起こしや感情のラベルを付けたりします。
    • 3Dセンサーデータ(LiDARなど)のアノテーション: 自動運転車やロボットが周囲の立体的な環境を把握するためのセンサーデータに注釈を付けます。

2. 生成AIと大規模言語モデル(LLM)向けのプラットフォーム

近年の生成AIの急速な発展に伴い、Scale AIの事業も進化しています。単なるデータラベリングに留まらず、より高度なAI開発を支援するプラットフォームを提供しています。

  • 主なサービス:
    • 人間のフィードバックによる強化学習(RLHF): 生成AIがより自然で、人間に役立つ回答を生成できるように、AIの出力を人間が評価し、そのフィードバックを学習させるためのプラットフォームを提供します。
    • モデルの評価と安全性(SEAL): 開発したAIモデルが倫理的に問題のある回答をしないか、誤った情報を生成しないかなどをテスト・評価します。攻撃的な視点からAIの弱点を探す「レッドチーミング」といった手法も用います。
    • Scale GenAI Platform: 企業が自社の持つ独自のデータを利用して、特定の業務に特化した生成AIアプリケーションを開発・カスタマイズするためのフルスタックのプラットフォームを提供します。

3. データ管理エンジン

AI開発に使用するデータは、量だけでなく「質」も非常に重要です。Scale AIは、高品質なデータを効率的に管理・活用するためのツールも提供しています。

  • 主なサービス:
    • Scale Data Engine: 企業が保有する膨大な生データの中から、AIの性能向上に最も寄与する「価値の高いデータ」を特定し、収集、キュレーション(整理・選別)、アノテーション、評価までをシームレスに行うことを可能にします。

主要顧客と最近の動向

Scale AIは、Meta、Microsoft、NVIDIA、トヨタ自動車、ゼネラルモーターズ(GM)といった世界的なテクノロジー企業や自動車メーカー、さらには米国防総省(DoD)など、幅広い顧客にサービスを提供してきました。OpenAIも重要な顧客の一社でした。

しかし、2025年6月に大きな転機が訪れました。MetaがScale AIに巨額の投資を行い、事実上その傘下に入る形となったのです。これに伴い、創業者CEOのアレクサンドル・ワン氏はMetaに移籍しました。この動きを受け、競合であるGoogleやOpenAIなどは、自社の重要なAI開発データがMetaに渡るリスクを懸念し、Scale AIとの契約を縮小・打ち切る動きを見せています。

このため、Scale AIはMetaとの連携を深め、そのAI開発を強力にサポートする役割を担う一方で、これまでの中立的な「AIインフラ企業」から、巨大テック企業の一部として事業を展開していくという、大きな変革の時期を迎えています。


Scale AIのデータラベリングは、「AIによる自動化」と「人間の作業者(ヒューマン・イン・ザ・ループ)」を組み合わせたハイブリッドなアプローチが最大の特徴です。この方法により、膨大な量のデータを高速かつ高い精度で処理することを可能にしています。

具体的なプロセスは、以下のようになっています。

1. AIによる事前ラベリング(Pre-labeling)

まず、顧客から受け取ったデータ(画像、テキスト、音声など)に対して、Scale AIが独自に開発したAIモデルが自動でラベリングを行います。

  • 例(自動運転の場合):
    • 道路の画像が送られてくると、AIが画像内の物体を認識し、「これは車だろう」「これは歩行者だろう」というように、自動でバウンディングボックス(物体を囲む四角い枠)やセグメンテーション(物体の領域をピクセル単位で塗り分ける)の”下書き”を作成します。

この自動化により、人間がゼロから作業を始めるよりもはるかに効率的に進めることができます。

2. 人間によるレビュー、修正、仕上げ

次に、AIが作成した”下書き”を、世界中にいる人間の作業者(「タスカー」と呼ばれます)が専用のツールを使って確認し、修正や仕上げを行います。

  • 作業内容:
    • 精度の向上: AIが間違って認識した部分(例:人を電柱と間違えた)を修正します。
    • 見落としの追加: AIが認識できなかった小さな物体や、他の物体に隠れている部分を追加でラベリングします。
    • 細部の調整: バウンディングボックスのサイズをより正確に調整したり、セグメンテーションの境界線をきれいに整えたりします。
    • 複雑な判断: 「この車は駐車しているのか、走行中なのか」「この人の感情は喜びか、驚きか」といった、AIには判断が難しい文脈的な情報を付与します。

3. 多段階の品質管理(QA)

ラベリングされたデータの品質はAIの性能に直結するため、Scale AIは厳格な品質管理プロセスを設けています。

  • コンセンサス方式: 複数のタスカーが同じデータに対して作業を行い、その結果を比較して、一致しない部分をレビューします。
  • 監査・レビュー: 経験豊富なレビュアー(監査役)が、完成したラベルの品質を最終チェックします。
  • 自動品質チェック: システムが自動的に、ラベル付けのルールが守られているか(例:ラベルの形式が正しいか)をチェックします。

4. 高機能な専用ツール

タスカーは、Scale AIが開発した非常に高機能なラベリングプラットフォーム(ワークスペース)上で作業を行います。これらのツールは、ラベリング作業を効率化し、精度を高めるための様々な機能が搭載されています。

  • AIアシスト機能: 直線を引くだけで自動的に輪郭をトレースしてくれる機能など、作業を補助するAIが組み込まれています。
  • 共同作業機能: チームでの作業やレビューがしやすいように設計されています。
  • 多様なデータ形式に対応: 画像だけでなく、動画、3DのLiDARデータ、テキスト、音声など、あらゆる種類のデータに対応した専用ツールが用意されています。

この**「AIのスピードとスケーラビリティ」「人間の判断力と精度」**を組み合わせたサイクルを高速で回すことで、Scale AIはスタートアップから大企業まで、様々な顧客の要求に応える高品質な教師データを大量に生産しています。


Scale AIが「雇っている」人々は、大きく分けて2種類に分類されます。それぞれの規模感は大きく異なります。

1. 正社員

企業の運営、技術開発、営業、プロジェクト管理などを行う専門職の従業員です。

  • 人数: 最近の報道(2024年〜2025年時点)によると、約500人から900人程度とされています。

これらの従業員は、サンフランシスコの本社をはじめとするオフィスで、Scale AIのプラットフォーム開発やビジネスの中核を担っています。

2. 契約作業者(タスカー)

こちらが、Scale AIのデータラベリング事業の根幹を支える、はるかに大規模な労働力です。彼らは正社員として雇用されているわけではなく、インターネット経由で単発のタスクを請け負う「ギグワーカー」です。

  • 人数: Scale AIの子会社であるRemotasksの公式サイトによると、ラベリング作業を行うタスカーの数は世界中で24万人以上にのぼります。

つまり、数十万人規模の人々が、Scale AIのプラットフォームを通じてAIの教師データ作成作業に従事しています。

タスカーの特徴

  • グローバルな労働力: タスカーはアメリカ国内だけでなく、フィリピン、ベネズエラ、インドなど、世界中の国々から参加しています。
  • リモートワーク: 全員が自宅などからオンラインで作業を行います。
  • タスクベースの報酬: 作業した量や難易度に応じて報酬が支払われる仕組みです。

結論として、Scale AIは数百人規模の正社員によって会社を運営し、そのプラットフォームを通じて世界中の24万人を超える契約作業者(タスカー)にデータラベリング業務を委託するという、非常にユニークな人的構造を持っています。