生成AIで生産性は上がりません。その根拠を説明します

シンジです。

Claude CodeやGPTを毎日使っています。提案書のドラフト、コードレビュー、社内ナレッジ検索、どれも以前より圧倒的に速くなりました。でも、これで会社の売上が上がったかと聞かれると、正直に言って全くそんな気はしません。

「AIで生産性を上げろ」「DXの次はAIだ」という話は、CIOやCDOなら役員会で必ず一度は言われているはずで、当社でもよく聞く相談内容です。AI活用は、DXブームのときと同じ匂いがします。コスト削減とか、ちょっと楽になったとか、そういう話ばかりで、売上が倍になったとか、新商品が10倍出せるようになったとか、そういう話は聞こえてきません。

これがシンジだけの感覚なのか、それとも世界中で同じことが起きているのか。論文と一次データで検証しました。


結論

  • タスク単位の効率化(文章作成、コーディング、CS対応)は、複数のRCT(ランダム化比較試験)で確認されています。効果は14〜55%です。
  • しかし、組織レベルの生産性向上は、2026年時点で約90%の企業が「効果なし」と回答しています。
  • 「売上に効いた」因果推定の強い例は少数ですが存在します。ワークフロー単位で設計した場合に限り、売上に0〜16.3%の因果効果が確認されています。
  • 「AIで売上が上がった」企業の大半は、AIを売る側(Microsoft、Salesforce、Accenture等)であり、AIを使う側ではありません。
  • 経験豊富な開発者がAIを使うと、逆に19%遅くなったというRCT結果もあります。本人は速くなったと感じています。
  • 歴史的にはPC導入期の「Solow Paradox」と同じパターンであり、現在は「助走段階」と見るのが妥当です。

90%の企業が「AIの効果なし」と回答

2026年2月、NBERが公開した大規模調査です。

米国・英国・ドイツ・オーストラリアの約6,000人の経営幹部(CEO・CFO等)を対象とした調査で、過去3年間でAIが雇用にも生産性にも影響を与えていないと回答した企業が約9割でした(Yotzov et al., NBER WP 34836, 2026)。

調査では、69%の企業がAIを使っています。経営幹部の3分の2以上が定期的にAIを使っています。にもかかわらず、平均利用時間はわずか週1.5時間で、効果は出ていません。

他の調査も同じ方向を向いています。

  • PwC 2026 Global CEO Survey(4,454人・95カ国):56%のCEOがAI投資から「何も得られていない」と回答。売上増加とコスト削減の両方を達成できた企業はわずか12%です。
  • MIT Media Lab:95%の組織がAIから測定可能なリターンを得られていません。
  • ManpowerGroup 2026 Global Talent Barometer(14,000人・19カ国):AIの日常的な使用は13%増加した一方、AIの有用性に対する信頼度は18%低下しています。使えば使うほどAIを信頼できなくなっています。

1987年にノーベル賞経済学者ロバート・ソローが「コンピュータ時代はどこにでも見られるが、生産性統計には表れない」と言いました。2026年、これと同じことが起きています。


タスク単位では確かに効果があります

誤解のないように書いておくと、個別タスクの効率化は複数の厳密な研究で確認されています。

研究対象手法効果
Noy & Zhang (Science, 2023)文章作成453人事前登録RCT時間-40%、品質+18%
Brynjolfsson et al. (QJE, 2025)CS 5,179人実運用データ分析解決件数+14%、初心者+34%
Dell'Acqua et al. (HBS, 2023)BCGコンサル758人フィールドRCTフロンティア内:速度+25%、品質+40%超
Fang et al. (2026)オンライン小売大規模A/B売上0〜16.3%(ワークフロー単位)

ポイントは「タスク」ではなく「ワークフロー」で設計した場合に、初めて売上に届くということです。Fang et al.のオンライン小売実験は、検索→商品説明→広告→CSの一連のワークフローにAIを組み込んだ大規模A/Bテストで、転換率の改善を通じて売上に因果効果を確認しました。タスク単体で測っている限り、永遠にPLには届きません。


経験豊富な開発者はAIで19%非効率になった

上級者ほど感じているはずです、我々の作業時間は増えていることを体感しているはず。使いこなせる人ほど、残業時間が増えている。それを裏付けるのがMETRの研究です(Becker et al., arXiv:2507.09089, 2025)。

16人の経験豊富なOSS開発者(平均5年のリポジトリ経験)に246タスクをランダムに割り当て、AI使用/不使用で比較しています。143時間のスクリーン録画を10秒単位で手動分析しています。

結果はこうです。

  • 開発者の事前予測:AIで24%速くなる
  • 開発者の事後自己評価:AIで20%速くなった
  • 実際の測定結果:AIで19%遅くなった

予測と現実の間に43ポイントのギャップがあります。自分は速くなったと思い込んでいるのに、実際は遅くなっています。

遅延の主因は、プロンプト作成と出力レビューに費やす時間、AI生成コードの品質検証、大規模コードベースにおけるコンテキスト不足、フロー状態の破壊でした。

ただし注意点もあります。2026年2月のMETR続報では、AIなしでの作業を拒否する開発者が増加し、実験継続自体が困難になったことが報告されています。ツールへの依存と実効性は別の話として進行しています。


AIを「使うべきタスク」の見極め

BCGコンサルタント758人を対象にしたフィールド実験(Dell'Acqua et al., 2023)が示したのは、「ジャギッド・フロンティア(ギザギザの境界線)」という概念です。

同じ人間が、同じGPT-4を使っても、フロンティア内のタスクでは完了+12.2%・速度+25.1%・品質+40%超の改善が出る一方、フロンティア外のタスクでは正答率が19ポイント低下します。

つまり「AIをどのタスクに使うか」の選定が、成果を反転させます。全部AIに任せればいいという話ではありませんし、全部禁止するのも間違いです。境界の見極めが必要です。

ケニアの中小企業640社を対象にした5ヶ月のRCT(Otis et al., 2023)でも同じ構造が見えます。平均効果は有意でなく、高業績層は+20%超改善する一方、低業績層は約-10%悪化しました。「最も困っている層にこそ効く」という期待とは逆の結果で、支援設計なしにツールだけ渡しても格差が広がります。


Klarnaの教訓、AI代替は失敗

2024年、Klarnaは700人のCS担当者をAIチャットボットで代替し、年間1,000万ドルの節約を宣言しました。チケット処理数や初回応答時間は改善しました。

しかし2025年5月、CEOのSiemiatkowskiは「効率とコストに集中しすぎた。結果は品質の低下であり、持続可能ではない」と公式に認め、人間の再雇用を開始しました。顧客満足度の低下、反復問い合わせの増加、複雑な問題解決の失敗が積み重なった結果です。

量的指標(処理件数、応答速度)は良好でも、品質劣化が隠蔽されていました。Forresterの調査では、AI理由で解雇した企業の55%が後悔しています。

この事例から学ぶのは、KPIの設計がすべてということです。「チケット処理数」「応答時間」といった上流KPIだけを見ていると、顧客体験の劣化に気づけません。


「AIで売上が上がった」のは誰か

企業IRで「AIの売上寄与」が見えている企業は確かに存在します。

企業指標数字
MicrosoftAzure成長へのAIサービス寄与13ポイント、AIサービス157%成長(FY25 Q2)
IBMGenAI book of business$12.5B超(累計)
AccentureGenAI新規受注通期$5.9B
SalesforceAgentforce ARR$800M、29,000 deals

ただし、これらはすべてAIを売る側の数字です。AIを使って自社の生産性を上げた結果ではなく、AI製品・サービスを顧客に販売した売上です。

「AIを使う側」の全社PL改善は、公開情報だけでは因果の同定が極めて難しいのが現状です。Atlanta連銀のBaslandze et al.(2026年3月)が750人の企業幹部を調査した結果、高スキルサービス・金融セクターで2025年に約0.8%、2026年に2%超の生産性向上を確認していますが、これはコスト削減ではなく、イノベーションと需要開拓チャネル(新製品開発・顧客アプローチ)によって牽引されています。

つまり、売上に届かせている少数の企業は、AIをコスト削減ツールとしてではなく、価値創造の手段として使っています。


日本はさらに厳しい状況

PwC Japanの「生成AIに関する実態調査2025春」(5カ国比較)によると、日本は活用の推進度こそ平均的ですが、他国に比べて効果創出の水準が低いという結果が出ています。効果が「期待を大きく上回った」企業の割合が他国より少なく、二極化が解消されていません。

NRIの「ユーザー企業のIT活用実態調査2025」(517社)では、生成AI導入済み企業は57.7%に達しました。しかし最大の課題は「リテラシーやスキルが不足している」(70.3%)であり、導入が進むほどスキル不足の認識が強まるという逆説的な結果になっています。

日本企業の問題は、生成AIを「業務効率化の手段」としか捉えていないことにあります。PwCの調査で効果が出ている企業は、いずれの国でも「AIを事業構造の抜本的改革の手段」として位置づけ、業務プロセスへの本格的な組み込み、ガバナンス体制の整備、従業員への価値還元に取り組んでいます。


なぜタスク改善がPLに届かないのか

研究を横断して見ると、構造的な要因が見えてきます。

ボトルネック移動。 AIで一工程が速くなっても、次工程(レビュー、承認、法務、セキュリティ)が詰まればスループットは増えません。経験豊富な開発者で逆効果になるのは、この「検証コスト」が支配するからです。

余剰時間の行き先。 デンマークの25,000人調査(Humlum & Vestergaard, NBER WP 33777, 2025)では、AI使用者の平均時間節約はわずか3%で、いずれの職種でも収入と労働時間に有意な影響がありませんでした。研究者のコメントが本質を突いています。「メールの下書きにLLMを使って時間を節約したとして、重要な問いは、その節約した時間を何に使うかだ」。

選択肢の疲労。 Stanford Digital Economy Labの研究では、AIが生成した選択肢の中から選ぶことに費やす時間が、2年前のオリジナル作成時間より23%増加しています。

推論コスト。 Duolingoは、Max等の高単価プランでARPU+7%を達成した一方で、生成AI+ホスティング費増で粗利率が約40bp低下しました。売上は上がるがコストも上がります。

KPIの設計ミス。 LOC(コード行数)や完了タスク数は増えても、品質・安全性・保守性を毀損していればPLは悪化し得ます。Faros AIが10,000人以上の開発者データを分析した結果、75%以上がAIコーディングアシスタントを使用していますが、デリバリー速度やビジネス成果に測定可能な改善は見られませんでした。


CIOが役員会で言うべきこと

エビデンスに基づく誠実な回答は、次の三つを分けて説明することです。

① AIを売る事業(収益事業)。 Microsoft・Salesforce・Accenture等は受注・ARR・クラウド成長寄与で数字が出ています。自社がこのポジションに立てるかは、事業戦略の問題です。

② AIを使う業務生産性。 タスク改善は強い証拠があります。ただし熟練者・高品質工程・非定型領域では逆効果リスクが顕在しています。ツール導入だけでは組織PLに届きません。

③ ワークフロー起点の事業変革。 因果推定が強い例は少数ですが存在し(売上0〜16.3%)、ここが唯一のROI到達経路です。タスク短縮をKPIにしている限り永遠にPLに届きません。

KPIは「タスク」「ワークフロー」「PL」の三層に分け、下流の成果KPIを必ず置くべきです。

  • タスクKPI(必要だが不十分):作業時間、ドラフト生成率、一次解決率
  • ワークフローKPI(最重要):リード→商談化率、転換率、解約率、顧客あたり粗利
  • PL/KPI(最終):売上、粗利率、営業利益、LTV/CAC、OPEX(推論コスト込み)

「出力量(LOC、生成文書数、チケット処理数)」だけを追うのは虚飾KPIです。


助走段階か、幻想か

Erik Brynjolfsson教授(スタンフォード)は2026年2月のFinancial Timesで、米国の2025年生産性が約2.7%成長し、過去10年平均のほぼ2倍に達したと分析しています。「Productivity J-Curve」の理論では、汎用技術の導入初期は測定される生産性が低下し、組織・ワークフローの再設計が進んだ後に急上昇します。PCの場合は1970〜80年代の投資期を経て、1995〜2005年に生産性が年1.5%上昇しました。

一方で、Yale Budget Labは「生産性はリアルタイムで測定するのが最も難しい指標であり、時期尚早な判断は禁物」と慎重です。

シンジの見立ては、DXブームの時と構造は同じです。ツールを入れただけでは何も変わりません。ワークフローを再設計し、評価制度を変え、余剰時間を売上に再投資する仕組みを作った企業だけが効果を出します。これはAI以前の話であり、AI以後も変わりません

ただし一つだけ違いがあります。生成AIの普及速度はPCやインターネットより速いということです。世界への普及率は、ChatGPTから3年で54.6%の普及率に達しており、PC(1984年時点で19.7%)やインターネット(1998年時点で30.1%)を大きく上回っています。J-Curveの底が浅く、ハーベスト期への移行が速くなる可能性はあります。

だからこそ、今やるべきは「AIで生産性を上げろ」という曖昧な号令ではなく、自社のどのワークフローにAIを組み込めば売上・顧客価値に届くかを、小さな実験で因果付きで確かめることです。

「仕事ができる人」は、AI云々以前に「できる」わけです。これが組織的に機能して、会社に貢献できているかどうかは別問題です。AIによって個人のタスクは効率的になったかもしれませんが、そもそも一般的な会社員が、「AIを使って組織の生産性を高めて事業貢献しよう」などと考えて働いているのでしょうか?それができる人間は、「AIを使って」などと騒ぐことはしないでしょう。


主要参考文献

  1. Yotzov et al. "Firm Data on AI." NBER WP 34836 (2026)
  2. Baslandze et al. "AI, Productivity, and the Workforce." NBER WP 34984 (2026)
  3. Brynjolfsson, Li, Raymond. "Generative AI at Work." QJE 140(2) (2025)
  4. Noy & Zhang. "Experimental evidence on the productivity effects of generative AI." Science (2023)
  5. Dell'Acqua et al. "Navigating the Jagged Technological Frontier." HBS WP (2023)
  6. Fang et al. "Generative AI and Firm Productivity: Field Experiments in Online Retail." (2026)
  7. Humlum & Vestergaard. "Large Language Models, Small Labor Market Effects." NBER WP 33777 (2025)
  8. Becker et al. "Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity." arXiv:2507.09089 (2025)
  9. Otis et al. "The Uneven Impact of Generative AI on Entrepreneurial Performance." (2023)
  10. Cui et al. "The Effects of Generative AI on High-Skilled Work." (2025)
  11. UK Department for Business and Trade. "Evaluation of the M365 Copilot Pilot." (2025)
  12. PwC Japan. "生成AIに関する実態調査2025春 5カ国比較" (2025)
  13. NRI. "ユーザー企業のIT活用実態調査2025" (2025)
  14. Brynjolfsson. "The AI Productivity Take-Off Is Finally Visible." Financial Times (2026)
  15. Brynjolfsson, Rock, Syverson. "The Productivity J-Curve." AEJ: Macroeconomics 13(1) (2021)

この記事をシェア