生成AIと始めるデータ分析

データ分析と生成AI

2025年現在、ChatGPTを始めとする生成AI(LLM)は、調査やレポーティング、コーディングなどの部分的なタスクにおいて人間を凌ぐ精度を見せ始めている。

すでにほとんどのタスクにおいて、人間が一から作業する必要はなく、生成AIのアウトプットを人間がレビューして仕上げるというスタイルが主流になりつつある。簡単な指示だけでAIエージェントが自律的にほとんどすべてのタスクをやってくれる未来もそう遠くはないと思われる。

一方で、生成AIは必ずしも正しい答えを出してくれるわけではない。LLMに確率的生成モデルを採用しているため、原理的にハルシネーション(もっともらしい嘘をつくこと)を起こしたり、古い情報や間違ったデータ解釈に基づく危険なアウトプットを生成したりする可能性がある。そのため、必ず人間によるチェックが必要になる。加えて、現実のビジネス要件は曖昧で変動しうるため、場面ごとのトレードオフに対する意思決定は人間が下す必要がある。そして、そのためには当然分析内容をしっかり理解して、最終的な意思決定と分析の品質保証とをできる人間が必要になる。

生成AIを「学習パートナー」として上手く活用すれば、状況に合わせてデータ分析の学習をサポートしてくれる。生成させたアウトプットに対して「この分析は何をしているのか?」、「なぜこのような分析方法にしたのか?」、「他の考慮すべきことはないか?」「この分析手法をレビューして」などと深堀りしていくことで実施した分析内容を深く理解できるようになる。自分の言葉で「なぜこの分析手法を採用したのか」を説明できるようになるまで深堀りできると効果的に学習を進められる。

生成AIを使う際の注意点

生成AIはデータ分析やその学習の強力な味方になるが、使い方を間違えると学習の妨げになったり、思わぬトラブルに繋がったりすることもある。生成AIを使う際の注意点を以下に示す。

  • セキュリティとプライバシーへの配慮: 業務で扱う機密情報や個人情報を含むデータを、安易に公開されているAIツールに入力してはならない。利用するツールのプライバシーポリシーを確認し、入力したデータがどのように扱われるかを理解した上で、そのデータを所有する企業や組織のポリシーに従って判断することが重要である。
  • 過度な依存と思考停止: AIがすぐに答えを出してくれる便利さから、自分で考えることを放棄してしまうのは大きな落とし穴である。AIに頼りすぎると、問題解決能力や応用力が育たない。目的は「アウトプットを出すこと」だけではなく、「なぜその分析手法を採用したのかを説明でき、状況に応じての分析結果を正しく解釈できること」であることを忘れてはならない。
  • AIのアウトプットを理解せず使用する危険性: AIのアウトプットを、内容を理解しないまま使ってはならない。内容そのものが間違っていたり、あるいは分析の過程でなんらか前提が含まれていたりする可能性もある。理解せずに使っていると、アウトプットの解釈を間違え、誤った意思決定につながってしまう。
  • 基礎学習の軽視: 「AIがやってくれるから基礎は適当でいいや」と考えてしまうと、結局AIを使いこなすことも、自力で問題を解決することもできなくなる。基礎知識はAIのアウトプットを理解・評価し、的確な指示を出すための土台である。
  • 情報の正確性への過信: AIは古い情報や不正確な情報を提供したりする可能性がある。AIの回答はあくまで「参考情報」と捉え、特に重要な情報については、公式サイトのドキュメントなど、信頼できる情報源で必ず裏付けを取る必要がある。
  • 著作権の問題: AIはインターネット上の膨大なデータを学習しているため、そのアウトプットが意図せず著作権に抵触している可能性もある。データ分析の社内利用や学習目的であれば通常は問題ないが、公開や商用利用に際しては注意が必要である。
  • データ分析プロセスの全体像と生成AI利用可能性

    データ分析プロセスの全体像と生成AIの利用可能性を次に示す。

  • 分析テーマ設定 データ分析プロジェクトの企画・立案に当たる部分。ほとんどの場合、対象業務の課題の裏返しがプロジェクトの目的になる。最も重要かつ深い業務理解が必要なのであまり生成AIに頼ることができない。ただし、一般論としてどんなデータ活用事例があるのかを生成AIに聞いて参考にすることは可能。
  • 分析対象データ確認・収集 データがどこにあるか調べて、そのデータが実際に利用可能かを確認する。その企業や組織によってデータの管理状況が異なるため、生成AIに頼ることはできない。
  • 分析手順策定 目的の結果を得るために、どのような手順で分析を進めるかの計画を立てる。生成AIは相談相手として補助的に利用可能。
  • データ読み込み データを読み込んで分析可能な状態にする。生成AIを利用可能。
  • データ理解 データの業務上の意味の関係性(データがどのように取得されていて、記録されているデータがどんな状態を反映しているのか)を理解するとともに、データそのものの統計的な傾向を確認する。生成AIを利用可能。
  • データ前処理 データ分析を実施できるように、データを加工する。生成AIを利用可能。
  • モデル構築・結果分析 事前に決めておいた方針に従ってモデルを構築し、その結果を分析する。データ分析の種類によってはモデル構築が不要なものもある。生成AIを利用可能。
  • 結果解釈 分析結果をビジネス背景と紐づけて、何が言えるのかを解釈する。生成AIは相談相手として補助的に利用可能。
  • ビジネス施策立案 分析結果からビジネス上有益な施策を立案する。深い業務知識が必要になるが、一般論としてどんな施策が考えられるかを生成AIに聞いて参考にすることは可能。
  • データ分析実践(with ChatGPT)

    AIのサポートを受けながらデータ分析を進める手順を示す。なお、本記事では動作が最も安定しているChatGPT 4oを利用する。

    ChatGPTでは入力情報をモデルの改善に使わせないように設定できるが、当然OpenAIのデータの管理状況によってはデータが漏洩してしまうこともありうる。企業や組織ごとに厳密なデータセキュリティ管理を実施していることも多いため、業務データを分析する際は必ず社内の専門部署に相談する必要がある。

    Notion Image

    実践手順

  • 分析テーマ設定
  • あなたは電力会社に努めていて、インバランスコストを削減したいという課題があった。そこで、過去のデータから需要予測を実施することになった。

  • 分析対象データ確認・収集
  • 実際の業務では、事前に分析対象データが揃っていることはほとんどなく、欲しいデータがどの業務システムのどのテーブルのどの項目にあたるのかを、一歩ずつ調べていく必要がある。また、分析対象のデータが最初から一つのテーブルにきれいにまとまっていることも少なく、複数のテーブルにまたがったデータを結合して、分析に使えるように整形する必要がある。

    このデータ確認・収集のフェーズは企業ごとに大きく異なるため、本記事ではこのフェーズは飛ばして次のデータを利用することにする。

  • 分析手順策定
  • ChatGPT(GPT-5 Thinking)に次のように入力し、分析手順のたたき台を作成する。


    添付ファイル:


    プロンプト:

    インバランスコストを削減したいという課題に対して、
    比較的軽量なLightGBMを用いて翌日の電力消費量を予測したいです。
    添付のデータを利用して、次のプロセスに従った具体的なデータ分析手順を策定してください。
    
    # データ分析のプロセス
    1. データ読み込み
    2. データ理解
    3. データ前処理
    4. モデル構築・結果分析
    5. 結果解釈

    ChatGPTの出力:

    Notion Image

    内容に問題がないか確認し、修正箇所があればChatGPTに適宜訂正を依頼する。


  • データ分析の実行
  • エージェントモード以外では処理時間によってはエラーになるため、ChatGPTのエージェントモードを選択して、次のように入力して分析を実施する。


    プロンプト:

    この分析手順を元に分析を実施してください。
    分析時使用したpythonコード、可視化したグラフ、分析時の論理展開などはすべて出力してください。

    ChatGPTの出力:

    Notion Image

    論理展開に間違いがないか、分析結果が自前のPython環境でも再現できるか確認し、修正箇所があればChatGPTに適宜訂正を依頼する。


  • ビジネス施策立案
  • 最後にあくまで参考までに、ChatGPTのDeep Researchを選択して、分析レポートを作成する。


    プロンプト:

    データ分析結果をわかりやすくレポートにまとめて、ビジネス施策の提案まで作成してください。

    ChatGPTの出力:

    Notion Image

    実務でのビジネス施策の立案には、深い業務知識が必要になるので、この出力結果をそのまま使うことはできないが、一般的な意見として参考にはできる。

    まとめ

    本記事ではChatGPTを用いてデータ分析を進める方法を紹介した。ChatGPTを用いると、大き過ぎないデータに対して、簡単な分析が手軽に実施できる。ただし、ハレーションのリスクがあるので、ちゃんとした分析結果を得たいなら論理展開や分析結果が正しいかどうかの確認を怠ってはならない。また、アップロードできるファイルサイズや1回の処理時間の制限もあるので注意されたい。

    なお、データ分析は一巡しただけでは終わらない。分析から得られた新たな仮説を検証したり、分析を元に行動して新たなデータを取得したりして、さらに有益な情報を引き出していくことが重要である。

    参考資料


    著者画像

    ゆうき

    2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.