生成AIと始めるデータ分析
データ分析と生成AI
2025年現在、ChatGPTを始めとする生成AI(LLM)は、調査やレポーティング、コーディングなどの部分的なタスクにおいて人間を凌ぐ精度を見せ始めている。
すでにほとんどのタスクにおいて、人間が一から作業する必要はなく、生成AIのアウトプットを人間がレビューして仕上げるというスタイルが主流になりつつある。簡単な指示だけでAIエージェントが自律的にほとんどすべてのタスクをやってくれる未来もそう遠くはないと思われる。
一方で、生成AIは必ずしも正しい答えを出してくれるわけではない。LLMに確率的生成モデルを採用しているため、原理的にハルシネーション(もっともらしい嘘をつくこと)を起こしたり、古い情報や間違ったデータ解釈に基づく危険なアウトプットを生成したりする可能性がある。そのため、必ず人間によるチェックが必要になる。加えて、現実のビジネス要件は曖昧で変動しうるため、場面ごとのトレードオフに対する意思決定は人間が下す必要がある。そして、そのためには当然分析内容をしっかり理解して、最終的な意思決定と分析の品質保証とをできる人間が必要になる。
生成AIを「学習パートナー」として上手く活用すれば、状況に合わせてデータ分析の学習をサポートしてくれる。生成させたアウトプットに対して「この分析は何をしているのか?」、「なぜこのような分析方法にしたのか?」、「他の考慮すべきことはないか?」「この分析手法をレビューして」などと深堀りしていくことで実施した分析内容を深く理解できるようになる。自分の言葉で「なぜこの分析手法を採用したのか」を説明できるようになるまで深堀りできると効果的に学習を進められる。
生成AIを使う際の注意点
生成AIはデータ分析やその学習の強力な味方になるが、使い方を間違えると学習の妨げになったり、思わぬトラブルに繋がったりすることもある。生成AIを使う際の注意点を以下に示す。
データ分析プロセスの全体像と生成AI利用可能性
データ分析プロセスの全体像と生成AIの利用可能性を次に示す。
データ分析実践(with ChatGPT)
AIのサポートを受けながらデータ分析を進める手順を示す。なお、本記事では動作が最も安定しているChatGPT 4oを利用する。
ChatGPTでは入力情報をモデルの改善に使わせないように設定できるが、当然OpenAIのデータの管理状況によってはデータが漏洩してしまうこともありうる。企業や組織ごとに厳密なデータセキュリティ管理を実施していることも多いため、業務データを分析する際は必ず社内の専門部署に相談する必要がある。
実践手順
あなたは電力会社に努めていて、インバランスコストを削減したいという課題があった。そこで、過去のデータから需要予測を実施することになった。
実際の業務では、事前に分析対象データが揃っていることはほとんどなく、欲しいデータがどの業務システムのどのテーブルのどの項目にあたるのかを、一歩ずつ調べていく必要がある。また、分析対象のデータが最初から一つのテーブルにきれいにまとまっていることも少なく、複数のテーブルにまたがったデータを結合して、分析に使えるように整形する必要がある。
このデータ確認・収集のフェーズは企業ごとに大きく異なるため、本記事ではこのフェーズは飛ばして次のデータを利用することにする。
ChatGPT(GPT-5 Thinking)に次のように入力し、分析手順のたたき台を作成する。
添付ファイル:
プロンプト:
インバランスコストを削減したいという課題に対して、
比較的軽量なLightGBMを用いて翌日の電力消費量を予測したいです。
添付のデータを利用して、次のプロセスに従った具体的なデータ分析手順を策定してください。
# データ分析のプロセス
1. データ読み込み
2. データ理解
3. データ前処理
4. モデル構築・結果分析
5. 結果解釈ChatGPTの出力:
内容に問題がないか確認し、修正箇所があればChatGPTに適宜訂正を依頼する。
エージェントモード以外では処理時間によってはエラーになるため、ChatGPTのエージェントモードを選択して、次のように入力して分析を実施する。
プロンプト:
この分析手順を元に分析を実施してください。
分析時使用したpythonコード、可視化したグラフ、分析時の論理展開などはすべて出力してください。ChatGPTの出力:
論理展開に間違いがないか、分析結果が自前のPython環境でも再現できるか確認し、修正箇所があればChatGPTに適宜訂正を依頼する。
最後にあくまで参考までに、ChatGPTのDeep Researchを選択して、分析レポートを作成する。
プロンプト:
データ分析結果をわかりやすくレポートにまとめて、ビジネス施策の提案まで作成してください。ChatGPTの出力:
実務でのビジネス施策の立案には、深い業務知識が必要になるので、この出力結果をそのまま使うことはできないが、一般的な意見として参考にはできる。
まとめ
本記事ではChatGPTを用いてデータ分析を進める方法を紹介した。ChatGPTを用いると、大き過ぎないデータに対して、簡単な分析が手軽に実施できる。ただし、ハレーションのリスクがあるので、ちゃんとした分析結果を得たいなら論理展開や分析結果が正しいかどうかの確認を怠ってはならない。また、アップロードできるファイルサイズや1回の処理時間の制限もあるので注意されたい。
なお、データ分析は一巡しただけでは終わらない。分析から得られた新たな仮説を検証したり、分析を元に行動して新たなデータを取得したりして、さらに有益な情報を引き出していくことが重要である。
