2025數(shù)據(jù)分析野路子: DeepSeek+PandasAI=王炸!一句話抵過(guò)去半小時(shí)的工作量,數(shù)據(jù)分析徹底翻天了?。?/h2>
0 評(píng)論 3329 瀏覽 3 收藏 9 分鐘

在數(shù)據(jù)分析領(lǐng)域,效率和準(zhǔn)確性是至關(guān)重要的。隨著AI技術(shù)的發(fā)展,數(shù)據(jù)分析工作正在發(fā)生翻天覆地的變化。本文將介紹如何通過(guò)結(jié)合DeepSeek和PandasAI,將數(shù)據(jù)分析工作量從半小時(shí)縮減到一句話的指令,極大地提升工作效率。

作為從業(yè)10年的數(shù)據(jù)分析師,餅干哥哥目前在一家上市公司做數(shù)據(jù)分析主管,給公司從0到1搭建數(shù)據(jù)庫(kù)、建立起了數(shù)據(jù)分析體系。

隨著業(yè)務(wù)發(fā)展、基建完善,數(shù)據(jù)分析的需求也變得非常多了。每天工作量都很大,如果還像以前那樣,「老老實(shí)實(shí)」一行一行代碼的敲,估計(jì)每天加班都干不完。

幸好AI來(lái)了,我工作流中大量使用AI解決問(wèn)題。

數(shù)據(jù)分析一定離不開(kāi)Python的Pandas模塊,具體可以看我之前的一些介紹:

「Python」Pandas 如何解決業(yè)務(wù)問(wèn)題「數(shù)據(jù)分析流程詳解」

今天要分享的是Pandas的AI版本——PandasAI,再加上DeepSeek前段時(shí)間新出的v3 0324版,現(xiàn)在已經(jīng)可以很穩(wěn)定的幫助我們輸出數(shù)據(jù)分析結(jié)果了。

什么是PandasAI

PandaAI is a Python platform that makes it easy to ask questions to your data in natural language. It helps non-technical users to interact with their data in a more natural way, and it helps technical users to save time, and effort when working with data.

說(shuō)白了,就是能在Python中,通過(guò)自然語(yǔ)言向Pandas提需求,把需求的結(jié)果直接給到我們,幫助我們省去中間復(fù)雜的敲代碼過(guò)程。

具體可見(jiàn)https://github.com/sinaptik-ai/pandas-ai

接下來(lái),帶大家實(shí)戰(zhàn)看看這個(gè)工具怎么用?

安裝 PandasAI

用pip常規(guī)安裝:

pip install “pandasai>=3.0.0b2″# 使用ChatGPT官方APIpip install pandasai-openai# 使用DeepSeek等其他AIpip install pandasai-litellm

小技巧:在 Jupyter 里,直接在命令前加上感嘆號(hào)! 就能調(diào)用命令行來(lái)安裝了。

安裝完后,有兩種方式調(diào)用 AI

一種是直接用 PandasAI 內(nèi)置的大模型,是它自己開(kāi)發(fā)的,可以到官網(wǎng)去注冊(cè)申請(qǐng)。效果不知道,好像是有一定 的免費(fèi)額度,感興趣可以自己去注冊(cè)試下 https://app.pandabi.ai/

第二種,就是用第三方的 AI,例如 DeepSeek,就需要按圖中的參數(shù)去做配置,關(guān)鍵的地方在于 model的配置,因?yàn)椴煌那揽赡?AI 的配置方式是不同的,所以需要先指定模型的協(xié)議類(lèi)型,正常就是openai,也就是說(shuō),要在正常模型前加上openai/才可以

ok,至此我們就完成了PandasAI的安裝與配置。

用 PandasAI做數(shù)據(jù)分析

接下來(lái)進(jìn)入業(yè)務(wù)分析實(shí)戰(zhàn),看看它的效果如何。

首先,我這里用到的是我之前做 618 電商分析直播分享時(shí)候的數(shù)據(jù)集。

大概長(zhǎng)這樣:就是每天的訂單數(shù)據(jù)。

首先,導(dǎo)入數(shù)據(jù)。

很簡(jiǎn)單,但也有坑: 數(shù)據(jù)集要求是 1. 英文無(wú)空格;2. csv文件,我試了xlsx會(huì)報(bào)錯(cuò)

導(dǎo)入后,就可以直接調(diào)用.chat來(lái)開(kāi)始用 AI 來(lái)做分析了。

首先,先看簡(jiǎn)單的讓 AI 給我做一份描述性統(tǒng)計(jì)。

如上圖,一段時(shí)間后,就能看到結(jié)果了。

這里我們發(fā)現(xiàn),返回的結(jié)果是DataFrameResponse,是 PandasAI 自己設(shè)計(jì)的數(shù)據(jù)類(lèi)型。

再仔細(xì)看,這是個(gè)元組,里面有兩個(gè)屬性type說(shuō)這是 dataframe,value就是具體的內(nèi)容。

所以我們可以通過(guò).value的形式把 dataframe 提取出來(lái),如下圖所示。

對(duì)AI結(jié)果追問(wèn)

以上就是最簡(jiǎn)單也是最常用的 AI 用法。

接著,按照基操,我們往往需要根據(jù)結(jié)果進(jìn)行追問(wèn)。但不能直接對(duì)結(jié)果進(jìn)行 AI 提問(wèn),否則會(huì)報(bào)錯(cuò)。

正確的打開(kāi)方式是,重新用pai.DataFrame把表裝進(jìn)去再.chat

如下圖所示。

疑問(wèn)?分析的結(jié)果到底對(duì)不對(duì)?

我們可以看到 AI 的分析是一個(gè)黑箱過(guò)程,到底給的結(jié)果對(duì)不對(duì)呢?接下來(lái)我們要驗(yàn)證一下。

同時(shí),也把分析的難度再做升級(jí):對(duì)訂單按年統(tǒng)計(jì)數(shù)據(jù)。

下圖,就一句話讓 AI 計(jì)算的結(jié)果。

我們看下,不用 AI 傳統(tǒng),我們自己是要怎么計(jì)算

一頓操作后,驚訝發(fā)現(xiàn),數(shù)據(jù)結(jié)果跟 AI 做的是一樣的。

對(duì)比下來(lái),我們自己操作就復(fù)雜了很多,明顯不符合新時(shí)代的玩法,所以其實(shí)這段代碼也是我讓 DeepSeek 生成的,這樣就能對(duì)關(guān)鍵的部分做二次驗(yàn)證。

由此可以看到,AI在數(shù)據(jù)分析方面的提效已經(jīng)非常成熟了。

做可視化圖表

實(shí)際上PandasAI還能做圖表??,我們看看是怎么個(gè)事。

還是用前面AI返回的每年統(tǒng)計(jì)數(shù)據(jù)的表格,讓它做一個(gè)銷(xiāo)售趨勢(shì)圖。

它會(huì)在本地新建一個(gè)文件夾,存它做好的圖

長(zhǎng)這樣,明顯就是用matplotlib做的,效果還行吧。

多表交叉分析

以上是很基礎(chǔ)的分析場(chǎng)景,也就是說(shuō)真實(shí)業(yè)務(wù)中并沒(méi)有這么簡(jiǎn)單。

由于數(shù)據(jù)量的關(guān)系,很多時(shí)候,數(shù)據(jù)是分散在多個(gè)表格的,也就是需要做多表連接之后再分析。

幸好,PandasAI也支持。

我模擬了最常見(jiàn)的 產(chǎn)品表、用戶(hù)表、訂單表數(shù)據(jù),給了一個(gè)需求按城市統(tǒng)計(jì),每個(gè)城市的銷(xiāo)售額是多少?

這樣就需要把三個(gè)表連起來(lái)分析了。

結(jié)果:

完整體驗(yàn)下來(lái),PandasAI的使用還是很絲滑的,非常推薦大家去玩一下。

本文由人人都是產(chǎn)品經(jīng)理作者【餅干哥哥】,微信公眾號(hào):【餅干哥哥AGI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!