Pandas | 28 与SQL比较
由于许多潜在的Pandas用户对SQL有一定的了解,因此本文章旨在提供一些如何使用Pandas执行各种SQL操作的示例。
文件:tips.csv -
total_bill,tip,sex,smoker,day,time,size0,16.99,1.01,Female,No,Sun,Dinner,21,10.34,1.66,Male,No,Sun,Dinner,32,21.01,3.50,Male,No,Sun,Dinner,33,23.68,3.31,Male,No,Sun,Dinner,24,24.59,3.61,Female,No,Sun,Dinner,4
import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)print (tips.head())
输出结果:
total_billtip sex smoker daytime size016.99 1.01 Female No Sun Dinner 2110.34 1.66Male No Sun Dinner 3221.01 3.50Male No Sun Dinner 3323.68 3.31Male No Sun Dinner 2424.59 3.61 Female No Sun Dinner 4
选择(Select)
在SQL中,选择是使用逗号分隔的列列表(或选择所有列)来完成的,例如 -
SELECT total_bill, tip, smoker, timeFROM tipsLIMIT 5;
在Pandas中,列的选择是通过传递列名到DataFrame -
tips[['total_bill', 'tip', 'smoker', 'time']].head(5)
完整的程序 -
import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)rs = tips[['total_bill', 'tip', 'smoker', 'time']].head(5)print(rs)
输出结果:
total_billtip smokertime016.99 1.01 No Dinner110.34 1.66 No Dinner221.01 3.50 No Dinner323.68 3.31 No Dinner424.59 3.61 No Dinner
调用没有列名称列表的DataFrame将显示所有列(类似于SQL的*
)。
WHERE条件
SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;
数据帧可以通过多种方式进行过滤; 最直观的是使用布尔索引。
tips[tips['time'] == 'Dinner'].head(5)
完整的程序
import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)rs = tips[tips['time'] == 'Dinner'].head(5)print(rs)
输出结果:
total_billtip sex smoker daytime size016.99 1.01 Female No Sun Dinner 2110.34 1.66Male No Sun Dinner 3221.01 3.50Male No Sun Dinner 3323.68 3.31Male No Sun Dinner 2424.59 3.61 Female No Sun Dinner 4
上述语句将一系列True/False
对象传递给DataFrame,并将所有行返回True
。
通过GroupBy分组
此操作将获取整个数据集中每个组的记录数。 例如,一个查询提取性别的数量(即,按性别分组) -
SELECT sex, count(*)FROM tipsGROUP BY sex;
在Pandas中的等值语句将是 -
tips.groupby('sex').size()
完整的程序
import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)rs = tips.groupby('sex').size()print(rs)
输出结果:
sexFemale2Male 3dtype: int64
前N行
SQL(MySQL数据库)使用LIMIT
返回前n
行
SELECT * FROM tipsLIMIT 5 ;
在Pandas中的等值语句将是
tips.head(5)
下面来看看完整的程序
import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)rs = tips[['smoker', 'day', 'time']].head(5)print(rs)
输出结果:
smoker daytime0 No Sun Dinner1 No Sun Dinner2 No Sun Dinner3 No Sun Dinner4 No Sun Dinner
这些是比较的几个基本操作,在前几章的Pandas库中学到的。
作者:PythonGirl
来源链接:https://www.cnblogs.com/Summer-skr--blog/p/11705944.html
版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。
2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。