当前位置:脚本大全 > > 正文

pandas 导入数据库(详解pandas的外部数据导入与常用方法)

时间:2021-10-08 00:56:44类别:脚本大全

pandas 导入数据库

详解pandas的外部数据导入与常用方法

外部数据导入

导入excel文件

pandas导入excel用read_excel()方法:

  • ?
  • 1
  • 2
  • 3
  • 4
  • import pandas as pd
  •  
  •  
  • excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8')
  • 姓名  年龄    工作    工资
    0   张三  25    学生      200
    1   李四  24    工人     3000
    2   王伟  28    nan      5000
    3  王二毛  22  自由职业   6000

    第一个参数是路径,既可以使用绝对路径又可以使用相对路径,如果文件名含有汉字,注意指定设置一下属性encoding = 'utf-8',另设置sheet_name指定具体的sheet名字,也可传入sheet的顺序,从0开始。

  • ?
  • 1
  • excel_file1 = pd.read_excel('data/test.xlsx',sheet_name = 0)
  • 指定索引

    列索引默认从0开始,通过index_col设置,header设置行索引。

  • ?
  • 1
  • excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',index_col=0)
  • 年龄    工作    年资
    姓名                
    张三   25    学生      200
    李四   24    工人     3000
    王伟   28   nan       5000
    王二毛  22  自由职业   6000

  • ?
  • 1
  • excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',header=1)
  • 张三  25    学生     200
    0   李四  24    工人    3000
    1   王伟  28   nan      5000
    2  王二毛  22  自由职业  6000

    指定索引列

    有时本地文件列数太多,可以设置usercols指定导入的列,也可以列表形式传入多个值,表示传入哪些列。

  • ?
  • 1
  • excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',usecols=[0,2])
  • 姓名    工作
    0   张三    学生
    1   李四    工人
    2   王伟    nan
    3  王二毛  自由职业

    常用方法

    导入csv文件

    pandas导入csv文件用read_csv()方法;

  • ?
  • 1
  • 2
  • import pandas as pd
  • csv_file1 = pd.read_csv('.\\data\\train-pivot.csv',index_col=0,header=0,nrows = 2)
  • 通过 sep 设置分割符, encoding 指定编码格式。导入csv文件要指定为gbk,不然会报错,如果一个大文件你只需看前面几行,通过 nrows 设置。

  • ?
  • 1
  • 2
  • 3
  • import pandas as pd
  • csv_file1 = pd.read_csv('data/train-pivot.csv',encoding='gbk',nrows=2)
  • print(csv_file1)
  • 用户id 客户分类    区域 是否省会  7月销量  8月销量 
    0  59224   a类  一线城市    是     6    20     0
    1  55295   b类  三线城市    否    37    27    35

    可以设置 usercols 指定导入的列。

    用户id    区域
    0  59224  一线城市
    1  55295  三线城市
    2  46035  二线城市
    3   2459  一线城市
    4  22179  三线城市

    导入sql

    pandas中有 read_sql() 方法:

  • ?
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • import pandas as pd
  • import pymysql
  • # 创建连接
  • conn = pymysql.connect(host = 'localhost',user = 'python',
  •             password = 'passwd',db = 'test',
  •             charset = 'utf-8'
  •             )
  • '''
  • user:用户名
  • password:密码
  • host:数据库地址/本机用localhost
  • db:数据库名
  • charset:编码,一般为utf-8
  • '''
  • sql = "select * from user" # 写要执行的sql语句
  • pd.read_sql(sql,conn)
  • 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持开心学习网。

    原文链接:https://juejin.im/post/5cc81ad65188252dc92b5cc3

    上一篇下一篇

    猜您喜欢

    热门推荐