• 升级是硬道理 MQB平台全新一代宝来驾乘体验更舒适 2019-07-19
  • 一个企业里的劳动力,有可能被叫做职工,意指按职责做事的人,也可能被叫做劳工,意指按劳动力做事的人。不同的称呼,体现了不同的企业性质与追求。懂这点,你才明白这“意 2019-07-16
  • 陕西文化产业企业信息库 2019-07-14
  • 曹应旺:毛泽东的自信观 2019-07-13
  • 中国铁路总公司:12306网站未发生用户信息泄漏 2019-07-13
  • 海淀区档案馆新馆正式启用 2019-07-07
  • 【三年决战奔小康】一封来自甘南精准扶贫户的感谢信 2019-07-06
  • 回复@“老笑头”,你的牛二逻辑确实很通透!论坛奇葩!哈哈哈哈! 2019-06-27
  • 黄坤明在亚洲媒体高峰会议开幕式上的主旨演讲 2019-06-21
  • 新发审委累计否决52家企业IPO 通过率不到36% 2019-06-10
  • 广州日报社“融媒体采编项目”配套硬件设备采购招标公告 2019-06-07
  • 孟母教子仅几个简单故事 为何能成为文化传统? 2019-06-07
  • 面向新时代的政治宣言和行动纲领 2019-06-05
  • Народ является создателем истории и настоящим героем -- Си Цзиньпин 2019-06-05
  • 注意了!报考这个专业须先参加面试 2019-06-03
  • 当前位置 > 首页 > 技术文档 > Pandas入门

    天津老快乐十分走势图:Pandas入门

    来源:CPDA数据分析师学习网 | 时间:2018-02-09 | 作者:数据分析学习网

    作为从事数据相关工作的我们,平时接触的更多的是一张有板有眼的数据表格,在这里我们就叫作数据框。在Python中可以通过pandas??榈腄ataFrame函数构造数据框,而R语言则是data.frame创建数据框。接下来我们将对比Python和R语言如下几个方面的应用:

    1、数据框的构造

    在Python中,可以借助于列表、元组、字典进行手工构建数据框,我们用例子说明:

    通过列表创建数据框

    微信图片_20180209170844

     

    发现,这样创建数据框的话,没有变量名称。该如何创建的时候加上列名称呢?

    微信图片_20180209171004

     

    是的,可以运用DataFrame函数中的columns参数给数据框的每列添加名称,如果你需要给行加上索引名称,你可以使用index参数。

    通过字典创建数据框

    微信图片_20180209171046

     

    发现输出结果中列名称顺序与构造时的数据不一致,这是因为字典并非是一种序列,而是一种特殊的键值对关系的对象。如果你需要按照指定的列顺序排列,仍然可以通过columns参数实现。

    微信图片_20180209171114

     

    在R语言中,构造数据框的方法就相对单一一些了,只需要往data.frame函数传入向量对象即可。

    微信图片_20180209171140

     

    2、数据的读入

    在更多的场景下我们是读取外部数据,然后基于外部数据进行数据分析、可视化、数据挖掘等研究。这里跟大家介绍一下文本文件、电子表格和MySQL数据库的读取。

    文本文件的读取

    在pandas???/strong>中有read_table和read_csv两个函数读取常见的文本文件,这里就以txt和csv文件为例,对比Python和R语言的读取。

    微信图片_20180209171213

     

    read_table和read_csv两个函数都可以读文本文件数据,区别在于默认的sep参数不一致,read_table默认以制表符Tab键为字段间的间隔符,而read_csv默认以逗号为字段间的间隔符。

    由于原始数据文件books.txt没有字段名称,故设置header=None,并用names参数给表字段加上名称,usecols则是设置读取原始数据的哪些列。下面再来看看使用read_table函数读取csv文件。

    微信图片_20180209171242

     

    在R语言中,也有两个常用的函数read.table和read.csv函数读取txt和csv文件,不妨就用read.csv函数读取上面的co2.csv数据集:

    微信图片_20180209171306

     

    电子表格的读取

    pandas??橹?/strong>read_excel函数可以非常方便的读取外部的xls和xlsx电子表格:

    微信图片_20180209171332

     

    在R语言中,基础包就无法读取电子表格数据了,这里强烈推荐R的用户使用readxl包读取Excel文件。但需要注意的一点是,数据的路径一定不能包含中文,连文件名称也不可以。

    微信图片_20180209171358

     

    MySQL数据库数据的读取

    使用Python读取MySQL数据库,还需要结合pymysql???/strong>一起使用。这里我们就在本地的MySQL创建一个数据集,并用Python和R实现数据库数据的读取。

    在MySQL中创建数据

    微信图片_20180209171454

     

    运用Python与MySQL创建连接,并读取数据;

    微信图片_20180209171520

     

    运用R与MySQL创建连接,并读取数据(需要下载RMySQL包);

    微信图片_20180209171545

     

    3、数据的概览信息

    外部数据读取到Python或R语言中,往往对数据需要做一些大概的了解,如最小值、最大值、平均值、各变量都是哪些数据类型、数据量如何等。我们来看看这些问题是如何解决的:

    微信图片_20180209171619

     

    shape属性和columns属性返回数据集的行列数及变量名;

    微信图片_20180209171650

    微信图片_20180209171728

     

     

    describe属性可以对数值型变量(include=['number'])和离散型变量(include=['object'])进行描述性统计;

    微信图片_20180209171753

     

     

    info属性则对数据集的变量类型进行简单的描述。

    在R语言中,上面关于数据的概览信息,可以对应到如下的代码:

    微信图片_20180209171834

     

    dim函数和names函数;

    微信图片_20180209172037

     

    summary函数进行统计描述;

    微信图片_20180209172120

     

    str函数对数据集的变量类型进行描述。

    今天我们的内容就介绍到这边,欢迎大家拍砖。下期我们来聊聊pandas??榈氖菘駾ataFrame第二部分。主要涉及变量、观测的筛??;变量的重命名;数据类型的变换;排序和数据集的去重。

    ?

     

    作者:刘顺祥

     


    上一篇 :
    下一篇 :
  • 升级是硬道理 MQB平台全新一代宝来驾乘体验更舒适 2019-07-19
  • 一个企业里的劳动力,有可能被叫做职工,意指按职责做事的人,也可能被叫做劳工,意指按劳动力做事的人。不同的称呼,体现了不同的企业性质与追求。懂这点,你才明白这“意 2019-07-16
  • 陕西文化产业企业信息库 2019-07-14
  • 曹应旺:毛泽东的自信观 2019-07-13
  • 中国铁路总公司:12306网站未发生用户信息泄漏 2019-07-13
  • 海淀区档案馆新馆正式启用 2019-07-07
  • 【三年决战奔小康】一封来自甘南精准扶贫户的感谢信 2019-07-06
  • 回复@“老笑头”,你的牛二逻辑确实很通透!论坛奇葩!哈哈哈哈! 2019-06-27
  • 黄坤明在亚洲媒体高峰会议开幕式上的主旨演讲 2019-06-21
  • 新发审委累计否决52家企业IPO 通过率不到36% 2019-06-10
  • 广州日报社“融媒体采编项目”配套硬件设备采购招标公告 2019-06-07
  • 孟母教子仅几个简单故事 为何能成为文化传统? 2019-06-07
  • 面向新时代的政治宣言和行动纲领 2019-06-05
  • Народ является создателем истории и настоящим героем -- Си Цзиньпин 2019-06-05
  • 注意了!报考这个专业须先参加面试 2019-06-03
  • 大乐透走势图500期图 山西快乐十分开奖号码走势图 心水论坛平特肖 泳坛夺金开奖数据 新时时彩计划软件安卓 青海快三推荐号码 黑龙江十一选五手机版走势图 美国棒球大联盟品牌 500彩票网提款麻烦吗 中彩票怎么样 福彩3d图库 吉林快3吉林彩经网 海南4十1彩票 六合彩特码包中 20选5尾数走势图