您的当前位置:首页Python数据预处理教学大纲

Python数据预处理教学大纲

2020-05-06 来源:爱问旅游网
《Python数据预处理》课程教学大纲 (课程英文名称) 课程编号:xxxxx 学 学

分:5学分 时:38学时(其中:讲课学时26 上机学时:12) 先修课程:《Python网络爬虫》 后续课程:《Python数据可视化》 适用专业:计算机相关专业、信息技术相关专业或工科类专业 开课部门:计算机系 一、课程的性质与目标 《Python数据预处理》是一门面向计算机类相关专业的、关于数据预处理的课程,本课程设计数据预处理的基础知识,主要包括数据预处理概述、科学计算库——numpy、pandas库基础、数据获取、数据清理、数据集成,变换与规约、数据清洗工具——OpenRefine,在最后一章通过综合案例实战演练——数据分析师岗位分析来对所学知识进行应用。通过对课程的学习,学生能够全面系统地掌握数据预处理的基础知识,具备清理数据、分析数据的能力。 二、教学条件要求 课程设计理念: 从某种意义上来说,人工智能已悄然进入我们的生活中。人工智能依托大数据、机器学习、数据分析等新兴学科,而这些学科始终离不开“数据”这一话题。现实中的数据是存在诸如缺失值、重复值等问题的脏数据,它无法直接被应用到人工智能设备。为提高数据的质量产生了数据预处理技术。 课程设计思路: 在章节编排上,本书采用“理论知识+代码示例+案例练习”的模式,既有普适性的

1

介绍,又提供了充足的案例,确保读者在理解核心知识的前提下可以做到学以致用;在知识配置上,本书涵盖数据预处理的常用库及工具。通过使用本书,读者可以全面地掌握Python数据预处理的核心知识,具备开发简单程序的能力。 操作系统: Windows 7及以上版本 开发环境: Python 3.7及以上 + numpy 1.19.0 + pandas 1.1.0 + OpenRefine 3.3 三、课程的主要内容及基本要求 第1章 数据预处理概述 章名 数据预处理概述 学时 2

学习目标 知识点 什么是数据预处理 常见的数据问题 数据预处理的流程 常用的数据预处理库 安装与使用Jupyter 安装数据预处理库 1. 了解数据预处理的概念及意义 2. 熟悉常见的数据问题 3. 熟悉数据预处理的流程和常用工具 4. 掌握Jupyter的安装与使用 5. 掌握数据预处理库的安装 了解 熟悉 掌握 重点 √ √ √ √ √ √ √ √ 难点 √ √ 第2章 科学计算库——numpy

章名 4 学时 1. 熟悉数组对象,可通过多种方式创建数组 2. 掌握数组元素的访问方式 3. 掌握数组的运算 4. 掌握数组元素的常见操作 5. 掌握数组的转置操作 了解 熟悉 掌握 重点 难点 √ √ √ √ √ √ √ 2

科学计算库——numpy 学习目标 知识点 数组对象 创建数组 使用整数索引访问元素 使用花式索引或布尔索引访

问元素 使用切片访问元素 形状相同的数组间运算 形状不同的数组间运算 数组与常量的运算 排序 检索数组元素 元素唯一化 数组的转置 √ √ √ √ √ √ √ √ √ √ √ 第3章 pandas库基础 章名 5 学时 1. 认识pandas的数据结构,可以采用多种方式创建

Series和DataFrame类对象 2. 认识pandas的索引对象,可以轻松地创建分层索引 3. 掌握pandas索引的相关操作,可熟练地使用单层索

引与分层索引访问数据 4. 掌握pandas的重新索引操作 5. 掌握pandas数据排序的方法,可以按索引与值列排

序 6. 掌握pandas统计计算与描述的方法 了解 熟悉 掌握 重点 难点 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ pandas库基础 学习目标 知识点 Series DataFrame 索引对象 使用单层索引访问数据 使用分层索引访问数据 重新索引 按索引排序 按值排序 常见的统计计算 统计描述 绘制图表 第4章 数据获取 章名 1. 2. 3. 4. 5.

学时 掌握如何获取CSV和TXT文件的数据 掌握如何获取Excel文件的数据 掌握如何获取JSON文件的数据 掌握如何获取HTML表格中的数据 掌握如何获取数据库的数据 3

数据获取 5

学习目标 6. 熟悉如何获取Word和PDF文件的数据 知识点 从CSV和TXT文件获取数据 从Excel文件获取数据 从JSON文件获取数据 从HTML表格获取数据 从数据库获取数据 python-docx概述 python-docx的基本使用 pdfplumber概述 pdfplumber的基本使用 了解 熟悉 √ √ √ √ 掌握 √ √ √ √ √ 重点 √ √ √ √ √ 难点 √ √ √ 第5章 数据清理 章名 数据清理 学时 5

学习目标 知识点 数据清理概述 缺失值的检测 缺失值的处理 重复值的检测 重复值的处理 异常值的检测 异常值的处理 案例——成都某地区二手房

数据清理 1. 熟悉常见数据问题的处理方式 2. 掌握缺失值的检测与处理 3. 掌握重复值的检测与处理 4. 掌握异常值的检测与处理 了解 熟悉 掌握 重点 √ √ √ √ √ √ √ √ √ √ √ √ √ √ 难点 √ √ 第6章 数据集成、变换与规约 章名 6 学时 1. 了解数据集成、数据变换、数据规约的常见操作 2. 掌握合并数据操作,可通过多种方式合并数据 3. 掌握轴向旋转、分组与聚合、哑变量处理、面元划

分操作 4. 掌握重塑分层索引、降采样操作 了解 熟悉 掌握 重点 难点 √ √ √ 4

数据集成、变换与规约 学习目标 知识点 数据集成概述 合并数据 数据变换概述 轴向旋转 分组与聚合 哑变量处理 面元划分 数据规约概述 重塑分层索引 降采样 案例——中国篮球运动员的

基本信息分析 √ √ √ √ √ √ √ √ √ √ √ √ √ 第7章 数据清理工具——OpenRefine

章名 数据清理工具——OpenRefine 学时 8

学习目标 知识点 OpenRefine介绍 OpenRefine的下载与安装 基本配置 创建项目 操作列 撤销与重做 导出数据 数据排序 数据归类 重复检测 数据填充 文本过滤 数据转换 案例——多伦多市建筑许可

信息分析 1. 了解OpenRefine工具的特点 2. 掌握OpenRefine的下载与安装 3. 掌握OpenRefine的基本操作 4. 掌握OpenRefine的进阶操作 了解 熟悉 掌握 重点 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 难点 √ √ √ 第8章 实战演练——数据分析师岗位分析 章名 数据清理工具——OpenRefine 学时 4

学习目标 知识点 1. 熟悉项目的目标与思路 2. 了解数据分析的流程与pyecharts库 3. 熟练使用pandas处理数据 4. 熟练使用pyecharts绘制基础图表 了解 熟悉 掌握 重点 5

难点 数据分析的流程 使用pyecharts绘制图表 分析目标与思路 数据收集 数据预处理 数据分析师岗位的需求分析 数据分析师岗位的热门城市

Top10

不同城市数据分析师岗位的

薪资水平 数据分析师岗位的学历要求 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 四、学时分配 章目 第1章 数据预处理概述 第2章 科学计算库——numpy 第3章 pandas库基础 第4章 数据获取 第5章 数据清理 第6章 数据集成、变换与规约 第7章 数据清理工具——OpenRefine 第8章 实战演练——数据分析师岗位分析 合计 讲课 2学时 3学时 4学时 3学时 3学时 4学时 4学时 3学时 26学时 上机 0学时 1学时 2学时 2学时 2学时 2学时 2学时 1学时 12学时 合计 2学时 4学时 6学时 5学时 5学时 6学时 6学时 4学时 38学时 五、考核模式与成绩评定办法 本课程为考试课程,期末考试采用百分制的闭卷考试模式。学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%)。 六、选用教材和主要参考书 本大纲根据教材《Python数据预处理》设计。 七、大纲说明 6

本课程的授课模式为:课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课,并且会通过测试题阶段测试学生的掌握程度;上机主要是编写程序,要求学生动手完成指定的程序设计或验证。 撰写人: 批准人:

审定人: 执行时间:

7

因篇幅问题不能全部显示,请点此查看更多更全内容