Skip to content

Commit 1ad98ce

Browse files
committed
release v1.2.0
1 parent 9c6c0fd commit 1ad98ce

File tree

43 files changed

+400
-263
lines changed

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

43 files changed

+400
-263
lines changed

.gitignore

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -39,4 +39,5 @@ base/fonts
3939
!/slides/_common/**
4040

4141
# others
42-
*.h5
42+
*.h5
43+
catboost_info

CHANGELOG.md

Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,15 @@
1+
## [1.2.0](https://github.com/leovan/data-science-introduction-with-python/compare/v1.1.0...v1.2.0) (2024-02-11)
2+
3+
- Remove reStructuredText & Sphinx and add quarto to reproducible research chapter.
4+
- Add XGBoost introduction in classification algorithms part 2 chapter.
5+
- Update slide background and fix slide styles.
6+
7+
## [1.1.0](https://github.com/leovan/data-science-introduction-with-python/compare/v1.0.0...v1.1.0) (2023-02-09)
8+
9+
- Update website based on Hugo.
10+
- Optimize slides folder structure.
11+
- Fix incompatibility problem with latest libraries.
12+
13+
## 1.0.0 (2021-01-09)
14+
15+
- First release.

config.yaml

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -31,11 +31,11 @@ menu:
3131
params:
3232
title: "Python 数据科学导论"
3333
subtitle: "Data Science Introduction with Python"
34-
author: "范叶亮 | Leo Van"
34+
author: "范叶亮"
3535
description: "Python 数据科学导论 | Data Science Introduction with Python"
3636
logo: "/images/data-science-introduction-with-python.png"
3737
logoWidth: 150
38-
footer: "Copyright © 2017-{Year} [范叶亮 | Leo Van](https://leovan.me)"
38+
footer: "Copyright © 2017-{Year} [范叶亮](https://leovan.me)"
3939
licenseURL: "https://github.com/leovan/data-science-introduction-with-python/blob/main/LICENSE"
4040
googleAdsense: "ca-pub-2608165017777396"
4141

@@ -58,9 +58,9 @@ params:
5858
clipboardjsVersion: "2.0.11"
5959
lazysizesVersion: "5.3.2"
6060
mathjaxVersion: "3.2.2"
61-
pdfjsVersion: "3.11.174"
62-
prismjsVersion: "1.29.0"
6361
jsCookieVersion: "3.0.5"
62+
pdfjsVersion: "4.0.379"
63+
prismjsVersion: "1.29.0"
6464
vanillaBackToTopVersion: "latest"
6565

6666
markup:

layouts/partials/header_custom.html

Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -12,5 +12,11 @@
1212
{{ partial "google_adsense.html" . }}
1313
{{ end }}
1414

15+
{{ if .HasShortcode "pdf-viewer" }}
16+
<link rel="stylesheet" type="text/css" href="/css/pdf-viewer.css">
17+
<link rel="stylesheet" type="text/css" href="//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/web/pdf_viewer.min.css">
18+
<script src="//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/build/pdf.min.mjs" type="module"></script>
19+
{{ end }}
20+
1521
<link rel="stylesheet" type="text/css" href="{{ "/css/reset.css" | relURL }}">
1622
<link rel="stylesheet" type="text/css" href="{{ "/css/style.css" | relURL }}">

layouts/shortcodes/pdf-viewer.html

Lines changed: 3 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -1,10 +1,3 @@
1-
{{ if not ($.Page.Scratch.Get "pdfjs-loaded") }}
2-
{{ $.Page.Scratch.Set "pdfjs-loaded" 1 }}
3-
<link rel="stylesheet" type="text/css" href="/css/pdf-viewer.css">
4-
<link rel="stylesheet" type="text/css" href="//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/web/pdf_viewer.min.css">
5-
<script src="//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/build/pdf.min.js"></script>
6-
{{ end }}
7-
81
{{ if not ($.Page.Scratch.Get "pdf-viewer-index") }}
92
{{ $.Page.Scratch.Set "pdf-viewer-index" 1 }}
103
{{ else }}
@@ -44,11 +37,11 @@
4437
</div>
4538
</div>
4639

47-
<script type="text/javascript">
40+
<script type="module" type="text/javascript">
4841
(function(d) {
4942
var url = '{{ $url }}';
50-
var pdfjsLib = window['pdfjs-dist/build/pdf'];
51-
pdfjsLib.GlobalWorkerOptions.workerSrc = '//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/build/pdf.worker.js';
43+
var pdfjsLib = window['pdfjsLib'];
44+
pdfjsLib.GlobalWorkerOptions.workerSrc = '//cdn.jsdelivr.net/npm/pdfjs-dist@{{ $.Site.Params.pdfjsVersion }}/build/pdf.worker.mjs';
5245

5346
var pageNum = {{ $page }};
5447
var pageRendering = false;

slides/01-data-science-introduction/01-data-science-introduction.Rmd

Lines changed: 4 additions & 52 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
---
22
title: "数据科学简介"
33
subtitle: "Introduction of Data Science"
4-
author: "范叶亮 | Leo Van"
4+
author: "范叶亮"
55
date: ""
66
output:
77
xaringan::moon_reader:
@@ -31,10 +31,6 @@ options(htmltools.dir.version = FALSE)
3131
<li class="content-page-list">数据科学分工与流程</li>
3232
</div>
3333

34-
???
35-
36-
今天上午我们简单对数据科学以及相关的工具箱和方法论进行一个简答的介绍,主要分为 3 个部分,如 Slide 所示。
37-
3834
---
3935
class: section, center, middle
4036

@@ -88,10 +84,6 @@ class:
8884
[2] T. H. Davenport and D. Patil, “Data Scientist: The Sexiest Job of the 21st Century,” Harvard Business Review Magazine: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century, 2012.
8985
]
9086

91-
???
92-
93-
以上内容基本总结了从“数据科学”从出现一直发展到现在的基本情况,可以说数据科学从诞生之初就表现出了其不同于一般科学的独特之处。
94-
9587
---
9688
class:
9789

@@ -123,10 +115,6 @@ class:
123115
| 目标 | 无具体目标 | 寻找出可能认识的人 |
124116
| 结果 | 不同操作产生不同结果 | 可能认识的人或人物关系网 |
125117

126-
???
127-
128-
从表中可以看出,PYMK 是在深度理解用户数据基础上,充分利用数学算法对数据进行加工处理,解决特定问题的系统。所以它可算是典型的数据产品。而 Excel 更适合规类为一个通用的数据分析处理工具。
129-
130118
---
131119
class:
132120

@@ -169,10 +157,6 @@ class:
169157
| 工程知识 | 计算框架 (Hadoop,Spark) | 系统开发 (框架选择) | ⭑⭑⭑⭒⭒ |
170158
| 工程知识 | 前端技术 (配色,HTML) | 数据可视化 | ⭑⭑⭑⭒⭒ |
171159

172-
???
173-
174-
从表可以看出一个数据科学家需要多方面的知识,但同时也应该具有自己的专长,也就是对数据科学的充分认知。所应掌握和了解的知识也体现了一个真正的数据科学家的职责:了解问题及需求,获取数据,清理数据, 理解数据,分析数据,将数据转化成产品, 最终解决问题。
175-
176160
---
177161
class: section, center, middle
178162

@@ -327,10 +311,6 @@ class:
327311
[4] https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html
328312
]
329313

330-
???
331-
332-
数据分析和挖掘是一个复杂的过程,在进行数据分析和挖掘工作的过程中,我们需要一个过程模型指导每一步工作。迄今为止,很多专家和学者提出了多种数据分析和挖掘的过程模型,下表显示了工业界数据分析和挖掘工作者近年来所采用的方法。
333-
334314
---
335315
class:
336316

@@ -368,41 +348,13 @@ knitr::include_graphics('images/crisp-dm-process-tasks-and-output.svg')
368348
```
369349
]
370350

371-
???
372-
373-
CRISP-DM 描述的过程模型包括 6 个阶段,每个阶段的大致描述如下:
374-
375-
1. 业务理解 (Business understanding)
376-
377-
在最初阶段我们需要从业务的角度来理解项目的目标和需求,之后将这些知识转化成数据挖掘问题的定义和实现目标的最初规划。
378-
379-
2. 数据理解 (Data understanding)
380-
381-
数据理解阶段包含了数据收集等一系列活动。数据准备能够帮助我们熟悉数据,了解数据质量和问题,对数据有初步认识以及发现有用的数据子集并形成对隐含信息的假设。
382-
383-
3. 数据准备 (Data preparation)
384-
385-
数据准备阶段包含了利用原始数据构建最终数据集 (用于建模的数据) 的全部活动。数据准备工作很有可能会被执行多次并且不以任何特定的顺序进行。其任务既包括表、记录和属性的选择,也包括用于建模的数据转换和清洗。
386-
387-
4. 建模 (Modeling)
388-
389-
在建模阶段,我们会选取和应用多种建模技术,并对其参数进行调优。一般而言,相同类型的数据挖掘问题有多种建模技术。默写技术有特定数据形式的需求,因此必要的时候我们通常会返回数据准备阶段。
390-
391-
5. 评估 (Evaluation)
392-
393-
在评估阶段,我们已经建立了一个 (或多个) 从数据分析角度看似高质量的模型。但在最终部署之前,还有很多重要的事情要做,包括:全面评价模型,重审构建模型的每个步骤确保模型能够真正到达业务目的。另一个关键目标是判断是够有重要的业务问题没有被充分考虑。在这个阶段的最后,我们还应该确定使用数据挖掘结果应该得到什么样的决策。
394-
395-
6. 部署 (Deployment)
396-
397-
模型的建立并不意味着项目的结束。尽管模型的目的是为了增加数据的知识性,但是获取的知识应该被组织和表示成用户可以使用的形式。这通常与包含能够支持公司决策的“现场”模型("live" model)的应用相关,例如:实时的Web页面展现或是营销数据的重复scoring。基于这些需求,部署阶段既可以简单的生成一份报告,亦可以复杂的实现一个覆盖整个企业可重复的数据挖掘过程。大多数情况下是由客户而不是数据分析师来完成部署阶段。但是,既然分析师不需要完成部署工作,那么理解前端需要完成那些活动以实实在在的利用建立好的模型对用户而言就至关重要了。
398-
399351
---
400352
class: thanks, center, middle
401353

402-
# Thanks
354+
# 感谢倾听
403355

404356
![CC BY-NC-SA 4.0](assets/by-nc-sa.svg)
405357

406-
本作品采用 [**CC BY-NC-SA 4.0**](https://creativecommons.org/licenses/by-nc-sa/4.0/) 进行许可
358+
本作品采用 [**CC BY-NC-SA 4.0**](https://github.com/leovan/data-science-introduction-with-r/blob/main/LICENSE) 授权
407359

408-
Copyright © [**范叶亮 | Leo Van**](https://leovan.me), All Rights Reserved.
360+
版权所有 © [**范叶亮**](https://leovan.me)

slides/02-python-language-introduction/02-python-language-introduction.Rmd

Lines changed: 12 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
---
22
title: "Python 语言简介"
33
subtitle: "Python Language Introduction"
4-
author: "范叶亮 | Leo Van"
4+
author: "范叶亮"
55
date: ""
66
output:
77
xaringan::moon_reader:
@@ -393,7 +393,8 @@ True or False
393393
```{python}
394394
a = None
395395
a is None
396-
6 is not None
396+
a = 6
397+
a is not None
397398
```
398399
]
399400

@@ -1458,11 +1459,11 @@ class:
14581459
确保对模块,函数,方法和行内注释使用正确的风格。
14591460
]
14601461

1461-
**文档字符串**
1462+
#### 文档字符串
14621463

14631464
Python 有一种独一无二的的注释方式:使用文档字符串。文档字符串是包,模块,类或函数里的第一个语句。这些字符串可以通过对象的 `__doc__` 成员被自动提取,并且被 pydoc 所用。我们对文档字符串的惯例是使用三重双引号 `"""` (PEP-257)。一个文档字符串应该这样组织:首先是一行以句号,问号或惊叹号结尾的概述(或者该文档字符串单纯只有一行)。接着是一个空行。接着是文档字符串剩下的部分,它应该与文档字符串的第一行的第一个引号对齐。下面有更多文档字符串的格式化规范。
14641465

1465-
**模块**
1466+
#### 模块
14661467

14671468
每个文件应该包含一个许可样板。根据项目使用的许可(例如,Apache 2.0,BSD,LGPL,GPL),选择合适的样板。
14681469

@@ -1471,7 +1472,7 @@ class:
14711472

14721473
# Python 编码风格规范
14731474

1474-
**函数和方法**
1475+
#### 函数和方法
14751476

14761477
下文所指的函数,包括函数,方法,以及生成器。一个函数必须要有文档字符串,除非它满足以下条件:1. 外部不可见,2. 非常短小,3. 简单明了。
14771478

@@ -1535,7 +1536,7 @@ class:
15351536

15361537
# Python 编码风格规范
15371538

1538-
**块注释和行注释**
1539+
#### 块注释和行注释
15391540

15401541
最需要写注释的是代码中那些技巧性的部分。 如果你在下次 代码审查 的时候必须解释一下,那么你应该现在就给它写注释。 对于复杂的操作,应该在其操作开始前写上若干行注释。 对于不是一目了然的代码,应在其行尾添加注释。
15411542

@@ -1757,13 +1758,13 @@ class:
17571758
`module_name, package_name, ClassName, method_name, ExceptionName, function_name, GLOBAL_VAR_NAME, instance_var_name, function_parameter_name, local_var_name.`
17581759
]
17591760

1760-
**应该避免的名称**
1761+
#### 应该避免的名称
17611762

17621763
1. 单字符名称,除了计数器和迭代器。
17631764
2. 包/模块名中的连字符 `-`
17641765
3. 双下划线开头并结尾的名称(Python 保留,例如 `__init__`)。
17651766

1766-
**命名约定**
1767+
#### 命名约定
17671768

17681769
1. 所谓“内部(Internal)”表示仅模块内可用,或者在类内是保护或私有的。
17691770
2. 用单下划线 `_` 开头表示模块变量或函数是 protected 的(使用 `from module import *` 时不会包含)。
@@ -1816,10 +1817,10 @@ if __name__ == '__main__':
18161817
---
18171818
class: thanks, center, middle
18181819

1819-
# Thanks
1820+
# 感谢倾听
18201821

18211822
![CC BY-NC-SA 4.0](assets/by-nc-sa.svg)
18221823

1823-
本作品采用 [**CC BY-NC-SA 4.0**](https://creativecommons.org/licenses/by-nc-sa/4.0/) 进行许可
1824+
本作品采用 [**CC BY-NC-SA 4.0**](https://github.com/leovan/data-science-introduction-with-r/blob/main/LICENSE) 授权
18241825

1825-
Copyright © [**范叶亮 | Leo Van**](https://leovan.me), All Rights Reserved.
1826+
版权所有 © [**范叶亮**](https://leovan.me)
263 KB
Loading

slides/03-data-analytics-introduction-part-1/03-data-analytics-introduction-part-1.Rmd

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
---
22
title: "数据分析基础 (上)"
33
subtitle: "Data Analytics Introduction - Part 1"
4-
author: "范叶亮 | Leo Van"
4+
author: "范叶亮"
55
date: ""
66
output:
77
xaringan::moon_reader:
@@ -804,10 +804,10 @@ class:
804804
---
805805
class: thanks, center, middle
806806

807-
# Thanks
807+
# 感谢倾听
808808

809809
![CC BY-NC-SA 4.0](assets/by-nc-sa.svg)
810810

811-
本作品采用 [**CC BY-NC-SA 4.0**](https://creativecommons.org/licenses/by-nc-sa/4.0/) 进行许可
811+
本作品采用 [**CC BY-NC-SA 4.0**](https://github.com/leovan/data-science-introduction-with-r/blob/main/LICENSE) 授权
812812

813-
Copyright © [**范叶亮 | Leo Van**](https://leovan.me), All Rights Reserved.
813+
版权所有 © [**范叶亮**](https://leovan.me)

slides/04-data-analytics-introduction-part-2/04-data-analytics-introduction-part-2.Rmd

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
---
22
title: "数据分析基础 (下)"
33
subtitle: "Data Analytics Introduction - Part 2"
4-
author: "范叶亮 | Leo Van"
4+
author: "范叶亮"
55
date: ""
66
output:
77
xaringan::moon_reader:
@@ -2097,10 +2097,10 @@ pd.melt(pivoted, ['key'])
20972097
---
20982098
class: thanks, center, middle
20992099

2100-
# Thanks
2100+
# 感谢倾听
21012101

21022102
![CC BY-NC-SA 4.0](assets/by-nc-sa.svg)
21032103

2104-
本作品采用 [**CC BY-NC-SA 4.0**](https://creativecommons.org/licenses/by-nc-sa/4.0/) 进行许可
2104+
本作品采用 [**CC BY-NC-SA 4.0**](https://github.com/leovan/data-science-introduction-with-r/blob/main/LICENSE) 授权
21052105

2106-
Copyright © [**范叶亮 | Leo Van**](https://leovan.me), All Rights Reserved.
2106+
版权所有 © [**范叶亮**](https://leovan.me)

0 commit comments

Comments
 (0)