零、数据科学实战
欢迎来到阅读数据科学实战课程的实践材料。
本笔记本将指导你获取使用这些教程和作业所需的工具。
- python 3.6,以及 anaconda 发行版(满足此要求)
- Jupyter 笔记本(datahub 满足这个要求)
本课程以及本系列教程假定你已具备一些编程基础知识。
特别是它假定了 Python 的一些知识,涵盖了标准库。
如果你对 Python 有些不熟悉,可以按照 Python 笔记本中的链接来补上。
这些教程和作业中的示例在计算上并不重要。
你应该能够在你有权访问的任何计算机上运行所有这些材料,假设它将运行上述工具。
以下是此类所需的一系列工具
Jupyter 笔记本是混合代码的,输出和纯文本的一种方法。它们在 Web 浏览器中运行,并连接到内核以便能够执行代码。
官方的 Jupyter 网站在。
笔记本可以在网页上展示,并与他人共享。NBViewer 是一个托管和展示笔记本的工具。
NBViewer 在这里提供。
请注意,NBViewer 不是你需要下载的工具,或者根本不需要使用它,它只是一个在线查看笔记本的有用工具。
Anaconda 是 Python 的开源发行版,专为科学计算,数据科学和机器学习而设计。
anaconda 网站是,下载页面在这里。
Anaconda 本身就是一个发行版,即一系列包装,这些包被一起策划和维护,并且功能强大。
Anaconda 还附带了 conda,它是一个包管理器,允许你下载,安装和管理其他包。
anaconda 发行版包括这些教程所需的所有软件包。
- 如果你使用的是 Mac,则可以使用本机安装的 python。本机安装的 Python 可能较旧,不包括此类所需的额外软件包,最好保持不变。
- 下载 anaconda 将安装一个单独的,独立的 Python,保持原生安装不受影响。
- Windows 本身不需要 Python,因此通常不会预先安装。
- 如果你需要本地副本(这是一个好主意!),请按照本教程逐步进行操作。或者,你可以将 用于本课程的所有内容。
Git 是一个用于版本控制的工具,一个软件包。Github 是一个可以与 git 一起使用的在线托管服务,并提供使用 git 的在线工具。
Git 和 GitHub 不是一回事,但在实践中,它们通常一起使用,git 用作一个工具,对代码版本控制,管理存储在计算机上的多个副本,以及存储在 Github 上的远程存储库。
请注意,虽然 GitHub 是一家私营公司,但 git 是一个开源工具,可以独立于 GitHub 使用。
SourceTree 是一个免费的图形用户界面(GUI),用于使用 git 和 Github 管理存储库。
SourceTree 可以在这里获得。你需要在 上创建一个 SourceTree 的帐户,但这是免费的。
如果你知道,或者想学习从命令行使用 git,则无需使用 SourceTree(或任何其他 GUI)。
环境是独立的,编程语言和包组的独立安装,它们不会相互干扰。
Anaconda 有使用环境的详细说明,在这里。
你不需要使用环境,但是如果你想要或需要维护多个不同版本的 Python,你可能会发现它很有用。
如果要使用环境,并且已经有 conda,则可以从命令行运行此命令:
用名称替换来调用此环境。这将使用 Python 3.6 和 anaconda 发行版安装新环境。
然后,你需要(每次)激活此环境来使用它。为了激活你的环境:
为了关闭你的环境: