附录一、有用的 Python 数据科学包
以下是 Python 中可能对数据科学有用的包一般概述。
数据科学模块
这些包都包含在 anaconda 发行版中。
- numpy - 数组和数组运算的数值计算。
- - 数据结构和数据分析。
- scikit-learn - 机器学习和数据分析。
文本挖掘
- - 自然语言处理。
- gensim - 主题建模。
数学和统计学
- - 符号数学。
- statsmodels - 统计建模。
- - HTTP 请求。
- scrapy - 网络爬虫。
可视化库
- - 2D 绘图库。
- seaborn - 可视化(基于 Matplotlib)
- - 交互式可视化。
图论/网络
- networkx - 网络分析
- - 多维数组的数学运算。
- tensorflow - 使用数据流图进行数值计算。
- - 高级神经网络库。
标准库的有用部分
基本工具
实用函数
- - 支持处理 JSON 文件。
- csv - 支持处理 CSV 文件
数据对象
- - 容器数据类型。