数据分析技术 - 郑鑫老师

1 数据分析概述

未开始

什么是数据分析？

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论，而对数据加以详细研究和概括总结的过程。

数据分析的重要性

帮助企业做出科学的决策
发现业务问题和机会
优化运营效率和成本
预测未来趋势和发展
提升客户满意度

数据分析的流程

需求分析：明确分析目的和要解决的问题
数据收集：获取相关的数据来源
数据清洗：处理缺失值、异常值等问题
数据分析：运用统计方法进行分析
数据可视化：将结果以图表形式展示
报告撰写：总结分析结论和建议

💡 关键点

数据分析的核心不是复杂的数学公式，而是如何将数据转化为可行动的洞察。好的数据分析应该回答具体的业务问题，而不仅仅是展示数字。

2 数据类型与数据来源

未开始

数据的基本类型

在数据分析中，我们通常将数据分为以下几种类型：

结构化数据：以表格形式存储的数据，如Excel表格、数据库表等
半结构化数据：具有固定格式但不完全表格化的数据，如JSON、XML等
非结构化数据：没有固定格式的数据，如文本、图片、音频、视频等

常见数据来源

业务系统数据库：ERP、CRM、OA等系统产生的数据
用户行为数据：网站访问、App使用等用户交互数据
传感器数据：物联网设备采集的环境数据
公开数据源：政府开放平台、统计年鉴等
第三方数据：数据供应商提供的外部数据

💡 数据质量的重要性

数据分析的质量很大程度上取决于数据的质量。在开始分析之前，务必了解数据的来源、采集方式和可能存在的问题。

3 数据清洗与预处理

未开始

为什么需要数据清洗？

原始数据通常存在各种问题，如缺失值、重复记录、格式错误等。数据清洗是保证分析结果准确性的关键步骤。

常见的数据问题及处理方法

1. 缺失值处理

# 删除缺失值
df.dropna()

# 用均值填充
df['列名'].fillna(df['列名'].mean())

# 用中位数填充
df['列名'].fillna(df['列名'].median())

# 用前后值填充
df['列名'].fillna(method='ffill')  # 前值填充
df['列名'].fillna(method='bfill')  # 后值填充
                        

2. 重复值处理

# 检测重复
df.duplicated()

# 删除重复
df.drop_duplicates()
                        

3. 异常值处理

# 使用IQR方法检测异常值
Q1 = df['列名'].quantile(0.25)
Q3 = df['列名'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
                        

💡 数据清洗最佳实践

在清洗数据之前，先备份原始数据。记录每一步的数据处理操作，便于后续追溯和验证。

4 描述性统计分析

未开始

描述性统计概述

描述性统计是对数据进行初步探索的基本方法，通过计算各种统计指标来描述数据的基本特征。

常用统计指标

1. 集中趋势指标

均值（Mean）：数据的算术平均值，易受极端值影响
中位数（Median）：数据排序后的中间值，不受极端值影响
众数（Mode）：出现次数最多的值，适用于分类数据

2. 离散程度指标

方差（Variance）：各数据与均值差的平方的平均值
标准差（Standard Deviation）：方差的平方根，与原数据单位相同
四分位数（Quartiles）：将数据分为四等份的三个点
极值（Range）：最大值与最小值的差

import pandas as pd
import numpy as np

# 计算描述性统计
df['列名'].describe()

# 分别计算各项指标
print('均值:', df['列名'].mean())
print('中位数:', df['列名'].median())
print('标准差:', df['列名'].std())
print('方差:', df['列名'].var())
                        

💡 选择正确的统计指标

根据数据的分布特征选择合适的指标。正态分布数据适合用均值和标准差，偏态分布数据建议使用中位数和四分位数。

5 数据可视化

未开始

为什么数据可视化很重要？

数据可视化是将复杂数据转化为直观图形的过程，帮助人们快速理解和发现数据中的规律。一图胜千言，好的可视化能让数据讲故事。

常用图表类型及适用场景

折线图：展示数据随时间变化的趋势
柱状图：比较不同类别的大小
饼图：展示各部分占总体的比例
散点图：展示两个变量之间的关系
热力图：展示数据的密度或强度分布
箱线图：展示数据的分布和异常值

Python数据可视化示例

import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 折线图
plt.figure(figsize=(10, 6))
plt.plot(x, y, marker='o')
plt.title('趋势图')
plt.xlabel('时间')
plt.ylabel('数值')
plt.grid(True)
plt.show()

# 柱状图
plt.figure(figsize=(10, 6))
plt.bar(categories, values)
plt.title('对比图')
plt.xlabel('类别')
plt.ylabel('数值')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
                        

💡 可视化设计原则

保持简洁、突出重点、选择合适的图表类型、使用清晰的标签和标题。避免过度装饰和误导性的可视化。

6 相关分析与回归分析

未开始

回归分析

回归分析用于建立变量之间的数学模型，预测一个变量随其他变量的变化关系。最常用的是线性回归。

from scipy import stats
import numpy as np

# 计算相关系数
correlation = df['变量1'].corr(df['变量2'])

# 线性回归
slope, intercept, r_value, p_value, std_err = stats.linregress(
    df['自变量'], df['因变量']
)

print(f'斜率: {slope}')
print(f'截距: {intercept}')
print(f'R²: {r_value**2}')
print(f'P值: {p_value}')
                        

💡 相关不等于因果

相关分析只能说明变量之间存在关联，但不能证明因果关系。要确定因果关系，需要控制其他变量或进行实验设计。

📊 数据分析技术

📚 课程学习