|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
引言
在当今数据驱动的时代,数据分析已成为各行各业不可或缺的技能。Python作为最受欢迎的编程语言之一,其pandas库为数据处理和分析提供了强大而灵活的工具。本文将详细介绍如何利用Python pandas库从数据清洗到生成精美报表的全流程,帮助读者快速掌握高效的数据分析技能。
1. Python pandas库简介
Pandas是Python的一个开源数据分析和操作库,提供了高性能、易于使用的数据结构和数据分析工具。它是基于NumPy构建的,为数据清洗、处理、分析和可视化提供了丰富的功能。
1.1 Pandas的核心数据结构
Pandas有两个主要的数据结构:Series和DataFrame。
• Series:一维标记数组,能够保存任何数据类型(整数、字符串、浮点数、Python对象等)。
• DataFrame:二维标记数据结构,类似于Excel表格或SQL表,可以看作是多个Series对象的集合。
让我们通过代码来了解这两种数据结构:
- import pandas as pd
- import numpy as np
- # 创建Series
- s = pd.Series([1, 3, 5, np.nan, 6, 8])
- print("Series示例:")
- print(s)
- # 创建DataFrame
- data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
- 'Age': [28, 34, 29, 42],
- 'City': ['New York', 'Paris', 'Berlin', 'London']}
- df = pd.DataFrame(data)
- print("\nDataFrame示例:")
- print(df)
复制代码
1.2 安装和导入Pandas
在开始使用Pandas之前,需要确保已安装该库。可以使用pip进行安装:
安装完成后,在Python脚本中导入Pandas:
2. 数据清洗
数据清洗是数据分析过程中至关重要的一步。原始数据往往包含缺失值、重复值、异常值等问题,需要通过清洗来提高数据质量。
2.1 加载数据
Pandas支持从多种数据源加载数据,如CSV、Excel、SQL数据库等。以下是几种常见的数据加载方式:
- # 从CSV文件加载数据
- df_csv = pd.read_csv('data.csv')
- # 从Excel文件加载数据
- df_excel = pd.read_excel('data.xlsx')
- # 从SQL数据库加载数据
- import sqlite3
- conn = sqlite3.connect('database.db')
- df_sql = pd.read_sql('SELECT * FROM table_name', conn)
复制代码
2.2 数据概览
加载完数据后,首先需要对数据进行概览,了解数据的基本情况:
- # 查看数据的前几行(默认5行)
- print(df.head())
- # 查看数据的后几行(默认5行)
- print(df.tail())
- # 查看数据的基本信息
- print(df.info())
- # 查看数据的统计摘要
- print(df.describe())
- # 查看数据的形状(行数和列数)
- print(df.shape)
复制代码
2.3 处理缺失值
缺失值是数据清洗中常见的问题。Pandas提供了多种处理缺失值的方法:
- # 检查缺失值
- print(df.isnull().sum())
- # 删除包含缺失值的行
- df_dropna = df.dropna()
- # 删除全部为缺失值的列
- df_dropna_col = df.dropna(axis=1, how='all')
- # 填充缺失值
- # 用特定值填充
- df_fill_value = df.fillna(0)
- # 用均值填充
- df_fill_mean = df.fillna(df.mean())
- # 用前一个值填充(向前填充)
- df_fill_ffill = df.fillna(method='ffill')
- # 用后一个值填充(向后填充)
- df_fill_bfill = df.fillna(method='bfill')
- # 插值填充
- df_interpolate = df.interpolate()
复制代码
2.4 处理重复值
重复值会影响数据分析的准确性,需要及时处理:
- # 检查重复行
- print(df.duplicated().sum())
- # 删除重复行
- df_drop_duplicates = df.drop_duplicates()
- # 基于特定列删除重复行
- df_drop_duplicates_col = df.drop_duplicates(subset=['column_name'])
复制代码
2.5 处理异常值
异常值是数据集中偏离正常范围的数据点,可能会影响分析结果:
- # 使用Z-score方法检测异常值
- from scipy import stats
- z_scores = stats.zscore(df[['numeric_column']])
- abs_z_scores = np.abs(z_scores)
- filtered_entries = (abs_z_scores < 3).all(axis=1)
- df_no_outliers = df[filtered_entries]
- # 使用IQR方法检测异常值
- Q1 = df['numeric_column'].quantile(0.25)
- Q3 = df['numeric_column'].quantile(0.75)
- IQR = Q3 - Q1
- lower_bound = Q1 - 1.5 * IQR
- upper_bound = Q3 + 1.5 * IQR
- df_no_outliers = df[(df['numeric_column'] >= lower_bound) & (df['numeric_column'] <= upper_bound)]
复制代码
2.6 数据类型转换
在数据分析过程中,可能需要将数据转换为适当的类型:
- # 查看数据类型
- print(df.dtypes)
- # 转换数据类型
- df['column_name'] = df['column_name'].astype('int') # 转换为整数类型
- df['column_name'] = df['column_name'].astype('float') # 转换为浮点数类型
- df['column_name'] = df['column_name'].astype('str') # 转换为字符串类型
- df['column_name'] = pd.to_datetime(df['column_name']) # 转换为日期时间类型
复制代码
2.7 数据标准化和归一化
标准化和归一化是数据预处理的重要步骤,可以使不同尺度的数据具有可比性:
- from sklearn.preprocessing import StandardScaler, MinMaxScaler
- # 标准化(Z-score标准化)
- scaler = StandardScaler()
- df_standardized = scaler.fit_transform(df[['numeric_column1', 'numeric_column2']])
- # 归一化(Min-Max归一化)
- min_max_scaler = MinMaxScaler()
- df_normalized = min_max_scaler.fit_transform(df[['numeric_column1', 'numeric_column2']])
复制代码
3. 数据分析
数据清洗完成后,就可以进行数据分析了。Pandas提供了丰富的数据分析功能。
3.1 数据筛选和过滤
- # 选择特定列
- df_selected_columns = df[['column1', 'column2']]
- # 基于条件筛选行
- df_filtered = df[df['column_name'] > value]
- # 多条件筛选
- df_multi_condition = df[(df['column1'] > value1) & (df['column2'] < value2)]
- # 使用query方法进行筛选
- df_query = df.query('column_name > @value')
- # 使用loc和iloc进行选择
- # loc基于标签选择
- df_loc = df.loc[df['column_name'] > value, ['column1', 'column2']]
- # iloc基于位置选择
- df_iloc = df.iloc[0:5, 0:2]
复制代码
3.2 数据排序
- # 按单列排序
- df_sorted = df.sort_values('column_name')
- # 按多列排序
- df_multi_sorted = df.sort_values(['column1', 'column2'], ascending=[True, False])
- # 按索引排序
- df_index_sorted = df.sort_index()
复制代码
3.3 数据分组和聚合
- # 按单列分组并计算均值
- df_grouped = df.groupby('column_name').mean()
- # 按多列分组并应用多种聚合函数
- df_multi_grouped = df.groupby(['column1', 'column2']).agg({'column3': 'mean', 'column4': 'sum'})
- # 自定义聚合函数
- def custom_function(x):
- return x.max() - x.min()
- df_custom_agg = df.groupby('column_name').agg(custom_function)
- # 使用pivot_table进行数据透视
- df_pivot = pd.pivot_table(df, values='value_column', index='index_column', columns='column_column', aggfunc='mean')
复制代码
3.4 数据合并和连接
- # 创建两个DataFrame用于演示
- df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
- df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})
- # 内连接(inner join)
- df_inner = pd.merge(df1, df2, on='key', how='inner')
- # 左连接(left join)
- df_left = pd.merge(df1, df2, on='key', how='left')
- # 右连接(right join)
- df_right = pd.merge(df1, df2, on='key', how='right')
- # 外连接(outer join)
- df_outer = pd.merge(df1, df2, on='key', how='outer')
- # 纵向合并(concat)
- df_concat = pd.concat([df1, df2], axis=0)
- # 横向合并
- df_concat_axis1 = pd.concat([df1, df2], axis=1)
复制代码
3.5 时间序列分析
Pandas提供了强大的时间序列分析功能:
- # 创建时间序列数据
- dates = pd.date_range('20230101', periods=6)
- df_time = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
- # 重采样
- # 按月重采样并计算均值
- df_resampled_month = df_time.resample('M').mean()
- # 按季度重采样并计算和
- df_resampled_quarter = df_time.resample('Q').sum()
- # 滚动窗口计算
- # 3天滚动窗口均值
- df_rolling = df_time.rolling(window=3).mean()
- # 时间偏移
- df_shifted = df_time.shift(2) # 向前偏移2个单位
- df_shifted_back = df_time.shift(-2) # 向后偏移2个单位
复制代码
4. 数据可视化
数据可视化是数据分析的重要环节,可以帮助我们更直观地理解数据。Pandas与Matplotlib和Seaborn等可视化库结合使用,可以创建各种类型的图表。
4.1 基本绘图
- import matplotlib.pyplot as plt
- # 设置中文字体
- plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
- plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
- # 线图
- df['column_name'].plot(kind='line', figsize=(10, 6))
- plt.title('线图示例')
- plt.xlabel('X轴')
- plt.ylabel('Y轴')
- plt.show()
- # 柱状图
- df['column_name'].value_counts().plot(kind='bar', figsize=(10, 6))
- plt.title('柱状图示例')
- plt.xlabel('类别')
- plt.ylabel('数量')
- plt.show()
- # 饼图
- df['column_name'].value_counts().plot(kind='pie', figsize=(10, 6), autopct='%1.1f%%')
- plt.title('饼图示例')
- plt.axis('equal') # 使饼图呈圆形
- plt.show()
- # 散点图
- df.plot(kind='scatter', x='column1', y='column2', figsize=(10, 6))
- plt.title('散点图示例')
- plt.show()
- # 直方图
- df['column_name'].plot(kind='hist', bins=20, figsize=(10, 6))
- plt.title('直方图示例')
- plt.xlabel('值')
- plt.ylabel('频数')
- plt.show()
- # 箱线图
- df.plot(kind='box', figsize=(10, 6))
- plt.title('箱线图示例')
- plt.show()
复制代码
4.2 高级可视化
- import seaborn as sns
- # 热力图
- plt.figure(figsize=(10, 8))
- sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
- plt.title('相关性热力图')
- plt.show()
- # 成对关系图
- sns.pairplot(df[['column1', 'column2', 'column3']])
- plt.suptitle('成对关系图', y=1.02)
- plt.show()
- # 小提琴图
- plt.figure(figsize=(10, 6))
- sns.violinplot(x='categorical_column', y='numeric_column', data=df)
- plt.title('小提琴图示例')
- plt.show()
- # 联合分布图
- sns.jointplot(x='column1', y='column2', data=df, kind='scatter')
- plt.suptitle('联合分布图示例', y=1.02)
- plt.show()
复制代码
5. 报表生成
数据分析完成后,需要将结果以报表的形式呈现。Pandas提供了多种报表生成方法。
5.1 基本报表输出
- # 输出为CSV文件
- df.to_csv('report.csv', index=False)
- # 输出为Excel文件
- df.to_excel('report.xlsx', index=False)
- # 输出为HTML文件
- html_table = df.to_html()
- with open('report.html', 'w') as f:
- f.write(html_table)
复制代码
5.2 使用Pandas Profiling生成数据报告
Pandas Profiling是一个强大的工具,可以生成详细的数据分析报告:
- # 安装pandas-profiling
- # pip install pandas-profiling
- from pandas_profiling import ProfileReport
- # 生成报告
- profile = ProfileReport(df, title='数据分析报告', explorative=True)
- # 保存报告为HTML文件
- profile.to_file('data_analysis_report.html')
复制代码
5.3 使用Jupyter Notebook创建交互式报表
Jupyter Notebook是一个交互式计算环境,非常适合创建数据分析报表:
- # 在Jupyter Notebook中,可以使用以下代码创建交互式报表
- # 安装ipywidgets
- # pip install ipywidgets
- from ipywidgets import interact
- @interact(column=df.columns)
- def plot_histogram(column):
- df[column].plot(kind='hist', bins=20)
- plt.title(f'{column}的直方图')
- plt.xlabel(column)
- plt.ylabel('频数')
- plt.show()
- @interact(column1=df.columns, column2=df.columns)
- def plot_scatter(column1, column2):
- df.plot(kind='scatter', x=column1, y=column2)
- plt.title(f'{column1}与{column2}的散点图')
- plt.show()
复制代码
5.4 使用Dash创建Web应用报表
Dash是一个基于Python的Web应用框架,可以创建交互式数据可视化应用:
- # 安装dash
- # pip install dash
- import dash
- import dash_core_components as dcc
- import dash_html_components as html
- from dash.dependencies import Input, Output
- # 创建Dash应用
- app = dash.Dash(__name__)
- # 定义应用布局
- app.layout = html.Div([
- html.H1("数据分析仪表板"),
-
- dcc.Dropdown(
- id='dropdown',
- options=[{'label': i, 'value': i} for i in df.columns],
- value=df.columns[0]
- ),
-
- dcc.Graph(id='graph')
- ])
- # 定义回调函数
- @app.callback(
- Output('graph', 'figure'),
- [Input('dropdown', 'value')]
- )
- def update_graph(selected_column):
- return {
- 'data': [
- {'x': df.index, 'y': df[selected_column], 'type': 'line', 'name': selected_column}
- ],
- 'layout': {
- 'title': f'{selected_column}的趋势图'
- }
- }
- # 运行应用
- if __name__ == '__main__':
- app.run_server(debug=True)
复制代码
5.5 使用OpenPyXL和XlsxWriter创建格式化Excel报表
OpenPyXL和XlsxWriter是两个强大的Python库,可以创建格式化的Excel报表:
- # 安装openpyxl和xlsxwriter
- # pip install openpyxl xlsxwriter
- # 使用OpenPyXL创建格式化Excel报表
- from openpyxl import Workbook
- from openpyxl.styles import Font, Alignment, PatternFill, Border, Side
- from openpyxl.utils import get_column_letter
- # 创建工作簿
- wb = Workbook()
- ws = wb.active
- ws.title = "数据分析报告"
- # 写入标题
- ws['A1'] = "数据分析报告"
- ws['A1'].font = Font(size=16, bold=True)
- ws['A1'].alignment = Alignment(horizontal='center')
- # 写入数据
- for r_idx, row in enumerate(df.values, 2):
- for c_idx, value in enumerate(row, 1):
- ws.cell(row=r_idx, column=c_idx, value=value)
- # 设置列宽
- for col in range(1, len(df.columns) + 1):
- ws.column_dimensions[get_column_letter(col)].width = 15
- # 添加边框
- thin_border = Border(left=Side(style='thin'),
- right=Side(style='thin'),
- top=Side(style='thin'),
- bottom=Side(style='thin'))
- for row in ws.iter_rows():
- for cell in row:
- cell.border = thin_border
- # 保存工作簿
- wb.save('formatted_report.xlsx')
- # 使用XlsxWriter创建格式化Excel报表
- writer = pd.ExcelWriter('formatted_report_xlsxwriter.xlsx', engine='xlsxwriter')
- # 将DataFrame写入Excel
- df.to_excel(writer, sheet_name='Sheet1', index=False)
- # 获取XlsxWriter对象
- workbook = writer.book
- worksheet = writer.sheets['Sheet1']
- # 添加格式
- header_format = workbook.add_format({
- 'bold': True,
- 'text_wrap': True,
- 'valign': 'top',
- 'fg_color': '#D7E4BC',
- 'border': 1
- })
- # 写入标题
- for col_num, value in enumerate(df.columns.values):
- worksheet.write(0, col_num + 1, value, header_format)
- # 设置列宽
- worksheet.set_column('A:Z', 15)
- # 添加图表
- chart = workbook.add_chart({'type': 'column'})
- # 配置图表数据
- for col_num in range(1, len(df.columns) + 1):
- chart.add_series({
- 'name': ['Sheet1', 0, col_num],
- 'categories': ['Sheet1', 1, 0, len(df), 0],
- 'values': ['Sheet1', 1, col_num, len(df), col_num],
- })
- # 添加图表标题和样式
- chart.set_title({'name': '数据分析图表'})
- chart.set_x_axis({'name': '类别'})
- chart.set_y_axis({'name': '值'})
- # 插入图表
- worksheet.insert_chart('G2', chart)
- # 保存Excel文件
- writer.save()
复制代码
6. 完整案例分析
现在,让我们通过一个完整的案例来演示从数据清洗到报表生成的全流程。
6.1 案例背景
假设我们有一份销售数据,包含日期、产品类别、销售地区、销售额等信息。我们的目标是分析销售趋势,找出最畅销的产品类别和地区,并生成一份精美的报表。
6.2 数据加载和初步探索
- import pandas as pd
- import numpy as np
- import matplotlib.pyplot as plt
- import seaborn as sns
- # 创建模拟数据
- np.random.seed(42)
- dates = pd.date_range('20230101', periods=365)
- categories = ['电子产品', '服装', '食品', '家居', '图书']
- regions = ['华东', '华南', '华北', '西南', '东北']
- data = {
- '日期': np.random.choice(dates, 1000),
- '产品类别': np.random.choice(categories, 1000),
- '销售地区': np.random.choice(regions, 1000),
- '销售额': np.random.randint(100, 10000, 1000),
- '销售数量': np.random.randint(1, 100, 1000)
- }
- df = pd.DataFrame(data)
- # 添加一些缺失值
- for col in ['销售额', '销售数量']:
- df.loc[df.sample(frac=0.05).index, col] = np.nan
- # 添加一些重复行
- df = pd.concat([df, df.sample(20)], ignore_index=True)
- # 保存数据
- df.to_csv('sales_data.csv', index=False)
- # 加载数据
- df = pd.read_csv('sales_data.csv')
- # 初步探索数据
- print("数据形状:", df.shape)
- print("\n数据前5行:")
- print(df.head())
- print("\n数据类型:")
- print(df.dtypes)
- print("\n缺失值统计:")
- print(df.isnull().sum())
- print("\n重复行数:", df.duplicated().sum())
- print("\n描述性统计:")
- print(df.describe())
复制代码
6.3 数据清洗
- # 转换日期列
- df['日期'] = pd.to_datetime(df['日期'])
- # 删除重复行
- df = df.drop_duplicates()
- # 处理缺失值
- # 用中位数填充销售额的缺失值
- median_sales = df['销售额'].median()
- df['销售额'].fillna(median_sales, inplace=True)
- # 用均值填充销售数量的缺失值
- mean_quantity = df['销售数量'].mean()
- df['销售数量'].fillna(mean_quantity, inplace=True)
- # 添加新列:单价
- df['单价'] = df['销售额'] / df['销售数量']
- # 添加年、月、日列
- df['年'] = df['日期'].dt.year
- df['月'] = df['日期'].dt.month
- df['日'] = df['日期'].dt.day
- # 添加星期列
- df['星期'] = df['日期'].dt.day_name()
- # 检查清洗后的数据
- print("清洗后的数据形状:", df.shape)
- print("\n清洗后的缺失值统计:")
- print(df.isnull().sum())
- print("\n清洗后的数据前5行:")
- print(df.head())
复制代码
6.4 数据分析
- # 按产品类别分析销售额
- category_sales = df.groupby('产品类别')['销售额'].sum().sort_values(ascending=False)
- print("\n各产品类别销售额:")
- print(category_sales)
- # 按地区分析销售额
- region_sales = df.groupby('销售地区')['销售额'].sum().sort_values(ascending=False)
- print("\n各地区销售额:")
- print(region_sales)
- # 按月分析销售额趋势
- df['年月'] = df['日期'].dt.to_period('M')
- monthly_sales = df.groupby('年月')['销售额'].sum()
- print("\n月度销售额趋势:")
- print(monthly_sales)
- # 分析各产品类别在各地区的销售情况
- category_region_sales = df.pivot_table(
- values='销售额',
- index='产品类别',
- columns='销售地区',
- aggfunc='sum',
- fill_value=0
- )
- print("\n各产品类别在各地区的销售额:")
- print(category_region_sales)
- # 分析星期几的销售情况
- weekday_sales = df.groupby('星期')['销售额'].mean()
- print("\n星期几的平均销售额:")
- print(weekday_sales)
- # 计算各产品类别的销售数量占比
- category_quantity = df.groupby('产品类别')['销售数量'].sum()
- category_quantity_pct = category_quantity / category_quantity.sum() * 100
- print("\n各产品类别销售数量占比:")
- print(category_quantity_pct)
复制代码
6.5 数据可视化
- # 设置中文字体
- plt.rcParams['font.sans-serif'] = ['SimHei']
- plt.rcParams['axes.unicode_minus'] = False
- # 创建一个图形,包含多个子图
- fig = plt.figure(figsize=(20, 15))
- # 1. 各产品类别销售额柱状图
- ax1 = fig.add_subplot(2, 3, 1)
- category_sales.plot(kind='bar', ax=ax1, color='skyblue')
- ax1.set_title('各产品类别销售额')
- ax1.set_xlabel('产品类别')
- ax1.set_ylabel('销售额')
- ax1.tick_params(axis='x', rotation=45)
- # 2. 各地区销售额饼图
- ax2 = fig.add_subplot(2, 3, 2)
- region_sales.plot(kind='pie', ax=ax2, autopct='%1.1f%%', startangle=90)
- ax2.set_title('各地区销售额占比')
- ax2.set_ylabel('')
- # 3. 月度销售额趋势线图
- ax3 = fig.add_subplot(2, 3, 3)
- monthly_sales.plot(kind='line', ax=ax3, marker='o', color='green')
- ax3.set_title('月度销售额趋势')
- ax3.set_xlabel('年月')
- ax3.set_ylabel('销售额')
- ax3.tick_params(axis='x', rotation=45)
- # 4. 各产品类别在各地区的销售额热力图
- ax4 = fig.add_subplot(2, 3, 4)
- sns.heatmap(category_region_sales, annot=True, fmt='.0f', cmap='YlGnBu', ax=ax4)
- ax4.set_title('各产品类别在各地区的销售额')
- # 5. 星期几的平均销售额柱状图
- ax5 = fig.add_subplot(2, 3, 5)
- weekday_sales = weekday_sales.reindex(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
- weekday_sales.plot(kind='bar', ax=ax5, color='orange')
- ax5.set_title('星期几的平均销售额')
- ax5.set_xlabel('星期')
- ax5.set_ylabel('平均销售额')
- ax5.tick_params(axis='x', rotation=45)
- # 6. 各产品类别销售数量占比饼图
- ax6 = fig.add_subplot(2, 3, 6)
- category_quantity_pct.plot(kind='pie', ax=ax6, autopct='%1.1f%%', startangle=90)
- ax6.set_title('各产品类别销售数量占比')
- ax6.set_ylabel('')
- plt.tight_layout()
- plt.savefig('sales_analysis.png', dpi=300)
- plt.show()
复制代码
6.6 生成报表
- # 创建Excel报表
- writer = pd.ExcelWriter('sales_report.xlsx', engine='xlsxwriter')
- # 将原始数据写入第一个工作表
- df.to_excel(writer, sheet_name='原始数据', index=False)
- # 将各产品类别销售额写入第二个工作表
- category_sales.to_excel(writer, sheet_name='产品类别销售额')
- # 将各地区销售额写入第三个工作表
- region_sales.to_excel(writer, sheet_name='地区销售额')
- # 将月度销售额趋势写入第四个工作表
- monthly_sales.to_excel(writer, sheet_name='月度销售额趋势')
- # 将各产品类别在各地区的销售额写入第五个工作表
- category_region_sales.to_excel(writer, sheet_name='产品-地区销售额')
- # 将星期几的平均销售额写入第六个工作表
- weekday_sales.to_excel(writer, sheet_name='星期销售额')
- # 获取XlsxWriter对象
- workbook = writer.book
- # 添加格式
- header_format = workbook.add_format({
- 'bold': True,
- 'text_wrap': True,
- 'valign': 'top',
- 'fg_color': '#D7E4BC',
- 'border': 1
- })
- # 为每个工作表添加格式
- for sheetname in writer.sheets:
- worksheet = writer.sheets[sheetname]
-
- # 设置列宽
- if sheetname == '原始数据':
- worksheet.set_column('A:F', 15)
- else:
- worksheet.set_column('A:B', 15)
-
- # 添加标题格式
- for col_num, value in enumerate(pd.read_excel('sales_report.xlsx', sheet_name=sheetname).columns.values):
- worksheet.write(0, col_num, value, header_format)
- # 创建摘要工作表
- worksheet_summary = workbook.add_worksheet('数据分析摘要')
- # 添加摘要标题
- worksheet_summary.write('A1', '销售数据分析报告', workbook.add_format({'bold': True, 'font_size': 16}))
- # 添加摘要内容
- summary_data = [
- ['总销售额', df['销售额'].sum()],
- ['平均销售额', df['销售额'].mean()],
- ['总销售数量', df['销售数量'].sum()],
- ['平均销售数量', df['销售数量'].mean()],
- ['最畅销产品类别', category_sales.index[0]],
- ['销售额最高地区', region_sales.index[0]],
- ['销售额最高月份', monthly_sales.idxmax()]
- ]
- for row_num, row_data in enumerate(summary_data, 3):
- worksheet_summary.write(row_num, 0, row_data[0])
- worksheet_summary.write(row_num, 1, row_data[1])
- # 添加图表
- # 1. 各产品类别销售额柱状图
- chart1 = workbook.add_chart({'type': 'column'})
- for i in range(len(category_sales)):
- chart1.add_series({
- 'name': f"'{category_sales.name}'",
- 'categories': [f"'{category_sales.name}'", 1, 0, len(category_sales), 0],
- 'values': [f"'{category_sales.name}'", 1, i+1, len(category_sales), i+1],
- })
- chart1.set_title({'name': '各产品类别销售额'})
- chart1.set_x_axis({'name': '产品类别'})
- chart1.set_y_axis({'name': '销售额'})
- worksheet_summary.insert_chart('D2', chart1)
- # 2. 各地区销售额饼图
- chart2 = workbook.add_chart({'type': 'pie'})
- chart2.add_series({
- 'name': '地区销售额',
- 'categories': [f"'{region_sales.name}'", 1, 0, len(region_sales), 0],
- 'values': [f"'{region_sales.name}'", 1, 1, len(region_sales), 1],
- })
- chart2.set_title({'name': '各地区销售额占比'})
- worksheet_summary.insert_chart('D18', chart2)
- # 3. 月度销售额趋势线图
- chart3 = workbook.add_chart({'type': 'line'})
- chart3.add_series({
- 'name': '月度销售额',
- 'categories': [f"'{monthly_sales.name}'", 1, 0, len(monthly_sales), 0],
- 'values': [f"'{monthly_sales.name}'", 1, 1, len(monthly_sales), 1],
- 'marker': {'type': 'circle'},
- })
- chart3.set_title({'name': '月度销售额趋势'})
- chart3.set_x_axis({'name': '年月'})
- chart3.set_y_axis({'name': '销售额'})
- worksheet_summary.insert_chart('D34', chart3)
- # 保存Excel文件
- writer.save()
- # 生成HTML报告
- html_report = f"""
- <!DOCTYPE html>
- <html>
- <head>
- <title>销售数据分析报告</title>
- <style>
- body {{
- font-family: Arial, sans-serif;
- margin: 20px;
- }}
- h1 {{
- color: #333366;
- text-align: center;
- }}
- h2 {{
- color: #333366;
- }}
- table {{
- border-collapse: collapse;
- width: 100%;
- margin-bottom: 20px;
- }}
- th, td {{
- border: 1px solid #ddd;
- padding: 8px;
- text-align: left;
- }}
- th {{
- background-color: #f2f2f2;
- }}
- img {{
- max-width: 100%;
- height: auto;
- }}
- .summary {{
- background-color: #f9f9f9;
- padding: 15px;
- border-radius: 5px;
- margin-bottom: 20px;
- }}
- .summary-item {{
- margin-bottom: 10px;
- }}
- </style>
- </head>
- <body>
- <h1>销售数据分析报告</h1>
-
- <div class="summary">
- <h2>数据分析摘要</h2>
- <div class="summary-item"><strong>总销售额:</strong> {df['销售额'].sum():,.2f}</div>
- <div class="summary-item"><strong>平均销售额:</strong> {df['销售额'].mean():,.2f}</div>
- <div class="summary-item"><strong>总销售数量:</strong> {df['销售数量'].sum():,}</div>
- <div class="summary-item"><strong>平均销售数量:</strong> {df['销售数量'].mean():,.2f}</div>
- <div class="summary-item"><strong>最畅销产品类别:</strong> {category_sales.index[0]}</div>
- <div class="summary-item"><strong>销售额最高地区:</strong> {region_sales.index[0]}</div>
- <div class="summary-item"><strong>销售额最高月份:</strong> {monthly_sales.idxmax()}</div>
- </div>
-
- <h2>各产品类别销售额</h2>
- {category_sales.to_frame().to_html()}
-
- <h2>各地区销售额</h2>
- {region_sales.to_frame().to_html()}
-
- <h2>月度销售额趋势</h2>
- {monthly_sales.to_frame().to_html()}
-
- <h2>各产品类别在各地区的销售额</h2>
- {category_region_sales.to_html()}
-
- <h2>星期几的平均销售额</h2>
- {weekday_sales.to_frame().to_html()}
-
- <h2>数据可视化</h2>
- <img src="sales_analysis.png" alt="销售数据分析图表">
- </body>
- </html>
- """
- # 保存HTML报告
- with open('sales_report.html', 'w', encoding='utf-8') as f:
- f.write(html_report)
- print("报表生成完成!已生成Excel报表和HTML报表。")
复制代码
7. 总结与展望
本文详细介绍了如何利用Python pandas库从数据清洗到生成精美报表的全流程。通过学习本文,读者应该能够:
1. 熟练使用pandas进行数据加载、清洗和转换;
2. 掌握pandas的数据分析功能,包括筛选、分组、聚合等;
3. 学会使用pandas结合其他库进行数据可视化;
4. 能够生成各种格式的报表,包括CSV、Excel、HTML等。
随着数据科学和人工智能的发展,数据分析技能变得越来越重要。Pandas作为Python数据分析的核心库,其功能也在不断完善和扩展。未来,我们可以期待pandas在以下方面有更多的发展:
1. 性能优化:处理更大规模的数据集,提高计算效率;
2. 更丰富的可视化功能:集成更多高级可视化功能;
3. 更好的互操作性:与其他数据处理工具和平台的更好集成;
4. 更智能的数据清洗:利用机器学习技术自动化数据清洗过程。
通过不断学习和实践,我们可以更好地利用pandas进行数据分析,为决策提供更有力的支持。
8. 参考资源
1. Pandas官方文档:https://pandas.pydata.org/docs/
2. Python数据科学手册:https://jakevdp.github.io/PythonDataScienceHandbook/
3. 利用Python进行数据分析:https://github.com/wesm/pydata-book
4. Matplotlib官方文档:https://matplotlib.org/stable/contents.html
5. Seaborn官方文档:https://seaborn.pydata.org/
6. Dash官方文档:https://dash.plotly.com/
希望本文能够帮助读者快速掌握高效的数据分析技能,利用Python pandas库轻松实现数据报表输出。如果有任何问题或建议,欢迎交流讨论。
版权声明
1、转载或引用本网站内容(利用Python pandas库轻松实现数据报表输出从数据清洗到精美报表全流程解析让你快速掌握高效数据分析技能)须注明原网址及作者(威震华夏关云长),并标明本网站网址(https://pixtech.cc/)。
2、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失,本网站不承担责任。
3、对不遵守本声明或其他违法、恶意使用本网站内容者,本网站保留追究其法律责任的权利。
本文地址: https://pixtech.cc/thread-39457-1-1.html
|
|