这段代码使用PySpark创建了一个DataFrame，对数据进行分组并计算平均值。以下是逐步总结：代码作用：创建一个包含图书名称和销量的DataFrame 按图书名称分组计算每本书的平均销量显示结果逐步解析：创建DataFrame： python bookDF = spark \ .createDataFrame([("spark", 2), ("hadoop", 6), ("hadoop", 4), ("spark", 6)]) \ .toDF("book", "amount") 创建了一个包含两列的DataFrame： book列：图书名称（字符串） amount列：销售数量（整数）中间结果 bookDF： +------+------+ | book|amount| +------+------+ | spark| 2| |hadoop| 6| |hadoop| 4| | spark| 6| +------+------+ 分组聚合计算平均值： python avgDF = bookDF.groupBy("book").agg(avg("amount")) 按book列分组对每组计算amount列的平均值中间结果 avgDF（逻辑上）： +------+------------+ | book|avg(amount)| +------+------------+ | spark| 4.0| # (2+6)/2=4 |hadoop| 5.0| # (6+4)/2=5 +------+------------+ 显示结果： python avgDF.show() 最终输出（实际显示格式）： +------+-----------+ | book|avg(amount)| +------+-----------+ | spark| 4.0| |hadoop| 5.0| +------+-----------+ 关键点：原始数据有4条记录（2本书，每本2条记录）分组后变成2个组（spark和hadoop）计算平均值时： spark组：(2 + 6)/2 = 4.0 hadoop组：(6 + 4)/2 = 5.0 最终结果包含两列：分组列book和聚合结果列avg(amount) 注意：实际代码中avg("amount")生成的列名默认是avg(amount)，如果需要自定义列名，可以使用.alias()或直接指定：avg("amount").alias("average_amount") 根据这个生成讲解动画

视频信息

视频地址

封面地址

Provider

视频字幕

PySpark DataFrame是Apache Spark中用于处理结构化数据的核心组件。它类似于传统数据库中的表格，具有行和列的结构。DataFrame提供了丰富的API来进行数据操作，支持SQL查询，并且能够在分布式环境中高效处理大规模数据。我们可以使用createDataFrame方法创建DataFrame，并用toDF方法为列命名。在这个例子中，我们创建了一个包含图书销售数据的DataFrame。首先定义原始数据，包含四个元组，每个元组包含图书名称和销售数量。然后使用createDataFrame方法创建DataFrame，并通过toDF方法为列指定名称：book和amount。创建后的DataFrame具有表格结构，有两列四行数据。接下来进行分组聚合操作。我们使用groupBy方法按book列分组，然后使用agg方法对每组的amount列计算平均值。可以看到，相同颜色的行被分为一组：spark组包含两行数据，计算平均值得到4.0；hadoop组也包含两行数据，计算平均值得到5.0。最终结果是一个新的DataFrame，包含book列和avg(amount)列。让我们详细看看平均值的计算过程。对于spark组，我们有两个数值：2和6，它们的平均值是(2+6)/2等于4.0。对于hadoop组，我们有数值6和4，它们的平均值是(6+4)/2等于5.0。每个组都独立进行计算，最终结果保留一位小数。生成的列名默认为avg(amount)。最后，我们使用show()方法显示结果。可以看到最终输出包含两行数据：spark的平均销量为4.0，hadoop的平均销量为5.0。这个过程将原始的4行数据通过分组聚合操作转换为2行结果。如果需要自定义列名，可以使用alias方法，例如avg('amount').alias('avg_amount')。这就是PySpark DataFrame分组聚合操作的完整流程。在这个例子中，我们创建了一个包含图书销售数据的DataFrame。首先定义原始数据，包含四个元组，每个元组包含图书名称和销售数量。然后使用createDataFrame方法创建DataFrame，并通过toDF方法为列指定名称：book和amount。创建后的DataFrame具有表格结构，有两列四行数据。接下来进行分组聚合操作。我们使用groupBy方法按book列分组，然后使用agg方法对每组的amount列计算平均值。可以看到，相同颜色的行被分为一组：spark组包含两行数据，计算平均值得到4.0；hadoop组也包含两行数据，计算平均值得到5.0。最终结果是一个新的DataFrame，包含book列和avg(amount)列。让我们详细看看平均值的计算过程。对于spark组，我们有两个数值：2和6，它们的平均值是(2+6)/2等于4.0。对于hadoop组，我们有数值6和4，它们的平均值是(6+4)/2等于5.0。每个组都独立进行计算，最终结果保留一位小数。生成的列名默认为avg(amount)。最后，我们使用show()方法显示结果。可以看到最终输出包含两行数据：spark的平均销量为4.0，hadoop的平均销量为5.0。这个过程将原始的4行数据通过分组聚合操作转换为2行结果。如果需要自定义列名，可以使用alias方法，例如avg('amount').alias('avg_amount')。这就是PySpark DataFrame分组聚合操作的完整流程。

视频信息

答案文本 复制

视频字幕 复制

答案文本

视频字幕