微软擅长在Excel中添加新功能,但却将其隐藏在难以被发现的角落。例如,2019年,其添加了几个检查数据质量的工具,但大多数人都很难发现这些工具所在的位置。
图1显示了一份包含调查反馈的数据集表头部分。A列是唯一的ID,B列是年龄,C列是一个包括A、B、C、D四个答案的选择题,D列则是需要选择是/否的选择题。在深入处理调查数据前,你需要确保数据的准确性。
将数据导入Power Query
“数据”选项卡有一个功能区叫“获取和转换数据”,该功能区最早出现在Excel 2016版。使用“获取和转换数据”中的任何工具时,Excel都会启动Power Query编辑器。2019年,Microsoft在Power Query编辑器的“视图”选项卡中添加了三个数据分析工具,简单操作这些工具就能了解各列值的组成。
“获取和转换数据”工具适用于指定的表格范围,或者使用Ctrl+T快捷键格式化为表格的数据集。如图1所示,数据已被格式化为表格。
“数据”选项卡下一个命令的名字近年来有所变化(图1红色箭头所指部分)。多年来,该命令的名称都是“来自表格/区域”。后来因为微软允许用户分析数组公式,该命令被重命名为“自工作簿”。许多用户对此感到困惑,微软最近又将该命令的名称改为了“来自选取范围”(From Selection)。在我目前使用的Office Insider Excel版本中,该命令为“来自选取范围”,但其他Excel版本的名称可能仍是“来自表格/区域”或是“自工作簿”。无论Excel版本有何不同,该命令的位置和图标都没有发生变化。
在表格中选择一个单元格,然后点击“来自选取范围”命令,就可以打开Power Query编辑器:
■编辑器界面的右侧是“查询设置”窗格。目前不需要用到此窗格,关闭即可(点击“查询设置”右侧的“×”)。
■界面顶部是“文件”“主页”“转换”“添加列”和“视图”选项卡。选择“视图”选项卡。
■界面左下角是状态栏,显示“4列、999+行,基于前1,000行的列分析”(此处显示基于图2)。由于Power Query常用于清洗数据,故而其默认仅显示前1,000行。有人称之为“大数据集的第一小块数据”。对于编写数据清洗规则来说,前1,000行就够用了,但是使用数据分析工具时需要更改这一设定条件。单击“基于前1,000行的列分析”这句话,将出现一个带有两个选项的弹出菜单,选择“基于整个数据集的列分析”。
检查数据质量
打开Power Query编辑器功能区中的“视图”选项卡(见图2),“数据预览”部分有五个复选框,数据分析工具默认都是全部关闭的(版本不同,显示工具会有区别。编者注),可以勾选其中任何一个或全部工具。
图2红色箭头所指的是“列质量”功能。它显示每列中“有效”“错误”或“空”的单元格所占的百分比。请注意:最后两列的“空”值为“<1%”,这意味着该列中有一些空单元格。
图2蓝色箭头所指的是“列分发”功能,其以直方图显示结果。需要注意的是,第一列的值是唯一的ID,但“列分发”显示7,997个值中仅有7,994个唯一值。这意味着可能是三个人作答了三次,也可能是一个人作答了四次。
再看第二列“年龄”值分布。该调查面向大学本科生,所以年龄通常应该为18、19、20、21、22岁五个值。因此,这一列有五个柱形图是合理的,但有三个答案偏离了常规值。
第四列的“问题2”答案原本应在“是/否”这两个值中选择,但目前显示有一些空值,直方图显示四列而不是两列。要深入研究问题2的数据,可以单击问题2的标题并打开“列配置文件”,如图2中绿色箭头所指。
右下角的条形图显示该列中每个答案的相对出现频率。将光标悬停在任一条答案上,可以得到确切计数。若想生成其他列的条形图结果,点击其他列的标题即可。
完成数据质量调查后,点击Power Query编辑器右上角的“×”即可关闭界面。Excel会例行询问“是否保留更改”,鉴于本次练习只是为了收集数据而非清洗数据,点击“放弃”即可。
Bill Jelen,MrExcel.com负责人,著有61本Excel方面的书籍,帮助制作了IMA Excel数据分析课程(bit.ly/2Ru2nvY)和IMA Excel 365系列课程(bit.ly/2qDKYXV)。可发送问题至IMA@MrExcel.com,它们有可能成为以后文章的主题。
于婕 译,郭强 校