数据偏见对多样化与包容性的影响
2021年第2期 711 < 返回目录
分析模型中的数据偏见可能会影响其准确性。在整个数据生命周期中纠正这种偏见,能够提高数据的质量。

  多样化与包容性日益受到人们的关注,且已然成为社交媒体和新闻讨论的焦点。在各类企业与组织收集、分析和运用数据驱动决策的同时,多样化与包容性也是高管和董事会讨论的中心议题。然而在此过程中有一个后果经常被忽视,那就是可能会对多样化与包容性产生负面影响的数据偏见。财会专业人士与所有行业的企业专业人士,都有责任确保以推动无偏见决策的方式来使用数据。


了解数据偏见

  偏见的英文“bias”由法语biais衍生而来,本义是指一条斜线或者与水平线的偏离,常常用来形容对特定人群的系统性偏好。偏见一词现已进入数据科学领域,用Elder research研发总监Will Goodrum的话来说,就是“数据与期望值的偏离。从根本上说,偏见是指数据中的错误,但这种错误往往是细微或不易察觉的”。

  换言之,数据偏见是一种风险,即会影响一个人基于数据的决策,而这些数据更有利或更不利于某一特定人群。

  为什么会出现数据偏见?“预测模型只能通过训练用的初始数据‘看’世界。事实上,它们对其他现实情况缺乏‘了解’。”Goodrum写道,“当这些初始数据存在偏见时,模型的准确性和保真度也会受影响。存在偏见的模型会降低重要利益相关者的信任度。在最坏的情况下,存在偏见的模型会主动歧视特定人群。”Goodrum指出,对上述风险的认知有助于消除偏见,获得更高质量的模型,而这不仅能提升分析结果的采用率,也能够提高分析方面投资的价值(bit.ly/2IHY7rK)。

  虽然数据偏见有多种不同类型,但两种最常见的类型是选择偏见(selection bias)与预带偏见的偏见(prejudice bias)。

  当选择的数据因缺乏必要的随机性而不能公正地代表整体时,就出现了选择偏见。例如,2015年,亚马逊公司将其招聘系统投入使用前,发现该系统偏好男性求职者。

  预带偏见的偏见因自动化偏见所致,依照M.L.Cummings的定义,自动化偏见是“依据计算机生成的、被认为是正确的解决方案,而忽视或不再搜寻矛盾信息的一种倾向”(bit.ly/37pjrfT)。这方面的例子包括COMPAS(替代处罚的罪犯矫正管理软件)——一种不同辖区的司法系统用于评估罪犯是否再次犯罪的算法。该系统将黑人被告误标为“高风险”的概率几乎是其误标白人被告的两倍,这也导致前者被判处的刑期更长(bit.ly/2Hl2rgn)。


数据生命周期

  偏见可能发生在数据生命周期的不同阶段。例如,数据偏见可能会因设计师或开发者有意识或无意识的偏见而产生,也可能会因所使用的数据集本身存在偏见而导致。在另一些例子中,数据集并没有明显的偏见,但在其选择或重点方面却有失公允。数据生命周期涉及以下几个阶段:

  1.数据采集是企业运用数据的第一步,即通过数据输入或经由数据入口、连接设备或物联网获取数据。

  2.数据维护是使用一组预定义的规则来转换并运用数据,评估数据的质量及完整性。

  3.数据合成通常称为“分析建模”,通过运用逻辑或使用其他数据输入来合成数据,创造更多价值。

  4.数据运用是将转换后的数据应用到内部管理报告中,帮助企业做出良好的商业决策。

  5.数据发布是创建外部报告,并向企业外部发布信息。

  6.数据归档将处于主动状态的数据转换为被动状态,以便根据需要对其进行检索和再利用。

  7.数据清除是从企业中删除数据(及其拷贝)。

  这一数据生命周期可在产生偏向性结果之前指导专业人员识别并减少数据偏见。前文提到的亚马逊公司案例发生在数据采集和数据维护阶段,因为该数据采集了过去10年间投递给该公司的大量简历,其中大多数来自于男性。而COMPAS则是在数据运用阶段出现的偏见,开发该系统的Northpointe公司运用了一种由增加假负例(即被不公正地归类为可能再次犯罪的人)来优化真正例(即极有可能再次犯罪的人)的逻辑。


尽可能减少数据偏见

  要减少有偏见的结果以及更好地进行决策,拥有公正无偏见的数据是必要条件。所以,企业应当在数据生命周期的早期阶段采集更具多样化和包容性的数据集,并审查数据的质量。那些希望减少使用带偏见数据的企业应当:

  1.拥有更多样化的员工队伍,使公司能够预测、发现和审查不公平的偏见问题,更好地融入易受偏见影响的社区。

  2.接收多样化人群对结果的反馈,以便在采集到的数据中更好地发现那些未意识到的偏见。多样化人群有助于减少数据生命周期中的偏见,从而最终减少带偏见的结果。

  大数据在快速促进社会进步。然而,随着科技的飞速发展,正确使用数据的责任也越来越大。

  企业日益希望更多地使用大型数据集和自动化系统来改进工作流程,因此,审查数据采集方式并积极减少偏见也变得越来越重要。这首先需要在招聘中运用最佳实践,以确保分派到项目的团队尽可能具有多样化和包容性,并得到了解数据偏见相关风险的管理层自上而下的支持。我们鼓励采取综合性的方法,就偏见的类型与减少偏见的最佳实践进行定期交流与持续教育。

  随着社会在科技方面不断进步,我们需要记住的是,技术无法基于有偏见的数据产出无偏见的结果,它理应用来减少而非增加人类的偏见。



                           

Richard Schaper,CMA,董事、CFO、私募股权投资人以及财务与会计学教授,IMA圣地亚哥分会理事会成员及IMA多样化与包容性委员会成员。联系方式:rjs@rjschaper.com。

                           

Kenya Matsushita,CMA、CPA,德勤会计师事务所高级咨询顾问,IMA多样化与包容性委员会成员。本文仅为作者个人观点,不代表德勤会计师事务所。联系方式:matsushitakenya@gmail.com。


纪文嘉 译,林芹 校

< 返回目录