OpenAI研究学者Tyna Eloundou、宾夕法尼亚大学教授Daniel Rock等发布的论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》中对GPT模型对美国劳动力市场的潜在影响进行了研究,并对美国各行业受GPT模型和相关技术的影响进行了排序。 研究结果表明 大约80%的美国劳动力可能有至少10%的工作任务受到GPT的影响,而大约19%的工作者可能看到他们至少50%的工作任务受到影响。受GPT模型影响最大的两个行业分别为 证券商品合约及其他金融投资行业和数据处理托管行业

摘要


【资料图】

我们研究了生成性预训练转换器(GPT)模型和相关技术对美国劳动力市场的潜在影响。相关技术对美国劳动力市场的潜在影响。使用一个新的评分标准,我们根据职业与GPT能力的对应关系来评估职业。与GPT能力的对应关系进行评估,其中包括人类的专业知识和GPT-4的分类。 我们的研究结果表明,大约80%的美国劳动力可能有至少10%的工作任务受到GPT的影响。而大约19%的工人可能看到他们至少50%的工作任务受到影响。这种影响跨越了所有的工资水平,高收入的工作可能会面临更大的影响。 值得注意的是,这种影响并不限于近期生产力增长较高的行业。我们的结论是,生成性预训练转换器表现出了通用技术(General-purpose technologies)的特征,这表明这些模型可能具有明显的经济、社会和政策影响。

1简介

如图1所示,最近几年、几个月和几周,生成性人工智能和大型语言模型(LLMs)领域取得了显著进展。虽然公众经常将LLMs与生成式预训练转化器(GPT)的各种迭代联系起来,但LLMs可以使用一系列架构进行训练,并不限于基于转化器的模型(Devlin et al.,2019)。LLM可以处理和产生各种形式的序列数据,包括汇编语言、蛋白质序列和国际象棋游戏,不仅仅是自然语言的应用。在本文中,我们在某种程度上交替使用LLM和GPT,并在我们的评分标准中明确指出,这些应被视为类似于通过ChatGPT或OpenAI Playground提供的GPT-家族模型(在标注时包括GPT-3.5家族的模型,但不包括GPT-4家族)。我们研究了具有文本和代码生成能力的GPT,并使用 "生成性人工智能 "——词来补充包括图像或音频等模式。

我们的研究与其说是受这些模型的进展所激励,不如说是受我们在围绕这些模型开发的补充技术中所看到的广度、规模和能力所激励。补充技术的作用还有待观察,但最大化LLM的影响似乎取决于将它们与更大的系统整合(Bresnahan,2019;Agrawal et al.,2021)。虽然我们把讨论的重点放在LLMs的生成能力上,但将LLMs用于其他任务可能会发展出新型的软件和机器对话:比如嵌入(embedding)使创建出定制的搜索应用程序成为可能);或者像总结和分类这样的任务。

图1:为了了解模型能力的进展速度--考虑GPT-3.5和GPT-4之间考试成绩的跳跃性(OpenAI, 2023b)。

为了使这一进展背景化并补充技术对劳动市场的影响预测,我们提出了一个新的评分标准,以了解LLM能力及其对工作的潜在影响。这个评分标准(A.1)衡量了任务对GPT的整体暴露,遵循了之前量化机器学习暴露度的工作原理(Brynjolfsson et al.,2018;Felten et al.,2018;Webb,2020)。我们将暴露度定义为潜在经济影响的指标,而不区分劳动力增加或劳动力转移的影响。我们采用人类注释者和GPT-4本身作为分类器,将这一标准应用于美国经济中的职业数据,主要来源于O*NET数据库。

为了构建我们的主要暴露度数据集,我们同时收集了人类注释和GPT-4分类,使用了一个经过调整的提示,以获得与作者的标签样本的一致性。我们观察到,当汇总到任务层面时,GPT-4的反应以及人类和机器的评价之间有类似的一致水平。这一措施反映了对使人类劳动更有效率的技术能力的估计;然而,社会、经济、监管或其他决定因素意味着技术可行性并不能保证劳动生产率或自动化结果。 我们的分析表明,当考虑到目前的模型能力和在此基础上建立的预期工具时,大约19%的工作至少有50%的任务被暴露。人工评估表明,当考虑到现有的语言和代码能力而没有额外的软件或模式时,只有3%的美国工人有超过一半的任务暴露在GPT中。考虑到其他生成模型和补充技术,人类评估表明,高达49%的工人可能有一半或更多的任务暴露于到LLMs。

我们的研究结果一致表明,在人类和GPT-4注释中,大多数职业都在一定程度上暴露于LLMs,不同类型的工作暴露程度也不同。工资较高的职业一般都有较高的暴露度,这一结果与对整体机器学习暴露度的类似评估相反。 (Brynjolfsson et al., 2023) 当使用O*NET的技能表对暴露度进行回归时,我们发现,严重依赖科学和批判性思维技能的角色与暴露度呈负相关,而编程和写作技能与LLM暴露度呈正相关。 我们按 "工作区域 "考察了进入的障碍,并发现职业暴露于LLM的机会随着工作准备的难度增加而微弱增加。换句话说,在工作中面临较高(较低)准入门槛的工人往往会更多(更少)暴露于LLMs。

我们进一步将我们的测量方法与以前记录经济中自动化风险分布的工作进行比较,发现结果大致一致。我们研究的大多数其他技术暴露措施与我们首选的暴露措施有统计学上的显著相关性,而人工常规化和机器人暴露的措施显示出负相关。 早期的努力 (Acemoglu and Autor, 2011a; Frey and Osborne, 2017; Brynjolfsson et al., 2018; Felten et al., 2018; Webb, 2020; Brynjolfsson et al., 2023) 与工资控制一起解释的方差在60%至72%之间,表明我们的人工智能暴露度的28%至40%的变化仍然没有被以前的技术暴露测量所解释。

我们按行业分析,发现信息处理行业(4位数NAICS)表现出高风险,而制造业、农业和矿业表现出较低的风险。过去十年的生产力增长和整体GPT暴露之间的联系似乎很弱,这表明了一个潜在的乐观情况,即未来LLMs的生产力增长可能不会加剧可能的成本疾病效应。 (Baumol, 2012)

我们的分析表明,像GPT-4这样的LLMs的影响,可能是普遍存在的。虽然LLMs的能力随着时间的推移不断提高,但即使我们今天停止开发新的能力,其不断增长的经济效应预计也会持续存在并增加。我们还发现,当我们考虑到补充性技术的发展时,LLM的潜在影响会显著扩大。总的来说,这些特征意味着生成性预训练变换器是通用技术。(Bresnahan and Trajtenberg, 1995; Lipsey et al., 2005)(Goldfarb et al.,2023)认为,机器学习作为一个大类,很可能是一种通用技术。我们的证据支持更广泛的影响,因为即使是机器学习软件的子集也能独立满足通用技术地位的标准。本文的主要贡献是提供了一套衡量LLM影响潜力的方法,并展示了应用LLM来有效和大规模地开发这种测量方法的使用案例。此外,我们还展示了LLM的通用潜力。如果 "GPT就是通用技术",那么对于政策制定者来说,LLM发展和应用的最终轨迹可能是难以预测和监管的。与其他通用技术一样,这些算法的大部分潜力将在广泛的有经济价值的用例中出现,包括创造新的工作类型。(Acemoglu and Restrepo, 2018; Autor et al., 2022a)我们的研究有助于衡量现在技术上的可行性,但必然会错过LLMs随着时间推移不断发展的影响潜力。

本文的结构如下。第2节回顾了先前的相关工作,第3节讨论了方法和数据收集,第4节介绍了汇总统计和结果,第5节将我们的测量与先前的工作联系起来,第6节探讨了结果,第7节提供了结论意见。

2文献回顾

2.1大型语言模型的进步

近年来,大型语言模型(LLMs)在人工智能(AI)研究领域崭露头角,展示了其处理各种复杂语言任务的能力。这一进展是由多种因素推动的,包括增加模型参数数、更大的训练数据量和增强的训练配置(Brown et al.,2020;Radford et al.,2019;Hernandez et al.,2021;Kaplan et al.,2020)。广泛的、最先进的LLMs,如LaMDA(Thoppilan et al.,2022)和GPT-4(OpenAI,2023b),在翻译、分类、创意写作和代码生成等不同的应用中表现出色--这些能力以前需要由专家工程师使用特定领域的数据开发专门的、特定任务的模型。

同时,研究人员通过使用人类反馈的微调和强化学习等方法,提高了这些模型的可指导性、可靠性和实用性(Ouyang et al.,2022;Bai et al.,2022)。这些进步增强了模型辨别用户意图的能力,使其更加方便用户和实用。此外,最近的研究揭示了LLMs编程和控制其他数字工具的潜力,如API、搜索引擎,甚至其他生成性人工智能系统(Schick et al.,2023;Mialon et al.,2023;Chase,2022)。这使得各个组件的无缝整合能够获得更好的效用、性能和概括性。从长远来看,这些趋势表明,LLM可能有能力执行任何通常在计算机上执行的任务。

在大多数情况下,生成性人工智能模型主要被部署为模块化专家,执行特定的任务,如从标题生成图像或从语音转录文本。然而,我们认为有必要采用更广泛的视角,将LLM视为额外工具的关键构建模块。虽然构建这些工具并将其整合到综合系统中需要时间,并需要对整个经济领域的现有流程进行重大重新配置,但我们已经观察到正在出现的采用趋势。尽管有其局限性,法律硕士正越来越多地被整合到写作协助、编码和法律研究等领域的专门应用中,为企业和个人更广泛地采用GPT铺平道路。

我们强调这些补充技术的意义,部分原因是开箱即用的通用GPT可能由于事实不准确、固有偏见、隐私问题和虚假信息风险等问题而继续对各种任务不可靠(Abid et al.,2021;Schramowski et al.,2022;Goldstein et al.,2023;OpenAI,2023a)。然而,专门的工作流程——包括工具、软件或人在环形系统——可以通过纳入特定领域的专业知识来帮助解决这些缺陷。例如,Casetext提供基于LLM的法律研究工具,为律师提供更快、更准确的法律研究结果,利用嵌入和总结来对抗GPT-4提供关于法律案件或文件集的不准确细节的风险。GitHub Copilot是一个编码助手,它采用LLM来生成代码片段和自动完成代码,然后用户可以根据他们的专业知识接受或拒绝。换句话说,虽然GPT-4本身确实不 "知道现在是什么时候",但给它戴上手表也很容易。

此外,当LLM超过一个特定的性能阈值时,可能会出现一个积极的反馈循环,使他们能够协助建立工具,以提高他们在各种情况下的实用性和可用性。这可以降低创建此类工具所需的成本和工程专业知识,有可能进一步加速LLM的采用和整合。(Chen et al.,2021年;Peng et al.,2023年)LLM也可以成为机器学习模型开发中的宝贵资产--作为研究人员的编码助手、数据标签服务或合成数据生成器。这些模型有可能为任务层面的经济决策做出贡献,例如,通过完善人类和机器之间的任务和子任务分配方法(Singla et al.,2015;Shahaf and Horvitz,2010)。随着LLMs随着时间的推移不断改进,并更好地与用户的偏好保持一致,我们可以预见性能会不断增强。然而,必须认识到,这些趋势也带来了各种严重的风险。(Khlaaf et al., 2022; Weidinger et al., 2022; Solaiman et al., 2019)

2.2 自动化技术的经济影响

大量且不断增长的文献涉及广义的人工智能和自动化技术对劳动力市场的影响。以技能为基础的技术变革和自动化的任务模式的概念--通常被认为是理解技术对劳动力影响的标准框架--起源于研究表明技术进步提高了对熟练工人的需求,而不是非熟练工人(Katz andMurphy, 1992)。许多研究在这一概念的基础上,在基于任务的框架内探讨了技术变革和自动化对工人的影响。这类研究表明,从事常规和重复性工作的工人在技术驱动的迁移中风险较高,这种现象被称为常规偏向的技术变革。最近的研究区分了技术的任务置换效应和任务恢复效应(新技术增加了对更多劳动密集型任务的需求)(Acemoglu and Restrepo,2018,2019)。一些研究表明,自动化技术导致了美国的工资不平等,由专门从事常规任务的工人的相对工资下降驱动(Autor et al.,2006;Van Reenen,2011;Acemoglu and Restrepo,2022b)。

之前的研究采用了各种方法来估计人工智能能力与工人在不同职业中承担的任务和活动之间的重叠。这些方法包括将专利描述映射到工人的任务描述(Webb,2020;Meindl et al.,2021),将人工智能能力与O*NET数据库中记录的职业能力联系起来(Felten et al.,2018,2023),通过认知能力将人工智能任务基准评估与工人任务相一致(Tolan et al.。2021),标记美国职业子集的自动化潜力,并使用机器学习分类器来估计所有其他美国职业的潜力(Frey和Osborne,2017),对任务级自动化进行建模,并将结果汇总到职业级见解(Arntz et al.,2017),专家预测(Grace et al.,2018),以及与本文最相关的,设计一个新的评分标准来评估工人活动对机器学习的适用性(Brynjolfsson et al.,2018,2023)。其中一些方法发现,在任务层面上对人工智能技术的接触往往在职业中是多样化的。考虑到每项工作都是一捆任务,很少能找到人工智能工具可以完成几乎所有工作的职业。(Autor et al.,2022a)也发现,自动化和增强的暴露往往是正相关的。还有越来越多的研究考察了LLM的具体经济影响和机会(Bommasani et al.,2021;Felten et al.,2023;Korinek,2023;Mollick and Mollick,2022;Noy and Zhang,2023;Peng et al.,2023)。在开展这项工作的同时,我们的测量结果有助于描述语言模型与劳动力市场更广泛的潜在关联性。

通用技术(如印刷、蒸汽机)(GPTs)的特点是广泛扩散、持续改进和产生互补性创新(Bresnahan and Trajtenberg,1995;Lipsey et al.,2005)。它们的深远后果在几十年内展开,很难预测,特别是在劳动力需求方面(Bessen,2018;Korinek和Stiglitz,2018;Acemoglu et al.,2020;Benzell et al.,2021)。实现通用技术的全部潜力需要广泛的共同发明(Bresnahan and Trajtenberg,1995;Bresnahan et al.,1996,2002;Lipsey et al.,2005;Dixon et al.,2021),这是一个昂贵和耗时的过程,涉及发现新的商业程序(David,1990;Bresnahan,1999;Frey,2019;Brynjolfsson et al.,2021;Feigenbaum and Gross,2021)。因此,许多关于机器学习技术的研究集中在系统层面的采用,认为组织系统可能需要重新设计,以有效利用新的机器学习进展(Bresnahan,2019;Agrawal et al.,2021;Goldfarb et al.,2023)。适当设计的系统可以产生相当大的商业价值并提高公司业绩(Rock,2019;Babina et al.,2021;Zolas et al.,2021),人工智能工具促进了发现过程(Cockburn et al.,2018;Cheng et al.,2022)。通过采用任务层面的信息来评估LLM是否满足GPT标准,我们试图合并这两个角度来理解技术-劳动关系。

我们试图以几种方式建立在这些不同的文献流之上。与Felten等人的观点相呼应,我们将分析重点放在LLMs的影响上,而不是更广泛地讨论机器学习或自动化技术。此外,我们提出了一种新的方法,采用LLMs,特别是GPT-4,来评估任务的暴露和自动化潜力,从而加强人类的评分工作。随后,我们将我们的发现汇总到职业和行业,捕捉到当代美国劳动力市场的整体潜在风险。

3 方法和数据收集

3.1 美国各职业所从事的活动和任务数据

我们使用O*NET 27.2数据库(O*NET,2023),其中包含了1016个职业的信息,包括其各自的详细工作活动(DWA)和任务。DWA是一个综合行动,是完成任务的一部分,如 "研究脚本以确定项目要求"。另一方面,任务是一个特定职业的工作单位,可能与任何、一个或多个DWA相关。我们在表1中提供了一个任务和DWAs的样本。我们使用的两个数据集包括。

- 19,265项任务,每项任务都有一个 "任务描述 "和一个相应的职业,大多数任务都与一个或多个DWA相关。

- 2,087个DWAs,其中大多数DWAs与一个或多个任务相关联,任务可能与一个或多个DWAs相关联,尽管有些任务没有任何相关的DWAs。

表1:O*NET数据库中的职业、任务和详细工作活动样本。我们看到,仅对活动进行汇总是不准确的,这一点可以从以下事实中得到证明:我们希望赌笼工作者能够亲自完成给定的详细工作活动,并使用一些体力,而我们希望网上商人能够仅仅通过计算机完成同样的活动。

3.2 关于工资、就业和人口统计的数据

我们从劳工统计局提供的2020年和2021年的职业就业系列中获得就业和工资数据。这个数据集包括职业名称、每个职业的工人数量、2031年职业层面的就业预测、进入某个职业所需的典型教育以及达到某个职业能力所需的在职培训(BLS,2022)。我们使用BLS推荐的与O*NET的对照表(BLS,2023b)来连接O*NET任务和DWA数据集和BLS劳动力人口统计(BLS,2023a),后者来自于当前人口调查(CPS)。这两个数据源都是由美国政府收集的,主要是捕捉那些非自雇的、有证件的、在所谓正规经济中工作的工人。

3.3 暴露度(Exposure)

我们根据暴露度评分标准来展示我们的结果,其中我们将暴露度定义为衡量访问GPT或GPT驱动的系统是否会将人类执行特定DWA或完成任务所需的时间减少至少50%。我们在下面提供了一个评分标准的摘要,而完整的评分标准可以在A.1中找到。当我们有DWAs的标签时,我们首先在任务层面进行汇总,然后再在职业层面进行汇总。

我们将曝光阈值设定为:在保持质量稳定的前提下,完成一项具体的工作任务所需的时间可能减少50%。我们预计,对于那些实现了相当大的生产力增长的应用来说,采用率将是最高和最直接的。虽然这个阈值有点随意,但为了便于注释者解释,我们选择了这个阈值。然后,我们收集了人类和GPT-4生成的注释,这些注释是本文中大部分分析的基础。

人类评分:我们通过将评分标准应用于每个O*NET详细工人活动(DWA)和所有O*NET任务的一个子集,然后在任务和职业层面上汇总这些DWA和任务的分数来获得人类注释。为了确保这些注释的质量,作者亲自对大量的任务和DWA进行了标注,并请来了经验丰富的人类注释者,这些注释者作为OpenAI对齐工作的一部分,对GPT输出进行了广泛的审查(Ouyang et al.,2022)。

GPT-4评分:我们对早期版本的GPT-4(OpenAI,2023b)进行了类似的评分,但对所有的任务/职业对而不是DWAs进行了评分。我们对评分标准(在这种情况下被用作对模型的"提示")做了轻微的修改,以加强与一组人类标签的一致性。表2中给出了完整的一致率。

表2:模型和人类的一致性和皮尔逊相关分数的比较。一致性分数是通过观察两组人对注释的一致程度来确定的(例如E0、E1或E2)。在本文中,我们使用GPT-4,Rubric 1。

我们为我们感兴趣的因变量构建了三个主要衡量标准:

(i)?,对应于上述暴露评分表中的E1,预计代表一个职业中暴露任务比例的下限。

(ii)?,是E1和0.5*E2的总和,其中E2的0.5权重是为了说明在通过补充工具和应用部署该技术需要额外投资时的暴露度。

(iii)?,E1和E2之和,这是一个暴露度的上限,对GPT和GPT驱动的软件的最大暴露度进行评估。

我们在表2中总结了注释组和措施之间的一致性。在其余的分析中,如果没有特别说明,读者可以认为我们指的是?暴露——意味着所有通过ChatGPT或OpenAI Playground等工具直接暴露的任务被认为是需要一些补充创新的任务的两倍。

3.4 我们方法的局限性

3.4.1 主观的人类判断

我们方法的一个基本限制在于标签的主观性。在我们的研究中,我们采用了熟悉GPT模型能力的注释者。然而,这个群体的职业并不多样化,可能会导致对GPT的可靠性和在不熟悉的职业中执行任务的有效性作出有偏见的判断。我们认识到,为职业中的每项任务获得高质量的标签需要从事这些职业的工人,或者至少对这些职业中的各种任务有深入的了解。这代表了未来工作的一个重要领域,以验证这些结果的重要领域。

图2:人类评分者(X轴)和GPT-4评分(Y轴)显示出对职业的GPT暴露有高度的一致性。在按照?方法将暴露分数汇总到职业的最高水平附近,GPT-4评分往往低于人类评分。我们列出了原始散点和二进制散点。在接近暴露等级的高端时,人类平均更有可能将一个职业评为暴露等级。

3.4.2 用GPT-4测量GPTs

最近的研究表明,GPT-4作为一个有效的判别器,能够应用复杂的分类法,并对措辞和重点的变化做出反应。(OpenAI, 2023b) GPT-4任务分类的结果对评分标准的措辞、提示的顺序和组成、评分标准中是否有具体的例子、提供的详细程度以及关键术语的定义等方面的改变很敏感。根据小型验证集的观察结果,对提示进行迭代,可以提高模型输出和评分标准意图之间的一致性。因此,呈现给人类的评分标准和用于GPT-4的评分标准之间存在轻微的差异。这一决定是有意做出的,以引导模型走向合理的标签,而不过度影响人类注释者。因此,我们使用了多个注释来源,但相对于其他来源,没有一个应该被认为是最终的基础真理。在分析中,我们将把来自人类注释者的结果作为我们的主要结果。在为LLM分类制定有效的评分标准方面,进一步的改进和创新仍然是可能的。尽管如此,我们观察到人类评分和GPT-4评分在职业层面上对GPT系统的总体接触有高度的一致性(见表2,图2)。

3.4.3 其他弱点

基于任务的框架的有效性。 目前还不清楚职业在多大程度上可以被完全分解为任务,也不清楚这种方法是否系统地遗漏了某些类别的技能或任务,而这些技能或任务是胜任一项工作所默示的。此外,任务可以由子任务组成,其中一些任务的自动化程度比其他任务高。有些任务可以作为其他任务的前导,这样,下游任务的完成就取决于前导任务。如果基于任务的细分确实不能有效代表一个职业中大多数工作的执行方式,我们的暴露分析就会在很大程度上失效。

相对与绝对措施。 最好将这些措施解释为相对措施,例如,估计暴露量为0.6的职业可能应被解释为只是比暴露量为0.1的职业暴露得多。

缺少专业知识和任务解释。 在标记过程中,人类注释者大多不知道映射到每个DWA的具体职业。这导致了任务和职业的聚合逻辑不明确,以及标签中一些明显的差异,见表1。我们尝试了各种聚合方法,发现即使采用最大匹配方法(如果存在匹配的人类<>模型标签,则采用匹配的人类<>模型标签),协议仍然相对一致。最终,我们为存在重大分歧的任务/职业对收集了额外的标签。

具有前瞻性,并会有变化。 准确预测未来的LLM应用仍然是一个巨大的挑战,即使对专家来说也是如此(OpenAI,2023b)。新出现的能力、人类感知的偏差和技术发展的转变都会影响有关LLM对工人任务潜在影响的预测的准确性和可靠性。我们的预测本质上是前瞻性的,是基于当前的趋势、证据和对技术可能性的看法。因此,它们可能会随着该领域的新进展而改变。例如,一些今天看来不太可能对LLM产生影响的任务可能会随着新模型能力的引入而改变。反之,那些看起来已经暴露的任务可能会面临未曾预料到的挑战,限制了语言模型的应用。

分歧的来源。 虽然我们没有严格检查分歧的来源,但我们发现有几个地方人类和模型在评估时往往会 "卡壳"。

- 在一些任务或活动中,虽然理论上LLM可以帮助或完成任务,但如果采用它,就需要多人改变他们的习惯或期望(如会议、谈判)。

- 目前存在一些需要人类监督的规定或暗示人类判断或同情的规范的任务或活动(例如,做决定、咨询)。

- 已经存在可以合理地将任务自动化的技术的任务或活动(例如,预订)。

4结果

通用技术是比较少见的。通用技术的特点是其普遍性、随着时间的推移而改进的能力、以及可发展的共创性和外溢效应 (Lipsey et al.,2005)。我们对GPT对劳动力市场影响的评估是有限的,因为它没有考虑全要素生产率或资本投入潜力。除了对劳动力的影响外,GPTs还可能影响这些方面。

在这个阶段,某些GPT标准比其他标准更容易评估。例如,从长远来看,评估这些模型能力的长期影响以及互补性应用和系统的增长更为可行。我们在这个早期阶段的主要重点是测试GPT语言模型对经济有普遍影响的假设,类似于(Goldfarb et al.,2023)通过招聘信息对机器学习扩散的分析,以评估机器学习作为一个算法类别的GPT潜力。相比使用招聘信息或研究一般的机器学习,用人类和GPT注释检查任务评估的方法可能更能发现GPT的影响是否是仅限于一小部分类似的任务或职业。

我们的研究结果表明,基于其任务层面的能力,GPT有可能对美国经济中的各种职业产生重大影响,显示了通用技术的一个关键属性。在下面的章节中,我们将讨论各种角色和工资结构的结果。关于美国经济中各行业相对风险的其他结果可在附录D中找到。

4.1 统计摘要

这些措施的统计摘要可在表3中找到。 人类和GPT-4注释都表明,职业层面的平均?值在0.14和0.15之间,表明对于中位职业,大约15%的任务直接暴露于GPTs。这个数字对于?来说增加到30%以上,对于?来说超过了50%。巧合的是,人类和GPT-4注释也将数据集中总任务的15%至14%标记为暴露于GPTs。

根据?值,我们估计80%的工人属于至少有一项任务暴露于GPTs的职业,而19%的工人属于一半以上的任务被标记为暴露的职业。

尽管任务受影响的可能性很大,但GPT必须被纳入更广泛的系统,以充分实现这一潜力。正如通用技术所常见的那样,这种共同发明的障碍可能会阻碍GPTs在经济应用中的快速推广。此外,预测对人类监督的需求是具有挑战性的,特别是对于模型能力等于或超过人类水平的任务。虽然对人类监督的要求最初可能会减慢采用和扩散的速度,但随着时间的推移,GPT和GPT驱动的系统的用户可能会越来越熟悉这项技术,特别是在了解何时和如何信任其输出方面。

表3:人类和模型暴露数据的汇总统计。

4.2 工资和就业

在图3中,我们展示了整个经济的暴露强度。右图显示的是工人的暴露度,左图显示的是职业的暴露度。图中的每一点都代表了Y轴上的工人(和职业)的估计百分比,X轴上标明了暴露程度(?,?,和?)。例如,人类注释者确2.4%的工人是?50-暴露的,18.6%是?50-暴露的,49.6%是?50-暴露的,其中50%的阈值来自x轴,工人的百分比来自图2右图的y轴。在x轴上的任何一个点,?和?之间的垂直距离代表了可归因于直接接触GPT以外的工具和应用的暴露潜力。工人和职业的暴露分布是相似的,这表明工人在职业中的集中度与职业暴露于GPT或GPT驱动的软件没有很大关系。

如图4所示,在职业层面上,人类和GPT-4注释表现出质量上的相似性,并趋于相关。与GPT-4注释相比,人类注释对高工资职业的暴露估计略低。虽然有许多低工资职业的暴露量高,而高工资职业的暴露量低,但二元散点图的总体趋势显示,工资越高,对GPT的暴露量就越大。

对GPT的潜在暴露似乎与目前的就业水平没有什么关联。在图4中,人类和GPT-4对总体暴露的评价都被汇总到职业层面(Y轴),并与总就业人数的对数(X轴)进行比较。这两张图都没有显示出不同就业水平的GPT暴露的明显差异。

图3:整个经济体的暴露强度,左边显示为受影响职业的百分比,右边显示为受影响工人的百分比。不同职业和不同工人的暴露分布相似,这表明工人在职业中的集中度与职业对GPT或GPT驱动的软件的暴露并不高度相关。然而,我们确实预计它可能与为特定领域开发GPT驱动的软件的投资高度相关。

4.3 技能的重要性

在这一节中,我们研究了技能对职业的重要性(如O*NET数据集中的注释)和我们的暴露测量之间的关系。我们首先采用O*NET提供的基本技能(技能定义可在附录B中找到),并对每个职业的技能重要性进行标准化衡量,以提高可解释性。然后,我们对我们的接触措施(?,?,?)进行回归分析,以检查技能重要性和接触之间的关联强度。

我们的研究结果表明,科学和批判性思维技能的重要性与暴露程度呈强烈的负相关,这表明需要这些技能的职业不太可能受到当前语言模式的影响。相反,编程和写作技能与曝光率显示出强烈的正相关,意味着涉及这些技能的职业更容易受到语言模式的影响(详细结果见表5)。

图4:二元散点图描述了由人类评估员和GPT-4评估的各种职业中暴露于LLM的情况。这些图将职业层面上的GPT暴露(?)与职业内总就业人数的对数和职业年薪中位数的对数进行比较。虽然存在一些差异,但人类和GPT-4的评估都表明,工资较高的职业往往更容易受到LLM的影响。此外,根据我们的评分标准,许多工资较低的职业表现出较高的暴露度。在计算平均暴露分数时,核心任务的权重是职业内补充任务的两倍。就业和工资数据来自于2021年5月进行的BLS-OES调查。

4.4 工作门槛

接下来,我们研究了进入工作的门槛,以更好地了解是否存在因工作类型而导致的暴露差异。其中一个指标是O*NET的职业级别描述符,称为 "工作区"。一个工作区将在以下方面相似的职业分组:(a)获得该职业工作所需的教育水平,(b)从事该工作所需的相关经验数量,以及(c)从事该工作所需的在职培训程度。在ONET数据库中,有5个工作区,工作区1需要最少的准备工作(3个月),工作区1需要最久的准备工作(4年或更长时间)。我们观察到,随着所需准备程度的增加,各工作区的收入中位数也呈单调增长,工作区1的收入中位数为30-230美元,工作区5的收入中位数为80-980美元。

我们所有的衡量标准(?、?和?)都显示出相同的模式,即从第一工作区到第四工作区,暴露度越来越高,而在第五工作区则保持相似或有所减少。我们绘制了处于每个暴露阈值的工人的百分比。我们发现,平均来说,在工作区1-5中,职业暴露超过50%的工人百分比?分别为0.00%(工作区1)、6.11%(工作区2)、10.57%(工作区3)、34.5%(工作区4)和26.45%(工作区5)。

图5:五个工作区的职业暴露评级(根据从事这些职业所需的教育、经验和在职培训水平来分类)。

4.4.1 入职所需的典型教育

由于被纳入工作区既考虑了所需的教育——其本身就是技能获取的替代物——又考虑了所需的准备,我们寻求数据来分解这些变量。我们使用劳工统计局的职业数据中的两个变量。"入职所需的典型教育 "和 "达到能力所需的在职培训 "的职业。通过研究这些因素,我们旨在发现对劳动力有潜在影响的趋势(因缺乏有关教育和在职培训要求的数据,有3,504,000名工人没有被列入汇总表)。

我们的分析表明,拥有学士、硕士和专业学位的人比没有正式教育证书的人更容易接触到GPT和GPT驱动的软件(见表7)。我们还发现拥有一些大学教育但没有学位的人对GPT和GPT驱动的软件表现出较高的接触水平。我们发现暴露度最少的工作是那些需要最长的培训时间,且一旦达到能力要求可能只会提供较低的收入回报(以收入中位数计算)的工作。相反,不需要在职培训或只需要实习的工作似乎可以获得更高的收入,但有更高的暴露度。

表4:根据每个测量值,暴露程度最高的职业。最后一行列出了具有最高?2值的职业,表明它们在脆弱性预测方面具有最大的变化性。暴露百分比表示一个职业的任务中暴露于GPT(?)或GPT驱动的软件(?和?)的份额,其中暴露被定义为推动完成任务的时间减少至少50%(见暴露评分表A.1. 因此,本表所列的职业是我们估计GPT和GPT驱动的软件能够为工人节省大量时间完成大部分任务的职业,但这并不一定表明他们的任务可以通过这些技术完全自动化。

表5:关于O*NET技能的暴露度计量的OLS回归结果

表6:按工作区划分的GPT暴露度的情况

表7:职业的平均接触分数,按达到工作能力所需的在职培训水平分组。除了暴露分数,我们还显示了每个职业的年收入中位数,以及每组工人的总数。

5验证的方式

5.1与早期方式比较

本文旨在基于一些以前的实证研究基础上,研究人工智能和/或自动化进步的职业暴露。以前的研究使用了各种方法,具体包括:

使用像O*NET的职业分类法来描述哪些职业有常规与非常规、手工与认知任务的内容 (Autor et al., 2003; Acemoglu and Autor, 2011a)

将任务的文本描述映射到专利中的技术进步描述 (Autor et al., 2003; Acemoglu and Autor, 2011a).

将人工智能系统的能力与职业能力联系起来,并将暴露估计值汇总到需要这些能力的职业中 (Felten et al., 2018, 2023)

通过从认知科学文献中提取的14种认知能力,将人工智能任务基准评估 (ImageNet, Robocup, etc.) 的结果映射到59个工人任务 (Tolan et al., 2021)

专家对一组O*NET职业的自动化潜力进行标注,其中专家具有很高的置信度,并结合概率分类器来估计O*NET职业的其余部分的自动化潜力 (Frey and Osborne,2017)

制定一个评估工人在经济中完成的活动"是否适合机器学习"(适用机器学习)的评分标准 (Brynjolfsson and Mitchell, 2017; Brynjolfsson et al., 2018, 2023)

我们在表8中提供了一组关于许多早期努力的汇总统计。

本文的方法主要建立在适用机器学习方法的基础上,通过开发了一个评分标准,以评估OLM能力与O*NET数据库中报告的工人任务之间的重叠。表9列出了新的大型语言模型暴露测量值对于职业水平暴露测量OLS回归结果,这些测量来自(Felten et al., 2018) (表中"人工智能职业暴露得分")、(Frey and Osborne, 2017) (Frey & Osborne Automation)、(Webb,2020)中所有三种技术的得分、以及(Acemoglu and Autor, 2011a)和(Brynjolfsson et al., 2018, 2023)(适用机器学习)。我们还使用最新劳工统计局职业就业调查的年化职业工资作为对照。本文中有四个独立的输出变量代表了早期工作预测的新分数。

GPT–4暴露评级1对应于我们用GPT–4评估的整体暴露评分标准,其中完全暴露的可能性被编码为1,无暴露的可能性被编码为0,部分暴露(在我们的标签方案中为E2)被编码为0.5。GPT–4暴露等级2的评分与总体暴露评分相似,但提示略有不同。这两个提示的结果非常相似。GPT–4自动化评级应用了我们的"T"评分标准,将没有来自大型语言模型的自动化暴露编码为0,全自动化暴露为1,2、3、4级分别为0.25、0.5和0.75。最后,人类暴露等级代表了与GPT–4暴露评分1中的评分相同,但由人类来打分,如论文前面部分所述。这些结果与上面介绍的?组统计数据相对应。

每种类型的测量结果都是一致的。我们发现,大型语言模型暴露衡量标准和以前针对软件和人工智能的衡量标准之间,存在正相关和统计学上显著的相关性。令人鼓舞的是,按职业划分的适用机器学习暴露分数与我们在本文中开发的暴露分数显示出显著的正相关,表明这两项研究在相似的方法上有一定程度的一致性。基于Webb软件和人工智能专利的衡准,适用机器学习,以及归一化(去重并除以标准差)常规认知分数都与我们的一些措施呈现出正相关。

表8:一系列早先测量人工智能和自动化职业暴露的汇总统计数据。我们还包括了本工作中新提出的测量方法的汇总统计。包括来自(Webb,2020)的所有措施,来自(Acemoglu and Autor, 2011a)的归一化常规认知和手动评分(由于职业组的不完全匹配,平均值可能略微偏离0),来自(Brynjolfsson and Mitchell, 2017; Brynjolfsson et al., 2018, 2023)的机器学习适用性,来自(Felten et al.,2018)的人工智能职业暴露,和自动化暴露(Frey and Osborne,2017)。我们包括尽可能多的职业,但由于O*NET分类标准随着这些衡量标准的制定而发生了变化,一些角色可能在最新版本的O*NET6位数职业中缺失。

软件、适用机器学习和常规认知分数都与大型语言模型的暴露评分在1%的水平上存在积极且具有统计学意义的相关性。来自(Webb,2020)的人工智能分数的系数也是正的,并且在5%的水平上具有统计学意义,但是我们在第3列和第4列中对大型语言模型的整体暴露的二次提示没有显示出统计学意义的关系。在大多数情况下,人工智能职业暴露评分与我们的暴露测量值无关。Webb的机器人暴露得分、常规手工任务内容和整体自动化指标(Frey and Osborne,2017)都与我们主要GPT–4和人类评估的整体暴露评级呈负相关,以其他测量为条件。这种负相关反映了物理任务对大型语言模型的暴露有限。手工作业暂时不暴露于大型语言模型,甚至不暴露于有额外系统集成的大型语言模型。我们的自动化评分结果也与(Frey and Osborne,2017)的测量标准不相关。

与(Felten et al.,2018)和(Frey and Osborne,2017)的低相关性可能是由方法的不同所解释的。将人工智能能力与工人能力联系起来,或直接根据职业的特点对暴露进行评分,而不是从详细工作活动或任务层面的评分汇总到职业(如适用机器学习的论文和我们自己的论文所述),为职业的内容提供了一个略有不同的视角。

在所有的回归中,?2的范围,在60.7%(第3列)和72.8%(第5列)之间。这表明与其他测量方法相比,我们的测量方法明确关注大型语言模型能力,具有28%至40%的无法解释的差异。特别是在与人工智能有关的暴露分数的情况下,我们预计其他测量的组合将与我们的分数有很强的相关性。然而,早期的工作对大型语言模型技术的未来进展信息有限。我们预计,对未来机器学习技术的理解也同样不完全被我们今天的准则所理解。

表9:GPT暴露评分的核心在于对早先工作的回归。我们早期量化人工智能和自动化职业暴露的准则中暴露测量的回归系数。我们还包括来自2021年5月BLS–OES调查的年化工资。除了来自(Acemoglu和Autor,2011a)的常规认知和常规手动评分外,每项测量都保持在其原始量表中。这两个分数被标准化为平均值为零,方差为1。一般来说,我们发现与以前的努力有很强的正相关,尽管我们的新措施仍可以解释较大的残差。第1列和第2列基于我们对GPT–4评级的主要?暴露测量。第3列和第4列是基于一个类似的、稍有不同的、也是由GPT–4评分的曝光度标准,以保证稳健性。第5列和第6列反映了人类在与第1列和第2列相同的评分标准上的评分。

6 讨论

6.1 GPT作为一种通用技术

在本文的前面, 我们讨论了GPT可以被归类为通用技术的可能性。这种分类要求GPTs满足三个核心标准:随着时间的推移而改进,在整个经济中的普遍性,以及催生互补性创新的能力 (Lipsey et al.,2005)。来自人工智能和机器学习文献的证据充分表明,GPT符合第一个标准––随着时间的推移,能力不断提高,有能力完成或帮助完成一系列日益复杂的任务和用例(见2.1)。本文提出了支持后两个标准的证据,发现GPT本身可以对整个经济产生普遍的影响,而GPT所实现的互补创新,特别是通过软件和数字工具可以广泛地应用于经济活动。

图3说明了建立在大型语言模型之上的补充性软件的潜在经济影响。在X轴的某一点上,取?和?之间的Y轴之差(所有职业中的份额)(在一个职业中被暴露的任务份额),可以得到职业内的暴露潜力总和,而不是大型语言模型本身的直接暴露。使用GPT–4注释的所有任务中,?和?的平均值为0.42,使用人类注释的平均值为0.32(见图3),这表明由GPT驱动的软件对任务暴露的平均影响可能比大型语言模型本身的平均暴露大两倍以上(基于人类注释和GPT–4注释的平均值为0.14)。我们的研究结果表明,这些模型与相当份额的工人和任务有关,但它们也表明,所产生的软件创新可以推动更广泛的影响。

一项技术的普遍性的一个组成部分是它被企业和用户采用的程度。本文没有系统地分析这些模式的采用情况,然而,有早期的定性证据表明,大型语言模型的采用和使用正变得越来越广泛。在大型语言模型的基础上进行的相对简单的UI改进的力量在ChatGPT的推出中显而易见,其中底层模型的版本以前可以通过API获得,但在ChatGPT接口发布后,使用率急剧上升。(Chow, 2023; OpenAI,2022)在这次发布之后,一些商业调查表明,在过去几个月中,公司和员工对大型语言模型的采用有所增加(Constantz, 2023; ResumeBuilder.com, 2023)。

然而,广泛地采用这些模型,就必须要识别现有的瓶颈。决定其效用的一个关键因素是人类对它们的信任程度以及习惯。例如,在法律界,模型的有效性取决于法律专业人士是否能够信任它们的输出,而不需要核实原始文件或进行独立研究。技术的成本和灵活性、工人和公司的偏好以及激励措施在采用基于大型语言模型的工具方面发挥着重要作用。通过这种方式,采用的动力可能来自于与大型语言模型相关的一些道德和安全暴露的进展:偏见、编造事实和错位,仅举几例OpenAI (2023a)。

此外,由于数据可用性、监管质量、创新文化以及权力和利益分配等因素,不同经济部门对大型语言模型的采用会有所不同。因此,要全面了解工人和公司对大型语言模型的采用和使用,需要对这些错综复杂的问题进行更深入的探讨。

一种可能性是,对于大多数任务来说,节省时间和无缝应用将比提高质量更重要。另一种情况是,最初的重点将是增强,然后是自动化(Huang and Rust,2018)。这可能会形成的一种方式是,在完全自动化之前,工作首先变得更不稳定(作家成为自由职业者)的增强阶段可能会结束。

6.2 对美国公共政策的影响

此前,包括大型语言模型在内的自动化技术的引入,与经济差距加剧和劳动力中断有关,这可能会引起下游的不利影响。(Acemoglu and Restrepo, 2022a; Acemoglu, 2002; Moll et al., 2021; Klinova and Korinek, 2021; Weidinger et al., 2021, 2022) 美国工人的暴露研究结果强调了社会和政策对大型语言模型及其产生的补充技术所带来的潜在经济破坏需要做好准备。虽然建议具体的政策方案平稳过渡到一个越来越广泛采用大型语言模型的经济体超出了本文的范围内,但之前的工作,如(Autoret al.,2022b)已经阐明了美国政策的几个重要方向,涉及教育、工人培训、安全网计划改革等。

6.3 局限性和未来工作

这项研究有几个局限性,需要进一步调查。首先,对美国的关注限制了我们的研究结果在其他国家的推广,因为这些国家的生成模型的采用和影响可能因行业组织、技术基础设施、监管框架、语言多样性和文化背景等因素而有所不同。我们希望通过扩大研究范围和分享我们的方法来解决这一局限性,以便其他研究人员能够在此基础上进行研究。

随后的研究工作应考虑两项额外的研究:一项是探索不同部门和职业的GPT采用模式,另一项是仔细研究最先进的模型在暴露分数范围之外的工人活动实际能力和局限性。例如,尽管最近GPT–4在多模态能力方面取得了进展,但我们并没有考虑GPT直接暴露的?评级。(OpenAI, 2023b)未来的工作应该考虑这种能力进步的影响。我们承认,理论性能和实践性能之间可能存在差异,特别是在复杂、开放式和特定领域的任务中。

7 总结

总之,本研究对大型语言模型,特别是GPT对美国经济中各种职业和行业的潜在影响进行了研究。通过应用一个新的标准来理解大型语言模型的能力及其对工作的潜在影响,我们观察到大多数职业都表现出一定程度的GPT暴露,高工资的职业通常呈现出更多的高暴露任务。我们的分析表明,考虑到目前的模型能力和预期的GPT驱动的软件时,大约19%的工作有至少50%的任务暴露在GPT下。

我们的研究旨在强调GPT的通用潜力及其对美国工人的可能影响。以前的文献表明,迄今为止GPT的显著改进(见2.1)。我们的研究结果证实了这样的假设,即这些技术可以对美国广泛的职业产生普遍的影响,而且由GPTs支持的额外进步,主要是通过软件和数字工具,可以对一系列经济活动产生重大影响。尽管GPT提高人类劳动效率的技术能力似乎很明显,但重要的是要认识到社会、经济、监管和其他因素可能会影响实际劳动生产率结果。随着能力的不断发展,GPTs对经济的影响可能会持续和增加,给政策制定者预测和监管其发展轨迹带来了挑战。

有必要进一步的研究GPT进步的更广泛的影响,包括其增加或取代人类劳动的潜力,对工作质量的影响,对不平等的影响、技能发展以及许多其他结果。通过寻求了解GPT对劳动力的能力和潜在影响,政策制定者和利益相关者可以做出更明智的决定,以驾驭人工智能的复杂格局及其在塑造未来工作中的作用。

7.1 GPT结论 (GPT–4的版本)

生成性预训练转化器(GPT)产生了深刻的转变,获得了潜在的技术增长,渗透到任务中,极大地影响了职业。这项研究探测了GPT的潜在轨迹,提出了一个开创性的标准来衡量任务的GPT暴露值,特别是在美国劳动力市场。

7.2 GPT结论(作者增订版)

生成性预训练转化器(GPT)产生了深刻的转变,获得了潜在的技术逻辑增长,渗透到任务中,消化了专业管理。衡量可能的轨迹?产生开创性的分类法,将决策者聚集在一起,归纳出今天的情况。

A 分类法

A.1 暴露

#E曝光评分表

考虑一下最强大的OpenAI大型语言模型(LLM)。这个模型可以完成许多任务,这些任务可以被表述为有文本输入和文本输出,其中输入的上下文可以被捕获为2000字内。除非在输入中捕捉到最新事实,否则模型也无法绘制最新事实(小于1年前的事实)。

假设你是一名工作人员,在你的岗位上具有平均水平的专业知识,试图完成给定的任务。你可以使用大型语言模型以及任务中提到的任何其他现有软件或计算机硬件工具,还可以使用任何可通过笔记本电脑访问的常用技术工具(例如,麦克风、扬声器等)。你不能使用任何其他物理工具或材料。

请根据下面的评分标准给给定的任务贴上标签。

同等质量意味着审查工作的人将无法分辨出是人类自己完成的还是在大型语言模型的协助下完成的。

如果你不确定如何判断一项任务所需的时间,可以考虑所描述的工具是否暴露了与该任务相关的大多数子任务。

##E1–直接暴露

如果仅通过ChatGPT或OpenAI游乐场这样的接口直接访问大型语言模型,就可以将完成同等质量的任务所需的时间至少减少一半,则将任务标记为E1。这包括可以减少为以下任务。–根据复杂的指令编写和转换文本和代码,–按照规范对现有文本或代码提供编辑,–编写有助于执行过去手工完成的任务的代码,–在语言之间翻译文本,–总结中等长度的文件,–对文件提供反馈,–回答有关文档的问题,–生成用户可能想问的关于文档的问题,–为面试或评估撰写问题,–撰写和回复电子邮件,包括涉及反驳信息或参与谈判的电子邮件(但仅当谈判是通过书面信函进行的情况下),–保存书面数据的记录,–根据一般知识准备培训材料,或–通过任何书面或口头媒介告知任何人任何信息。

##E2––由大型语言模型驱动的应用程序的暴露

如果仅访问大型语言模型,则标记任务E2可能不会将完成任务所需的时间减少至少一半,但很容易想象,可以在大型语言模型之上开发额外的软件,从而将完成任务的时间减少一半。这种软件可能包括以下功能。–总结超过2000字的文件,并回答有关这些文件的问题,–从互联网上检索最新的事实,并将这些事实与大型语言模型的功能相结合,–检索组织的现有知识、数据或文件,并检索信息,–检索高度专业化的领域知识,–在给定数据或书面输入的情况下提出建议,–分析书面信息,为决策提供依据,–根据高度专业化的知识编写培训材料,–就问题提供咨询,以及–维护复杂的数据库。

##E3–给定的图像功能的暴露

假设您可以访问大型语言模型和一个可以查看、说明和创建图像的系统,以及任何由大型语言模型支持的系统(上面E2中的系统)。这个系统不能将视频作为输入,也不能将视频作为输出。该系统不能准确地从图像输入中检索非常详细的信息,如图像中的尺寸测量。如果在使用大型语言模型和这些图像能力的情况下,完成任务所需的时间明显减少,则将任务标记为E3。–从PDF文件中阅读文本,–扫描图像,或–根据指示创建或编辑数字图像。

图像可以是真实的,但不应该是详细的。模型可以识别图像中的物体,但不能识别这些选项之间的关系。

##E0–没有暴露

如果以上任何一项都没有明显减少经验丰富的工人高质量完成任务所需的时间至少一半,则标记任务E0。一些例子。–如果一项任务需要高度的人际互动(例如,亲身示范),那么应该被归类为E0。–如果任务需要精确的测量,则应将其归类为E0。–如果一项任务需要详细地审查视觉效果,那么应该被归类为E0。–如果一项任务需要使用手或走路,那么它应该被归类为E0。–建立在大型语言模型之上的工具不能做出任何可能影响人类生活的决定(例如,招聘、分级等)。如果任务的任何部分涉及到收集输入以做出最终决定(而不是分析数据以告知决定或提出建议),那么它应该被归类为E0。大型语言模型可以提出建议。–即使建立在大型语言模型之上的工具可以完成任务,如果使用这些工具不能为有经验的工人节省大量的时间来完成这项任务,那么应该被列为E0级。–大型语言模型和建立在其之上构建的系统不能做任何在法律上需要人类来完成的任务。–如果现有技术不是基于常用的大型语言模型,并且可以完成任务,那么如果使用大型语言模型或基于大型语言模型的工具不会进一步减少完成任务的时间,则应将任务标记为E0。

如果有疑问,则应默认为E0。

##注释的例子。

职业:检验员、测试员、分拣员、取样器和称重员任务:调整、清洁或修理产品或处理设备,以纠正检查过程中发现的缺陷。标签(E0/E1/E2/E3):E0说明:该模型无法获得任何形式的物理性,所描述的一半以上的任务(调整、清洁和修理设备)需要手或其他实施方式。

职业:计算机和信息研究科学家任务:应用理论专业知识和创新来创造或应用新技术,例如调整将计算机应用于新用途的原理。标签(E0/E1/E2/E3):E1解释:模型可以在训练期间学习理论专业知识,作为其一般知识库的一部分,并且可以在输入到模型的文本中捕捉到要适应的原则。

活动:安排用餐预订。标签(E0/E1/E2/E3):E2解释:自动化技术已经存在(例如Resy),目前尚不清楚大型语言模型除了使用该技术之外还能提供什么(没有差异)。也就是说,你可以建立一些东西,要求大型语言模型为你预订Resy。

B ONET基本技能的定义

基本技能

发展有助于学习或更快速地获取知识的能力。

内容

在各种不同的领域中与之合作并获得更具体的技能。

· 阅读理解 –理解工作相关文件中的书面句子和段落。

· 积极倾听 –全神贯注地听别人说话,花时间去理解别人的观点,适当地提出问题,不在不恰当的时候打断别人。

· 写作 ––根据受众的需要,以书面形式进行有效沟通。

· 说话 –与他人交谈,有效地传达信息。

· 数学 –使用数学来解决问题。

· 科学 –使用科学规则和方法来解决问题。

过程

有助于更迅速地获得各种领域的知识和技能的程序

· 批判性思维 –使用逻辑和推理来确定替代解决方案、结论或解决问题的方法的优势和劣势。

· 主动学习 –了解新信息对当前和未来问题解决和决策的影响。

· 学习策略 –在学习或教授新事物时,选择和使用适合情况的培训/教学方法和程序。

· 监测 –监测/评估自己、其他个人或组织的表现,以做出改进或采取纠正措施。

C教育

表10:职业的平均暴露分数,按进入该职业所需的典型教育进行分组。除了暴露分数外,我们还显示了每个职业的年收入中位数,以及每组工人的总数,单位为数千人。

D区域、工业和生产力方面的暴露

哪些地区最容易受到自动化和增强的影响(地图)

图6和图7分别显示了根据人类评分者和我们的算法暴露评分标准,3位数北美行业分类系统的总体就业加权相对暴露。影响潜力几乎存在于所有的行业,具有广泛的异质性。表XX (列出显示相对暴露的表格)描述了根据不同评价制度的相对暴露。两种方法在相对暴露上基本一致:数据处理、信息处理和医院都有高暴露。

图6

图7

最近的生产力增长(包括全要素和劳动力)似乎也与暴露无关。图6和7显示,自2012年以来的生产力增长与模型评出的目前的大型语言模型暴露之间没有什么关系。已经快速增长的生产性行业与暴露之间的高相关性可能意味着鲍莫尔成本病的加剧。换句话说,如果大型语言模型有可能在不同的行业中不同地提高生产力,那么一个令人担忧的问题是,生产力最高的行业会变得更具生产力。由于对这些行业的生产需求缺乏弹性,最具生产力的部门在经济中的投入比例将会缩减。我们没有看到有什么迹象表明会出现这种情况。自2012年以来的生产力增长和大型语言模型技术的暴露似乎没有关系。

E人口统计学差异的暴露

表11:人口统计学差异的的暴露

从上表中看出,从事某一职业的女性比例与该职业暴露于GPT的程度呈正相关。在所有指标中,我们发现亚裔的职业比例与GPT暴露呈正相关,拉丁裔的职业比例呈负相关。不同职业的人口群体分布不均。

F没有标签暴露的职业

全文完。

免责声明 :文章及报告仅代表作者观点,版权归原作者所有。因转载众多,故仅标明转载来源,部分文章报告推送时未能与原作者取得联系,十分抱歉。如来源标注有误,或涉及作品版权问题烦请告知,我们及时予以删除

推荐内容