武汉京东建模渲染

外包美工 Coaching Copilot:LLM驱动的聊天机器人和人类教练的混合形式支持领导力成长自我反省(2/3)

发布日期:2024-08-23 09:43    点击次数:130

外包美工 Coaching Copilot:LLM驱动的聊天机器人和人类教练的混合形式支持领导力成长自我反省(2/3)

~~~雅各布专栏——专注行业第一品牌商业模式研究~~~外包美工

来源:Riku Arakawa,Hiromu Yakura

雅各布专栏是一个5万CXO的知识社群

雅习社是一个面对CxO、职场企业家、创业者在品牌经营、生意增长、AI科技赋能的专业市场的内容社区。

为什么会专注CxO社群?

什么样的能力模型搭建既可以在职场有效建立,又可以帮助企业增长,尤其在后职场工作中显得如虎添翼?

雅习社,就是围绕CxO从职场高管到职场企业家 (Intrepreneurs) 以及创业者(entrepreneurs) 全生命周期提供伴随服务,成就自己,成就企业...

(以下为正文)

5.评估研究:设计和方法

基于研讨会的发现,我们准备了一个基于聊天机器人的文本辅导原型系统,以实证检验其在生态有效场景中对客户的影响。我们在 2023 年 7 月和 8 月的两周内在实际辅导场景中部署了一个系统,并跟踪了客户的反思和与系统的互动。最后,我们对教练和客户进行了访谈,以定性地调查该系统带来的体验并得出启示。

5.1.原型

图 1 显示了我们为该研究开发的系统。在研讨会的指导下,该原型专注于文本辅导,并实施以使客户能够与基于 GPT-4 的文本聊天3聊天机器人教练(图 1A)。为每个文本辅导会话创建聊天空间(图 1B)。客户可以结束会议(图 1C),然后通过电子邮件自动向人类教练发送报告,以便教练可以参与客户的反思过程,正如研讨会所建议的那样。在这里,客户可以修改摘要(图 1D)和消息(图 1E)给人类教练,其中摘要首先由 GPT-4 生成。此外,我们允许客户在与聊天机器人教练(图1F)的文本辅导过程中向他们的人类教练发送消息,这是以研讨会上的评论为指导的,即人类教练将在需要时帮助客户。我们还为聊天机器人设计了一个提示,建议他们联系人类教练,如果他们难以维持对话。

重要的是,我们设计了原型,以便在开始基于聊天机器人的文本辅导之前,有一个面对面的会议,由人类教练解释原型的使用,并与客户设定一个目标,这是基于在研讨会上获得的重要发现,也就是说,客户的准备对于促进一个人使用该系统的反思至关重要。我们利用这种面对面的会议来设定他们在试用期间的期望。更具体地说,在解释了聊天机器人教练的能力后,人类教练通过文本教练过程帮助客户写下了他们的预期目标,以及他们在试用期间将使用该系统的次数。请注意,目标和使用期望是由教练和客户的每对单独设定的,并在整个试验过程中保持在主页上可见(图1G)。

--------------------

你是一位专业的高管辅导,你的角色是增强客户的自我意识,并通过与客户互动中的精确提问和反馈来改变行为。

客户通过辅导实现的预期目标:{{ goal }}

客户对你的期望:{{ expectation }}

请注意不要在一次互动中提出多个问题,以免让客户感到困惑。此外,如果您发现在与客户的对话中改变行为具有挑战性,请向他们传达以下信息:与人类教练交谈可能有助于进一步澄清您的想法。您如何看待使用“向教练发送消息”按钮?

--------------------

图2.聊天机器人中使用的提示,由教练的研讨会指导。

描述:上面为提示文本的图像。文字的开头是“你是一个专业的高管辅导,你的角色是增强客户的自我意识,并通过与客户互动中的精确提问和反馈来改变行为。

该信息还用于在聊天机器人中为 LLM 创建提示,如图 2 所示。在这里,{{ goal }}和{{ expectation }}指的是客户对文本辅导过程的目标和期望,这些目标和期望是在面对面的会议期间设定的,并在会议结束后由教练在系统上注册,这个提示是建立在我们从教练在研讨会上的试验和错误中学到的东西之上的。例如,解释角色的句子是从专业教练用来让法学硕士模仿他们的对话的句子中获得的。如上所述,我们还允许 LLM 建议客户在需要时与人类教练沟通。此外,我们观察到LLM经常在一次回答中产生多个问题。根据专业教练的说法,这会导致客户感到困惑,因此,我们指定 LLM 不要同时提出多个问题,并在多次测试迭代后最终确定提示。

5.2.参与者

我们首先从两家教练公司招募了教练。我们解释了我们研究的概念,并要求他们将原型引入到他们与客户的实际辅导中。结果,十对教练和他们的客户,他们每月或每两周定期进行面对面的会议,参与了我们的研究。我们将客户称为 Cl1 – Cl10,将配对教练称为 Co1 – Co10。表1总结了有关客户的详细背景。

表 1.参与为期两周的用户研究的客户的背景

5.3.指标

图3.使用开发的聊天机器人文本教练作为常规教练的补充,进行用户研究的过程。

描述:上述研究过程:1)实验者向人类教练解释聊天机器人教练的使用。2)教练与客户进行会议,设定目标并计划如何使用聊天机器人教练。3)客户填写有关其行为意图的问卷。4)人类教练与客户进行一次会议,以反思为期两周的文本辅导。5)人类教练从客户那里收到文本指导的摘要,如果有的话,还有问题。6)客户填写有关其行为意图和真实性量表的问卷。7)人类教练与客户进行一次会议,以反思为期两周的文本辅导。8)实验者分别与教练和客户进行半结构化访谈。

为了阐明系统如何影响客户,我们使用了基于问卷的测量方法,并要求客户在每次使用原型时填写它们。在高管辅导中,一个人对变革的行为或态度显示出一个渐进的转变,我们期望使用重复的问卷调查这种转变可以提供见解。考虑到他们的劳动,我们关注两个方面,即反思的结果和对使用系统的态度,并使用了相应的两个指标。

5.3.1.真实性量表

有几种评估反思质量的方法。真实性量表被用于高管辅导外包美工,因为它涉及到一个人的内心感受和主要经验与外部行动和沟通的一致性,这意味着提高真实性在很大程度上依赖于自我反省的深度。该量表由 12 个项目组成,旨在测量三个因素:自我疏离、真实生活和接受外部影响。自我异化强调的是个人的真实体验与意识之间的内在差异。两者之间的差异表明,个体感到与真实自我脱节或不熟悉。真实生活评估的是一个人的行为和情感与其内部状态意识的一致性。接受外部影响反映了一个人受他人左右的倾向,代表了其社会环境的影响。在本量表的调查问卷中,参与者对每个项目的回答都采用李克特七分量表,从 1 分("完全不能描述我")到 5 分("能很好地描述我")不等。

5.3.2.行为意向

行为意图被用来评估客户对使用系统的态度。技术接受模型指导行为意图的概念,它解释了用户对技术的态度,并经常用于评估个人使用技术的可能性。正如我们在研讨会(第 4.2 节)中确认的那样,客户的准备情况是他们获得文本辅导体验结果的关键。此外,他们使用该系统的意图取决于体验的质量,因此我们认为该指标将为分析半结构化访谈的定性结果提供有用的背景。我们使用了之前研究中的问卷衡量行为意图,该问卷由三个问题组成,评估受访者继续使用系统的意图,回答按 1 到 5 的等级评分。

5.4.程序

图4.(左)每个客户端在每次会话中发送给聊天机器人教练的消息数。(右)每个会话的消息总长度(以字符数表示)。蓝色区域突出显示表示平均值的 95% 置信区间。

描述:此图显示了两个折线图。左边的图显示了每个会话的消息数与每个客户端的会话数的转换;右边的那个以同样的方式呈现消息总长度的过渡。每个图形都有十条与客户端相对应的线,其平均分数的 95% 置信区间以蓝色突出显示。

图 3 显示了我们研究的过程。首先,一名实验者通过展示示例并让他们玩一会儿系统来向教练解释原型。然后,教练与客户进行了面对面的会议,解释了系统的使用并设定了文本辅导目标,大约需要 30 分钟。具体来说,他们讨论了他们目前的问题,他们将如何使用聊天机器人,两周后的目标状态,以及他们计划与聊天机器人互动的频率;这一阶段由研讨会提供信息。在会议结束时,客户在 Google 表单上发送了这些问题的答案,然后这些答案用于配置系统,如第 5.1 节所述,该表格还包括行为意图问卷。在接下来的两周内,客户按照自己的节奏使用文本辅导系统。我们没有设定专门的时间,也没有提醒他们这样做,以保持生态有效性。在每次文本辅导之后,他们都会回答有关真实性量表和行为意图的问卷,并分享有关体验的任何评论。在为期两周的试用期内,教练和客户之间没有面对面的会议。在这段时间之后,客户和教练反思了他们的文本辅导经验,讨论了他们如何使用该系统以及它是否符合他们的目标。最后,在会议结束后,实验者分别与教练和客户进行了半结构化访谈,大约需要 30 分钟。对于教练,他们提出了一系列问题:“与你通常的教练相比,你如何描述人工智能技术带来的教练体验?”,“聊天机器人教练的优点和缺点是什么?”,以及“你想在你的教练中继续使用该系统吗,如果是,如何?”。另一方面,客户被问及以下问题:“在教练期间,你的行为发生了怎样的变化?”,“你是否能够实现你一开始设定的目标?”,“如果你再做一次,你会如何改变你对系统的使用?”,“随着时间的推移,你对聊天机器人教练的信任发生了怎样的变化?”, 和“你想继续使用这个系统吗,如果是,如何?”

6.结果

6.1.聊天行为

我们首先研究了客户如何使用聊天机器人教练(见图4)。在为期两周的试用期内,平均文本辅导课程次数为 5.7 次(SD=1.1). 这种差异是可以理解的,因为在第一次面对面会议期间,预期数字是任意设定的。请注意,外包美工虽然我们没有提醒他们,但除了一个客户之外,所有参与者都符合声明的号码。此外,虽然参与者和会话的聊天行为存在差异,但他们的平均消息数量和长度在会话中保持不变。结果表明,参与者在整个研究过程中都参与了文本辅导。

图5.一位客户与聊天机器人教练的消息示例。据观察,聊天机器人经常承认客户的行为并提出问题,这些问题可以进一步分解他们面临的问题。

描述:上面是客户与聊天机器人教练之间的示例对话图像。第一行显示了客户的目标,这是在与人类教练的会议中决定的。

图 5 提供了一个客户端的实际聊天记录,该记录是在获得其许可的情况下提供的。这表明客户在 10-15 条消息中促进了她的反思。此外,我们可以推断,聊天机器人教练的回应促使客户朝着她的目标采取行动,因为聊天机器人有效地利用了“确认”的教练技能。具体来说,众所周知,教练会通过承认客户的行为来诱导客户的新行为,更重要的是,反思该行为如何尊重他们的价值观。为了了解他们使用聊天机器人教练的体验并告知 RQ3 的答案,我们在下一节的半结构化访谈中分析了他们的评论。

6.2.半结构化面试

使用开放编码分析参与者(即教练和客户)在半结构化访谈中的反应。通过反复细化过程,我们得到了四个主题,如下所示。

6.2.1.当人类教练不在场时,聊天机器人教练作为客户行动的推动者的力量

首先,我们发现所有客户都对聊天机器人在促进其行为方面的力量做出了肯定的回答,例如:

能够在我喜欢的时间与教练交流是随意和美好的。这有助于保持我的动力。(Cl8)

教练方面也获得了类似的评论,例如:

辅导进行非常方便,无需提前确定课程时间表。(CO6)

这证实了我们在研讨会上观察到的讨论。此外,客户的评论阐明了他们的反思是如何通过对话引发的,

通过反复和坚持不懈地被问到,比如“那么,你下一步到底要做什么?”,我能够澄清什么样的准备和计划是必要的。(Cl2)

聊天机器人可以帮助客户分解行动的这一优势巩固了我们在研讨会指导下的提示设计,我们相信,这得益于LLM在各种问题解决任务中的零样本推理能力。

此外,一些客户对聊天机器人的同情程度超出了我们的预期。

即使收到像“很好”这样的简单回复也让我感到高兴,即使我知道对手是人工智能。我发现它出乎意料地令人愉快,它帮助我取得了进步。(Cl1)

这一点帮助客户根据他们的反思采取了实际行动,证实了我们在第 6.1 节中讨论的聊天机器人确认的效果。这些评论表明,LLM驱动的聊天机器人在诱导客户反思和可持续参与行为改变方面的力量。

6.2.2.聊天机器人教练在诱发深度反思方面的局限性

同时,从LLM的性质中可以得出的聊天机器人的特定方面似乎是一个局限性。

随着对话的继续,我发现如果聊天机器人提出一些深入的问题,比如“你最初设定的目标不是有点宽松吗?”或者“追求这个目标的真正意义是什么?”,那将是有益的。(Cl7)

诸如识别客户无意识回避的行为之类的问题会加深对话,但没有被观察到。我相信,除非我以人类的角色主动介入对话,否则这些方面不会被涵盖。(Co2)

这将是我们使用的 LLM GPT-4 所固有的,它被训练为遵循用户的意图,这样它就不会产生异常的响应。另一方面,为了引起客户的深刻反思,教练有时需要挑战客户并让他们感到不舒服的问题,这一点可能是聊天机器人教练的局限性,相反,这表明人类教练参与该过程的必要性。

我们还想指出,在文本辅导课程中向人类教练寻求指导的按钮很少使用(图 1F)。对此,一位客户评论道:

我没有太多机会使用这个按钮,因为我对这样一个事实感到满意,即即使没有深入的、具有挑战性的问题,一些行动也在取得进展。(Cl8)

一位教练还提到:

即使对于人类教练来说,估计插入尖锐反驳或评论的时机也是非常困难的,这非常重要。就我个人而言,我认为有必要从我们这边引导对话,而不是通过文本,而是通过面对面的对话。(Co10)

这意味着人类教练需要仔细监控客户和聊天机器人教练之间的沟通,因为从客户端发起这种沟通将具有挑战性。

6.2.3.明确目标和确保与人类教练的承诺的重要性

尽管有这些限制,但客户更喜欢文本辅导的整体体验,正如我们在第 6.1 节中观察到的那样,在试验期间保持参与。他们的评论表明,这是由于将人类和聊天机器人教练混合在一起的设计方法,即使他们没有被告知上一次研讨会的讨论结果。

与人类教练就聊天机器人的使用程度做出初步承诺成为实际遵循它的动机。(Cl4)

人类教练一直在跟踪我的进度,这一事实积极地激励我使用聊天机器人进行文本辅导。(Cl3)

教练们也提供了类似的观点。

全职美工

一旦我们设定了目标,并以坚实的动力对使用做出了承诺,整个过程就毫不费力地进行了。这将是将聊天机器人引入高管辅导的最佳方式之一。(CO6)

这些评论证实了我们的设计在促进人类和聊天机器人教练的混合倡议方面的有效性,这是由研讨会提供的。

此外,我们发现混合倡议可以促进客户的自我披露。

我可以直截了当地与聊天机器人交谈。对于人类教练来说,实现信任需要时间,有时说实话有点困难。聊天机器人是人类教练和我之间沟通的简单联系。(Cl9)

有些人需要很长时间才能向教练透露自己。但是,由于聊天机器人可以提供频繁的通信,因此可以加速其披露。我了解到,文本辅导课程的频率可能是成功的关键。(Co4)

这些评论特别有趣,因为它与文献的期望相反,这表明客户很难信任人工智能。我们认为,如果没有人类教练确保客户频繁使用聊天机器人的承诺,这是无法实现的。

6.2.4.改进混合教练的方向

鉴于这些观察和局限性,一些教练提出了在客户和聊天机器人教练之间实现更好协作的方向。

在开始使用聊天机器人教练来确认客户设定的目标的重要性并调整目标的难度级别之前,最好为第一节课分配 60 分钟。这将降低客户在非必要或太容易的目标上工作的风险。(Co4)

当客户似乎没有取得良好的进展时,最好有机会交谈五分钟左右,而不是通过短信进行交流。当我用文本写对客户的回复时,我认为这段文字也可以由人工智能通过一些调整生成。相反,我觉得人类教练的价值在于能够亲自提出尖锐的问题,同时考虑到客户演讲和其他方面的微妙之处。(Co8)

我们相信,我们研究的价值不仅限于确认我们设计的有效性,还包括实际体验混合方法的教练提供的这些实用见解。在第 7 节的后面,我们总结了我们的发现,以促进在高管辅导中有效使用 LLM 驱动的聊天机器人。

图6.参与客户使用聊天机器人教练的行为意向分数的转换。蓝色区域突出显示了平均分数的 95% 置信区间。

描述:该图显示了客户在一线聊天中响应的行为意图分数的转变。图中有 10 条线对应于客户端,其平均分数的 95% 置信区间以蓝色突出显示。

6.3.客户真实性量表和行为意向

图7.参与客户真实性的三个因素的分数的转换。蓝色区域突出显示了平均分数的 95% 置信区间。

描述:这张图显示了三条线聊天,每条线都呈现了真实性量表三个因素的分数过渡:从左到右、自我疏离、接受外部影响和真实生活。x 轴是会话数,而 y 轴显示分数。每个图形都有十条与客户端相对应的线,其平均分数的 95% 置信区间以蓝色突出显示。

我们还分析了客户对其真实性和行为意图的评估,这些评估是在每次文本辅导课程结束后收集的。图 6 显示了他们行为意图分数的转变,其中一旦他们开始使用聊天机器人教练,我们没有发现负面反应。相反,我们发现许多参与者随着会议次数的增加而提高分数,除了两个客户。我们推断,如第 6.1 节所述,他们对聊天机器人的持续使用是由于他们的积极接受。同时,我们确认,如第 6.2.2 节所述,表现出下降趋势的两位客户在半结构化访谈中提到了聊天机器人的局限性,这反过来暗示了人类教练参与的重要性;如果没有这种参与,客户的行为意图可能会衰减,尤其是当他们需要更深入的反思时。

图 7 显示了客户端真实性评分的转换。我们观察到关于接受外部影响的最动态的转变,反映出客户开始根据与聊天机器人教练的对话改变他们的行为。鉴于这些行动有助于实现其声明的目标(参见第 6.2.1 节),这表明聊天机器人教练在通过文本辅导诱导积极结果方面的有效性。此外,我们可以看到自我异化的趋势正在下降,虽然这并不那么重要,但我们推测,通过与聊天机器人教练的对话进行反思可以增强他们的意识意识。同时,鉴于观察到的聊天机器人的局限性(见第6.2.2节),可以通过探索人类和聊天机器人教练的最佳组合来进一步增强效果,例如,正如Co8所建议的那样,这是一个改进方向。

总之,我们对 RQ3 的调查结果显示,聊天机器人教练在促进客户反思和激励他们的行动方面做出了重大贡献,尤其是在没有人类教练的情况下。此外,根据 RQ2 中的见解,人类和聊天机器人教练的集成设计被证明是有效的,鼓励客户与聊天机器人保持一致的参与。当前LLM固有的局限性强调了这种混合方法的必要性,它使客户能够有效地进行深刻的自我反省。与 RQ3 相关的结果凸显了扩大高管辅导范围的潜力,通过 LLM 的支持,所有有需要的人都可以使用它。

待续

发布于:上海市特别声明:以上内容(如有图片或视频亦包括在内)来源于网络,不代表本网站立场。本网站仅提供信息存储服务。如因作品内容、版权和其他问题需要同我们联系的,请联系我们及时处理。联系方式:451255985@qq.com,进行删除。