跳过内容

Guardrails

防护栏使您能够检查和验证用户输入和代理输出。例如,假设您有一个代理,它使用一个非常智能(因此速度慢/成本高)的模型来帮助处理客户请求。您不希望恶意用户要求模型帮助他们完成数学作业。因此,您可以运行一个速度快/成本低的防护栏。如果防护栏检测到恶意使用,它可以立即引发错误并防止昂贵模型运行,从而节省您的时间和金钱(在使用阻塞防护栏时;对于并行防护栏,昂贵模型可能在防护栏完成之前已经开始运行。有关详细信息,请参阅下面的“执行模式”)。

有两种类型的防护栏

  1. 输入防护栏在初始用户输入上运行
  2. 输出防护栏在最终代理输出上运行

输入防护栏

输入防护栏分 3 个步骤运行

  1. 首先,防护栏接收传递给代理的相同输入。
  2. 接下来,防护栏函数运行以生成一个 GuardrailFunctionOutput,然后将其包装在 InputGuardrailResult
  3. 最后,我们检查 .tripwire_triggered 是否为 true。如果是 true,则会引发 InputGuardrailTripwireTriggered 异常,以便您可以适当地响应用户或处理异常。

注意

输入防护栏旨在在用户输入上运行,因此代理的防护栏仅在代理是第一个代理时才会运行。您可能会想,为什么 guardrails 属性在代理上而不是传递给 Runner.run?这是因为防护栏往往与实际代理相关 - 您会为不同的代理运行不同的防护栏,因此将代码放在一起有利于可读性。

执行模式

输入防护栏支持两种执行模式

  • 并行执行(默认,run_in_parallel=True):防护栏与代理的执行同时运行。这提供了最佳的延迟,因为两者同时启动。但是,如果防护栏失败,代理可能已经在取消之前消耗了 token 并执行了工具。

  • 阻塞执行run_in_parallel=False):防护栏运行并完成之后代理才开始。如果防护栏触发器被触发,代理将永远不会执行,从而防止消耗 token 和执行工具。这对于成本优化以及您希望避免工具调用可能产生的副作用时非常理想。

输出防护栏

输出防护栏分 3 个步骤运行

  1. 首先,防护栏接收代理生成的输出。
  2. 接下来,防护栏函数运行以生成一个 GuardrailFunctionOutput,然后将其包装在 OutputGuardrailResult
  3. 最后,我们检查 .tripwire_triggered 是否为 true。如果是 true,则会引发 OutputGuardrailTripwireTriggered 异常,以便您可以适当地响应用户或处理异常。

注意

输出防护栏旨在在最终代理输出上运行,因此代理的防护栏仅在代理是最后一个代理时才会运行。与输入防护栏类似,我们这样做是因为防护栏往往与实际代理相关 - 您会为不同的代理运行不同的防护栏,因此将代码放在一起有利于可读性。

输出防护栏始终在代理完成之后运行,因此它们不支持 run_in_parallel 参数。

绊线

如果输入或输出未能通过防护栏,防护栏可以使用触发器发出此信号。一旦我们看到防护栏触发了触发器,我们就会立即引发 {Input,Output}GuardrailTripwireTriggered 异常并停止代理执行。

实现防护栏

您需要提供一个接收输入并返回 GuardrailFunctionOutput 的函数。在此示例中,我们将通过在底层运行代理来执行此操作。

from pydantic import BaseModel
from agents import (
    Agent,
    GuardrailFunctionOutput,
    InputGuardrailTripwireTriggered,
    RunContextWrapper,
    Runner,
    TResponseInputItem,
    input_guardrail,
)

class MathHomeworkOutput(BaseModel):
    is_math_homework: bool
    reasoning: str

guardrail_agent = Agent( # (1)!
    name="Guardrail check",
    instructions="Check if the user is asking you to do their math homework.",
    output_type=MathHomeworkOutput,
)


@input_guardrail
async def math_guardrail( # (2)!
    ctx: RunContextWrapper[None], agent: Agent, input: str | list[TResponseInputItem]
) -> GuardrailFunctionOutput:
    result = await Runner.run(guardrail_agent, input, context=ctx.context)

    return GuardrailFunctionOutput(
        output_info=result.final_output, # (3)!
        tripwire_triggered=result.final_output.is_math_homework,
    )


agent = Agent(  # (4)!
    name="Customer support agent",
    instructions="You are a customer support agent. You help customers with their questions.",
    input_guardrails=[math_guardrail],
)

async def main():
    # This should trip the guardrail
    try:
        await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
        print("Guardrail didn't trip - this is unexpected")

    except InputGuardrailTripwireTriggered:
        print("Math homework guardrail tripped")
  1. 我们将在此防护栏函数中使用此代理。
  2. 这是防护栏函数,它接收代理的输入/上下文,并返回结果。
  3. 我们可以在防护栏结果中包含额外的信息。
  4. 这是定义工作流程的实际代理。

输出防护栏类似。

from pydantic import BaseModel
from agents import (
    Agent,
    GuardrailFunctionOutput,
    OutputGuardrailTripwireTriggered,
    RunContextWrapper,
    Runner,
    output_guardrail,
)
class MessageOutput(BaseModel): # (1)!
    response: str

class MathOutput(BaseModel): # (2)!
    reasoning: str
    is_math: bool

guardrail_agent = Agent(
    name="Guardrail check",
    instructions="Check if the output includes any math.",
    output_type=MathOutput,
)

@output_guardrail
async def math_guardrail(  # (3)!
    ctx: RunContextWrapper, agent: Agent, output: MessageOutput
) -> GuardrailFunctionOutput:
    result = await Runner.run(guardrail_agent, output.response, context=ctx.context)

    return GuardrailFunctionOutput(
        output_info=result.final_output,
        tripwire_triggered=result.final_output.is_math,
    )

agent = Agent( # (4)!
    name="Customer support agent",
    instructions="You are a customer support agent. You help customers with their questions.",
    output_guardrails=[math_guardrail],
    output_type=MessageOutput,
)

async def main():
    # This should trip the guardrail
    try:
        await Runner.run(agent, "Hello, can you help me solve for x: 2x + 3 = 11?")
        print("Guardrail didn't trip - this is unexpected")

    except OutputGuardrailTripwireTriggered:
        print("Math output guardrail tripped")
  1. 这是实际代理的输出类型。
  2. 这是防护栏的输出类型。
  3. 这是防护栏函数,它接收代理的输出,并返回结果。
  4. 这是定义工作流程的实际代理。