Pipeline
VoicePipeline
一个带有明确意见的语音代理流水线。它分三个步骤工作:1. 将音频输入转录为文本。 2. 运行提供的 workflow,生成一系列文本响应。 3. 将文本响应转换为流式音频输出。
源代码位于 src/agents/voice/pipeline.py
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 | |
__init__
__init__(
*,
workflow: VoiceWorkflowBase,
stt_model: STTModel | str | None = None,
tts_model: TTSModel | str | None = None,
config: VoicePipelineConfig | None = None,
)
创建一个新的语音流水线。
参数
| 名称 | 类型 | 描述 | 默认 |
|---|---|---|---|
workflow
|
VoiceWorkflowBase
|
要运行的 workflow。请参阅 |
required |
stt_model
|
STTModel | str | None
|
要使用的语音转文本模型。如果未提供,将使用默认的 OpenAI 模型。 |
None
|
tts_model
|
TTSModel | str | None
|
要使用的文本转语音模型。如果未提供,将使用默认的 OpenAI 模型。 |
None
|
config
|
VoicePipelineConfig | None
|
流水线配置。如果未提供,将使用默认配置。 |
None
|
源代码位于 src/agents/voice/pipeline.py
run async
run(
audio_input: AudioInput | StreamedAudioInput,
) -> StreamedAudioResult
运行语音流水线。
参数
| 名称 | 类型 | 描述 | 默认 |
|---|---|---|---|
audio_input
|
AudioInput | StreamedAudioInput
|
要处理的音频输入。这可以是 |
required |
返回值
| 类型 | 描述 |
|---|---|
StreamedAudioResult
|
一个 |
StreamedAudioResult
|
播放它们。 |