请问文字的终止条件是如何判断的 #91

QinghanLai · 2024-11-14T07:06:44Z

此处明显还没有达到13个文本token,然后文本就终止了，开始输出音频。我看输出的token中也没有特殊token,这个地方是如何判断终止的呢

SteinsHead · 2024-11-15T08:26:50Z

它是先输出13个文本，然后输出26个音频token。交替输出，最后剩下的文本不一定会达到13个

QinghanLai · 2024-11-15T08:29:52Z

13，26是强制规则实现的还是完全依靠模型输出
那是否会出现多输出文本token的情况

SteinsHead · 2024-11-15T08:34:11Z

我目前测试修改 web_demo.py 中 system prompt 部分的 token 数量，输出还是会保持 13、26 的交替数量，修改不生效。我会提一个 issue 确认一下这个问题

13，26是强制规则实现的还是完全依靠模型输出那是否会出现多输出文本token的情况

QinghanLai · 2024-11-15T09:02:47Z

我其实想弄清楚这个模型是否可以通过控制token的方式，在某一句说完的情况下人为中断生成。我没看到有控制13，26的地方，不太明白怎末实现的。

SteinsHead · 2024-11-15T09:30:09Z

我其实想弄清楚这个模型是否可以通过控制token的方式，在某一句说完的情况下人为中断生成。我没看到有控制13，26的地方，不太明白怎末实现的。

我的理解是你想实现人工打断对话，但目前在我的实验中无法控制 token 的数量，中断生成你可以在模型之前加一个VAD模型，检测到人声之后中断 generate

控制 13、26 的地方在 web_demo.py 文件中的 91 行和 97 行

我会继续进行实验。目前没有技术报告可参考，只能认为是模型参数设定如此，无法通过 prompt 修改。这里需要请教智谱 AI 团队

sixsixcoder mentioned this issue Nov 15, 2024

如何修改模型交替输出token数量 #97

Open

Provide feedback