Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问文字的终止条件是如何判断的 #91

Open
QinghanLai opened this issue Nov 14, 2024 · 5 comments
Open

请问文字的终止条件是如何判断的 #91

QinghanLai opened this issue Nov 14, 2024 · 5 comments

Comments

@QinghanLai
Copy link

image 此处明显还没有达到13个文本token,然后文本就终止了,开始输出音频。我看输出的token中也没有特殊token,这个地方是如何判断终止的呢
@SteinsHead
Copy link

它是先输出13个文本,然后输出26个音频token。交替输出,最后剩下的文本不一定会达到13个

@QinghanLai
Copy link
Author

13,26是强制规则实现的还是完全依靠模型输出
那是否会出现多输出文本token的情况

@SteinsHead
Copy link

我目前测试修改 web_demo.py 中 system prompt 部分的 token 数量,输出还是会保持 13、26 的交替数量,修改不生效。我会提一个 issue 确认一下这个问题

13,26是强制规则实现的还是完全依靠模型输出 那是否会出现多输出文本token的情况

@QinghanLai
Copy link
Author

我其实想弄清楚这个模型是否可以通过控制token的方式,在某一句说完的情况下人为中断生成。我没看到有控制13,26的地方,不太明白怎末实现的。

@SteinsHead
Copy link

SteinsHead commented Nov 15, 2024

我其实想弄清楚这个模型是否可以通过控制token的方式,在某一句说完的情况下人为中断生成。我没看到有控制13,26的地方,不太明白怎末实现的。

我的理解是你想实现人工打断对话,但目前在我的实验中无法控制 token 的数量,中断生成你可以在模型之前加一个VAD模型,检测到人声之后中断 generate

控制 13、26 的地方在 web_demo.py 文件中的 91 行和 97 行

我会继续进行实验。目前没有技术报告可参考,只能认为是模型参数设定如此,无法通过 prompt 修改。这里需要请教智谱 AI 团队

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants