准备训练个模型,需要一些高质量问答,但是现在还没弄好,问答多了可能会很耗token
可以参考官方的openai定价文档:https://openai.com/pricing
https://platform.openai.com/tokenizer
token换算
文本生成和嵌入模型通过称为令牌(tokens)的块处理文本。令牌代表常见的字符序列。例如,字符串“tokenization”被分解为“token”和“ization”,而像“the”这样短且常见的单词被表示为一个单独的令牌。请注意,在句子中,每个词的第一个令牌通常以空格字符开始。查看我们的令牌化工具,以测试特定字符串并查看它们是如何被转换成令牌的。作为一个大概的经验规则,1个令牌大约相当于4个字符或0.75个英文单词。
需要记住的一个限制是,对于文本生成模型,提示和生成的输出的组合不能超过模型的最大上下文长度。对于嵌入模型(不输出令牌的模型),输入必须小于模型的最大上下文长度。每个文本生成和嵌入模型的最大上下文长度可以在模型索引中找到。