GPT-4o作为新一代旗舰模型,把AI工具的使用门槛降到了更低的程度,不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费。
比起此前要么是图文模式要么是语音模式的GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。
升级后的GPT-4o回答速度更快了。GPT-4想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。
根据用户选择模型的不同,这个过程的平均延迟高达2.8秒 (GPT-3.5)和5.4 秒(GPT-4),对着手机屏幕等回复,跟GPT聊过天的朋友应该都有类似的体验。
而且在语音转文字再转语音的过程中,很多信息损失了,GPT无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。
直接购买链接:
”现在的GPT-4o可以在最短232毫秒内响应对话,平均响应时间320毫秒,和人类的反应速度几乎一样,爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。
一、免费优先
GPT-4o 率先给Plus用户开放,后续慢慢开放给免费用户,有些免费用户已经可以使用,速度非常快,免费用户是三小时5条,Plus 用户是三小时80条,而团队版将会更多。
这里我说一句:三小时5条够个啥
二、 GPT-4o API 价格更便宜
开发者也可以在API里同步使用GPT-4o,价格是GPT-4 Turbo的一半,速度是GPT-4 Turbo的两倍。GPT-4o还在50多种除英文外的语言能力上得到了加强。
GPT-4o输入、输出每1M token(文本单位)收费0.005美元、0.015美元,GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元。
三、全新的 ChatGPT 官方桌面程序
GPT-4o还带来了更好用的界面。
再也不用在网页间互相切换了,新的桌面版GPT可以融入任何工作流,随时和用户用图像文字语音进行交流,虽然还没用上,但可以想像这种工作体验有多快乐。
苹果电脑用户可以下载了,但是仅限M芯片才可以哟。我自己下载使用了一下特别丝滑!
有感情的语音对话
在发布会现场,OpenAI 的工程师用 iPhone 演示了实时语音对话,Mark Chen 说:“我第一次来直播发布会,有点紧张。”ChatGPT 马上说:“要不你深呼吸一下。”Mark 照做后,ChatGPT 立马回应:“你这不行,喘得也太大了。”这互动真的很逗!
做数学题(在线视频交互方式)
与 Siri 等语音助手不同,用户可以随时打断 AI 的话,不用等它说完。模型反应极快,比人类回应还快,能够充分理解人类情感,自己也能表现出各种感情。另一个工程师在纸上写了个方程,让 ChatGPT 解释怎么一步步解决,显示出它在教学方面的潜力。ChatGPT 说:“每当你为数学焦头烂额的时候,我就在你身边。”
解答代码能力爆表
接着尝试 GPT-4o 的代码能力。工程师输入了一些代码,让 ChatGPT 解释这些代码的作用,某个函数的功能,ChatGPT 都对答如流。输出结果是一个温度曲线图,ChatGPT 以一句话回答所有有关此图的问题。最热的月份是几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。
实时语音翻译(同声传译)
OpenAI 还回应了网友们提出的一些问题。例如实时语音翻译,手机可以用作翻译机,实时翻译意大利语和英语。也许很快大部份公司的翻译人员就会下下岗了。
全能模型 GPT-4o(十全武功)
OpenAI 首次在一个模型中集成了所有模态,甚至可以理解人类表情的含义!Mira Murati 表示:“GPT-4o 的特点是跨语音、文本和视觉,我们希望交互体验变得更自然、更简单,让用户完全不用关注界面,而只关注与 GPT 的协作。”
性能提升与成本降低
GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 相匹配,但在非英语文本上的性能显著提高,API 速度更快,成本降低 50%。在视觉和音频理解方面尤其出色。它最快可以在 232 毫秒内响应音频输入,平均响应时长 320 毫秒,与人类相似!