chatGPT-4o重磅来袭:免费开放最强多模态模型,可实时语音、视频对话 2024 OpenAI发布会解读
Openai的2024春季发布会已经结束了。重磅发布了Openai的最新多模态模型GPT-four-o,o是omni的简称,翻译过来的意思是全方位,代表着它是一个功能全面的原生多模态模型,包含了文字、图片、语音、视频为一体。而且最重要的是,它可以实时推理音频和视频。
其实像我们之前在chatgpt上,已经是可以进行简单的语音交互了,但是它的体验不是很好,每一次对话,都要等待2到3秒的一个延时。这是因为之前的对话逻辑,是由三个独立的模块组成的。
首先呢,要把用户的语音转换成文字,再用文字和gpt对话,gpt生成答案之后,再转换成语
音输出给用户。在这种机制下,延时是没有办法避免的。而且呢,还会丢失掉很多重要的信息,比如说像对话者的情绪啊,多人对话情景下还有背景声,这些都没有办法识别和处理。那么在输出方面也是一样的,它只有冰冷的音频输出,是没有任何情绪的。而gpt4O呢,是一个全新的多模态模型,不管是在文本、音频、视频的处理,它都是端到端的,不需要做任何模态的转换,输入和输出,都是在同一个神经网络当中执行。所以它能做到实时的文字、语音以及视频的交互。
chatgpt4o在整个对话过程当中,它的延时非常非常的低,据官方的数据表明,就只有200-300毫秒的一个延时。那这个几乎呢,是跟真人现场面对面对话,是没有任何区别的。其实呢我们可以看到这个gpt4o,它的实时语音对话它是带情绪的,并且它能很好的去识别,像用户的这个呼吸声、喘息声,也就意味着像一些背景的声音,它都是能识别和处理的。
另外是可以实时打断GPT的这个任务进程,比如说在任务处理过程当中,让它去修改一下这个故事的情绪,或者故事的这个剧情,它都是可以及时修改的。于是呢,我们可以看到GPT在做不同的任务,它输出的音调也是不一样的。这个呢,也意味着GPT它能够根据任务的场景、任务的需求,然后选择合适的音调和情绪进行输出,来更好的匹配这个任务的情景需要。这个我觉得非常的智能。

好,以上呢,就是关于这次open AI春季发布会的一个概要。总结最重磅的话就是发布了GPT4o,它在文字的逻辑推理能力上啊,基本上是和GPT4差不多。但是它的计费、响应速度,还有这个API的使用速率,都是做了一个大幅的优化。那么另外的话,就是把它从一个单模态模型,变成一个原生的多模态模型,可以实时的去处理语音,可以实时的去处理视频啊,在这一方面是提升最大的。那因为现在还没有办法去体验,如果后面更新到我的账户里面,再给大家去做一个详细的评测,看它的一个实际体验怎么样。