您的当前位置:首页 > 全部文章 > 工具源码动态 

chatGPT-4o重磅来袭:免费开放最强多模态模型,可实时语音、视频对话 2024 OpenAI发布会解读

发布时间:2024-05-14

Openai的2024春季发布会已经结束了。重磅发布了Openai的最新多模态模型GPT-four-o,o是omni的简称,翻译过来的意思是全方位,代表着它是一个功能全面的原生多模态模型,包含了文字、图片、语音、视频为一体。而且最重要的是,它可以实时推理音频和视频。

其实像我们之前在chatgpt上,已经是可以进行简单的语音交互了,但是它的体验不是很好,每一次对话,都要等待2到3秒的一个延时。这是因为之前的对话逻辑,是由三个独立的模块组成的。

首先呢,要把用户的语音转换成文字,再用文字和gpt对话,gpt生成答案之后,再转换成语
音输出给用户。在这种机制下,延时是没有办法避免的。而且呢,还会丢失掉很多重要的信息,比如说像对话者的情绪啊,多人对话情景下还有背景声,这些都没有办法识别和处理。那么在输出方面也是一样的,它只有冰冷的音频输出,是没有任何情绪的。而gpt4O呢,是一个全新的多模态模型,不管是在文本、音频、视频的处理,它都是端到端的,不需要做任何模态的转换,输入和输出,都是在同一个神经网络当中执行。所以它能做到实时的文字、语音以及视频的交互。

chatgpt4o在整个对话过程当中,它的延时非常非常的低,据官方的数据表明,就只有200-300毫秒的一个延时。那这个几乎呢,是跟真人现场面对面对话,是没有任何区别的。其实呢我们可以看到这个gpt4o,它的实时语音对话它是带情绪的,并且它能很好的去识别,像用户的这个呼吸声、喘息声,也就意味着像一些背景的声音,它都是能识别和处理的。

另外是可以实时打断GPT的这个任务进程,比如说在任务处理过程当中,让它去修改一下这个故事的情绪,或者故事的这个剧情,它都是可以及时修改的。于是呢,我们可以看到GPT在做不同的任务,它输出的音调也是不一样的。这个呢,也意味着GPT它能够根据任务的场景、任务的需求,然后选择合适的音调和情绪进行输出,来更好的匹配这个任务的情景需要。这个我觉得非常的智能。

另外呢,这一次呢,open ai还推出了苹果电脑版的桌面应用,Windows版本的可能会稍微晚一点。在桌面应用当中呢,它是可以识别屏幕的内容,帮助用户分析和处理相应的一些问题,比如说,帮用户去识别这个代码的用途,讨论代码及处理代码当中的问题。另外的话,还可以去识别桌面图表的内容,分析图表当中是包含哪些信息,帮助用户分析这个图表,它是想表达哪些内容,表达哪些信息啊,做到一个辅助的作用。整体来说,它的这次能力,真的是对得起全方位这个词,在各个使用场景下面,都能很好的帮我们处理一些遇到的问题。


好,接下来呢,我们来看一下使用权限。在官方的介绍是说,现在免费用户、plus用户以及team用户,都可以去使用这个GPT4O模型。但是这个模型呢,现在还只是开放了文本以及视觉对话功能。像我们刚才在视频里面看到的,这个实时语音对话跟实时视频对话,这可能还要再等几个礼拜才会开放。然后我自己也试了一下,在plus账户里面啊,现在在网页版还有APP里面,都已经是开放了这个GPT4O模型。

 

好,以上呢,就是关于这次open AI春季发布会的一个概要。总结最重磅的话就是发布了GPT4o,它在文字的逻辑推理能力上啊,基本上是和GPT4差不多。但是它的计费、响应速度,还有这个API的使用速率,都是做了一个大幅的优化。那么另外的话,就是把它从一个单模态模型,变成一个原生的多模态模型,可以实时的去处理语音,可以实时的去处理视频啊,在这一方面是提升最大的。那因为现在还没有办法去体验,如果后面更新到我的账户里面,再给大家去做一个详细的评测,看它的一个实际体验怎么样。

标签: #chatgpt4o   #ai工具   #openAi  

探奇客能做什么?

提供服务器配置与维护、网站程序安装、网站程序定制修改等服务。根据问题难易程度定价,最低收费100元。

腾讯云广告