江南体育据OpenAI官网,ChatGPT将在未来两周内对Plus用户与企业用户开放新功能,包括语音对话能力以及图像读取与理解(图生文)能力。语音对话的功能针对ios及安卓客户端开放,图生文能力将向全平台开放。我们看到ChatGPT在语音对话及图生文等功能上的更新是其在多模态化上的进一步迭代,提升用户的使用便捷性和场景范围。AI生态企业的垂直应用有望受益于AI工具在语音、图像等多模态领域的完善,由文本、语音、图像向更复杂模态的视频、3D模型的AIGC也将持续推进。产业链相关公司包括昆仑万维、焦点科技、巨人网络、恺英网络、蓝色光标、盛天网络、完美世界。
新的语音功能能够让ChatGPT与用户实现纯语音的实时互动对话。ChatGPT的最新语音功能由文本到语音(TTS)模型提供支持,能够仅通过文字和几秒时长的样本语音直接生成模拟人声音频,OpenAI与专业配音演员合作创建了5种合成语音可供选择。语音对话的功能将针对iOS及安卓客户端开放。另外,功能中使用了OpenAI此前自研的开源语音识别模型工具Whisper,也提供将用户的语音转录成文本的功能。据OpenAI官网,Spotify正在使用ChatGPT的声音转换功能帮助平台上的播客创作者以自己的声音将博客内容进行更多语言的翻译录制。
GPT-4多模态识图功能OpenAI在3月就已经提出江南体育,此次正式发布的版本中,图生文能够支持用户上传一张或多张图片,并为移动端用户提供画笔工具,让用户圈出图中的要点,ChatGPT从而能够聚焦具体图片细节进行进一步分析江南体育。图像读取理解能力由多模态模型GPT-3.5和GPT-4支持,能够理解的图像类型包括照片、截图等,可以同时包含文本及图案。因而图生文功能的加入有望助力ChatGPT能够应用于更多用户日常的使用场景中。据OpenAI官网,服务盲人和视力低下人群的移动APPBeMyEyes目前已经使用ChatGPT的图像功能,帮助用户识别视野范围内具体的人或物。
此外,OpenAI于9月20日在官网宣布推出文生图AI工具的最新迭代版本DALL·E3。相较于前代,DALL·E3在提示词辅助生成及文本理解、图片生成细节丰富度上有显著的提升。DALL·E3将于10月初面向ChatGPTPlus和企业用户开放。OpenAI在官网指出希望能够构建安全并且有益的AGI,因而逐步丰富目前的产品功能,包括此次的语音及图像相关的能力。另外,据TheInformation,谷歌也将推出最新多模态AI大模型Gemini。我们认为,随相应功能开放后江南体育,头部大模型公司的多模态道路有望加速推进,AI生态企业的垂直应用有望受益于语音、图像等多模态能力的完善。
风险提示:AI技术瓶颈难以突破、AI相关法规仍待完善、AI应用落地不及预期。
在线客服
电话咨询
官方微信
返回顶部