OpenAI 首届开发者大会 各路信息汇总~

2023-11-07

📝本期内容】

发布概要

• 全新的 GPT-4 Turbo 模型 

• 更可控的输出:函数调用增强、JSON 模式

 • 开放新的 API:DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3

 • GPT-4 微调、自定义模型

 • GPTs:创建自定义版本的 ChatGPT

 • GPT Store 即将上线

 • Assistants API:更接近 AI 智能体的体验


全文视频中字

OpenAI DevDay 主题演讲 (上)

25:45

OpenAI DevDay 主题演讲 (下)

20:08




精选文章

ChatGPT新版界面已经更新,ALL Tools已经内置,Plus用户专享 

https://weibo.com/1627825392/4965357342165313?

 AI春晚OpenAI开发者大会一文汇总 (数字生命卡兹克) 

https://mp.weixin.qq.com/s/M6wUYGU1yOwhFFn8M29HVQ 

 Open AI再次开启了AI领域的新时代,开发者大会详细内容汇总(歸臧) 

https://new.qq.com/rain/a/20231107A00TAU00

ChatGPT王炸升级!更强版GPT-4上线(量子位)

https://mp.weixin.qq.com/s/qWixN348DAMsnm_iugv3-A

OpenAI开发者大会,核心要点汇报(华泰计算机)

https://note.youdao.com/ynoteshare/index.html?id=c5e1238d3efcb9182ba647361a1b893b 

 GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点(机器之心)

https://mp.weixin.qq.com/s/6xuOPGls_PBuEfSnjZyxKg

 一张图汇总飞书链接(郎瀚威will) 

 GPT发布会 

 OpenAI 举办首届开发者大会,有哪些信息值得关注? - 段小草的回答 - 知乎https://www.zhihu.com/question/629248667/answer/3278989930 

 OpenAI开发者大会全记录:GPT-4 Turbo亮相,GPTs + Assistant API = Agent 新篇章!

https://mp.weixin.qq.com/s/xrFvntV-Oms-JPoANd5BlA 

【观点】OpenAI开发者大会:创业公司屠杀夜(逗砂 AIGC研修社)

https://mp.weixin.qq.com/s/nK5GkwcD2x7a0MAiIJXvLg


一图总结






启发应用

案例来自小互(翻墙):https://twitter.com/xiaohuggg/status/1721781704845914459


01体育解说

足球比赛的AI全解说。当很多人还沉浸在 OpenAI DevDay 带来的兴奋总结发布会亮点时,有开发者已经利用此次升级的API做了个足球比赛视频的全Al解说。解说词可不是人写的,而是AI自己看视频总结出来的。

1、 提取视频帧:

•使用OpenCV初始化视频文件的读取。

 •遍历视频,逐帧处理,并将每一帧编码为base64格式以供处理。  

2、 构建描述提示:  

•创建一个结构化的提示,角色为“用户”,包含视频描述的请求,并包括一部分编码的base64视频帧(例如,每十帧取一帧)。 

•定义GPT请求的参数,如模型(“gpt-4-vision-preview”),提示信息,API密钥和最大令牌限制。  

3、 发送GPT请求:  

•使用定义的参数,通过openai.ChatCompletion.create函数发送请求给GPT-4。 

•接收并打印GPT-4生成的描述。  

4、 制作语音解说提示:  

•类似于描述提示,创建一个请求语音解说脚本的提示,风格类似于大自然纪录片旁白,如David Attenborough,并包括视频帧。  

5、 生成语音解说脚本:  

•将新提示发送给GPT-4并接收生成的语音解说脚本。 

•打印语音解说脚本以验证其内容。  

6、 将脚本转换为音频:  

•向TTS API发送请求,包括生成的语音解说脚本,所需的声音模型(例如,“onyx”),以及API密钥。 

•接收音频数据作为响应,并播放或保存为MP3文件。  

7、 将音频与视频结合:  

•使用视频编辑软件或编程库将生成的TTS音频覆盖到原始视频帧上。 

•导出结合了音频和视频的新视频文件。

00:27


02 MM-Vid:一个集成的视频理解系统,能处理和理解长视频内容并进行问答

由Microsoft Azure AI开发,结合了GPT-4V的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务。 能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。 其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,这样大语言模型就能够理解视频内容。 这对于多种应用场景都非常有用,比如为视觉障碍人士提供视频内容的音频描述,或者在视频监控中自动识别和报告重要事件。


03 NPC交互

利用OpenAI的最新语音模型,仅用了几分钟就创建了一个NPC交互

00:22

04 将图像变为HTML代码

使用GPT-4-Vision API 将低保真模拟图转化为实际的 HTML

00:28

05 对着陆页的优化建议

随便丢一个URL,将其转换为图像,然后通过GPT-4视觉API处理,以响应自定义的着陆页优化建议。

00:26


实时动态


Plus版本全量推送all tools

其他模态全都消失了,没得选了 只有3.5和4、插件的选项 其他画图、代码解释器、网页浏览功能全部合并到GPT-4的ALL Tools里面了

没更新的点这里(翻墙):chatgpt.com/create

点了没用请清理缓存





GPTs商店目前已经上架16个机器人 

全都是OpenAI官方开发的 下面是16个机器人的详细介绍,由于是GPT自己翻译的,可能会不准确的情况。

https://twitter.com/xiaohuggg/status/1721702855642603713 (翻墙)



OpenAI开发者大会内容概览:

每周使用量达到 1 亿人次, 开发者数量达到 200 万,以及 92% 的财富 500 强企业在使用 OpenAI 产品。 GPT-4 Turbo模型,128k上下文窗口、GPT商店、Agent工具、API提速降价、更多的API开放…

详细内容:


1. GPT-4 Turbo模型:

- 能力:比前一代GPT-4更强大。

- 知识更新:知识覆盖到2023年4月的世界事件。

- 上下文窗口:拥有128k的上下文窗口,能够处理相当于300多页文本的内容。

- 性能优化:性能得到优化,价格降低,输入令牌价格降低3倍,输出令牌价格降低2倍。


2. 新的助手API(Assistants API):

- 目的:帮助开发者构建具有目标的辅助AI应用程序。

- 功能:可以调用模型和工具,进行任务执行。

- 应用范围:从自然语言数据分析应用到编码助手,再到AI驱动的假期规划器等。


3. 多模态能力:

- 视觉:平台新增了视觉功能。

- 图像创建:集成了DALL·E 3。

- 文本到语音(TTS):新增了文本到语音转换功能。


4. 功能调用更新:

- 描述:允许描述应用程序的功能或外部API。

- 智能选择:模型可以智能地选择输出包含调用这些功能的参数的JSON对象。


5. 改进的指令跟随和JSON模式:

- 指令跟随:在需要仔细遵循指令的任务上表现更好。

- JSON模式:支持新的JSON模式,确保模型以有效的JSON格式响应。


6. 可复现输出和对数概率:

- seed参数:使模型能够返回一致的完成结果。

- 用途:对于调试、编写单元测试等场景非常有用。


7. 更新的GPT-3.5 Turbo:

- 上下文窗口:支持默认16K上下文窗口。

- 改进:在指令跟随、JSON模式和并行功能调用方面进行了改进。


8. 助手API、检索和代码解释器:

- 助手API允许开发者创建具有特定指令的AI。

- 检索:从模型外部增加知识,如专有领域数据。例如专有领域数据、产品信息或用户提供的文档。

- 代码解释器:在沙盒执行环境中编写和运行Python代码。允许 Assistants 迭代运行代码来解决具有挑战性的代码和数学问题等等。


9.新的API模态:

- GPT-4 Turbo视觉:可以接受图像作为输入。

- DALL·E 3:现在可以通过Images API直接集成到应用程序和产品中。

- 文本到语音(TTS)API:现在可以从文本生成人类质量的语音。


10. 模型定制:

- GPT-4细微调整:提供了细微调整的实验性访问。

- 定制模型程序:为需要超出细微调整提供的定制化程度的组织提供了定制模型程序。


11. 降低价格和提高速率限制:

- 价格降低:平台降低了多个价格。

- 速率限制提高:为所有付费GPT-4客户提高了每分钟令牌限制的两倍。


12. 版权保护:

- 版权保护盾:如果客户面临版权侵权的法律索赔,OpenAI将介入并支付费用。


13.Whisper v3和一致性解码器

- Whisper large-v3:发布了下一版本的开源自动语音识别模型。

- 一致性解码器:为Stable Diffusion VAE解码器的替代品,改进了与Stable Diffusion 1.0+ VAE兼容的所有图像。



这些更新旨在提高模型的能力、降低成本,并为开发者提供更多的工具和API以构建更高质量的AI应用程序。






其他媒体总结

机器之心-《GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日

量子位-《ChatGPT王炸升级!更强版GPT-4上线,API定价打骨折,发布现场掌声没停过》

极客公园-《短短 45 分钟发布会,OpenAI 如何再次让 AI 圈一夜未眠》

经纬创投-《凌晨震撼发布:靠制作专属GPT赚钱的时代要来了》

有新Newin-《OpenAI 首届开发者大会》


更多关于OPEN AI公司时间线及创业访谈文章可以查阅:

https://waytoagi.feishu.cn/wiki/MLgewhfqiih1XjkEs2fcx3VHnXd


备注:以上链接与内容为不同网友收集汇总而成,可能存在链接失效或错字病句的情况,请大家参考阅读。