OpenAI 首届开发者大会各路信息汇总~

📝【本期内容】

发布概要

• 全新的 GPT-4 Turbo 模型

• 更可控的输出：函数调用增强、JSON 模式

• 开放新的 API：DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3

• GPT-4 微调、自定义模型

• GPTs：创建自定义版本的 ChatGPT

• GPT Store 即将上线

• Assistants API：更接近 AI 智能体的体验

全文视频中字

OpenAI DevDay 主题演讲（上）

25:45

OpenAI DevDay 主题演讲（下）

20:08

精选文章

ChatGPT新版界面已经更新，ALL Tools已经内置，Plus用户专享

https://weibo.com/1627825392/4965357342165313?

AI春晚OpenAI开发者大会一文汇总（数字生命卡兹克）

https://mp.weixin.qq.com/s/M6wUYGU1yOwhFFn8M29HVQ

Open AI再次开启了AI领域的新时代，开发者大会详细内容汇总（歸臧）

https://new.qq.com/rain/a/20231107A00TAU00

ChatGPT王炸升级！更强版GPT-4上线（量子位）

https://mp.weixin.qq.com/s/qWixN348DAMsnm_iugv3-A

OpenAI开发者大会，核心要点汇报（华泰计算机）

https://note.youdao.com/ynoteshare/index.html?id=c5e1238d3efcb9182ba647361a1b893b

GPT-4 Turbo更强更便宜，GPTs、GPT商店最大亮点（机器之心）

https://mp.weixin.qq.com/s/6xuOPGls_PBuEfSnjZyxKg

一张图汇总飞书链接（郎瀚威will）

GPT发布会

OpenAI 举办首届开发者大会，有哪些信息值得关注？ - 段小草的回答 - 知乎https://www.zhihu.com/question/629248667/answer/3278989930

OpenAI开发者大会全记录：GPT-4 Turbo亮相，GPTs + Assistant API = Agent 新篇章！

https://mp.weixin.qq.com/s/xrFvntV-Oms-JPoANd5BlA

【观点】OpenAI开发者大会：创业公司屠杀夜（逗砂 AIGC研修社）

https://mp.weixin.qq.com/s/nK5GkwcD2x7a0MAiIJXvLg

一图总结

启发应用

案例来自小互（翻墙）：https://twitter.com/xiaohuggg/status/1721781704845914459

01体育解说

足球比赛的AI全解说。当很多人还沉浸在 OpenAI DevDay 带来的兴奋总结发布会亮点时，有开发者已经利用此次升级的API做了个足球比赛视频的全Al解说。解说词可不是人写的，而是AI自己看视频总结出来的。

1、提取视频帧：

•使用OpenCV初始化视频文件的读取。

•遍历视频，逐帧处理，并将每一帧编码为base64格式以供处理。

2、构建描述提示：

•创建一个结构化的提示，角色为“用户”，包含视频描述的请求，并包括一部分编码的base64视频帧（例如，每十帧取一帧）。

•定义GPT请求的参数，如模型（“gpt-4-vision-preview”），提示信息，API密钥和最大令牌限制。

3、发送GPT请求：

•使用定义的参数，通过openai.ChatCompletion.create函数发送请求给GPT-4。

•接收并打印GPT-4生成的描述。

4、制作语音解说提示：

•类似于描述提示，创建一个请求语音解说脚本的提示，风格类似于大自然纪录片旁白，如David Attenborough，并包括视频帧。

5、生成语音解说脚本：

•将新提示发送给GPT-4并接收生成的语音解说脚本。

•打印语音解说脚本以验证其内容。

6、将脚本转换为音频：

•向TTS API发送请求，包括生成的语音解说脚本，所需的声音模型（例如，“onyx”），以及API密钥。

•接收音频数据作为响应，并播放或保存为MP3文件。

7、将音频与视频结合：

•使用视频编辑软件或编程库将生成的TTS音频覆盖到原始视频帧上。

•导出结合了音频和视频的新视频文件。

00:27

02 MM-Vid：一个集成的视频理解系统，能处理和理解长视频内容并进行问答

由Microsoft Azure AI开发，结合了GPT-4V的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，这样大语言模型就能够理解视频内容。这对于多种应用场景都非常有用，比如为视觉障碍人士提供视频内容的音频描述，或者在视频监控中自动识别和报告重要事件。

03 NPC交互

利用OpenAI的最新语音模型，仅用了几分钟就创建了一个NPC交互

00:22