泰安哪里有做网站app的,学校网站建设厂家,房屋自建设计哪个网站好,今晚12点上海又要封控了吗就在几天前#xff0c;一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此#xff0c;看到 Sam Altman 在 DevDay 上登台#xff0c;讨论开发者的新产品#xff0c;感觉有点奇怪。
随着公司内部的这些变化#xff0c;你不禁会想#xff1a;我们还应该信任他吗#…就在几天前一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此看到 Sam Altman 在 DevDay 上登台讨论开发者的新产品感觉有点奇怪。
随着公司内部的这些变化你不禁会想我们还应该信任他吗
但这不是重点。让我们先把这些戏剧性事件放在一边看看 Dev Day 的真正主题——OpenAI 刚刚为开发者宣布的新工具。
尽管领导层的变动令人担忧但显然公司仍在向前推进。事实上这次活动中有许多值得细细探讨的进展。
如果你错过了去年的 DevDay 2023这里是自那时以来的一些最新进展 从 GPT-4 到 4o mini每个 token 的成本下降了 98% 系统中的 token 处理量增加了 50 倍 显著的模型智能进展
实时 APIRealtime API
DevDay 2024 的亮点无疑是实时 API。
这个 API 使开发者能够在其应用程序中构建低延迟、多模态的对话功能支持文本、音频以及函数调用。
以下是一个调用 API 的 javascript 示例代码。
const event {type: conversation.item.create,item: {type: message,role: user,content: [{type: input_text,text: Hey, how are you doing?}]}
};
ws.send(JSON.stringify(event));
ws.send(JSON.stringify({type: response.create}));那么为什么开发者应该关心这个呢 原生语音到语音 不经过文本中介意味着低延迟和更细腻的输出。 自然且可引导的语音 模型具有自然的语调能表现出笑声、低语等并能遵循语气指引。 同时输出多模态 文本对内容审核有用而比实时更快的音频确保了稳定的播放。
现在数千名开发者可以将这一功能集成到他们的应用中开启了语音驱动应用的新潮流。
看看一些有机会提前体验实时 API 的开发者分享的产品示例 “结果是我们的学习者体验更加个性化和有帮助今天我们宣布推出 Live Roleplays这是一种结合实时 API 和我们的学习引擎的新 Speak 体验能够在各种角色扮演场景中提供沉浸式的口语练习。” —Andrew Hsu 以下是实时 API 的定价信息 文本输入每 100 万个 token 5 美元 文本输出每 100 万个 token 20 美元 音频输入每 100 万个 token 100 美元约每分钟 0.06 美元 音频输出每 100 万个 token 200 美元约每分钟 0.24 美元
提示缓存Prompt Caching
接下来介绍的是提示缓存这项功能显著减少了处理重复提示所需的成本和时间。
OpenAI 现在将把 API 请求路由到最近处理过相同或相似提示的服务器这意味着你可以跳过重复的计算。对于处理长提示或复杂提示且经常重复使用的开发者来说这项功能特别有用。
此功能可将长提示的延迟减少多达 80%成本降低 50%。
提示缓存并不是一个全新的概念。事实上Anthropic不久前推出了一个类似功能允许开发者缓存经常使用的上下文最多可减少 90% 的成本。
OpenAI 的提示缓存适用于以下模型 gpt-4o gpt-4o-mini o1-preview o1-mini
当你发出 API 请求时流程如下 缓存查找系统检查你的提示的初始部分前缀是否已被缓存。 缓存命中如果找到了匹配的前缀系统将使用缓存结果。这显著减少了延迟并降低了成本。 缓存未命中如果没有匹配的前缀系统将处理你的完整提示。处理完成后提示的前缀会被缓存以备将来使用。
这些缓存的前缀最多可以存储 10 分钟。但在非高峰期缓存可能会持续长达一小时。
提示缓存的定价如下 视觉微调Vision Fine-Tuning
DevDay 上另一个重要的新功能是视觉微调。
此功能允许用户在 JSONL 文件中使用图像和文本来微调模型。这为不仅依赖文本输入还可以利用视觉数据训练模型提供了可能性。
以下是 JSONL 文件中一行图像消息的示例。为了方便阅读JSON 对象已展开但通常情况下该 JSON 会出现在数据文件的单行中
{messages: [{ role: system, content: You are an assistant that identifies uncommon cheeses. },{ role: user, content: What is this cheese? },{ role: user, content: [{type: image_url,image_url: {url: https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg}}] },{ role: assistant, content: Danbo }]
}那么这有什么用呢 OpenAI 与Grab等领先科技公司合作展示了视觉微调在现实应用中的强大功能。Grab 是一家主要的食品配送和网约车服务公司使用此功能提升了其GrabMaps平台的性能。该平台依赖于从司机收集的街道级图像来支持东南亚的运营。
通过使用 100 个样例微调GPT-4oGrab 提升了识别交通标志和车道分隔线的能力。
结果是车道计数准确性提高了 20%速度限制标志定位精度提高了 13%简化了其地图绘制流程减少了人工干预的需求。 *注意您的训练图像不得包含人物、面部、验证码或违反我们使用条款的图像。*包含这些图像的数据集将被自动拒绝。 关于定价问题OpenAI 目前提供每天 100 万个训练 token 的免费额度时间截止到 2024 年 10 月 31 日以用于通过图像微调 GPT-4o。
2024 年 10 月 31 日之后GPT-4o 微调训练的费用为每 100 万个 token 25 美元推理费用为每 100 万个输入 token 3.75 美元每 100 万个输出 token 15 美元。
图像输入首先根据图像大小进行 token 化然后按照与文本输入相同的 token 费率定价。
谈谈安全问题
尽管这些新功能很酷但它们确实带来了安全隐患尤其是实时 API。
我们正接近一个假电话可能与真实电话难以区分的世界。想象一下你接到了一个听起来完全像你的老板或家人的电话结果却发现那是 AI 的冒充。
不难想象恶意分子如何滥用这项技术。
事实上几天前联邦通信委员会罚款一名政治顾问 600 万美元原因是他今年早些时候使用 AI 模拟乔·拜登总统的声音进行自动电话。
为了避免滥用OpenAI 的 API 不能直接拨打餐馆或商店的电话。然而AI 没有公开声明自己不是人类因此很难确定你是否在与 AI 对话。目前似乎开发者有责任添加某种类型的声明。
OpenAI 尝试缓解这些风险。对于语音交互OpenAI 使用了一种音频安全基础设施已被证明在最小化潜在滥用方面非常有效尤其是防止被用于欺骗性目的如误导电话或声音操纵。
关于视觉微调微调后的模型完全由用户控制确保了商业数据的完全所有权。OpenAI 不会在未经明确许可的情况下使用任何用于微调的输入或输出来训练模型确保数据保持私密和安全。
最终思考
今天宣布了很多内容但让我印象最深刻的是实时 API。
本质上这是 ChatGPT 高级语音模式的 API 版本我预计在未来几周内会有数百款基于该语音 API 的应用程序出现。
据 OpenAI 称目前已有超过 300 万开发者正在利用其技术构建新应用和功能。
这些新宣布的产品尤其是实时语音 API可能有助于扩大这一关键用户群体并增加 OpenAI 的收入。
目前尚不清楚这些 API 在现实应用中有多直观或多具成本效益。
我计划构建一些概念验证PoC应用程序来测试它们并将在后续帖子中分享我的发现。在此之前我很想听听你对今年 DevDay 的看法。
哪一项产品发布让你最兴奋请在评论中告诉我