20240411 每日AI必读资讯

人工智能

🤖OpenAI 发布了GPT-4-Turbo 正式版!
- GPT-4-Turbo正式版全面开放,可通过“gpt-4-turbo”来使用此模型,最新版本为“gpt-4-turbo-2024-04-09”。
- 带有视觉能力,上下文 128k。
- 价格不变,输入$10.00/100万tokens,输出$30.00/100万tokens,读图:最低 $0.00085/ 图
🔗接口信息: https://platform.openai.com/docs/models/continuous-model-upgrades
🔗价格信息: https://openai.com/pricing
🔗相关限制: https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five
🔗 https://blink.csdn.net/details/1678287

图片

💻 Google 宣布 Gemini 1.5 Pro 开放API
- Gemini1.5Pro引入了原生音频理解能力,不需先转换为文本。
- Gemini1.5Pro扩展了输入模态范围,支持视频内容处理。
- Gemini API改进,加入系统指令引导模型响应和JSON模式。
🔗详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
🔗音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
🔗 https://blink.csdn.net/details/1678284

图片

🌐英特尔发布新一代人工智能芯片:Gaudi 3!性能远超英伟达H100
- Gaudi 3的能效是英伟达芯片的两倍多。
- 运行AI模型的速度是英伟达H100 GPU芯片的1.5倍。
- Gaudi 3采用5nm工艺,配备最高128GB的HBM2e内存,峰值带宽达3.7TB/s。
🔗详细: https://intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q3dlc

🍏苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
- Ferret-UI是专为移动UI屏幕设计的MLLLM,具备引用、定位和推理能力。
- 采用“任何分辨率”技术,提高模型对小型对象的理解精度。
- Ferret-UI通过对话能力在详细描述、交互对话和功能推断等任务中表现突出。
🔗论文地址: https://arxiv.org/pdf/2404.05719.pdf

🎨DreamWalk:在图像生成中实现对风格和内容的精细控制
- 可以决定哪部分更加强烈地体现某种风格,哪部分则保持原样或采用另一种风格。
- 支持在不同风格之间进行平滑过渡、遵循DreamBooth主题或文本提示的细节。
- 可以将现有的真实世界图像转换为特定风格的艺术作品。
🔗项目及演示: https://mshu1.github.io/dreamwalk.github.io/…
🔗论文: https://arxiv.org/abs/2404.03145

图片

🎬MagicTime:是一个专注于生成变形时间延迟视频的模型
- 集成DiT-based架构。
- 解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。
- 通过引入变形时间延迟视频的概念,旨在克服这些限制,提高视频生成的质量和动态性。
🔗项目及演示:https://github.com/PKU-YuanGroup/MagicTime…
🔗论文:https://arxiv.org/abs/2404.05014
🔗GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main
🔗 https://blink.csdn.net/details/1678308

图片

🎙️ Google将推全新AI视频工具:Google Vids
- Google Vids集多种功能于一体,帮助用户轻松创作故事板。
- AI技术协助编辑内容,选择适合的场景、图片和音乐。
- 用户可为视频加上配音,提升视频个性化和专业度。
🔗 https://blink.csdn.net/details/1678285

图片

🚀Mistral AI最新磁力链放出!8x22B MoE模型,281GB解禁
- Mistral AI再次发布磁力链,解禁281GB的8x22B MoE模型。
- Mistral AI靠一条磁力链掀起AI社区热潮。
- 新的MoE模型支持多语言、性能强大,旗舰版直接对标GPT-4。
- 仅次于 xAI 此前推出的 Grok-1(参数量为 3140 亿),成为迄今为止第二大开源模型。

微信扫码立即使用「源自下载」小程序

「源自下载」小程序二维码

Copyright © 2019-2024 源自下载