
企业动态
Ideogram 推出文生图模型 Ideogram 2.0 日前,Ideogram 推出了新版本文本到图像模型 Ideogram 2.0。据介绍,Ideogram 2.0 的性能优于 DALL-E、Midjourney 和 FLUX Pro,不仅具有更高的文本准确性,还为开发人员提供了 Ideogram API 和 Ideogram Search 的测试版本。
微软推出 3 款 Phi 3.5 开源模型 日前,微软推出了 Phi 3.5 系列中的 3 个新开源人工智能(AI)模型:Phi 3.5 mini-instruct、MoE-instruct 和 vision-instruct,为跨语言的商业和科学应用提供可扩展的推理能力。
AI21 推出两款 Mamba-Transformer 模型 AI21 推出了 Jamba Large 和 Jamba Mini,这是 Mamba-Transformer 模型系列中的两个新语言模型,在开放模型中具有最长的上下文窗口(256k),可与 Llama 3.1 和 Mistral Large 等先进模型相媲美。
Luma Labs 推出 Dream Machine 1.5 Luma Labs 推出了 Dream Machine 1.5,为用户提供卓越的文本到视频生成功能、更智能的提示和自定义文本渲染功能,从而提升视频创作水平。
OpenAI 推出 GPT-4o 微调功能 日前,OpenAI 推出了 GPT-4o 微调功能,允许开发人员定制模型响应,旨在提高特定领域任务(如软件工程和文本到 SQL)的性能,并限时为 GPT-4o 提供每天 100 万个免费训练 token,为 GPT-4o mini 提供 200 万个免费 token。
为训练 AI 模型,Meta 推出全新网络爬虫程序 据报道,Meta 推出全新网络爬虫程序 Meta-External Agent 和 Meta-External Fetcher,用于收集互联网数据以训练其 AI 模型,该程序可绕过 robots.txt 规则,从而无限制地获取数据。
昆仑万维推出 AI 短剧平台 SkyReels 据报道,昆仑万维推出了全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体,让创作者'一键成剧',轻松制作高质量 AI 视频。
Google DeepMind 近 200 名员工呼吁放弃与军队的合同 根据《时代周刊》和五名知情人士查阅的文件副本,Google DeepMind 内部的 200 名早期员工签署了一封信,呼吁这家科技巨头放弃与军事组织的合同。这封信的传播正值该公司内部越来越担心其技术被出售给参与战争的军队,他们认为违反了谷歌自己的人工智能规则。
OpenAI 签署协议,在 Condé Nast 内容上进行训练,在 ChatGPT 上呈现故事 日前,OpenAI 与全球杂志巨头康泰纳仕(Condé Nast)达成多年的合作协议,允许 ChatGPT 及其搜索引擎 SearchGPT 展示 Vogue、The New Yorker、GQ 等知名刊物的内容。这是 OpenAI 与主要媒体公司达成的最新协议。
技术前瞻
AI 无限学习、进化!最新研究登上 Nature 大语言模型(LLM)可以产生看似智能的回应,但它们缺乏在使用过程中继续学习的能力。这阻碍了它们在被更多使用时给出更准确的回复,也无法通过对新数据集进行训练而变得更加智能。
来自阿尔伯塔大学的研究团队测试了传统神经网络在原始数据集上进行训练后继续学习的能力,发现了所谓的'灾难性遗忘'现象,即系统在接受新数据训练后,失去了执行原来能够完成的任务的能力。他们还发现,如果对多个任务进行顺序训练,这些系统也会完全丧失学习能力——他们将此描述为'可塑性丧失'。
在这项研究中,他们找到了解决问题的方法——通过重置之前与网络上的节点关联的权重。在人工神经网络中,节点使用权重来衡量其强度,随着权重的增加,它所传达的信息的重要性也随之增加。研究人员建议,使用用于初始化系统的相同方法在训练会话之间重新初始化权重,应该可以保持系统的可塑性,并使其继续在其他训练数据集上学习。
Meta 提出多模态模型训练方法 Transfusion 在这项工作中,Meta 团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion,其将语言建模损失函数(下一个 token 预测)与扩散相结合,在混合模态序列上训练一个 transformer。他们在文本和图像混合数据上从头开始预训练了多个 Transfusion 模型,参数为 7B,建立了与各种单模态和跨模态基准相关的缩放规律。
实验表明,Transfusion 的扩展能力明显优于量化图像和在离散图像 token 上训练语言模型。通过引入特定模式的编码和解码层,他们可以进一步提高 Transfusion 模型的性能,甚至可以将每幅图像压缩到 16 个 patch。他们进一步证明,将 Transfusion 扩展到 7B 参数和 2T 多模态 token,可以生成与类似规模的扩散模型和语言模型相当的图像和文本,从而同时具备两类模型的优点。

