揭示GPU上的批处理策略 本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员... 2024-05-24 0
LLM推理的极限速度 本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大... 2024-05-24 0
Stable Diffusion XL优化终极指南 如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。... 2024-05-24 0
OneDiff 1.0发布!生产环境稳定加速SD/SVD模型 自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户... 2024-05-24 0
生成式AI产业经济学:价值分配与利润结构 处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。 然而,ChatGPT爆火一年后,GenAI产业还没有形成... 2024-05-24 0
LLaMA 3:大模型之战的新序幕 作者 | 符尧 OneFlow编译 翻译|杨婷、宛子琳、张雪聃 本文要点概览: 文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitH... 2024-05-24 0
LLM推理入门指南③:剖析模型性能 在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理... 2024-05-24 0
终极GPU互联技术探索:消失的内存墙 《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或... 2024-05-24 0
LLM Serving有效吞吐量的最大化实现 如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码... 2024-05-24 0
GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎 1. OpenAI发布GPT4o,能实时语音视频交互 今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以... 2024-05-24 0
OpenAI安全系统负责人:从头构建视频生成扩散模型 作者 | Lilian Weng OneFlow编译 翻译|杨婷、宛子琳、张雪聃 题图由SiliconFlow MaaS平台生成 过去几年,扩散模型(Diffusion models)在图像合成领域取得了... 2024-05-24 0
900个开源AI工具背后,我看到的趋势 作者 | Chip Huyen OneFlow编译 翻译|杨婷、宛子琳 四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个... 2024-05-24 0
利用AIGC生成软件的设计文档 文档撰写是程序员的另一个最大痛点,许多程序员宁愿写更多的代码也不愿写一行文档。 这可能是跟人脑的工作方式有关,写程序是利用左脑&#x... 2024-02-22 0
2023年AIGC产品的失败案例:从教训中寻找未来的启示 【一、失败的教训:2023年AIGC产品遭遇滑铁卢的原因】 技术落后于竞争对手:Jasper、Deepgram等因技术实力不足,在与更先进的产品... 2024-02-22 0
ChatGPT Team VS Genmini Pro VS 文心一言3.5,ChatGPT到底有多强大? 写在前面 本人只支持GPT-4.0,所以没管谷歌和百度的事(因为它们免费用户也能生成图片) ChatGPT 键盘快捷键 询问版本号 生成图... 2024-02-22 0