揭示GPU上的批处理策略

揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员...
0
LLM推理的极限速度

LLM推理的极限速度

本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大...
0
Stable Diffusion XL优化终极指南

Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。...
0
OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户...
0
生成式AI产业经济学:价值分配与利润结构

生成式AI产业经济学:价值分配与利润结构

处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。 然而,ChatGPT爆火一年后,GenAI产业还没有形成...
0
LLaMA 3:大模型之战的新序幕

LLaMA 3:大模型之战的新序幕

作者 | 符尧 OneFlow编译 翻译|杨婷、宛子琳、张雪聃 本文要点概览: 文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitH...
0
LLM推理入门指南③:剖析模型性能

LLM推理入门指南③:剖析模型性能

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理...
0
终极GPU互联技术探索:消失的内存墙

终极GPU互联技术探索:消失的内存墙

《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或...
0
LLM Serving有效吞吐量的最大化实现

LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码...
0
900个开源AI工具背后,我看到的趋势

900个开源AI工具背后,我看到的趋势

作者 | Chip Huyen OneFlow编译 翻译|杨婷、宛子琳 四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个...
0
利用AIGC生成软件的设计文档

利用AIGC生成软件的设计文档

文档撰写是程序员的另一个最大痛点,许多程序员宁愿写更多的代码也不愿写一行文档。 这可能是跟人脑的工作方式有关,写程序是利用左脑&#x...
0