AI搜索Perplexity的产品构建之道

AI搜索Perplexity的产品构建之道

作者|Lenny Rachitsky OneFlow编译
翻译|凌小雨、张雪聃 题图由SiliconCloud平台生成 作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI...
0
比肩GPT4,没有显卡也能用Llama-3.1-405B

比肩GPT4,没有显卡也能用Llama-3.1-405B

(题图由SiliconCloud平台的Flux.1模型生成) 近日,Meta发布了备受瞩目的Llama-3.1系列模型,包括405B “超大杯”模型傲视群雄,成为首个比肩最强大模型的开...
0
10倍加速LLM计算效率:消失的矩阵乘

10倍加速LLM计算效率:消失的矩阵乘

矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经...
0
如何准确且可解释地评估大模型量化效果?

如何准确且可解释地评估大模型量化效果?


作者|Fireworks Team OneFlow编译
翻译|张雪聃
题图由SiliconCloud平台生成
  随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质...
0
70B大模型训练秘方① :数据集创建与评估

70B大模型训练秘方① :数据集创建与评估

今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o zero-shot表现(该模型未在这...
0
GPU利用率背后的性能真相

GPU利用率背后的性能真相

一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪...
0