1. 20多家顶尖科技公司的AI应用
AI产品功能对市场来说仍然是新事物。没有人完全弄清楚其中多少功能将得到广泛使用,以及用户在多大程度上真正想要这些新产品。
本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能,包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等,总体而言,这些产品团队目前正在构建的功能分为5种不同的类别:
嵌入式助手:嵌入在核心产品中的AI助手,旨在以某种方式放大其产品价值主张
新的独立产品:由AI驱动的独立产品,区分于核心产品
用户体验增强器:由AI驱动的功能,旨在让现有产品更容易使用或以某种方式改善整体用户体验
生产力助推器/节省时间:旨在提高用户生产力的AI功能
ML智能/数据分析:部署AI驱动的机器学习模型以增加价值或发现见解
本文从功能类别、工作原理等维度分析了上述公司发布的不同的新AI功能,有助于AI团队做产品时进行参考。
https://departmentofproduct.substack.com/p/dop-deep-what-ai-features-are-product-a20
2. 超越代码生成:24名工程师的ChatGPT使用体验观察
来自瑞典哥德堡查尔姆斯理工大学和瑞典RISE研究机构的研究人员,对来自在日常工作中使用ChatGPT超过一周的10公司的24名软件工程师,进行定性分析他们与聊天机器人的对话以及他们的整体体验。
作者发现,从业者更多地使用ChatGPT来获得有关如何解决任务或以更抽象的方式了解主题的指导,而不是期望ChatGPT生成随时可用的软件工件(例如代码)。
本研究还提出了一个理论框架,说明(i)交互的目的、(ii)内部因素(例如用户的个性)和(iii)外部因素(例如公司政策)如何共同塑造用户体验(就感知有用性和信任度而言)。
本研究指出,当涉及到企业应用时,有一些问题甚至前沿模型也无法解决。其中之一就是上下文。无论模型经过多少训练,它都不会了解企业的专有信息。在工程师与模型交互时,拥有能够自动向模型提供上下文信息的聊天界面将在将用户体验提升到新的水平中发挥关键作用。有几种方法可以做到这一点,包括检索增强生成 ( RAG ),其中上下文信息会在发送到模型之前自动添加到用户的提示中。或者,把LLM可以集成到用户的IDE中,在回答问题时它会自动使用代码和项目文件作为上下文。
另一个需要解决的问题是隐私和数据共享限制。一种解决方法是使用Llama 3这样的开源模型,这样可以确保数据永远不会离开用户所属的组织。
研究中提出的另一个观点是工程师在提示模型上投入的精力。用户提出请求和指令的方式对LLM的性能有重大影响。减少提示工程的摩擦可以帮助改善用户体验并节省工程师与LLM交互的时间。在这方面一个令人印象深刻的方向是Anthropic公司的提示生成器,它可以自动为你想要完成的任务创建最佳提示。另一个例子是OPRO ,这是DeepMind开发的一种自动优化提示的技术。
最后,该研究提到使用ChatGPT导致注意力下降。通过将LLM融入团队合作,可以在一定程度上缓解这一挑战。一个有趣的例子是Glue ,这是一款新的企业聊天应用程序,它将LLM作为智能体添加到讨论对话中。从孤立的LLM体验到将智能体插入群组对话可以产生非常有趣的结果。
本研究结果提供了有关软件工程师使用ChatGPT执行的任务类型以及影响他们体验的因素的重要信息,对于希望将LLM融入其工作流的企业具有重要意义。
https://arxiv.org/abs/2404.14901
https://bdtechtalks.substack.com/p/how-to-boost-software-engineering
3. ChatNT:多模态对话智能体,用于处理DNA、RNA和蛋白质任务
InstaDeep和BioNTech的研究者们开发了ChatNT,这是一个先进的多模态对话智能体,能够理解生物序列并执行相关任务。ChatNT通过自然语言处理,使用户无需编程背景即可解决生物学问题。
研究者们计划将ChatNT应用于更广泛的程序理解任务,并扩展其数据模态,以构建更全面的生物学智能体。
关键特性:
多模态理解:ChatNT结合了DNA编码器和预训练的英语解码器,能够处理DNA、RNA和蛋白质序列。
任务通用性:智能体能够执行多种分类和回归任务,涵盖不同的物种、组织和生物过程。
对话式交互:用户可以通过英语与ChatNT交互,执行如预测RNA降解率、鉴定增强子活性和评估蛋白质稳定性等任务。
SOTA性能:
ChatNT在Nucleotide Transformer基准测试中取得了SOTA结果,并在一系列生物学相关任务上达到了与专门方法相当的性能。
技术细节:
ChatNT的架构包括一个预训练的DNA编码器、一个投影层和一个预训练的英语解码器。
通过自然语言提示,ChatNT能够在不同任务之间实现无缝切换,同时解决多个任务。
应用与扩展性:
ChatNT的框架可以轻松扩展到更多任务和生物数据模态,如结构和成像数据。
该模型的灵活性和多模态特性使其成为生物学研究的有力工具。
https://www.instadeep.com/wp-content/uploads/2024/04/ChatNT_A-Multimodal-Conversational-Agent-for-DNA-RNA-and-Protein-Tasks.pdf
4. Astra是谷歌AI的未来?
Astra是一款在Google I/O 大会上亮相的实时多模式AI助手,能够以对话方式识别物体、回答问题和协助完成任务。该项目是谷歌Gemini产品系列发布的一部分,其中包括用于更快完成任务的 Gemini 1.5 Flash、用于根据文本提示生成视频的Veo和用于本地设备使用的Gemini Nano等新模型。
谷歌DeepMind CEO Demis Hassabis设想,AI的未来将更多地关注功能而不是模型,即由AI智能体代表用户执行任务。他认为,Astra更接近真正的实时AI助手,代表着谷歌AI的未来,目前Astra的速度和时延一直是他们的关注重点。
https://www.theverge.com/2024/5/14/24156296/google-ai-gemini-astra-assistant-live-io
5. 什么是检索增强生成(RAG)?
RAG是使LLM在实际的、特定领域的应用中更加准确、知识丰富和健壮的最简单、最有效的方法。
增强技术允许以多种方式扩展LLM 的功能,而无需重新训练模型。我们可以通过提供从外部知识源获取的相关上下文,或教它们直接查询专门的搜索引擎或API,来扩展它们的知识广度。我们可以将它们与执行特定任务的专用工具集成,或使它们能够即时生成和运行代码,从而扩展它们的推理和解决问题的能力。最后,我们可以将LLM变成成熟的智能体,能够决定如何以及何时与环境交互、收集信息并采取行动以实现长期目标。
在本文和后续文章中会回顾目前最先进的LLM中可以使用的最常见增强策略。这些技术人人都能掌握,而且与它们提供的价值相比,只需付出很少的努力。
https://blog.apiad.net/p/what-is-retrieval-augmented-generation
6. 构建AI SaaS应该用RAG还是微调?
及时优化并切换到最新的LLM是不够的。你需要根据每位客户微调LLM,或者将RAG与第三方数据结合使用。本文详细介绍并比较了这两种方法,以便你可以发布可用于生产的AI功能。
https://www.useparagon.com/blog/rag-vs-finetuning-saas
快速构建一个AI搜索引擎:如何将LLM的语言理解和综合能力与搜索引擎的知识新奇性和广度结合起来?使用RAG与Google搜索相结合,构建一个无所不知的机器人。
https://blog.apiad.net/p/building-a-perplexity-ai-clone
7. 其他最新应用
AI语音公司ElevenLabs的系列发布
推出了一款名为“Audio Native”的工具,付费用户可以在其网站或博客中添加逼真的旁白。
发布了ElevenLabs Music预览版,一种能够根据一行文本生成整首歌曲的AI模型。
推出了配音API,让开发人员将音频和视频翻译融入到他们的应用程序和产品中。
发布了Reader ,这是其首款用于阅读网页和其他文档的消费者应用程序。
AI初创公司Ideogram以其先进的文本到图像生成功能而知名,该公司宣布其平台新增一项重要功能Ideogram Tile,用户只需用自然语言描述自己的构想,即可生成精美的壁纸、身临其境的风景和纹理。然后,这款由AI驱动的工具将提示转化为视觉图案,并能以各种配置进行布局设置。
这项新功能有望简化工作流程并激发室内设计、时尚和游戏等各个领域的新创意方向。
AI搜索引擎Arc Search推出了一项名为“Call Arc”的功能,可让用户通过“打电话”的方式获得答案。
Hume AI推出了“ Chatter ”,这是一个可以交谈的互动式新闻播客。
Adobe在其Lightroom产品中添加了“(Generative Remove)生成式删除”功能,让用户可以轻松地从图像中删除不需要的对象。
8. 方法论
GTM策略:如何从0到1
对于产品人员来说,市场进入 (GTM,Go-to-Market)似乎有点神秘。但实际上,GTM包括以下7个动作:
好消息是:这7种动作都是可以学习的。作者研究了12家海外最热门的科技公司的增长关键。
在这12家公司中,可以看到3个关键模式:
趋势 1:PLG(产品驱动增长)正在吞噬世界
上述列表中超过80%的公司将PLG作为GTM的主要方式。即使是像 Snowflake和Salesforce这样专注于To B的企业也在将免费试用和免费增值模式添加到其产品推广组合中。
趋势 2:多渠道是必须的
无论GTM的主要关注点是什么,所有这些公司都至少使用三个其他渠道来支持他们的增长工作。集客营销(Inbound,指吸引潜在客户来到网站或应用的营销策略)支持推式营销(Outbound,广告及其他传统推广方式)、合作伙伴关系放大PLG等等。
趋势 3:ABM(基于账户的营销)和Outbound加速企业交易
对于销售上万交易的公司来说,ABM和定向对外营销仍然是重点。这些方式帮助他们进入重要客户并应对复杂的采购委员会。
GTM没有魔法,所有的乐趣都在于血腥的战术细节。最重要的是,保持灵活并乐于尝试。在一个阶段有效的方法可能在另一阶段无效。对一家公司有效的方法可能不适用于你。关键是愿意在必要时进行调整。
来源:
Elevenlabs:https://elevenlabs.io/blog/tag/product/
Ideogram:https://venturebeat.com/ai/ideogram-tile-brings-ai-generated-patterns-to-the-masses/
Arc Search:https://x.com/nateparrott/status/1793643577605796307
Chatter:https://x.com/hume_ai/status/1790469055226183771
Adobe:https://news.adobe.com/news/news-details/2024/Adobe-Unveils-Firefly-Powered-Generative-Remove-in-Lightroom-for-Fast-and-Easy-AI-Editing-Across-Surfaces/default.aspx
GTM策略:https://www.news.aakashg.com/p/tactical-go-to-market-101-how-to
【OneDiff v1.0发布(生产环境稳定加速SD&SVD)】本次更新包含以下亮点,欢迎体验新版本:github.com/siliconflow/onediff
OneDiff质量评估
重复利用编译图
改进对Playground v2.5的支持
支持ComfyUI-AnimateDiff-Evolved
支持ComfyUI_IPAdapter_plus
支持Stable Cascade
提高了VAE的性能
为OneDiff企业版提供了量化工具
(SDXL E2E Time)
(SVD E2E Time)
(OneDiff Demo)
其他人都在看
800+页免费“大模型”电子书
从头构建视频生成扩散模型
Stable Diffusion XL优化终极指南
LLM推理入门指南③:剖析模型性能
LLM Serving有效吞吐量的最大化实现
2人AI团队被收购;3款AI搜索引擎对比
OneDiff 1.0发布!稳定加速SD/SVD模型