目录
- 前言
- 一、代理ip介绍以及面临的挑战
- 二、获取AIGC前沿信息缺口
- 1、最新AIGC前沿信息来源
- 2、确定关键字
- 3、可能涉及到的字段
- 三、使用代理ip抓取数据
- 1、选择代理ip服务
- 2、如何使用BrightData代理ip抓取数据
- (1)注册登录
- (2)代理IP服务
- (3)亮数据浏览器抓取数据
- (4)定制数据集
- 总结
如何使用代理ip服务高效采集最新AIGC前沿信息
前言
信息化时代,代理IP服务的重要性不仅体现在保护个人隐私和数据安全,绕过地理限制以访问受限内容,加强网络安全以及支持数据采集等方面,还有利于匿名访问和翻墙上网,帮助用户维护网络自由和个人权利,促进信息的自由流动和知识的共享,因此在当前信息化社会中,代理IP服务的作用愈发重要和不可或缺。
一、代理ip介绍以及面临的挑战
代理IP(Proxy IP)是由代理服务器提供的用于隐藏用户真实IP地址的IP地址。在互联网上,用户的IP地址是唯一标识其设备和位置的数字标签。使用代理IP可以实现一些特定的目的,例如保护用户隐私、绕过地理限制、访问被封锁的网站等。但是代理IP又面临着许多挑战:
1.封禁和封锁: 很多网站会检测到代理IP的使用,并采取措施将其封禁或封锁,因为代理IP容易被滥用,用于发起恶意攻击、进行大规模爬取等行为。网站为了保护自身安全和服务质量,会将代理IP列入黑名单,限制其访问网站内容或执行特定操作。
2.速度和稳定性: 代理IP可能会导致网络连接速度变慢或不稳定。这取决于代理服务器的负载情况、服务器位置与用户位置的距离,以及代理IP供应商的服务质量。使用速度较慢或不稳定的代理IP会影响用户体验,尤其是在需要大量数据传输或对实时性要求较高的情况下。
3.隐私和安全: 使用公共代理IP存在隐私和安全风险。一些免费的代理IP可能会记录用户的网络活动,甚至有可能被黑客攻击,导致用户的个人信息泄露或受到其他安全威胁。
4.合法性和可信度: 选择合法和可信的代理IP供应商至关重要。使用非法或不可信的代理IP服务可能会带来法律风险,并可能导致服务中断或不稳定性。
5.成本和效率: 购买高质量的代理IP服务通常需要一定的成本投入。而且,需要确保代理IP的使用是高效的,否则可能会浪费时间和资源。
解决这些挑战的方法包括选择信誉良好的代理IP供应商,定期检查和更新代理IP,遵守网站的使用规则和政策,加强网络安全措施,以及根据实际需求合理管理代理IP的使用。
二、获取AIGC前沿信息缺口
科技发展迅速,导致AIGC这一领域中存在的信息不足或缺乏前沿技术和研究的信息,包括对最新的人工智能生成内容技术、应用案例、道德和法律问题等方面了解不足。解决这个问题的方法包括积极跟踪最新研究、参与相关的学术和行业活动、与专业人士交流等。
1、最新AIGC前沿信息来源
(1)学术期刊和会议论文:在人工智能领域的学术期刊和会议上发表的论文是了解AIGC技术和研究进展的重要来源。例如,人工智能领域的顶级会议如NeurIPS、ICML、AAAI等经常涉及到AIGC相关的研究成果。
(2)专业网站和博客:许多专业网站和博客定期发布关于AIGC的最新进展、技术趋势和案例研究等内容。这些网站可能包括OpenAI的博客、DeepMind的博客、AI2的博客等。
(3)技术报告和白皮书:一些技术公司、研究机构或组织发布的技术报告和白皮书可能包含关于AIGC的详细信息,这些报告通常涵盖了最新的技术进展、应用案例和发展趋势等。
(4)社交媒体和论坛:在社交媒体平台上,如Twitter、Reddit等,以及专业论坛如GitHub、Stack Overflow等,人们经常分享关于AIGC的最新新闻、研究论文、项目案例等信息。
(5)行业报告和调研:一些专业机构和市场研究公司定期发布关于人工智能行业和AIGC市场的报告和调研,这些报告可能包含市场趋势、竞争格局、关键技术等方面的信息。
为了快速搜集数据,本文采用代理ip服务来帮助我们实现数据采集,并选取专业网站和博客作为获取最新AIGC前沿信息的数据来源,网页地址如下:
https://www.51cto.com/ai
https://www.51cto.com/
2、确定关键字
人工智能、AIGC、AI、大模型、多模态、ChatGPT
3、可能涉及到的字段
帖子类型、讨论的主题、用户兴趣、网址、关键词、评论、标签、内容、作者、标题、概括
三、使用代理ip抓取数据
1、选择代理ip服务
通过对市面上代理IP的封禁性、速度和稳定性、 隐私和安全、 合法性和可信度、 成本和效率进行比较,最终选择了呼声很高的BrightData的IP代理服务。
2、如何使用BrightData代理ip抓取数据
(1)注册登录
首先进入BrightData官网注册账号,需要填写姓名、邮箱、手机号即可注册完成
登录之后进入后台首页,有两个模块,一个是代理&爬虫基础设施,一个是网络数据收集和爬虫开发套件。
(2)代理IP服务
市面上的代理IP服务有很多类型,不同类型的代理服务适用于不同的使用场景和需求,用户可以根据自己的需要选择合适的代理IP服务类型。比如:
动态住宅代理: 这种代理IP是从普通家庭用户的网络中获取的,IP地址可能会随着时间和网络连接的变化而改变。
静态住宅代理: 与动态住宅代理相反,静态住宅代理的IP地址是固定不变的,通常由专门的提供商提供,这些IP地址通常属于真实的家庭网络,但被特定用户租用。
机房代理: 机房代理是指代理IP来自数据中心或云服务提供商的服务器,这些IP地址通常稳定可靠,带宽大,延迟低。
移动代理:指代理IP来自移动网络运营商的IP地址池。
数据中心代理:是指代理IP来自数据中心或云服务提供商的服务器。
这里选择代理&爬虫基础设施,可以根据自己需求,选择不同的代理服务,由下图可以看出BrightData代理ip服务包含了许多市面上常见的类型,并且还有提高抓取成功率的功率。
这里选择无线机房代理,它适合使用需求高的场景。
点击下面的确定按钮,则创建新的通道
然后我们选择“亮数据浏览器”,利用内置解锁功能和代理一体的爬虫浏览器,大规模轻易解锁网站,抓取数据。出现下面的页面,之后点击“添加”按钮。
接下来会生成主机、用户名、密码。我们可以用这些信息使用浏览器进行抓取。
(3)亮数据浏览器抓取数据
接下来到“Bright Data’s Scraping Solutions”(亮数据的抓取解决方案),选择“Scraping Browser”菜单下的“Configuration”,可以看到亮数据提供了三种语言(NodeJs、Python、C#)帮你抓取数据,真的太方便啦!
这里我们用NodeJS做一个示例,爬取“https://www.51cto.com/ai”网站人工智能的相关信息。
首先新建reptiles.js文件,将示例代码粘贴进去,并修改相关信息,如下:
执行下面命令:
node reptiles.js
爬取结果如下:
并且可以看到在当前目录中会生成page.png的文件。
代码如下所示:
const puppeteer = require('puppeteer-core'); const AUTH = 'brd-customer-hl_1272c6e2-zone-scraping_browser1:nbwa0ao5rj28'; const SBR_WS_ENDPOINT = `wss://${AUTH}@brd.superproxy.io:9222`; async function main() { console.log('Connecting to Scraping Browser...'); const browser = await puppeteer.connect({ browserWSEndpoint: SBR_WS_ENDPOINT, }); try { console.log('Connected! Navigating...'); const page = await browser.newPage(); await page.goto('https://www.51cto.com/ai', { timeout: 2 * 60 * 1000 }); console.log('Taking screenshot to page.png'); await page.screenshot({ path: './page.png', fullPage: true }); console.log('Navigated! Scraping page content...'); const html = await page.content(); console.log(html) // CAPTCHA solving: If you know you are likely to encounter a CAPTCHA on your target page, add the following few lines of code to get the status of Scraping Browser's automatic CAPTCHA solver // Note 1: If no captcha was found it will return not_detected status after detectTimeout // Note 2: Once a CAPTCHA is solved, if there is a form to submit, it will be submitted by default // const client = await page.target().createCDPSession(); // const {status} = await client.send('Captcha.solve', {detectTimeout: 30*1000}); // console.log(`Captcha solve status: ${status}`) } finally { await browser.close(); } } if (require.main === module) { main().catch(err => { console.error(err.stack || err); process.exit(1); }); }
(4)定制数据集
数据集可以通过按需定制数据集,你可以完全按照自己的需要和使用场景定制自己的数据集,也可以在数据集商城里直接购买行业分类的现成的数据来源。
定制数据集,选择左侧菜单中的数据收集器,点击“点击定制”按钮。
出现弹框,有两种方式,一种是完全托管的数据集,一种是自定义数据集。
完全托管的数据集:需要你提供目标网站,请求的详细信息,会有专家联系你。适合于在定义项目时获得不受干扰的经验或指导的客户。
自定义数据集:提供有关想要收集的数据的详细信息,查看 AI 生成的架构并根据需要进行编辑,数据已收集并交付。
这里我们选择创建自定义数据集,徐阿哟填写数据集名字,数据集上下午,页面网址(输入至少 2 个来自同一域的 URL。确保它们是指向您要抓取的页面的直接链接)
输入完成后点击“下一步”,就开始对上面提供的信息进行详细分析,需要进行等待。
随后样品准备好,到达“Ready for review”之后,点击下面的查看按钮
随后确定数据集的初始模式,可以对字段进行配置。
预览的JSON格式如下:
{ "type": "object", "fields": { "entityType": { "type": "text", "active": true }, "summary": { "type": "text", "active": true }, "fields": { "type": "array", "active": true, "items": { "type": "object", "fields": { "field1": { "type": "text", "active": true }, "field2": { "type": "text", "active": true }, "field3": { "type": "text", "active": true }, "field4": { "type": "text", "active": true }, "field5": { "type": "text", "active": true }, "field6": { "type": "text", "active": true }, "field7": { "type": "text", "active": true }, "field8": { "type": "text", "active": true }, "field9": { "type": "text", "active": true }, "field10": { "type": "text", "active": true } } } }, "keywords": { "type": "array", "active": true, "items": { "type": "text" } }, "dateAndTime": { "type": "date", "active": true }, "articleTitle": { "type": "text", "active": true }, "articleSummary": { "type": "text", "active": true }, "publicationDate": { "type": "date", "active": true }, "companyMentioned": { "type": "text", "active": true }, "technologyMentioned": { "type": "text", "active": true }, "predictedDevelopments": { "type": "text", "active": true }, "researchFindings": { "type": "text", "active": true }, "productReleases": { "type": "text", "active": true }, "industryImpact": { "type": "text", "active": true }, "articleURL": { "type": "url", "active": true }, "courseTitle": { "type": "text", "active": true }, "courseDescription": { "type": "text", "active": true }, "courseURL": { "type": "url", "active": true }, "eventTitle": { "type": "text", "active": true }, "eventDate": { "type": "date", "active": true }, "eventURL": { "type": "url", "active": true }, "url": { "type": "url", "active": true, "required": true } }}
之后点击“Approval schema”,可以得到数据集样本,可以下载下来方便查看。具体样本如下面的图片和代码所示:
[ { "entityType": "Artificial Intelligence", "summary": "This document contains various news, theories, technical knowledge, and application cases in the field of artificial intelligence, including machine learning, deep learning, computer vision, natural language processing, etc.", "fields": [ { "field1": "Machine Learning", "field2": "Deep Learning", "field3": "Computer Vision", "field4": "Natural Language Processing", "field5": "News", "field6": "Theories", "field7": "Technical Knowledge", "field8": "Application Cases", "field9": "Artificial Intelligence", "field10": "Artificial Intelligence" } ], "keywords": [ "Artificial Intelligence", "Machine Learning", "Deep Learning", "Computer Vision", "Natural Language Processing" ], "dateAndTime": "2024-05-09T12:49:16Z", "articleTitle": "How to overcome the disadvantages of artificial intelligence?", "articleSummary": "This article will evaluate the disadvantages of artificial intelligence, discuss these issues democratically, and make valuable suggestions on how to overcome the disadvantages of artificial intelligence.", "publicationDate": "2024-05-09T12:49:16Z", "companyMentioned": "OpenAI", "technologyMentioned": "Artificial Intelligence", "predictedDevelopments": "With the revolutionary changes in the field of artificial intelligence and the emergence of many newcomers in the field of generative artificial intelligence tools, the world is about to witness an era of change and subversion.", "researchFindings": "Artificial intelligence also has disadvantages.", "productReleases": "OpenAI's latest product", "industryImpact": "Artificial intelligence field has undergone revolutionary changes", "articleURL": "https://www.51cto.com/art/202405/685446.htm", "courseTitle": "Artificial Intelligence", "courseDescription": "This course includes various news, theories, technical knowledge, and application cases in the field of artificial intelligence.", "courseURL": "https://www.51cto.com/art/202405/685446.htm", "eventTitle": "Artificial Intelligence Seminar", "eventDate": "2024-05-09T12:49:16Z", "eventURL": "https://www.51cto.com/art/202405/685446.htm", "url": "https://www.51cto.com/ai ", "is_generated": false }, { "entityType": "text", "summary": "text", "fields": [ { "field1": "text", "field2": "text", "field3": "text", "field4": "text", "field5": "text", "field6": "text", "field7": "text", "field8": "text", "field9": "text", "field10": "text" } ], "keywords": [ "AI", "OpenHarmony", "Python", "Redis", "JS", "大模型", "鸿蒙", "数据库", "开源", "自动驾驶" ], "dateAndTime": "2024-05-09T12:18:00Z", "articleTitle": "快3倍!Meta 违背经典模型结构,一次预测多个token", "articleSummary": "Meta违背经典模型结构,一次预测多个token,路径可行,大模型大幅提速指日可待!", "publicationDate": "2024-05-09T12:18:00Z", "companyMentioned": "Meta", "technologyMentioned": "AI", "predictedDevelopments": "大模型大幅提速", "researchFindings": "Meta违背经典模型结构,一次预测多个token,路径可行", "productReleases": "新的AI模型", "industryImpact": "大模型大幅提速,将对AI行业产生重大影响", "articleURL": "https://www.51cto.com/art/202405/685764.htm", "courseTitle": "Python并发与并行:multiprocessing模块大揭秘", "courseDescription": "深入探讨并发与并行这两者的区别,并通过剖析Python内置的multiprocessing模块,揭示如何利用并行编程技巧,让Python程序如虎添翼。", "courseURL": "https://edu.51cto.com/center/course/lesson/index?id=649305", "eventTitle": "WOT全球技术创新大会·北京站", "eventDate": "2024-05-09T00:00:00Z", "eventURL": "https://www.51cto.com/art/202405/685764.htm", "url": "https://www.51cto.com", "is_generated": false }]
最后点击“Approval sample”确认其符合自己的标准,接下来确定数据集采集范围。
填写完成之后,点击下面的按钮“Approve scope (complete review)”去审核付款就OK啦。
另一种方式可以选择数据集商城,里面有很多行业可以去选择,也可以搜索你想要的。
比如这里我选择Amazon products 数据集,可以确定美国亚马逊的最畅销产品和产品库存变化,跨各种类别和子类别跟踪它们,还可以根据您的需求,您可以购买整个数据集或定制的子集。可将样本下载下来,提供两种方式,一种是CSV,一种是JSON,并且可以通过筛选器筛选参数,还可以自定义字段,包括编辑字段名称、显示隐藏字段。
这种直接选择现成的数据集真的不要太高效好嘛,不用到处去找网站搜数据,关键信息应有尽有,并且我觉得比我自己思考的要全面,真的很方便!
总结
信息化时代,使用代理ip服务能隐藏你的真实ip信息,在爬取最新AIGC前沿信息时,我使用 BrightData代理ip 服务进行数据搜集,利用亮数据浏览器提高抓取成功率,当然还有其他的工具比如:亮数据解锁器、搜索引擎爬虫SERP等也能提高成功率。并且通过定制数据集来搜集数据,全面控制自己想要的数据信息,给我一种随心所欲的feel。在抓取数据过程中,效率真的很高,么有出现任何个人信息泄露的状况,并且成本也不是很高,完全可以hold住。