云浏览器是一种基于云的组合,将 网页浏览器 应用程序与虚拟化的 容器 相结合,实现了远程浏览器隔离的概念。开发者可以使用流行的工具,如 Playwright 和 Puppeteer 来自动化网页浏览器,用于网页抓取和网页测试。
云浏览器在安全容器中执行来自网络的命令,与用户端点分离,并通过远程显示协议访问。因此,浏览器应用程序更加集中、易于管理、更具成本效益、可扩展且受到保护。
Browserless 是一款功能强大的基于云的解决方案,可实现无缝的浏览器自动化、网页抓取和测试。Browserless 的主要目标是简化和扩展网页浏览器自动化任务,例如测试和抓取,这可以通过以下两种方式实现:
在我们开始之前,我们需要一个 Browserless 服务。使用 Browserless 可以解决复杂的网页爬取和大型自动化任务,并且现在已经实现了完全托管的云部署。
Browserless 采用以浏览器为中心的方案,提供强大的无头部署功能,并提供更高的性能和可靠性。有关 Browserless 的更多信息,您可以 获取文档 以了解更多。
您对网页抓取和 Browserless 有什么很棒的想法和疑问吗?
让我们看看其他开发者在 Discord 和 Telegram 上分享了什么!
在我们开始之前,我们需要确保我们要爬取什么。在以下示例中,我们尝试爬取 IMDb Top 250 电影中的电影标题。打开页面后:
一切都准备就绪,开始爬取!我们选择使用 Nstbrowser 提供的功能强大的云 Browserless 来爬取以上内容。下面我们将列出一些常用的库。
如果您还没有选择库,我们强烈推荐 Puppeteer,因为它非常活跃并且有许多维护者。它也是由 Chrome 开发人员构建的,因此它是质量最高的库之一。
# pnpm
pnpm i puppeteer-core
# yarn
yarn add puppeteer-core
# npm
npm i --save puppeteer-core
import puppeteer from "puppeteer-core";
const token = "您的 api 密钥"; // '您的代理'
const config = {
proxy: '您的代理', // 必需;输入格式:schema://user:password@host:port 例如:http://user:password@localhost:8080
// platform: 'windows', // 支持:windows、mac、linux
// kernel: 'chromium', // 仅支持:chromium
// kernelMilestone: '128', // 支持:128
// args: {
// "--proxy-bypass-list": "detect.nstbrowser.io"
// }, // 浏览器参数
// fingerprint: {
// userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.6613.85 Safari/537.36', // userAgent 支持自 v0.15.0 起
// },
};
const query = new URLSearchParams({
token: token, // 必需
config: JSON.stringify(config),
});
const browserWSEndpoint = `https://less.nstbrowser.io/connect?${query.toString()}`;
// 连接 browserless
const browser = await puppeteer.connect({
browserWSEndpoint,
defaultViewport: null,
})
console.info('已连接!');
// 创建新页面
const page = await browser.newPage()
// 访问 IMDb top 250 页面
await page.goto('https://www.imdb.com/chart/top/?ref_=nv_mv_250')
// 等待电影列表加载
await page.waitForSelector('.ipc-metadata-list')
// 获取电影标题列表
const moviesList = await page.$$eval('.ipc-metadata-list h3.ipc-title__text', nodes => nodes.map(node => node.textContent));
console.log('[IMDb Top 250 Movies]===>', moviesList);
// 关闭浏览器
await browser.close();
恭喜!我们已经完成了抓取任务。您可以在控制台中看到 250 部电影的结果:
它是一个活跃的开源项目,有大量的贡献者。Playwright 由微软开发,支持多种浏览器(Chromium、Firefox 和 WebKit)和多种编程语言(Nodejs、Python、.NET 和 Java),使其成为最通用和高质量的浏览器自动化工具之一。
在 Nodejs 中使用
# pnpm
pnpm create playwright
# yarn
yarn create playwright
# npm
npm init playwright@latest
import { chromium } from 'playwright'
const token = "您的 api 密钥"; // '您的代理'
const config = {
proxy: '您的代理', // 必需;输入格式:schema://user:password@host:port 例如:http://user:password@localhost:8080
// platform: 'windows', // 支持:windows、mac、linux
// kernel: 'chromium', // 仅支持:chromium
// kernelMilestone: '128', // 支持:128
// args: {
// "--proxy-bypass-list": "detect.nstbrowser.io"
// }, // 浏览器参数
// fingerprint: {
// userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.6613.85 Safari/537.36', // userAgent 支持自 v0.15.0 起
// },
};
const query = new URLSearchParams({
token: token, // 必需
config: JSON.stringify(config),
});
const browserWSEndpoint = `ws://less.nstbrowser.io/connect?${query.toString()}`;
// 连接 browserless
const browser = await chromium.connectOverCDP(browserWSEndpoint);
console.info('已连接!');
// 创建新页面
const page = await browser.newPage();
// 访问 IMDb 的 top 250 页面
await page.goto('https://www.imdb.com/chart/top/?ref_=nv_mv_250');
// 等待电影列表加载
await page.waitForSelector('.ipc-metadata-list');
// 获取电影标题列表
const moviesList = await page.$$eval('.ipc-metadata-list h3.ipc-title__text', nodes => nodes.map(node => node.textContent));
console.log('[IMDb Top 250 Movies]===>', moviesList);
// 关闭浏览器
await browser.close();
在这里,我们可以在运行项目后找到列表:
在 Python 中使用
pip install pytest-playwright
from playwright.sync_api import sync_playwright
from urllib.parse import urlencode
import json
token = "您的 api 密钥" # '您的代理'
config = {
"proxy": "您的代理", # 必需;输入格式:schema://user:password@host:port 例如:http://user:password@localhost:8080
# platform: 'windows', // 支持:windows、mac、linux
# kernel: 'chromium', // 仅支持:chromium
# kernelMilestone: '128', // 支持:128
# args: {
# "--proxy-bypass-list": "detect.nstbrowser.io"
# }, // 浏览器参数
# fingerprint: {
# userAgent: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.6613.85 Safari/537.36', // userAgent 支持自 v0.15.0 起
# },
}
query = urlencode({"token": token, "config": json.dumps(config)})
browser_ws_endpoint = f"ws://less.nstbrowser.io/connect?{query}"
def scrape_imdb_top_250():
with sync_playwright() as p:
# 连接 browserless
browser = p.chromium.connect_over_cdp(browser_ws_endpoint)
print("已连接!")
# 创建新页面
page = browser.new_page()
# 访问 IMDb top 250 页面
page.goto("https://www.imdb.com/chart/top/?ref_=nv_mv_250")
# 等待电影列表加载
page.wait_for_selector(".ipc-metadata-list")
# 获取电影标题列表
movies_list = page.eval_on_selector_all(
".ipc-metadata-list h3.ipc-title__text",
"nodes => nodes.map(node => node.textContent)",
)
print("[IMDb Top 250 Movies]===>", movies_list)
# 关闭浏览器
browser.close()
scrape_imdb_top_250()
当然,以下是抓取结果:
选择您喜欢的语言和库,执行相应的脚本,您就可以看到抓取的结果!
您可以在 Nstbrowser 客户端的 Browserless 菜单中查看最近请求的所有统计信息和剩余的会话时间。
无头浏览器与普通浏览器之间存在一些关键差异。反机器人服务通过发现这些差异来检测无头浏览器。
使用 Browserless 绕过抓取阻止涉及以下几种关键策略:
Browserless:提供基于云的浏览器自动化的服务或平台,使用户能够运行无头浏览器,而无需管理底层基础设施。
无头浏览器:没有图形用户界面 (GUI) 的网页浏览器,可以在命令行环境中运行,对于自动化网页任务很有用。
Browserless:提供托管服务,抽象化了设置和维护浏览器实例的复杂性。用户与 API 交互以启动任务。
无头浏览器:要求用户设置和管理浏览器环境,包括依赖项和配置。
Browserless:专为可扩展性而设计,允许用户轻松并行运行多个浏览器实例,利用云资源。
无头浏览器:扩展可能需要更多的手动工作,例如管理多个实例和服务器资源。
Browserless:非常适合需要可扩展自动化的开发人员和团队,用于网页抓取、测试和数据提取,而无需担心基础设施问题。
无头浏览器:适合那些喜欢直接控制其自动化任务并乐于管理其自身环境的开发人员。
Browserless:通常提供与各种工具和服务的集成,使其更容易整合到现有工作流程中。
无头浏览器:需要自定义集成工作才能与其他工具或服务连接。
如何在云端使用 Browserless 进行网页抓取?我们已经探讨了 4 个详细步骤。只需选择您喜欢的库,然后抓取您需要的数据即可。
此外,我们还了解到:
开始使用 Browserless 来简化一切!