返回博客

Web Scraping

如何使用 Puppeteer 避免机器人检测？

反机器人检测真的很烦人！有可能用 Puppeteer 避免网站机器人检测吗？当然！这里有 8 种方法。

Jul 08, 2024Carlos Rivera

为什么有反机器人系统？

保护网站资源和性能

爬虫和机器人程序在短时间内可以发送大量请求，消耗服务器资源，导致网站性能下降甚至崩溃。

反机器人系统可以帮助网站管理和限制这些请求，从而保持网站的稳定性和可用性。

防止数据盗窃和滥用

一些机器人程序爬取网站内容进行未经授权的使用，例如内容盗窃和数据抓取。反机器人系统可以帮助保护网站上的数据和内容，防止未经授权的访问和滥用。

提高安全性

恶意机器人程序可以用于各种攻击，例如分布式拒绝服务（DDoS）攻击、暴力破解密码等。反机器人系统可以帮助识别并阻止这些恶意行为，提高网站的整体安全性。

保护用户隐私

一些机器人程序可能会试图获取用户的个人信息，如电子邮件地址、联系方式等。反机器人系统可以帮助保护用户隐私，防止这些信息被非法收集和滥用。

提高用户体验

当机器人程序大量访问网站时，可能会影响正常用户的速度和体验。通过限制机器人流量，网站可以确保真实用户的更好体验。

防止广告欺诈

一些机器人程序模拟用户点击广告以进行广告欺诈，导致广告商蒙受损失。反机器人检测可以识别并阻止这些虚假点击，保护广告商的利益。

反机器人系统如何工作？

反机器人系统通过多种技术和方法识别和阻止机器人流量。这里主要介绍6种常见的分析方法：

1. 行为分析

监控用户在网站上的行为模式，如鼠标移动、点击、滚动和键盘输入。机器人程序通常无法模拟自然的人类行为。
分析用户请求的速度和频率。机器人通常以非人类的速度发送请求，例如每秒大量请求。

2. 设备和环境检测

收集用户的浏览器指纹信息，包括浏览器类型、版本、操作系统、插件等。机器人程序的浏览器指纹通常与真实用户不同。
检查请求头中的User-Agent字段。许多机器人程序使用默认或异常的User-Agent值。

3. 挑战-响应机制

反机器人系统使用CAPTCHA或reCAPTCHA要求用户执行某些任务（例如识别图片中的物体）以验证其人类身份。
在网页中插入隐藏字段或链接（蜜罐），真实用户不会与这些元素互动，而机器人程序可能会触发这些陷阱，从而暴露其身份。

4. IP和地理位置检测

使用已知恶意IP地址列表，阻止这些地址的请求。
基于IP地址的地理位置限制访问。例如，只允许特定国家或地区的请求。

5. 流量分析

监控和分析网站的流量模式，识别异常流量峰值和分布。
分析用户会话的时长和互动模式。机器人的会话通常较短且有规律。

6. 机器学习

使用机器学习算法分析和识别正常用户与机器人的行为差异。机器学习模型可以不断学习和适应新的机器人行为。

网站如何检测Puppeteer？

网站可以检查页面上的特定JavaScript变量，这些变量通常与Puppeteer的使用相关。

例如，他们可能会查找包含"puppeteer"或其他相关标识符的变量名。

JavaScript Copy

for (let key in window) {
    if (key.includes('puppeteer') || key.includes('webdriver')) {
        // Detected Puppeteer
    }
}

Puppeteer还会修改浏览器行为以自动执行任务。因此，网站可能会检查navigator.webdriver等属性的存在和值，以确定是否有自动化工具在控制浏览器。

此属性在Puppeteer中通常设置为true。

绕过机器人检测的最简单方法 - Nstbrowser

想快速绕过机器人检测？现在开始免费使用Nstbrowser吧！Nstbrowser提供：

智能IP轮换
高级代理
CAPTCHA解答器

Nstbrowser不仅使用真实的浏览器指纹进行网络访问，还模拟真实用户的行为和习惯，使其无法被反机器人系统识别。

此外，为简化网络抓取和自动化，Nstbrowser配备了强大的网站解锁技术，提供无缝的网络访问体验。

使用Puppeteer避免机器人检测的8种最佳方法

如上所述，机器人检测已成为网络爬虫程序的一个主要问题。但别担心！我们仍然可以轻松解决它。

除了使用Nstbrowser，以下是一些使用Puppeteer避免机器人检测的技巧：

方法1. IP/代理轮换

大多数机器人检测器的主要检测方式是通过检查IP。Web服务器可以通过维护每个请求的日志来推导IP地址的模式。

他们使用Web应用防火墙（WAF）跟踪和阻止IP地址活动，并将可疑IP列入黑名单。重复和编程的请求会损害IP信誉并导致永久封锁。

要避免机器人检测，您可以使用IP轮换或Puppeteer设置代理：

JavaScript Copy

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://your_proxy_ip:your_proxy_port',
      // Add any other Chrome flags you need
    ],
  });
  const page = await browser.newPage();

  // Now Puppeteer will use the proxy specified above
  await page.goto('https://example.com');
  
  // Continue with your automation tasks

  await browser.close();
})();

--proxy-server=http://your_proxy_ip:your_proxy_port参数指定代理服务器的地址和端口。
您可以根据需要添加其他Chrome标志（args）。

请确保将your_proxy_ip和your_proxy_port替换为实际代理服务器的IP地址和端口号。

方法2. 旋转HTTP头信息和User-Agent

网站通常检查请求的User-Agent以确定请求来自哪个浏览器和操作系统。

通常，Puppeteer使用固定的User-Agent，这使其容易被检测到。通过随机化User-Agent，请求将更有可能被识别为来自不同的真实用户。

此外，反机器人系统还会检查HTTP头以识别机器人。这些头包括Accept-Language、Accept-Encoding、Cache-Control等。

默认的HTTP头也可能暴露自动化工具的使用。随机化和设置常见的HTTP头将帮助您的请求更加真实。

JavaScript Copy

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const randomUseragent = require('random-useragent'); // Random User-Agent Library

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();

  // Define common HTTP headers
  const commonHeaders = {
    'Accept-Language': 'en-US,en;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
  };

  // Randomize User-Agent and HTTP headers
  const setRandomHeaders = async (page) => {
    const userAgent = randomUseragent.getRandom(); // Get random User-Agent
    await page.setUserAgent(userAgent);

    await page.setExtraHTTPHeaders(commonHeaders);
  };

  await setRandomHeaders(page);

  await page.evaluateOnNewDocument(() => {
    Object.defineProperty(navigator, 'webdriver', {
      get: () => false,
    });
  });

  await page.goto('https://example.com', {
    waitUntil: 'networkidle2',
  });

方法3. 禁用`navigator.webdriver`

默认情况下，Puppeteer将navigator.webdriver属性设置为true。这暴露了自动化工具的存在。通过禁用或修改此属性，您可以减少被检测的机会。

JavaScript Copy

await page.evaluateOnNewDocument(() => {
  Object.defineProperty(navigator, 'webdriver', { get: () => false });
});

方法4. 使用stealth插件

使用puppeteer-extra-plugin-stealth插件可以帮助Puppeteer避免被检测为机器人。

该插件修改了一些浏览器的默认行为和特性，使其看起来像是一个真实用户。

首先，您需要安装puppeteer-extra和puppeteer-extra-plugin-stealth插件：

Bash Copy

npm install puppeteer-extra puppeteer-extra-plugin-stealth

接下来，您可以在代码中使用这些插件来启动Puppeteer：

JavaScript Copy

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

const browser = await puppeteer.launch

({ headless: true });

方法5. 使用Cookie

如果您想从社交媒体平台或其他需要身份验证的网站抓取数据，通常需要重复登录。

这种重复的身份验证请求会触发警报，账号可能会被封锁或面临CAPTCHA或JavaScript认证挑战。

我们可以通过使用Cookie来避免这种情况。登录一次后，我们可以收集登录会话Cookie，以便将来重复使用。

方法6. 使用CAPTCHA解答服务

在进行网络抓取时，您肯定会遇到CAPTCHA识别问题。这时，您需要利用CAPTCHA解答服务。

通常，这些服务使用真实用户来解决CAPTCHA，从而减少被检测为机器人的可能性。

这可以确保绕过机器人检测，并有助于降低运行机器人的整体成本。

Nstbrowser轻松绕过机器人检测，配备强大的CAPTCHA Solver。
立即免费使用！
您对网页抓取和 Browseless 有什么好的想法或疑惑吗？
快来看看其他开发人员在 Discord 和 Telegram 上分享了什么！

方法7. 延迟输入和随机化

真实用户无法在一分钟内发出500个请求！

真实用户也无法有固定的浏览习惯和程序！

因此，为了防止被反机器人系统轻易检测到，我们需要在使用Puppeteer时，为自动化程序设置延迟输入和一些随机化操作。这样可以模拟真实用户，从而在一定程度上降低被检测的风险。

模拟人类输入速度，而不是立即输入所有内容：

JavaScript Copy

await page.type('input[name=username]', 'myUsername', { delay: 100 });
await page.type('input[name=password]', 'myPassword', { delay: 100 });

随机化鼠标移动、点击和滚动操作：

JavaScript Copy

await page.mouse.move(100, 100);
await page.mouse.click(100, 100);

方法8. 使用浏览器扩展

在使用Puppeteer运行自动化任务时，有时可以利用浏览器扩展来帮助绕过一些机器人检测。

这些扩展可以修改浏览器的行为，使其看起来更像是由真实用户操作的。

加载本地扩展：

下载您想要使用的浏览器扩展（例如Chrome扩展）到本地。
在启动Puppeteer时，通过指定args参数加载扩展：

JavaScript Copy

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    headless: false, // non-headless mode
    args: [
      `--disable-extensions-except=/path/to/extension/`, // Load extensions with specified paths
      `--load-extension=/path/to/extension/`
    ]
  });
  const page = await browser.newPage();
  await page.goto('https://example.com');
  // Continue executing your code
})();

这将允许您在Puppeteer控制的浏览器实例中加载和使用特定扩展，有时可以帮助绕过机器人检测。

更改默认Chrome扩展路径

Puppeteer默认使用一个空的扩展目录来模拟Chrome。您可以通过设置userDataDir来指定一个自定义的用户数据目录，并在其中预加载所需的扩展。

结语

在本文中，我们讨论了：

为什么网站使用反机器人系统？
它们如何工作？
使用Puppeteer避免机器人检测的8种最佳方法。

Nstbrowser的RPA解决方案是避免机器人检测的最佳选择之一，您可以完全免费地配置和使用它。

Web Scraping

使用 Colly 在 Golang 中进行网页抓取的步骤

Golang 是最强大的网络爬虫工具之一。而 Colly 在使用 Go 时提供了很大帮助。阅读这篇博文，了解有关 Colly 的最详细的信息，并学习如何使用 Colly 抓取网站。

Sep 30, 2024Carlos Rivera

Web Scraping

Java 中的 Web 爬虫：分步教程 2024

Java Web 爬虫可轻松帮助完成 Web 抓取和自动化任务。如何使用 Java Web 爬虫进行 Web 抓取？这里有您想要的一切！

Aug 16, 2024Robin Brown

Web Scraping

Scrapy vs Beautifulsoup - 哪一个更适合您？

Scrapy vs BeautifulSoup，有何异同？哪个更适合您？请在本博客中找出答案。

Jul 31, 2024Carlos Rivera

Web Scraping

2024 年最适合网页抓取的反检测浏览器

反检测浏览器可帮助你在搜索网页时隐藏浏览器指纹。它能真正简化你的工作。阅读本博客，了解更多信息！

Jul 19, 2024Robin Brown

Web Scraping

Urllib vs Urllib3 vs Requests：在进行网页抓取时，哪一个最适合您？

Urllib、urllib3 和 request 是 3 个出色且常见的 Python 库。这三个库有什么区别？阅读本文，找到最适合您的那个！

Jul 17, 2024Robin Brown

Web Scraping

403 禁止错误：它是什么？如何修复？

403 错误超级烦人！什么是 403 禁止错误？如何解决？请从本篇博客找到答案。

Jul 12, 2024Robin Brown

返回博客

Web Scraping

如何使用 Puppeteer 避免机器人检测？

反机器人检测真的很烦人！有可能用 Puppeteer 避免网站机器人检测吗？当然！这里有 8 种方法。

Jul 08, 2024Carlos Rivera

为什么有反机器人系统？

保护网站资源和性能

爬虫和机器人程序在短时间内可以发送大量请求，消耗服务器资源，导致网站性能下降甚至崩溃。

反机器人系统可以帮助网站管理和限制这些请求，从而保持网站的稳定性和可用性。

防止数据盗窃和滥用

提高安全性

保护用户隐私

提高用户体验

当机器人程序大量访问网站时，可能会影响正常用户的速度和体验。通过限制机器人流量，网站可以确保真实用户的更好体验。

防止广告欺诈

一些机器人程序模拟用户点击广告以进行广告欺诈，导致广告商蒙受损失。反机器人检测可以识别并阻止这些虚假点击，保护广告商的利益。

反机器人系统如何工作？

反机器人系统通过多种技术和方法识别和阻止机器人流量。这里主要介绍6种常见的分析方法：

1. 行为分析

监控用户在网站上的行为模式，如鼠标移动、点击、滚动和键盘输入。机器人程序通常无法模拟自然的人类行为。
分析用户请求的速度和频率。机器人通常以非人类的速度发送请求，例如每秒大量请求。

2. 设备和环境检测

收集用户的浏览器指纹信息，包括浏览器类型、版本、操作系统、插件等。机器人程序的浏览器指纹通常与真实用户不同。
检查请求头中的User-Agent字段。许多机器人程序使用默认或异常的User-Agent值。

3. 挑战-响应机制

反机器人系统使用CAPTCHA或reCAPTCHA要求用户执行某些任务（例如识别图片中的物体）以验证其人类身份。
在网页中插入隐藏字段或链接（蜜罐），真实用户不会与这些元素互动，而机器人程序可能会触发这些陷阱，从而暴露其身份。

4. IP和地理位置检测

使用已知恶意IP地址列表，阻止这些地址的请求。
基于IP地址的地理位置限制访问。例如，只允许特定国家或地区的请求。

5. 流量分析

监控和分析网站的流量模式，识别异常流量峰值和分布。
分析用户会话的时长和互动模式。机器人的会话通常较短且有规律。

6. 机器学习

使用机器学习算法分析和识别正常用户与机器人的行为差异。机器学习模型可以不断学习和适应新的机器人行为。

网站如何检测Puppeteer？

网站可以检查页面上的特定JavaScript变量，这些变量通常与Puppeteer的使用相关。

例如，他们可能会查找包含"puppeteer"或其他相关标识符的变量名。

JavaScript Copy

for (let key in window) {
    if (key.includes('puppeteer') || key.includes('webdriver')) {
        // Detected Puppeteer
    }
}

Puppeteer还会修改浏览器行为以自动执行任务。因此，网站可能会检查navigator.webdriver等属性的存在和值，以确定是否有自动化工具在控制浏览器。

此属性在Puppeteer中通常设置为true。

绕过机器人检测的最简单方法 - Nstbrowser

想快速绕过机器人检测？现在开始免费使用Nstbrowser吧！Nstbrowser提供：

智能IP轮换
高级代理
CAPTCHA解答器

Nstbrowser不仅使用真实的浏览器指纹进行网络访问，还模拟真实用户的行为和习惯，使其无法被反机器人系统识别。

此外，为简化网络抓取和自动化，Nstbrowser配备了强大的网站解锁技术，提供无缝的网络访问体验。

使用Puppeteer避免机器人检测的8种最佳方法

如上所述，机器人检测已成为网络爬虫程序的一个主要问题。但别担心！我们仍然可以轻松解决它。

除了使用Nstbrowser，以下是一些使用Puppeteer避免机器人检测的技巧：

方法1. IP/代理轮换

大多数机器人检测器的主要检测方式是通过检查IP。Web服务器可以通过维护每个请求的日志来推导IP地址的模式。

他们使用Web应用防火墙（WAF）跟踪和阻止IP地址活动，并将可疑IP列入黑名单。重复和编程的请求会损害IP信誉并导致永久封锁。

要避免机器人检测，您可以使用IP轮换或Puppeteer设置代理：

JavaScript Copy

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://your_proxy_ip:your_proxy_port',
      // Add any other Chrome flags you need
    ],
  });
  const page = await browser.newPage();

  // Now Puppeteer will use the proxy specified above
  await page.goto('https://example.com');
  
  // Continue with your automation tasks

  await browser.close();
})();

--proxy-server=http://your_proxy_ip:your_proxy_port参数指定代理服务器的地址和端口。
您可以根据需要添加其他Chrome标志（args）。

请确保将your_proxy_ip和your_proxy_port替换为实际代理服务器的IP地址和端口号。

方法2. 旋转HTTP头信息和User-Agent

网站通常检查请求的User-Agent以确定请求来自哪个浏览器和操作系统。

通常，Puppeteer使用固定的User-Agent，这使其容易被检测到。通过随机化User-Agent，请求将更有可能被识别为来自不同的真实用户。

此外，反机器人系统还会检查HTTP头以识别机器人。这些头包括Accept-Language、Accept-Encoding、Cache-Control等。

默认的HTTP头也可能暴露自动化工具的使用。随机化和设置常见的HTTP头将帮助您的请求更加真实。

JavaScript Copy

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const randomUseragent = require('random-useragent'); // Random User-Agent Library

puppeteer.use(StealthPlugin());

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();

  // Define common HTTP headers
  const commonHeaders = {
    'Accept-Language': 'en-US,en;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
  };

  // Randomize User-Agent and HTTP headers
  const setRandomHeaders = async (page) => {
    const userAgent = randomUseragent.getRandom(); // Get random User-Agent
    await page.setUserAgent(userAgent);

    await page.setExtraHTTPHeaders(commonHeaders);
  };

  await setRandomHeaders(page);

  await page.evaluateOnNewDocument(() => {
    Object.defineProperty(navigator, 'webdriver', {
      get: () => false,
    });
  });

  await page.goto('https://example.com', {
    waitUntil: 'networkidle2',
  });

方法3. 禁用`navigator.webdriver`

默认情况下，Puppeteer将navigator.webdriver属性设置为true。这暴露了自动化工具的存在。通过禁用或修改此属性，您可以减少被检测的机会。

JavaScript Copy

await page.evaluateOnNewDocument(() => {
  Object.defineProperty(navigator, 'webdriver', { get: () => false });
});

方法4. 使用stealth插件

使用puppeteer-extra-plugin-stealth插件可以帮助Puppeteer避免被检测为机器人。

该插件修改了一些浏览器的默认行为和特性，使其看起来像是一个真实用户。

首先，您需要安装puppeteer-extra和puppeteer-extra-plugin-stealth插件：

Bash Copy

npm install puppeteer-extra puppeteer-extra-plugin-stealth

接下来，您可以在代码中使用这些插件来启动Puppeteer：

JavaScript Copy

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

const browser = await puppeteer.launch

({ headless: true });

方法5. 使用Cookie

如果您想从社交媒体平台或其他需要身份验证的网站抓取数据，通常需要重复登录。

这种重复的身份验证请求会触发警报，账号可能会被封锁或面临CAPTCHA或JavaScript认证挑战。

我们可以通过使用Cookie来避免这种情况。登录一次后，我们可以收集登录会话Cookie，以便将来重复使用。

方法6. 使用CAPTCHA解答服务

在进行网络抓取时，您肯定会遇到CAPTCHA识别问题。这时，您需要利用CAPTCHA解答服务。

通常，这些服务使用真实用户来解决CAPTCHA，从而减少被检测为机器人的可能性。

这可以确保绕过机器人检测，并有助于降低运行机器人的整体成本。

Nstbrowser轻松绕过机器人检测，配备强大的CAPTCHA Solver。
立即免费使用！
您对网页抓取和 Browseless 有什么好的想法或疑惑吗？
快来看看其他开发人员在 Discord 和 Telegram 上分享了什么！

方法7. 延迟输入和随机化

真实用户无法在一分钟内发出500个请求！

真实用户也无法有固定的浏览习惯和程序！

模拟人类输入速度，而不是立即输入所有内容：

JavaScript Copy

await page.type('input[name=username]', 'myUsername', { delay: 100 });
await page.type('input[name=password]', 'myPassword', { delay: 100 });

随机化鼠标移动、点击和滚动操作：

JavaScript Copy

await page.mouse.move(100, 100);
await page.mouse.click(100, 100);

方法8. 使用浏览器扩展

在使用Puppeteer运行自动化任务时，有时可以利用浏览器扩展来帮助绕过一些机器人检测。

这些扩展可以修改浏览器的行为，使其看起来更像是由真实用户操作的。

加载本地扩展：

下载您想要使用的浏览器扩展（例如Chrome扩展）到本地。
在启动Puppeteer时，通过指定args参数加载扩展：

JavaScript Copy

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    headless: false, // non-headless mode
    args: [
      `--disable-extensions-except=/path/to/extension/`, // Load extensions with specified paths
      `--load-extension=/path/to/extension/`
    ]
  });
  const page = await browser.newPage();
  await page.goto('https://example.com');
  // Continue executing your code
})();