Как получить исходный код страницы с помощью Puppeteer: объяснение нескольких методов

Чтобы получить источник страницы с помощью Puppeteer, вы можете использовать следующие методы:

Метод 1: использование page.content()

const puppeteer = require('puppeteer');
async function getPageSource() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  const pageSource = await page.content();
  console.log(pageSource);
  await browser.close();
}
getPageSource();

Метод 2: использование page.evaluate()

const puppeteer = require('puppeteer');
async function getPageSource() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  const pageSource = await page.evaluate(() => document.documentElement.innerHTML);
  console.log(pageSource);
  await browser.close();
}
getPageSource();

Оба метода открывают автономный браузер, переходят по указанному URL-адресу (в данном случае « https://example.com ») и получают источник страницы. Метод 1 использует page.content()для извлечения содержимого HTML, а метод 2 использует page.evaluate()для выполнения функции JavaScript в контексте страницы и получения свойство innerHTMLdocument.documentElement.