Для пояснения: у вас есть ситуация, когда вы используете библиотеку Python Scrapy для извлечения текста из элемента HTML с помощью селектора h1::text. Однако похоже, что извлекаются только теги внутри элемента

, хотя присутствует и другой текст. Вам хотелось бы знать несколько методов извлечения всего текста, включая текст за пределами тегов .

Вот несколько способов, которыми вы можете попробовать извлечь весь текст из элемента

с помощью Scrapy:

Использование селектора h1. Вместо использования h1::textвы можете попробовать использовать только селектор h1. При этом будет извлечено все содержимое элемента
, включая все вложенные элементы и текст.

text = response.css('h1').get()

Использование селектора ::textс методом extract(): вы можете использовать селектор ::textвместе с extract ()для извлечения всего текстового содержимого элемента
.

text = response.css('h1::text').extract()

Использование селектора ::textс методом getall(): Аналогично вы можете использовать селектор ::textс getall()для извлечения списка всего текстового содержимого элемента
.

text = response.css('h1::text').getall()

Объединение вложенных селекторов. Если нужный текст не находится непосредственно под элементом
, а содержится внутри других вложенных элементов, вы можете объединить селекторы для извлечения нужного текста. Например, если текст без пробела находится внутри элемента
внутри элемента
, вы можете использовать следующий селектор:

text = response.css('h1 div::text').getall()

Эти методы должны помочь вам извлечь все текстовое содержимое из элемента

, включая текст за пределами тегов .

Fcodenotes – блог о программировании

Извлеките весь текстовый контент из HTML-элемента с помощью Python Scrapy

, включая все вложенные элементы и текст.

.

.

, вы можете использовать следующий селектор:

, включая текст за пределами тегов .