Извлечение названий веб-сайтов из URL-адресов с помощью регулярных выражений (Regex)

Чтобы извлечь имя веб-сайта из URL-адреса с помощью регулярных выражений (регулярных выражений), вы можете использовать различные методы в зависимости от структуры URL-адреса. Вот несколько примеров:

Метод 1. Извлечение имени веб-сайта из домена

Шаблон регулярного выражения: ^(?:https?:\/\/)?(?:www\.)?([^\/]+)

Объяснение:

  • ^утверждает начало строки.
  • (?:https?:\/\/)?соответствует необязательному «http://» или «https://» в начале URL-адреса.
  • (?:www\.)?соответствует необязательному «www». субдомен.
  • ([^\/]+)записывает имя веб-сайта (любые символы, кроме «/») как группу.

Пример использования в Python:

import re
url = "https://www.example.com/page"
pattern = r"^(?:https?:\/\/)?(?:www\.)?([^\/]+)"
match = re.search(pattern, url)
if match:
    website_name = match.group(1)
    print(website_name)

Выход:

example

Метод 2. Извлечение названия веб-сайта из полного URL

Шаблон регулярного выражения: ^(?:https?:\/\/)?(?:www\.)?([^\/]+)(?:\/|$)

Объяснение:

  • ^утверждает начало строки.
  • (?:https?:\/\/)?соответствует необязательному «http://» или «https://» в начале URL-адреса.
  • (?:www\.)?соответствует необязательному «www». субдомен.
  • ([^\/]+)записывает имя веб-сайта (любые символы, кроме «/») как группу.
  • (?:\/|$)соответствует либо символу “/”, либо концу строки.

Пример использования в Python:

import re
url = "https://www.example.com/page"
pattern = r"^(?:https?:\/\/)?(?:www\.)?([^\/]+)(?:\/|$)"
match = re.search(pattern, url)
if match:
    website_name = match.group(1)
    print(website_name)

Выход:

example

Это всего лишь несколько примеров шаблонов регулярных выражений для извлечения названий веб-сайтов из URL-адресов. В зависимости от конкретной структуры URL-адресов, с которыми вы работаете, вам может потребоваться соответствующим образом изменить эти шаблоны.