Полное руководство по чтению Unicode в Python: несколько методов и примеры кода

Юникод — это стандарт кодировки символов, целью которого является единообразное представление всех символов всех языков и алфавитов. В Python чтение данных Юникода включает декодирование закодированных символов в соответствующие им кодовые точки Юникода. В этой статье мы рассмотрим несколько методов чтения Unicode в Python, а также приведем примеры кода для каждого подхода.

Метод 1: использование функции ord()
Функция ord()в Python возвращает кодовую точку Юникода данного символа. Чтобы прочитать символы Юникода, вы можете перебрать входную строку и применить ord()к каждому символу.

input_str = "Hello, 世界!"
for char in input_str:
    unicode_code = ord(char)
    print(f"Character: {char}, Unicode code: {unicode_code}")

Метод 2: чтение Unicode из файла в кодировке UTF-8
Если у вас есть файл в кодировке UTF-8, вы можете использовать функцию open()с 9установлено значение «utf-8», чтобы прочитать файл в формате Unicode.

with open("unicode.txt", "r", encoding="utf-8") as file:
    content = file.read()
    print(content)

Метод 3: чтение Unicode из файла в кодировке UTF-16 или UTF-32.
Для файлов в кодировке UTF-16 или UTF-32 вы можете указать соответствующую кодировку при открытии файла с помощью 10.функция.

Для UTF-16:

with open("unicode.txt", "r", encoding="utf-16") as file:
    content = file.read()
    print(content)

Для UTF-32:

with open("unicode.txt", "r", encoding="utf-32") as file:
    content = file.read()
    print(content)

Метод 4. Использование модуля codecs
Модуль codecsв Python предоставляет дополнительные утилиты для работы с кодировками символов. Функцию codecs.open()можно использовать для открытия файла с определенной кодировкой и чтения данных Unicode.

import codecs
with codecs.open("unicode.txt", "r", encoding="utf-8") as file:
    content = file.read()
    print(content)

Чтение Unicode в Python необходимо при работе с многоязычным текстом. В этой статье мы рассмотрели различные методы чтения Unicode, в том числе использование функции ord(), чтение файлов в кодировке UTF-8, UTF-16 и UTF-32, а также использование codecsмодуль. Используя эти методы, вы можете эффективно обрабатывать данные Unicode в своих программах Python.