Методы извлечения уникальных слов из фрейма данных или серии Pandas

Чтобы извлечь уникальные слова из DataFrame или Series pandas, вы можете использовать различные методы. Вот несколько подходов с примерами кода:

  1. Использование метода unique():

    import pandas as pd
    # Create a sample DataFrame
    df = pd.DataFrame({'text': ['apple', 'banana', 'cherry', 'apple', 'banana']})
    # Extract unique words from the 'text' column
    unique_words = df['text'].unique()
    print(unique_words)

    Выход:

    ['apple' 'banana' 'cherry']
  2. Использование метода drop_duplications():

    import pandas as pd
    # Create a sample DataFrame
    df = pd.DataFrame({'text': ['apple', 'banana', 'cherry', 'apple', 'banana']})
    # Drop duplicates and extract unique words from the 'text' column
    unique_words = df['text'].drop_duplicates().tolist()
    print(unique_words)

    Выход:

    ['apple', 'banana', 'cherry']
  3. Использование функции set():

    import pandas as pd
    # Create a sample DataFrame
    df = pd.DataFrame({'text': ['apple', 'banana', 'cherry', 'apple', 'banana']})
    # Extract unique words from the 'text' column using set()
    unique_words = set(df['text'])
    print(unique_words)

    Выход:

    {'banana', 'cherry', 'apple'}
  4. Использование метода value_counts():

    import pandas as pd
    # Create a sample DataFrame
    df = pd.DataFrame({'text': ['apple', 'banana', 'cherry', 'apple', 'banana']})
    # Get the value counts of each word and extract unique words
    unique_words = df['text'].value_counts().index.tolist()
    print(unique_words)

    Выход:

    ['apple', 'banana', 'cherry']