Can only use .str accessor with string values

by Rickard Hernell

Der .str Accessor in der Pandas Datenverarbeitung

In der Welt der Datenanalyse und beim Arbeiten mit Dataframes ist der .str Accessor ein wertvolles Werkzeug. Hast du schon einmal von der Pandas-Bibliothek in Python gehört? Falls nicht, keine Sorge! In diesem Artikel möchten wir erklären, was der .str Accessor ist und wie er bei der Datenverarbeitung mit String-Werten hilft.

Was ist der .str Accessor?

Der .str Accessor ist ein Attribut der Pandas-Bibliothek in Python, das dazu verwendet wird, vektorisierte Stringoperationen auszuführen. Er ermöglicht es Benutzern, Operationen auf String-Werten innerhalb von DataFrames oder Series durchzuführen, ohne dass sie Schleifen verwenden müssen. Das einzigartige Merkmal des .str Accessors besteht darin, dass er Numpy-Arrays und Pandas-DataFrames gleichzeitig verarbeiten kann.

Funktion Beschreibung Beispiel
str.lower() Konvertiert jeden Buchstaben in Kleinbuchstaben ‚HALLO‘.str.lower() → ‚hallo‘
str.upper() Konvertiert jeden Buchstaben in Großbuchstaben ‚hallo‘.str.upper() → ‚HALLO‘
str.startswith() Überprüft, ob ein String mit einem bestimmten Wort oder Buchstaben beginnt ‚hallo‘.str.startswith(‚h‘) → True
str.endswith() Überprüft, ob ein String mit einem bestimmten Wort oder Buchstaben endet ‚hallo‘.str.endswith(‚o‘) → True

Warum ist der .str Accessor so praktisch?

Der .str Accessor ist aus mehreren Gründen praktisch:

  • Er ermöglicht dir, sogenannte elementweise Operationen auf Zeichenketten auszuführen, ohne aufwendige Schleifen zu programmieren.
  • Er bietet eine Vielzahl an nützlichen vektorisierten Funktionen für die Arbeit mit Textdaten, wie etwa str.replace(), str.split(), str.extract() und viele weitere.
  • Dank des .str Accessors können diese Funktionen direkt auf DataFrames angewendet werden, ohne dass der Datentyp in ein Numpy-Array oder eine Liste umgewandelt werden muss.

Beispiel der Verwendung des .str Accessors

Angenommen, du hast einen DataFrame mit Städten und Einwohnerzahlen, und einige Städtenamen sind in Großbuchstaben geschrieben. Du möchtest sie alle in Kleinbuchstaben konvertieren. Mit dem .str Accessor wäre das ganz einfach:

import pandas as pd
data = {'Stadt': ['BERLIN', 'München', 'Düsseldorf'], 'Einwohner': [3600000, 1400000, 600000]}
df = pd.DataFrame(data)
df['Stadt'] = df['Stadt'].str.lower()

Am Ende wird die ‚Stadt‘-Spalte des DataFrames alle Städtenamen in Kleinbuchstaben enthalten.

Insgesamt ist der .str Accessor ein wertvolles Werkzeug in der Schatzkiste eines jeden Datenanalysten, das die Arbeit mit Textdaten in Pandas wesentlich erleichtert. Probier es selbst aus und entdecke die vielen Möglichkeiten, die es bietet!

You may also like

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More

Privacy & Cookies Policy