Comando Pandas: df.str.replace() – Substitui uma substring por outra em strings de uma coluna.

O Pandas é uma biblioteca poderosa para manipulação de dados em Python, amplamente utilizada na análise de dados. Uma das funcionalidades que a biblioteca oferece é a capacidade de realizar operações de string em colunas de DataFrames. O comando df.str.replace() permite a substituição de substrings específicas por outras em strings contidas em uma coluna, facilitando a limpeza e transformação de dados textuais. Neste artigo, abordaremos o uso dessa função e apresentaremos exemplos práticos de como aplicá-la em cenários comuns.

Comando Pandas: Uso da função df.str.replace() em DataFrames

A função df.str.replace() é utilizada para substituir ocorrências de uma substring por outra em uma coluna de strings de um DataFrame. Sua sintaxe básica é DataFrame['coluna'].str.replace('substring_antiga', 'substring_nova'), onde 'coluna' é o nome da coluna que contém as strings, 'substring_antiga' é a parte do texto que você deseja substituir, e 'substring_nova' é o texto que irá substituí-la. Essa função é particularmente útil em processos de limpeza de dados, onde é comum a necessidade de padronizar ou corrigir informações textuais antes de uma análise mais profunda.

Exemplos Práticos de Substituição de Substrings em Colunas

Vamos considerar um exemplo prático. Suponha que temos um DataFrame com uma coluna chamada frutas, que contém nomes de frutas com algumas abreviações indesejadas. Por exemplo, a coluna contém valores como "maçã (M)", "banana (B)", e "laranja (L)". Se quisermos remover as abreviações, podemos utilizar df['frutas'].str.replace(' \(.*?\)', ''), que irá substituir qualquer substring que esteja entre parênteses e o espaço anterior por uma string vazia. O código ficaria assim:

import pandas as pd

# Criação do DataFrame
data = {'frutas': ['maçã (M)', 'banana (B)', 'laranja (L)']}
df = pd.DataFrame(data)

# Substituição da substring
df['frutas'] = df['frutas'].str.replace(' \(.*?\)', '', regex=True)

print(df)

Após a execução, o DataFrame resultante terá a coluna frutas com os valores "maçã", "banana" e "laranja", sem as abreviações.

Em suma, a função df.str.replace() é uma ferramenta valiosa no arsenal do analista de dados que utiliza Pandas para manipulação de dados textuais. Através de exemplos práticos, é possível observar como a substituição de substrings pode ser realizada de maneira simples e eficaz, permitindo que os profissionais de dados limpem e preparem suas informações para análises subsequentes. Com a compreensão dessa funcionalidade, os usuários podem aprimorar ainda mais a qualidade dos dados com os quais estão trabalhando.

Comando Pandas: df.str.replace() – Substitui uma substring por outra em strings de uma coluna.

Comando Pandas: Uso da função df.str.replace() em DataFrames

Exemplos Práticos de Substituição de Substrings em Colunas

Leia mais

Comando Pandas: df.dtypes – Exibe os tipos de dados das colunas.

Comando Pandas: df.expanding() – Aplica operações de janela expansiva em um DataFrame.