Un data frame es un método para almacenar datos en cuadrículas rectangulares para una fácil visualización. Si tienes conocimientos de
desarrollo en Java y conceptos básicos de R, entonces debes conocer los data frames. Las mediciones o valores de una instancia corresponden a las filas en la cuadrícula, mientras que los vectores que contienen datos para una variable específica representan las columnas. Por lo tanto, las filas en el data frame pueden incluir valores numéricos, de caracteres, lógicos, entre otros. Similar es el data frame en Python, que se etiqueta como estructuras de datos bidimensionales con diferentes tipos de columnas. El data frame de Python Pandas consta de los tres componentes principales, a saber, los datos, el índice y las columnas.
Cuando se trata de la gestión de datos en Python, debes comenzar creando un
data frame. Es una de las tareas más fáciles de hacer. También puedes agregar parámetros.
Después de crear el data frame, procederemos a saber cómo seleccionar, agregar o eliminar un índice o columna de él. Para realizar todas estas acciones, primero debes seleccionar un componente del data frame de Python.
Seleccionar Índice, Fila o Columna
Supongamos que tienes un data frame como el siguiente y deseas acceder al valor en el índice 0 para la columna A.
A B C
0 1 2 3
1 4 5 6
2 7 8 9
Puedes acceder a los valores de varias formas.
Si deseas seleccionar las filas o columnas, puedes seleccionar filas pasando la etiqueta de fila a una función loc, que da como resultado lo mostrado a continuación:
one 2.0
two 2.0
Name: b, dtype: float64
De otra manera, puedes seleccionar una fila pasando la ubicación entera a una función iloc como se muestra aquí.
import pandas as pd
d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print df.loc['b']?
Esto muestra la siguiente salida.
one 3.0
two 3.0
Name: c, dtype: float64
Hay una diferencia entre
la función loc e iloc para atributos de indexación. Mientras que .loc funciona en las etiquetas de índice, .iloc funciona en la posición de tu índice.
Agregar un Índice, Fila o Columna
Para asignar el argumento 'índice' a la entrada, asegúrate de obtener el índice seleccionado. Si no se especifica nada en el data frame, por defecto tendrá un índice con valores numéricos comenzando desde 0. Puedes crear tu índice llamando a set_index() en tu data frame y reutilizarlos.
Veamos el ejemplo dado para agregar las columnas a tu data frame de la misma manera que agregas filas.
import pandas as pd
d = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
'two': pd.Series([1, 2, 3], index=['a', 'b', 'c'])}
df = pd.DataFrame(d)
# Agregar una nueva columna a un objeto DataFrame existente con la etiqueta de la columna pasando new
print("Adding a new column by passing as Series:")
df['three'] = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print df
print("Adding a new column using the existing columns in DataFrame:")
df['four'] = df['one'] + df['three']
print df
Esto muestra la salida de la siguiente manera.