Как добавить новую строчку в DataFrame при указании значения только одного столбца?
Необходимо добавить в DF новую строку, указав значение только одного столбца. Например имеем фрейм данных:
d = df = pd.DataFrame(data = d)
Необходимо добавить строку в конец фрейма, указав только значение адреса. Должно получиться следующее:
d1 = df1 = pd.DataFrame(data = d1)
Причём, желательно обойтись без перебора функцией for.
Отслеживать
149k 12 12 золотых знаков 59 59 серебряных знаков 132 132 бронзовых знака
задан 31 янв 2022 в 20:14
lerm_on_t_off lerm_on_t_off
133 11 11 бронзовых знаков
2 ответа 2
Сортировка: Сброс на вариант по умолчанию
Вариант 1:
df.loc[len(df)] = [np.nan, np.nan, 'VR']
Вариант 2:
df = df.append(dict(Address="VR"), ignore_index=True)
Вариант 3:
df = df.append(pd.Series("VR", name=len(df), index=["Address"]))
Отслеживать
ответ дан 31 янв 2022 в 20:33
MaxU — stand with Ukraine MaxU — stand with Ukraine
149k 12 12 золотых знаков 59 59 серебряных знаков 132 132 бронзовых знака
в дополнение к уже предложенному:
df.loc[len(df),'Address'] = 'VR'
Отслеживать
ответ дан 1 фев 2022 в 9:31
5,635 1 1 золотой знак 7 7 серебряных знаков 17 17 бронзовых знаков
по-моему, это оптимальный вариант для случая когда отсутствуют данные для других столбцов )
1 фев 2022 в 9:33
Но это только если индексы строго от 0 до len(df)-1 , а если вдруг в индексах разброд и шатание (например, из датафрейма что-то удаляли, а индекс не сбросили), то значение может попасть в уже имеющуюся строку. Как вариант можно взять индекс df.index.max()+1 .
1 фев 2022 в 9:39
@CrazyElf, с «кастомными» индексами все еще веселее — они могут быть строками или timestamp, тогда и ваш вариант ( df.index.max()+1 ) неправильно отработает )
1 фев 2022 в 11:08
@MaxU Безусловно. Но вариант «из датафрейма удалили (не выбрали) некоторые строки» всё-таки более вероятен )
Создание DataFrame в Pandas путем построчного добавления
В работе с библиотекой pandas для Python часто возникает необходимость создания и последующего заполнения DataFrame построчно. Допустим, есть цель создать пустой DataFrame с определенными именами столбцов, а затем добавить в него строки со значениями.
Сначала создается пустой DataFrame с нужными столбцами. Например, так:
import pandas as pd df = pd.DataFrame(columns=['A', 'B', 'C'])
Затем требуется добавить строку с данными в этот DataFrame. Возможно, первое, что приходит на ум, это использовать метод _set_value() , который позволяет добавить значение в конкретную ячейку DataFrame.
df = df._set_value(index=len(df), col='A', value=1)
Однако, этот подход работает только для одного поля за раз, что не всегда удобно. Да и сам метод _set_value() считается внутренним и его использование не рекомендуется.
Более предпочтительный способ — использование метода append() , который позволяет добавить целую строку за один раз.
new_row = df = df.append(new_row, ignore_index=True)
В этом случае new_row — это словарь, где ключи — это названия столбцов, а значения — это данные, которые должны быть добавлены в эти столбцы. Параметр ignore_index=True говорит pandas игнорировать индекс словаря и присвоить новой строке следующий по порядку индекс.
Таким образом, при работе с pandas и построчным добавлением данных в DataFrame более предпочтительно использовать метод append() . Он позволяет добавлять сразу несколько значений, что делает его более удобным и эффективным.
Как добавить строку в Pandas Dataframe?
Регулярно при работе с информацией в Dataframe Pandas мы сталкиваемся с задачей добавления новых строк с данными. В этой статье мы рассмотрим основные способы того, как добавить строку в Pandas Dataframe.
Способ 1. Добавление строки в Dataframe Pandas при помощи метода append()
Pandas предоставляет нам встроенный метод append(), который позволяет добавить новую строку. Общий синтаксис следующий:
append(новая_строка, ignore_index=True), где
- новая_строка – новые данные к существующей таблице в формате словаря
- ignore_index=True – позволяет исключить ошибку «Can only append a Series if ignore_index=True or if the Series has a name»
Также важно отметить что метод append не изменяет существующий dataframe, а создает новый.
Итак, давайте сформируем новую строку в формате словаря для города Омск:
Теперь добавим ее к нашему Dataframe и посмотрим результат:
city_new_df = city_df.append(city_omsk, ignore_index=True)
city_new_df
Способ 2. Добавление строки в Dataframe Pandas при помощи метода loc()
Метод loc () позволяет добавить строку в конец существующего Dataframe :
city_df.loc[len(city_df.index)] = [‘Омск’, ‘1716’, ‘573’,’1,2′,’10’]
city_df
Недостатком этого метода является то, что мы должны задать значения для всех столбцов, иначе Python вернет нам ошибку «cannot set a row with mismatched columns».
Способ 3. Добавление несколько строк в Dataframe Pandas
В ситуации, когда нам необходимо добавить несколько строк в Dataframe, мы можем создать второй Dataframe с новыми данными и объединить его с существующим при помощи метода append().
Создаем новый Dataframe (обратите внимание, что столбцы должны быть в нем такие же, как в Dataframe, с которым мы хотим объединить данные):
Теперь объединим с существующим Dataframe city_df с помощью уже известного нам метода append():
city_df = city_df.append(city_add_df, ignore_index = True)
city_df
Мы рассмотрели три основных способа добавления новых строк в Dataframe Pandas. Хотите попрактиковаться сами – скачайте наш ноутбук.
P.S. Хотел бы рекомендовать вам ознакомиться со следующими статьями с нашего сайта:
- Как из Pandas удалить строку?
- Как добавить столбец в Pandas?
- Как из Pandas удалить столбец?
10 приемов Python Pandas, которые сделают вашу работу более эффективной
Pandas — это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными.
read_csv
Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить команду nrows = 5 , чтобы прочитать сначала небольшую часть данных перед загрузкой всей таблицы. В этом случае вам удастся избежать ситуации выбора неверного разделителя (не всегда в данных есть разделение в виде запятой).
(Или вы можете использовать команду ‘head’ в linux для проверки первых 5 строк в любом текстовом файле: head -c 5 data.txt )
Затем вы можете извлечь список столбцов, используя df.columns.tolist() , а затем добавить команду usecols = [‘c1’, ‘c2’,…], чтобы извлечь только нужные вам столбцы. Кроме того, если вы знаете типы данных определенных столбцов, вы можете добавить dtype = для более быстрой загрузки. Еще одно преимущество этой команды в том, что если у вас есть столбец, который содержит как строки, так и числа, рекомендуется объявить его тип строковым, чтобы не возникало ошибок при попытке объединить таблицы, используя этот столбец в качестве ключа.
select_dtypes
Если предварительная обработка данных должна выполняться в Python, то эта команда сэкономит ваше время. После чтения из таблицы типами данных по умолчанию для каждого столбца могут быть bool, int64, float64, object, category, timedelta64 или datetime64. Вы можете сначала проверить распределение с помощью
df.dtypes.value_counts()
чтобы узнать все возможные типы данных вашего фрейма, затем используйте
df.select_dtypes(include=[‘float64’, ‘int64’])
чтобы выбрать субфрейм только с числовыми характеристиками.
сopy
Это важная команда. Если вы сделаете:
import pandas as pd
df1 = pd.DataFrame(< ‘a’:[0,0,0], ‘b’: [1,1,1]>)
df2 = df1
df2[‘a’] = df2[‘a’] + 1
df1.head()
Вы обнаружите, что df1 изменен. Это потому, что df2 = df1 не делает копию df1 и присваивает ее df2, а устанавливает указатель, указывающий на df1. Таким образом, любые изменения в df2 приведут к изменениям в df1. Чтобы это исправить, вы можете сделать либо:
df2 = df1.copy ()
from copy import deepcopy
df2 = deepcopy(df1)
map
Это классная команда для простого преобразования данных. Сначала вы определяете словарь, в котором «ключами» являются старые значения, а «значениями» являются новые значения.
level_map =
df[‘c_level’] = df[‘c’].map(level_map)
Например: True, False до 1, 0 (для моделирования); определение уровней; определяемые пользователем лексические кодировки.
apply or not apply?
Если нужно создать новый столбец с несколькими другими столбцами в качестве входных данных, функция apply была бы весьма полезна.
def rule(x, y):
if x == ‘high’ and y > 10:
return 1
else:
return 0
df = pd.DataFrame(< 'c1':[ 'high' ,'high', 'low', 'low'], 'c2': [0, 23, 17, 4]>)
df['new'] = df.apply(lambda x: rule(x['c1'], x['c2']), axis = 1)
df.head()
В приведенных выше кодах мы определяем функцию с двумя входными переменными и используем функцию apply, чтобы применить ее к столбцам ‘c1’ и ‘c2’.
но проблема «apply» заключается в том, что иногда она занимает очень много времени.
Скажем, если вы хотите рассчитать максимум из двух столбцов «c1» и «c2», конечно, вы можете применить данную команду
df[‘maximum’] = df.apply(lambda x: max(x[‘c1’], x[‘c2’]), axis = 1)
но это будет медленнее, нежели:
df[‘maximum’] = df[[‘c1’,’c2']].max(axis =1)
Вывод: не используйте команду apply, если вы можете выполнить ту же работу используя другие функции (они часто быстрее). Например, если вы хотите округлить столбец ‘c’ до целых чисел, выполните округление (df [‘c’], 0) вместо использования функции apply.
value counts
Это команда для проверки распределения значений. Например, если вы хотите проверить возможные значения и частоту для каждого отдельного значения в столбце «c», вы можете применить
df[‘c’].value_counts()
Есть несколько полезных приемов / функций:
A. normalize = True : если вы хотите проверить частоту вместо подсчетов.
B. dropna = False : если вы хотите включить пропущенные значения в статистику.
C. sort = False : показать статистику, отсортированную по значениям, а не по количеству.
D. df[‘c].value_counts().reset_index().: если вы хотите преобразовать таблицу статистики в датафрейм Pandas и управлять ими.
количество пропущенных значений
При построении моделей может потребоваться исключить строку со слишком большим количеством пропущенных значений / строки со всеми пропущенными значениями. Вы можете использовать .isnull () и .sum () для подсчета количества пропущенных значений в указанных столбцах.
import pandas as pd
import numpy as np
df = pd.DataFrame(< ‘id’: [1,2,3], ‘c1’:[0,0,np.nan], ‘c2’: [np.nan,1,1]>)
df = df[[‘id’, ‘c1’, ‘c2’]]
df[‘num_nulls’] = df[[‘c1’, ‘c2’]].isnull().sum(axis=1)
df.head()
выбрать строки с конкретными идентификаторами
В SQL мы можем сделать это, используя SELECT * FROM… WHERE ID в («A001», «C022»,…), чтобы получить записи с конкретными идентификаторами. Если вы хотите сделать то же самое с pandas, вы можете использовать:
df_filter = df ['ID']. isin (['A001', 'C022', . ])
df [df_filter]
Percentile groups
Допустим, у вас есть столбец с числовыми значениями, и вы хотите классифицировать значения в этом столбце по группам, скажем, топ 5% в группу 1, 5–20% в группу 2, 20–50% в группу 3, нижние 50% в группу 4. Конечно, вы можете сделать это с помощью pandas.cut, но мы бы хотели представить другую функцию:
import numpy as np
cut_points = [np.percentile(df[‘c’], i) for i in [50, 80, 95]]
df[‘group’] = 1
for i in range(3):
df[‘group’] = df[‘group’] + (df[‘c’] < cut_points[i])
# or Которая быстро запускается (не применяется функция apply).to_csv
Опять-таки, это команда, которую используют все. Отметим пару полезных приемов. Первый:print(df[:5].to_csv())Вы можете использовать эту команду, чтобы напечатать первые пять строк того, что будет записано непосредственно в файл.
Еще один прием касается смешанных вместе целых чисел и пропущенных значений. Если столбец содержит как пропущенные значения, так и целые числа, тип данных по-прежнему будет float, а не int. Когда вы экспортируете таблицу, вы можете добавить float_format = '%. 0f', чтобы округлить все числа типа float до целых чисел. Используйте этот прием, если вам нужны только целочисленные выходные данные для всех столбцов – так вы избавитесь от всех назойливых нулей ‘.0’ .