Как сохранить файл из jupiter notebook

Как скачать таблицу из юпитер ноутбука?

Предположим, что у меня есть таблица в формате dataframe, я преобразую её в формат csv, используя to_csv, как теперь мне скачать эту таблицу?

Отслеживать
задан 15 авг 2021 в 16:57
67 1 1 серебряный знак 5 5 бронзовых знаков

1 ответ 1

Сортировка: Сброс на вариант по умолчанию

Разберем на примере кода:

import pandas as pd cities = pd.DataFrame([['Sacramento', 'California'], ['Miami', 'Florida']], columns=['City', 'State']) cities.to_csv('cities.csv')

В строке cities.to_csv(‘cities.csv’) вы конвертирует DataFrame-файл и записываете в файл ‘cities.csv’, также можно указать прямой путь к файлу. Далее он сохраняется в рабочем каталоге запущенного файла. Следовательно, вам не надо будет скачивать сам конвертированный файл,он будет в той же директории, где находится ваш py-файл с кодом выше(если брать пример выше).

Как сохранить jupyter notebook в pdf?

[I 23:49:31.834 NotebookApp] Writing 64127 bytes to .\notebook.tex
[I 23:49:31.834 NotebookApp] Building PDF
[I 23:49:31.844 NotebookApp] Running xelatex 3 times: [‘xelatex’, ‘.\\notebook.tex’, ‘-quiet’]
[I 23:49:44.891 NotebookApp] Running bibtex 1 time: [‘bibtex’, ‘.\\notebook’]
[W 23:49:45.240 NotebookApp] b had problems, most likely because there were no citationss

так же в ноутбуке нет русских комментариев, они просто не передались в pdf.
Пробовал pip install -U «notebook

Вопрос задан более трёх лет назад
4334 просмотра

3 комментария

Простой 3 комментария

Как конвертировать csv в excel в Jupyter Notebook

Ну что, начинаю тут вещать и собирать свои лайфхаки. Без них бы я не разобралась в том, что знаю сейчас.

В Jupyter’е есть как минимум с десяток классных функций упрощающих жизнь всем, для примера возьму импорт и экспорт датафреймов:

Импорт

pd.read_csv(filename) | Загрузить CSV file
pd.read_table(filename) | Из текстового файла с разделителями (например, TSV)
pd.read_excel(filename) | Загрузить Excel file
pd.read_sql(query, connection_object) | Загрузка из таблицы / базы данных SQL
pd.read_json(json_string) | Чтение из строки, URL или файла в формате JSON
pd.read_html(url) | Разбирает html URL, строку или файл и извлекает таблицы в список датафреймов
pd.read_clipboard() | Берет содержимое вашего буфера обмена и передает его в read_table()
pd.DataFrame(dict) | Словарь, ключи для имен столбцов, значения для данных в виде списков

Экспорт

df.to_csv(filename) | Записать в CSV file
df.to_excel(filename) | Записать в Excel file
df.to_sql(table_name, connection_object) | Записать в SQL table
df.to_json(filename) | Записать в JSON format

Сегодня расскажу немножко про боль при сохранении cvs в excel, ключевое почему не срабатывает просто сухое to_excel() — нужно сначала записать данные в эксель, а после сохранять.

Например у вас загружен в Jupyter csv с помощью pd.read_csv(filename)

Ниже будет перевод материала из вот этой статьи на медиуме, спасибо @Stephen Fordham.

У Стивена очень подробно все описано, даже с примером как в файл сохранить несколько датафреймов в разные вкладки. Я же представлю скрин того, как сохранить один датафрейм.

Опишу то что мы видим, чтобы использовать Pandas для записи объектов Dataframe в Excel, необходимо установить 2 библиотеки. Это библиотеки xlrd и openpyxl соответственно. Для удобства эти библиотеки можно установить, не выходя из Jupyter Notebook, просто добавив к команде префикс ! подписать с последующей установкой pip . Когда эта ячейка будет выполнена, вывод будет либо «Требование уже выполнено», либо установка будет выполнена автоматически.

Отвечаю на вопрос, почему у меня на скрине ! pip install openpyxl==3.0.1
При установке последней версии методом ! pip install openpyxl (ставится последняя версия 3.0.2) у меня возникает ошибка при выполнении сохранения TypeError: got invalid input value of type , expected string or Element
Собственно вопрос решается если ставить версию ниже

Далее все проще, как пишет Стивен в своей публикации — От Pandas Dataframe к Excel за 3 шага

Чтобы начать процесс экспорта Pandas Dataframes в Excel, необходимо создать объект ExcelWriter. Это достигается с помощью метода ExcelWriter, который вызывается непосредственно из библиотеки панд. В этом методе я указываю имя файла Excel (в статье по ссылке автор выбрал Tennis_players, у меня же вы найдете games) и включаю расширение .xlsx. Этот шаг создает основную книгу экселя, в которую мы можем затем записать наши датафреймы.
После этого я вызываю метод .to_excel на скрине выше. В методе .to_excel первым аргументом, который нужно указать, является объект ExcelWriter, за которым следует необязательный параметр имя листа. (я не использовала индекс, но в статье, на которую я ссылаюсь устанавливают аргумент index =False, по умолчанию, кстати, идет True) Проставляем аргумент ‘utf-8’ для параметра encoding для обработки любых специальных символов. Тоже самое можно повторить и для других датафреймов, единственное записывать их в разные листы, параметр sheet_name.
Наконец, теперь, когда наши датафреймы поставлены в очередь для экспорта, мы вызываем метод save для объекта ExcelWriter, который мы назначили переменной my_excel_file.

Где можно сохранять и записывать файлы для экспериментов Машинного обучения Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ:Пакет SDK для Python для ML Azure версии 1

Из этой статьи вы узнаете, где сохранять входные файлы и куда записывать выходные файлы из экспериментов, чтобы предотвратить ошибки ограничения хранилища и задержку экспериментов.

При запуске обучающих заданий в целевом объекте вычислений они изолируются от внешних сред. Цель данной схемы — обеспечить повторяемость и переносимость эксперимента. Если вы дважды выполните один и тот же сценарий в том же или другом целевом объекте вычислений, то полученные результаты будут одинаковыми. Такая схема работы позволяет использовать целевые объекты вычислений как вычислительные ресурсы без сохранения состояния, которые не сопоставляются с уже завершенными заданиями.

Где сохранять входные файлы

Прежде чем начать эксперимент в целевом объекте вычислений или на локальном компьютере, вы должны убедиться, что для этого целевого объекта вычислений доступны все необходимые файлы, такие как файлы зависимостей и файлы данных, которые нужны для выполнения кода.

Машинное обучение Azure запускает задания сценариев обучения, копируя весь исходный каталог. Если у вас есть конфиденциальные данные, которые вы не хотите отправлять, используйте файл .ignore или не включайте их в исходный каталог. Вместо этого обращайтесь к вашим данным с помощью хранилища данных.

Максимальный размер хранилища для моментальных снимков экспериментов составляет 300 МБ или 2000 файлов.

По этой причине рекомендуется следующее.

Сохранение файлов в наборе данных Машинного обучения Azure. Это предотвращает проблемы с задержкой экспериментов и дает преимущества доступа к данным из удаленного целевого объекта вычислений, что означает, что проверка подлинности и подключение управляются Машинным обучением Azure. Узнайте дополнительно о том, как указать набор данных в качестве источника входных данных в обучающем скрипте, предоставленном на курсе обучения с наборами данных.
Если вам требуется только несколько файлов данных и сценариев зависимостей, и вы не можете использовать хранилище данных, поместите файлы в ту же папку, в которой находится сценарий обучения. Укажите эту папку как source_directory непосредственно в сценарии обучения или в коде, который вызывает сценарий обучения.

Ограничения хранилища моментальных снимков экспериментов

Для экспериментов Машинное обучение Azure автоматически создает моментальный снимок кода на основе каталога, который вы предлагаете при настройке задания. Для конвейера каталог настраивается для каждого шага.

Общее ограничение составляет 300 МБ или 2000 файлов. При превышении этого ограничения возникнет следующая ошибка:

While attempting to take snapshot of . Your total snapshot size exceeds the limit of 300.0 MB

Чтобы устранить эту ошибку, храните файлы экспериментов в хранилище данных. Если вы не можете использовать хранилище данных, в таблице ниже представлены возможные альтернативные решения.

Описание эксперимента	Решение для ограничения хранилища
Менее 2000 файлов & невозможно использовать хранилище данных	Переопределите предельный размер моментального снимка с помощью azureml._restclient.snapshots_client.SNAPSHOT_MAX_SIZE_BYTES = ‘insert_desired_size’ Это может занять несколько минут в зависимости от количества и размера файлов.
Необходимо использовать специальный каталог сценариев	Чтобы предотвратить включение ненужных файлов в моментальный снимок, создайте файл игнорирования ( .gitignore или .amlignore ) в каталоге. Добавьте исключаемые файлы и каталоги в этот файл. Дополнительные сведения о синтаксисе, который будет использоваться в этом файле, см. в разделе синтаксис и шаблоны для .gitignore . Файл .amlignore использует тот же синтаксис. Если оба файла существуют, используется файл .amlignore , а файл .gitignore не используется.
Конвейер	Используйте другой подкаталог в каждом шаге
Записные книжки Jupyter	Создайте файл .amlignore или переместите записную книжку в новый, пустой подкаталог и снова запустите код.

Куда записывать файлы

Из-за изоляции обучающих экспериментов изменения в файлах, происходящие во время заданий, не всегда сохраняются вне вашей среды. Если ваш скрипт изменяет файлы локально для вычислений, эти изменения не сохраняются для следующего задания эксперимента и не распространяются автоматически обратно на клиентский компьютер. Таким образом, изменения, внесенные во время выполнения первого задания эксперимента, не влияют и не должны влиять на изменения во втором.

При записи изменений рекомендуется записывать файлы в хранилище с помощью набора данных Машинного обучения Azure объекта OutputFileDatasetConfig. См. раздел Создание OutputFileDatasetConfig.

В противном случае запишите файлы в папку ./outputs и/или ./logs .

Две папки, outputs и logs, обрабатываются Машинным обучением Azure особым образом. Когда во время обучения вы записываете файлы в папки ./outputs и ./logs , эти файлы автоматически будут отправляться в журнал заданий, чтобы после завершения задания у вас был к ним доступ.

Для таких выходных данных, как сообщения о состоянии или результаты оценки, записывайте файлы в папку ./outputs , чтобы они сохранялись как артефакты в журнале заданий. Учитывайте количество и размер файлов, записываемых в эту папку, так как при передаче содержимого в журнал заданий может возникать задержка. Если задержка является проблемой, рекомендуется записывать файлы в хранилище данных.
Для сохранения записанных файлов в виде журналов в журнале заданий записывайте файлы в папку ./logs . Журналы отправляются в реальном времени, поэтому этот метод подходит для потоковой передачи динамических обновлений из удаленного задания.

Дальнейшие действия

Узнайте дополнительные сведения о доступе к данным из хранилищ данных.
Узнайте больше о создании целевых объектов вычислений для обучения и развертывания моделей.