Вопросы по теме 'luigi'

Модули асинхронного рабочего процесса на основе Python: в чем разница между рабочим процессом celery и рабочим процессом luigi?
Я использую django в качестве веб-фреймворка. Мне нужен механизм рабочего процесса, который может выполнять как синхронную, так и асинхронную (пакетные задачи) цепочку задач. Я нашел celery и luigi в качестве рабочего процесса пакетной обработки....
7909 просмотров
schedule 21.07.2023

Куда делось задание Луиджи?
Впервые в царстве Луиджи (и Python!) И возникли вопросы. Соответствующий код: from Database import Database import luigi class bbSanityCheck(luigi.Task): conn = luigi.Parameter() date = luigi.Parameter() def __init__(self, *args,...
1800 просмотров
schedule 17.03.2022

При использовании luigi для создания конвейера заданий Hadoop, как отладить мою задачу?
Я использую luigi в качестве конвейера заданий Hadoop. Я прочитал пример и документацию, но не могу найти, как отладить мой скрипт перед отправкой заданий на серверы hadoop? Более конкретно, мне нужно обработать большой набор данных, а время...
306 просмотров
schedule 24.07.2022

Трубопровод Луиджи начинается в S3
Мои исходные файлы находятся в AWS S3 . Может ли кто-нибудь указать мне, как мне это настроить в Luigi Task ? Я просмотрел документацию и нашел luigi.S3 , но мне непонятно, что с этим делать, затем я поискал в Интернете и получил только ссылки...
8165 просмотров
schedule 11.04.2022

Архитектура для задач luigi с несколькими входами
У меня есть несколько файлов рассола, по одному на каждую дату между 2005 и 2010 годами. Каждый файл содержит словарь слов с их соответствующей частотой для этой даты. Еще у меня есть «мастер-файл» со всеми уникальными словами за весь период. Всего...
1221 просмотров
schedule 25.03.2023

Луиджи: Задача не завершается неудачно, даже если в методе run () я выполняю несуществующий файл.
Я новичок в luigi и изучаю его возможности. Я столкнулся с проблемой, при которой я определил задачу с помощью (требуется, метод запуска и вывода). В run () я выполняю содержимое файла. Однако, если файл не существует, задача не завершится...
856 просмотров
schedule 01.06.2023

Когда новый файл поступает в S3, запускайте задачу luigi
У меня есть ведро с новыми объектами, которые добавляются через случайные промежутки времени с ключами в зависимости от времени их создания. Например: 's3://my-bucket/mass/%s/%s/%s/%s/%s_%s.csv' % (time.strftime('%Y'), time.strftime('%m'),...
1123 просмотров
schedule 11.02.2023

Очистка кэша визуализатора задач Luigi
Я тестирую конвейер с Луиджи и заметил странное поведение кэширования в визуализаторе задач. Во-первых, кажется, что задачи остаются в кеше в течение установленного времени, иногда перекрывая задачи из второго запуска конвейера, вызывая беспорядок в...
584 просмотров
schedule 21.06.2023

Гибкий конвейер Luigi и сквозная передача параметров
Недавно я реализовал конвейер luigi для обработки обработки для одного из наших конвейеров биоинформатики. Однако в том, как настроить эти задачи, есть кое-что принципиальное, чего я не понимаю. Допустим, у меня есть цепочка из трех задач, которые...
1281 просмотров
schedule 28.12.2022

Как избежать ошибки импорта Google-Cloud-Dataflow при использовании внутри Luigi
У меня есть несколько процессов, которые зависят друг от друга. Я использую Луиджи для управления этими зависимостями. Поскольку существует несколько процессов, я сделал пакет для каждого из них. Т.е. все соответствующие файлы процесса находятся в...
276 просмотров
schedule 06.10.2022

Подходит ли Луиджи для построения конвейера вокруг большого количества небольших файлов (100k +)
Моя первая инстинктивная реакция заключается в том, что Луиджи не подходит для такого рода вещей, но мне бы хотелось, чтобы функциональность «конвейера» постоянно указывала мне на Луиджи / Airflow. Я не могу использовать Airflow, так как это среда...
238 просмотров
schedule 23.05.2022

Луиджи установил конфигурацию из кода
Я завернул набор задач Луиджи в пакет. На данный момент каждая etl-задача имеет свой собственный luigi.cfg в одном и том же каталоге, однако, поскольку все эти .cfg файлы одинаковы, это выглядит неоптимально. Кроме того, я бы предпочел писать...
888 просмотров
schedule 25.03.2023

Как записать вывод в секционированную таблицу в формате orc с помощью luigi?
допустим у нас есть такая работа: class MRjob(JobTask): def output(self): return ... def requires(self): return ... def mapper(self, line): # some line process yield key, (...information, stored in hashable type...) def...
1191 просмотров
schedule 14.09.2023

Luigi Pipelining: нет модуля с именем pwd в Windows
Я пытаюсь выполнить руководство, приведенное в https://marcobonzanini.com/2015/10/24/building-data-pipelines-with-python-and-luigi/ . Я могу запустить программу самостоятельно, используя локальный планировщик, что дает мне: Scheduled 2 tasks...
5979 просмотров
schedule 08.01.2023

Как с помощью Luigi прочитать данные PostgreSQL, а затем передать их следующей задаче в рабочем процессе?
Используя Luigi , я хочу определить рабочий процесс с двумя "этапами": Первый читает данные из PostgreSQL. Второй что-то делает с данными. Таким образом, я начал с создания подкласса luigi.contrib.postgres.PostgresQuery и...
1237 просмотров
schedule 04.05.2024

Использование наборов данных HDF5 (не путать с HDFS) в качестве целей в luigi
Судя по тому, что я прочитал в документации, luigi предназначен для работы с текстовыми файлами или необработанными двоичными файлами в качестве целей. Я пытаюсь создать рабочий процесс luigi для существующего конвейера обработки, который использует...
749 просмотров
schedule 22.06.2023

Планировщик не предоставил задачам Luigi разрешение на запуск
Я пытаюсь создать задачи Luigi динамически (на основе атрибутов в cmdList) и сделать предыдущую задачу зависимой от следующей задачи. SQLTask - это подкласс Luigi.Task. Однако, когда я запускаю этот код, я получаю This progress looks :| because...
2112 просмотров
schedule 01.04.2022

luigi — как создать зависимость не между файлами, а между задачами? (или как не задействовать метод вывода)
Имея две задачи Луиджи, как я могу добавить одну в качестве требования для другой таким образом, чтобы, если требуемое было выполнено, вторая задача могла начаться без участия вывода? В настоящее время я получаю сообщение RuntimeError: Unfulfilled...
382 просмотров
schedule 11.04.2023

Как использовать Luigi с определенными столбцами таблицы SQL в качестве цели
Предположим, что в Luigi у меня есть TaskA и TaskB, каждая из которых генерирует столбец данных для помещения в table1. Если я использую цель SQL, Луиджи, кажется, хочет писать в полную таблицу, но это делает добавление новых столбцов в таблицу...
657 просмотров
schedule 20.06.2023

Pytest - Нет доступа к атрибутам импортированного класса?
Сводка проблемы: при попытке доступа к методам класса задач класса / Луиджи, которые я пытаюсь протестировать, он сообщает, что у класса нет методов, которые я пытаюсь использовать. Подробнее: я пытаюсь протестировать задание класса / Луиджи,...
159 просмотров
schedule 05.09.2022