Вопросы по теме 'luigi'
Модули асинхронного рабочего процесса на основе Python: в чем разница между рабочим процессом celery и рабочим процессом luigi?
Я использую django в качестве веб-фреймворка. Мне нужен механизм рабочего процесса, который может выполнять как синхронную, так и асинхронную (пакетные задачи) цепочку задач. Я нашел celery и luigi в качестве рабочего процесса пакетной обработки....
7909 просмотров
schedule
21.07.2023
Куда делось задание Луиджи?
Впервые в царстве Луиджи (и Python!) И возникли вопросы. Соответствующий код:
from Database import Database
import luigi
class bbSanityCheck(luigi.Task):
conn = luigi.Parameter()
date = luigi.Parameter()
def __init__(self, *args,...
1800 просмотров
schedule
17.03.2022
При использовании luigi для создания конвейера заданий Hadoop, как отладить мою задачу?
Я использую luigi в качестве конвейера заданий Hadoop. Я прочитал пример и документацию, но не могу найти, как отладить мой скрипт перед отправкой заданий на серверы hadoop?
Более конкретно, мне нужно обработать большой набор данных, а время...
306 просмотров
schedule
24.07.2022
Трубопровод Луиджи начинается в S3
Мои исходные файлы находятся в AWS S3 . Может ли кто-нибудь указать мне, как мне это настроить в Luigi Task ?
Я просмотрел документацию и нашел luigi.S3 , но мне непонятно, что с этим делать, затем я поискал в Интернете и получил только ссылки...
8165 просмотров
schedule
11.04.2022
Архитектура для задач luigi с несколькими входами
У меня есть несколько файлов рассола, по одному на каждую дату между 2005 и 2010 годами. Каждый файл содержит словарь слов с их соответствующей частотой для этой даты. Еще у меня есть «мастер-файл» со всеми уникальными словами за весь период. Всего...
1221 просмотров
schedule
25.03.2023
Луиджи: Задача не завершается неудачно, даже если в методе run () я выполняю несуществующий файл.
Я новичок в luigi и изучаю его возможности. Я столкнулся с проблемой, при которой я определил задачу с помощью (требуется, метод запуска и вывода). В run () я выполняю содержимое файла.
Однако, если файл не существует, задача не завершится...
856 просмотров
schedule
01.06.2023
Когда новый файл поступает в S3, запускайте задачу luigi
У меня есть ведро с новыми объектами, которые добавляются через случайные промежутки времени с ключами в зависимости от времени их создания. Например:
's3://my-bucket/mass/%s/%s/%s/%s/%s_%s.csv' % (time.strftime('%Y'), time.strftime('%m'),...
1123 просмотров
schedule
11.02.2023
Очистка кэша визуализатора задач Luigi
Я тестирую конвейер с Луиджи и заметил странное поведение кэширования в визуализаторе задач. Во-первых, кажется, что задачи остаются в кеше в течение установленного времени, иногда перекрывая задачи из второго запуска конвейера, вызывая беспорядок в...
584 просмотров
schedule
21.06.2023
Гибкий конвейер Luigi и сквозная передача параметров
Недавно я реализовал конвейер luigi для обработки обработки для одного из наших конвейеров биоинформатики. Однако в том, как настроить эти задачи, есть кое-что принципиальное, чего я не понимаю.
Допустим, у меня есть цепочка из трех задач, которые...
1281 просмотров
schedule
28.12.2022
Как избежать ошибки импорта Google-Cloud-Dataflow при использовании внутри Luigi
У меня есть несколько процессов, которые зависят друг от друга. Я использую Луиджи для управления этими зависимостями. Поскольку существует несколько процессов, я сделал пакет для каждого из них. Т.е. все соответствующие файлы процесса находятся в...
276 просмотров
schedule
06.10.2022
Подходит ли Луиджи для построения конвейера вокруг большого количества небольших файлов (100k +)
Моя первая инстинктивная реакция заключается в том, что Луиджи не подходит для такого рода вещей, но мне бы хотелось, чтобы функциональность «конвейера» постоянно указывала мне на Луиджи / Airflow. Я не могу использовать Airflow, так как это среда...
238 просмотров
schedule
23.05.2022
Луиджи установил конфигурацию из кода
Я завернул набор задач Луиджи в пакет. На данный момент каждая etl-задача имеет свой собственный luigi.cfg в одном и том же каталоге, однако, поскольку все эти .cfg файлы одинаковы, это выглядит неоптимально. Кроме того, я бы предпочел писать...
888 просмотров
schedule
25.03.2023
Как записать вывод в секционированную таблицу в формате orc с помощью luigi?
допустим у нас есть такая работа:
class MRjob(JobTask):
def output(self):
return ...
def requires(self):
return ...
def mapper(self, line):
# some line process
yield key, (...information, stored in hashable type...)
def...
1191 просмотров
schedule
14.09.2023
Luigi Pipelining: нет модуля с именем pwd в Windows
Я пытаюсь выполнить руководство, приведенное в https://marcobonzanini.com/2015/10/24/building-data-pipelines-with-python-and-luigi/ .
Я могу запустить программу самостоятельно, используя локальный планировщик, что дает мне:
Scheduled 2 tasks...
5979 просмотров
schedule
08.01.2023
Как с помощью Luigi прочитать данные PostgreSQL, а затем передать их следующей задаче в рабочем процессе?
Используя Luigi , я хочу определить рабочий процесс с двумя "этапами":
Первый читает данные из PostgreSQL.
Второй что-то делает с данными.
Таким образом, я начал с создания подкласса luigi.contrib.postgres.PostgresQuery и...
1237 просмотров
schedule
04.05.2024
Использование наборов данных HDF5 (не путать с HDFS) в качестве целей в luigi
Судя по тому, что я прочитал в документации, luigi предназначен для работы с текстовыми файлами или необработанными двоичными файлами в качестве целей. Я пытаюсь создать рабочий процесс luigi для существующего конвейера обработки, который использует...
749 просмотров
schedule
22.06.2023
Планировщик не предоставил задачам Luigi разрешение на запуск
Я пытаюсь создать задачи Luigi динамически (на основе атрибутов в cmdList) и сделать предыдущую задачу зависимой от следующей задачи. SQLTask - это подкласс Luigi.Task. Однако, когда я запускаю этот код, я получаю This progress looks :| because...
2112 просмотров
schedule
01.04.2022
luigi — как создать зависимость не между файлами, а между задачами? (или как не задействовать метод вывода)
Имея две задачи Луиджи, как я могу добавить одну в качестве требования для другой таким образом, чтобы, если требуемое было выполнено, вторая задача могла начаться без участия вывода?
В настоящее время я получаю сообщение RuntimeError: Unfulfilled...
382 просмотров
schedule
11.04.2023
Как использовать Luigi с определенными столбцами таблицы SQL в качестве цели
Предположим, что в Luigi у меня есть TaskA и TaskB, каждая из которых генерирует столбец данных для помещения в table1. Если я использую цель SQL, Луиджи, кажется, хочет писать в полную таблицу, но это делает добавление новых столбцов в таблицу...
657 просмотров
schedule
20.06.2023
Pytest - Нет доступа к атрибутам импортированного класса?
Сводка проблемы: при попытке доступа к методам класса задач класса / Луиджи, которые я пытаюсь протестировать, он сообщает, что у класса нет методов, которые я пытаюсь использовать.
Подробнее: я пытаюсь протестировать задание класса / Луиджи,...
159 просмотров
schedule
05.09.2022