Публикации по теме 'airflow'


Воздушный поток Apache: пулы
Оптимизация параллелизма рабочих процессов с помощью пулов в Apache Airflow Введение: Apache Airflow — это мощная платформа для организации рабочих процессов и управления ими. Одной из его ключевых особенностей является концепция пулов, которая позволяет эффективно управлять ресурсами и контролировать параллелизм в ваших рабочих процессах. В Apache Airflow пулы позволяют распределять ресурсы, приоритизировать задачи и предотвращать чрезмерное использование, что приводит к..

Как использовать Prefect для оркестровки потока данных
Оркестрация потоков данных является важным аспектом современных организаций, управляемых данными. Это помогает обеспечить плавный и эффективный поток данных в организации, от сбора до анализа и принятия решений. Одним из мощных инструментов для оркестровки потоков данных является Prefect , система управления рабочими процессами на основе Python. С Prefect вы можете легко создавать, развертывать и отслеживать сложные рабочие процессы данных, используя простой и интуитивно понятный API..

Объявление о выпуске Airflow с открытым исходным кодом (с лицензией MIT) и удобной для Kubernetes службы потоковой передачи файлов
На сегодняшний день мы открыли исходный код нашего проекта http-nas по лицензии MIT с открытым исходным кодом. Если вы разрабатывали задания/конвейеры/рабочие процессы, требующие отслеживания состояния в виде файлов (нашим основным вариантом использования был Airflow, работающий на Kubernetes), вы, возможно, сталкивались с проблемами наличия файловой системы, которую можно совместно использовать между несколькими контейнерами, или параллельной задачи в ваших группах обеспечения..

Разработка машинного обучения в облаке — Часть 6: рабочие места и автоматизация
Если вы пропустили это, посетите первую часть этой серии , чтобы получить обзор моего проекта. Эта заключительная статья в моей серии статей о разработке машинного обучения на основе облачных вычислений посвящена корпоративной практике машинного обучения. Большая часть производственной науки о данных, в отличие от исследований и разработок или экспериментов, заключается в настройке различных задач для автоматизации , что позволит нашим моделям работать с реальными данными или нашим..

Между PoC машинного обучения и производством
Японская версия находится здесь: ( https://qiita.com/koyaaarr/items/259ad4f0d574497c5b08 ) Вступление Доказательство концепции машинного обучения (PoC) очень популярно в наши дни из-за недавнего бума искусственного интеллекта. А потом, если (к большому счастью) вы добьетесь хороших результатов в PoC, вы можете запустить систему PoC в производство. Однако, несмотря на то, что было передано много знаний об исследовательском анализе данных и построении прогнозных моделей, все еще..

Вопросы по теме 'airflow'

Как настроить Airflow dag для ежедневного запуска в определенное время?
Как настроить Airflow dag для выполнения в указанное время ежедневно, что бы ни случилось, что-то в точности как crons. Я знаю, что подобное поведение может быть получено с помощью TimeSensor, но в этом случае это зависит от задач датчика и может...
21378 просмотров
schedule 07.03.2022

Как именно subDAG работает в Airflow? Что означает включение дочернего DAG?
Я просмотрел раздел Airflow subDAG и попытался найти в Интернете что-нибудь еще, что было бы полезно, однако я не нашел ничего, что подробно объясняло бы, как заставить subDAG работать. Одним из требований для запуска вложенного тега является его...
18436 просмотров
schedule 24.12.2021

Примеры воздушного потока без дат
Я новичок в использовании воздушного потока . Я пытаюсь запустить даг и не хочу ничего планировать. Я хотел бы запустить конвейер с аргументом командной строки и переопределить весь текущий вывод. У меня нет даты начала, расписания, времени и...
2294 просмотров
schedule 13.08.2022

Перемещение и преобразование данных между базами данных с помощью Airflow
Используя воздушный поток, я извлекаю данные из базы данных MySQL, преобразую их с помощью Python и загружаю в кластер Redshift. В настоящее время я использую 3 задачи воздушного потока: они передают данные, записывая CSV на локальный диск. Как...
9222 просмотров
schedule 16.07.2022

Не удалось настроить соединение DB2/DashDB JDBC в Apache Airflow
Я пытаюсь создать соединение DB2/DashDB с помощью пользовательского интерфейса Airflow. Я добавил драйвер db2jcc4.jar и указал путь, а также имя класса com.ibm.db2.jcc.DB2Driver.class. Я пытался выполнить простой запрос (в пользовательском...
815 просмотров
schedule 21.04.2022

Как обновить функции python в воздушном потоке без необходимости перезапуска веб-сервера воздушного потока
Я учусь использовать воздушный поток для планирования некоторых процессов python ETL. Каждый раз, когда я обновляю свой код Python, мне приходится перезапускать веб-сервер, а также переименовывать DAG до того, как изменения кода будут приняты...
4605 просмотров
schedule 08.06.2023

Воздушный поток сельдерея будет заблокирован, если номер датчика больше, чем параллелизм?
Допустим, я установил параллелизм сельдерея на n , но у меня есть m ( m > n ) ExternalTaskSensor в dag, он проверит другой dag с именем do_sth , эти ExternalTaskSensor будут потреблять весь рабочий сельдерея, так что фактически никто не будет...
1504 просмотров
schedule 11.04.2023

может ли поток воздуха работать последовательно без зависимости
я хотел бы создать рабочий процесс, который запускается после завершения предыдущего выполнения, но не зависит от их статуса успеха. это означает, что даги будут планироваться последовательно, без какой-либо зависимости от прошлых статусов. то...
2507 просмотров
schedule 20.06.2022

Hiveconf/hivevar: можно ли использовать точку ('.') в имени переменной?
Можно ли использовать точку в имени переменной hiveconf? Во всех примерах в документации показаны простые имена переменных, такие как a . Если да: Как мне сослаться на него в сценарии HQL? select ${hiveconf:airflow.ctx.dag.dag_id} as...
771 просмотров
schedule 15.11.2022

Ошибка при вызове BashOperator: сбой команды Bash
Вот мой файл dag и задача BashOperator: my_dag = { dag_id = 'my_dag', start_date = datetime(year=2017, month=3, day=28), schedule_interval='01***', } my_bash_task = BashOperator( task_id="my_bash_task", bash_command=bash_command, dag=my_dag)...
9457 просмотров
schedule 12.04.2023

Воздушный поток: шаблон для однократного запуска подзаголовка воздушного потока
Из документации по воздушному потоку: SubDAGs must have a schedule and be enabled. If the SubDAG’s schedule is set to None or @once, the SubDAG will succeed without having done anything Я понимаю, что субдагооператор фактически реализован как...
5571 просмотров

Почему мои задачи Airflow поставлены в очередь, но не выполняются?
Я новичок в воздушном потоке и пытаюсь настроить воздушный поток для запуска конвейеров ETL. Мне удалось установить поток воздуха Postgres сельдерей кролик Я могу протестировать учебный даг. Когда я пытаюсь запланировать задания,...
13752 просмотров
schedule 02.03.2022

Как остановить/убить задачи Airflow из пользовательского интерфейса
Как я могу остановить/убить запущенную задачу в пользовательском интерфейсе Airflow? Я использую LocalExecutor . Даже если я использую CeleryExecutor , как я могу убить/остановить текущую задачу?
64259 просмотров
schedule 20.09.2022

Воздушный поток - можно ли запускать один день (последовательно) с помощью команды backfill?
В принципе, я бы хотел запустить команду обратной засыпки целый месяц. Но есть некоторые задачи, которые зависят от данных предыдущего дня. И насколько мне известно, эта команда запускается каждый день в одно и то же время. airflow backfill...
1194 просмотров

Airflow - запускать задачу независимо от успеха / неудачи восходящего потока
У меня есть DAG, который работает параллельно с несколькими независимыми модулями. Это выполняется в AWS, поэтому у нас есть задачи, которые масштабируют нашу AutoScalingGroup до максимального количества рабочих, когда DAG запускается, и до минимума,...
16925 просмотров
schedule 30.04.2022

Как работает BranchPythonOperator в Airflow?
Я изо всех сил пытаюсь понять, как работает BranchPythonOperator в Airflow. Я знаю, что он в основном используется для ветвления, но меня смущает документация о том, что передать в задачу и что мне нужно передать / ожидать от задачи вверх по течению....
23573 просмотров
schedule 02.03.2022

Как настроить конфигурацию электронной почты Airflow, чтобы отправлять сообщения об ошибках?
Я пытаюсь сделать задачу Airflow намеренно сбой и ошибкой, передав строку Bash ( thisshouldnotrun ), которая не работает. Воздушный поток выводит следующее: [2017-06-15 17:44:17,869] {bash_operator.py:94} INFO -...
35103 просмотров
schedule 24.02.2022

потребитель: не удается подключиться к amqp: // user: ** @ localhost: 5672 //: [Errno 111] В соединении отказано
Я пытаюсь создать воздушный поток с помощью docker и rabbitMQ. Я использую образ rabbitmq: 3-management. И я могу получить доступ к пользовательскому интерфейсу и API rabbitMQ. В воздушном потоке я создаю веб-сервер воздушного потока, планировщик...
15444 просмотров
schedule 17.12.2022

Airflow 1.8.1 и Celery 4.0.2 AWS SQS broker_url TypeError
Я пытаюсь настроить сервер Airflow на EC2 в AWS. Я настроил базу данных так, чтобы она указывала на экземпляр MySQL в RDS. Я хотел настроить его с помощью AWS SQS вместо RabbitMQ, хотя здесь я застрял. Я настроил его для CeleryExecutor Моя...
867 просмотров

Airflow будет продолжать показывать примеры дагов даже после удаления его из конфигурации.
Даги с примерами воздушного потока остаются в пользовательском интерфейсе даже после того, как я отключил load_examples = False в файле конфигурации. Система сообщает, что даги отсутствуют в папке dag, но остаются в пользовательском...
9709 просмотров
schedule 23.05.2024