Публикации по теме 'airflow'
Воздушный поток Apache: пулы
Оптимизация параллелизма рабочих процессов с помощью пулов в Apache Airflow
Введение:
Apache Airflow — это мощная платформа для организации рабочих процессов и управления ими. Одной из его ключевых особенностей является концепция пулов, которая позволяет эффективно управлять ресурсами и контролировать параллелизм в ваших рабочих процессах. В Apache Airflow пулы позволяют распределять ресурсы, приоритизировать задачи и предотвращать чрезмерное использование, что приводит к..
Как использовать Prefect для оркестровки потока данных
Оркестрация потоков данных является важным аспектом современных организаций, управляемых данными. Это помогает обеспечить плавный и эффективный поток данных в организации, от сбора до анализа и принятия решений.
Одним из мощных инструментов для оркестровки потоков данных является Prefect , система управления рабочими процессами на основе Python. С Prefect вы можете легко создавать, развертывать и отслеживать сложные рабочие процессы данных, используя простой и интуитивно понятный API..
Объявление о выпуске Airflow с открытым исходным кодом (с лицензией MIT) и удобной для Kubernetes службы потоковой передачи файлов
На сегодняшний день мы открыли исходный код нашего проекта http-nas по лицензии MIT с открытым исходным кодом.
Если вы разрабатывали задания/конвейеры/рабочие процессы, требующие отслеживания состояния в виде файлов (нашим основным вариантом использования был Airflow, работающий на Kubernetes), вы, возможно, сталкивались с проблемами наличия файловой системы, которую можно совместно использовать между несколькими контейнерами, или параллельной задачи в ваших группах обеспечения..
Разработка машинного обучения в облаке — Часть 6: рабочие места и автоматизация
Если вы пропустили это, посетите первую часть этой серии , чтобы получить обзор моего проекта.
Эта заключительная статья в моей серии статей о разработке машинного обучения на основе облачных вычислений посвящена корпоративной практике машинного обучения. Большая часть производственной науки о данных, в отличие от исследований и разработок или экспериментов, заключается в настройке различных задач для автоматизации , что позволит нашим моделям работать с реальными данными или нашим..
Между PoC машинного обучения и производством
Японская версия находится здесь: ( https://qiita.com/koyaaarr/items/259ad4f0d574497c5b08 )
Вступление
Доказательство концепции машинного обучения (PoC) очень популярно в наши дни из-за недавнего бума искусственного интеллекта. А потом, если (к большому счастью) вы добьетесь хороших результатов в PoC, вы можете запустить систему PoC в производство. Однако, несмотря на то, что было передано много знаний об исследовательском анализе данных и построении прогнозных моделей, все еще..
Вопросы по теме 'airflow'
Как настроить Airflow dag для ежедневного запуска в определенное время?
Как настроить Airflow dag для выполнения в указанное время ежедневно, что бы ни случилось, что-то в точности как crons.
Я знаю, что подобное поведение может быть получено с помощью TimeSensor, но в этом случае это зависит от задач датчика и может...
21378 просмотров
schedule
07.03.2022
Как именно subDAG работает в Airflow? Что означает включение дочернего DAG?
Я просмотрел раздел Airflow subDAG и попытался найти в Интернете что-нибудь еще, что было бы полезно, однако я не нашел ничего, что подробно объясняло бы, как заставить subDAG работать. Одним из требований для запуска вложенного тега является его...
18436 просмотров
schedule
24.12.2021
Примеры воздушного потока без дат
Я новичок в использовании воздушного потока . Я пытаюсь запустить даг и не хочу ничего планировать.
Я хотел бы запустить конвейер с аргументом командной строки и переопределить весь текущий вывод. У меня нет даты начала, расписания, времени и...
2294 просмотров
schedule
13.08.2022
Перемещение и преобразование данных между базами данных с помощью Airflow
Используя воздушный поток, я извлекаю данные из базы данных MySQL, преобразую их с помощью Python и загружаю в кластер Redshift.
В настоящее время я использую 3 задачи воздушного потока: они передают данные, записывая CSV на локальный диск.
Как...
9222 просмотров
schedule
16.07.2022
Не удалось настроить соединение DB2/DashDB JDBC в Apache Airflow
Я пытаюсь создать соединение DB2/DashDB с помощью пользовательского интерфейса Airflow. Я добавил драйвер db2jcc4.jar и указал путь, а также имя класса com.ibm.db2.jcc.DB2Driver.class.
Я пытался выполнить простой запрос (в пользовательском...
815 просмотров
schedule
21.04.2022
Как обновить функции python в воздушном потоке без необходимости перезапуска веб-сервера воздушного потока
Я учусь использовать воздушный поток для планирования некоторых процессов python ETL. Каждый раз, когда я обновляю свой код Python, мне приходится перезапускать веб-сервер, а также переименовывать DAG до того, как изменения кода будут приняты...
4605 просмотров
schedule
08.06.2023
Воздушный поток сельдерея будет заблокирован, если номер датчика больше, чем параллелизм?
Допустим, я установил параллелизм сельдерея на n , но у меня есть m ( m > n ) ExternalTaskSensor в dag, он проверит другой dag с именем do_sth , эти ExternalTaskSensor будут потреблять весь рабочий сельдерея, так что фактически никто не будет...
1504 просмотров
schedule
11.04.2023
может ли поток воздуха работать последовательно без зависимости
я хотел бы создать рабочий процесс, который запускается после завершения предыдущего выполнения, но не зависит от их статуса успеха. это означает, что даги будут планироваться последовательно, без какой-либо зависимости от прошлых статусов.
то...
2507 просмотров
schedule
20.06.2022
Hiveconf/hivevar: можно ли использовать точку ('.') в имени переменной?
Можно ли использовать точку в имени переменной hiveconf?
Во всех примерах в документации показаны простые имена переменных, такие как a .
Если да:
Как мне сослаться на него в сценарии HQL? select ${hiveconf:airflow.ctx.dag.dag_id} as...
771 просмотров
schedule
15.11.2022
Ошибка при вызове BashOperator: сбой команды Bash
Вот мой файл dag и задача BashOperator:
my_dag = {
dag_id = 'my_dag',
start_date = datetime(year=2017, month=3, day=28),
schedule_interval='01***',
}
my_bash_task = BashOperator(
task_id="my_bash_task",
bash_command=bash_command,
dag=my_dag)...
9457 просмотров
schedule
12.04.2023
Воздушный поток: шаблон для однократного запуска подзаголовка воздушного потока
Из документации по воздушному потоку:
SubDAGs must have a schedule and be enabled. If the SubDAG’s schedule is set to None or @once, the SubDAG will succeed without having done anything
Я понимаю, что субдагооператор фактически реализован как...
5571 просмотров
schedule
21.01.2023
Почему мои задачи Airflow поставлены в очередь, но не выполняются?
Я новичок в воздушном потоке и пытаюсь настроить воздушный поток для запуска конвейеров ETL. Мне удалось установить
поток воздуха
Postgres
сельдерей
кролик
Я могу протестировать учебный даг. Когда я пытаюсь запланировать задания,...
13752 просмотров
schedule
02.03.2022
Как остановить/убить задачи Airflow из пользовательского интерфейса
Как я могу остановить/убить запущенную задачу в пользовательском интерфейсе Airflow? Я использую LocalExecutor . Даже если я использую CeleryExecutor , как я могу убить/остановить текущую задачу?
64259 просмотров
schedule
20.09.2022
Воздушный поток - можно ли запускать один день (последовательно) с помощью команды backfill?
В принципе, я бы хотел запустить команду обратной засыпки целый месяц. Но есть некоторые задачи, которые зависят от данных предыдущего дня. И насколько мне известно, эта команда запускается каждый день в одно и то же время.
airflow backfill...
1194 просмотров
schedule
29.12.2022
Airflow - запускать задачу независимо от успеха / неудачи восходящего потока
У меня есть DAG, который работает параллельно с несколькими независимыми модулями. Это выполняется в AWS, поэтому у нас есть задачи, которые масштабируют нашу AutoScalingGroup до максимального количества рабочих, когда DAG запускается, и до минимума,...
16925 просмотров
schedule
30.04.2022
Как работает BranchPythonOperator в Airflow?
Я изо всех сил пытаюсь понять, как работает BranchPythonOperator в Airflow. Я знаю, что он в основном используется для ветвления, но меня смущает документация о том, что передать в задачу и что мне нужно передать / ожидать от задачи вверх по течению....
23573 просмотров
schedule
02.03.2022
Как настроить конфигурацию электронной почты Airflow, чтобы отправлять сообщения об ошибках?
Я пытаюсь сделать задачу Airflow намеренно сбой и ошибкой, передав строку Bash ( thisshouldnotrun ), которая не работает. Воздушный поток выводит следующее:
[2017-06-15 17:44:17,869] {bash_operator.py:94} INFO -...
35103 просмотров
schedule
24.02.2022
потребитель: не удается подключиться к amqp: // user: ** @ localhost: 5672 //: [Errno 111] В соединении отказано
Я пытаюсь создать воздушный поток с помощью docker и rabbitMQ. Я использую образ rabbitmq: 3-management. И я могу получить доступ к пользовательскому интерфейсу и API rabbitMQ.
В воздушном потоке я создаю веб-сервер воздушного потока, планировщик...
15444 просмотров
schedule
17.12.2022
Airflow 1.8.1 и Celery 4.0.2 AWS SQS broker_url TypeError
Я пытаюсь настроить сервер Airflow на EC2 в AWS. Я настроил базу данных так, чтобы она указывала на экземпляр MySQL в RDS. Я хотел настроить его с помощью AWS SQS вместо RabbitMQ, хотя здесь я застрял.
Я настроил его для CeleryExecutor
Моя...
867 просмотров
schedule
27.02.2022
Airflow будет продолжать показывать примеры дагов даже после удаления его из конфигурации.
Даги с примерами воздушного потока остаются в пользовательском интерфейсе даже после того, как я отключил load_examples = False в файле конфигурации.
Система сообщает, что даги отсутствуют в папке dag, но остаются в пользовательском...
9709 просмотров
schedule
23.05.2024