Обычно python плохо работает с многопоточностью из-за глобальной блокировки интерпретатора.
Влияет ли это также на приложения pyspark, работающие в многопоточном локальном режиме (local[n])?
Обычно python плохо работает с многопоточностью из-за глобальной блокировки интерпретатора.
Влияет ли это также на приложения pyspark, работающие в многопоточном локальном режиме (local[n])?
Распараллеливание в pyspark достигается за счет вызова daemon.py os.fork()
для создания нескольких рабочих процессов, поэтому проблем с GIL не будет.