Посещаемость

Посещаемость
Процесс
Поток
Что можно узнать про процесс?
создание процессов
создание потоков
CPU-bound / IO-bound задачи
GIL
GIL
GIL
GIL
Практика
Дополнительная литература
Что такое Celery?
Практика запуска задач на Celery
Практика запуска задач на Celery
Celery и Django
Почитать
Что такое map-reduce
Практика запуска map-reduce на pyspark
Практика запуска map-reduce на pyspark
Вопросы-ответы

Посещаемость

Процесс

Это программа, находящаяся в режиме выполнения. Операционная система подгружает в оперативную память с каждым процессом

Саму программу
Данные к программе
Стек программы

Переключение между процессами происходит на уровне ядра.

Поток

Потоков не существует! Есть только процессы, но чуть-чуть другие \Smiley[][yellow]

Каждый процесс состоит из минимум одного потока.
Потоки разделяют общее адресное пространство процесса.

подробнее (SO)

Что можно узнать про процесс?

# посмотреть все процессы
ps alx
# посмотреть все процессы пользователя
ps a -u
ps a -u redis
# добавить информацию о тредах
ps -eLf
# здесь "хранится" процесс
ls -l /proc/<PID>/

создание процессов

Для создания нового процесса используются системные вызовы копирования процесса:

clone: UNIX-системы
CreateProcess: Win2k-системы

создание потоков

В Linux это тот же $clone$, только мы говорим ему, не копировать память, а "шарить"

CPU-bound / IO-bound задачи

CPU-bound: задачи, которые активно используют CPU. Арифметические операции, матричные вычисления, поиск строк, и т.д.
IO-bound: задачи, связанные с вводом-выводом данных. Работа с сетью, с файловыми системами, с пользовательским вводом

GIL

Python/ceval.c

/* This is the GIL */
static PyThread_type_lock
       interpreter_lock = 0;

GIL

GIL гарантирует интерпретатору, что только один поток может быть запущен в текущий момент. Это сделано для безопасной работы управления памятью, вызова расширений написанных на других языках (на C).

GIL

sys.getcheckinterval() # -> Python2
sys.getswitchinterval() # -> Python3

GIL

GIL замедляет CPU-bound задачи. Старая реализация GIL очень плохо работала с CPU-bound + IO-bound задачами. Пример, да и новая не лучше.

Практика

GitHub

Дополнительная литература

Что такое Celery?

Официальная документация
\newline{}
Celery это брокер задач, который позволяет в фоновом, асинхронном режиме выполнять задачи в отдельных процессах/тредах и/или на других машинах.

Практика запуска задач на Celery

pip install celery
apt install rabbitmq-server

Можно описывать сложные последовательности

Практика запуска задач на Celery

cd celery_example
docker compose up -d
celery -A tasks worker --loglevel=INFO
./runner.py

Celery и Django

Почитать

Что такое map-reduce

Это процесс решения больших задач при помощи разбивки данных на части и решения задач с частями данных на разных машинах. MapReduce состоит из обязательных шагов:

Map — разбить данные на блоки (присвоить каждой записи некоторый ключ блока)
Shuffle — присвоить каждому блоку некоторый ключ (не-уникальный между всеми блоками)
Reduce — для каждого ключа выполнить некоторую функцию над всеми данными в этом ключе

Практика запуска map-reduce на pyspark

тестовая сборка для работы с Hadoop (надо дополнительно поставить python на namenode)

Практика запуска map-reduce на pyspark

запуск на NameNode

hdfs dfs -rm -r -skipTrash\
     /d/out
hadoop jar /opt/hadoop-2.7.4/share\
       /hadoop/tools/lib/\
       hadoop-streaming-2.7.4.jar\
       -files /root/mapper.py,\
       /root/reducer.py\
       -mapper /root/mapper.py\
       -reducer /root/reducer.py\
       -input /d/in/98.txt\
       -output /d/out
hdfs dfs -cat /d/out/part-00000

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
celery_example		celery_example
project		project
.gitignore		.gitignore
98.txt		98.txt
CLONEFlags.png		CLONEFlags.png
GIL.png		GIL.png
HOWTO.md		HOWTO.md
HOWTO.org		HOWTO.org
PwTDC.png		PwTDC.png
README.md		README.md
__init__.py		__init__.py
atomic.py		atomic.py
bg.jpeg		bg.jpeg
cpu_io_mixed.py		cpu_io_mixed.py
cython_multi_threaded.c		cython_multi_threaded.c
cython_multi_threaded.pyx		cython_multi_threaded.pyx
django_celery.png		django_celery.png
io_bound.py		io_bound.py
local_mapreduce.sh		local_mapreduce.sh
mapper.py		mapper.py
multi_process.py		multi_process.py
multi_threaded.c		multi_threaded.c
multi_threaded.py		multi_threaded.py
multi_threaded.pyx		multi_threaded.pyx
non_atomic.py		non_atomic.py
numba_multi_threaded.py		numba_multi_threaded.py
questions.jpg		questions.jpg
reducer.py		reducer.py
requirements.txt		requirements.txt
run_mapreduce.sh		run_mapreduce.sh
single_threaded.c		single_threaded.c
single_threaded.py		single_threaded.py
single_threaded.pyx		single_threaded.pyx
tasks.py		tasks.py
webinar.md		webinar.md
webinar.org		webinar.org
webinar.pdf		webinar.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Посещаемость

Процесс

Поток

Что можно узнать про процесс?

создание процессов

создание потоков

CPU-bound / IO-bound задачи

GIL

GIL

GIL

GIL

Практика

Дополнительная литература

Что такое Celery?

Практика запуска задач на Celery

Практика запуска задач на Celery

Celery и Django

Почитать

Что такое map-reduce

Практика запуска map-reduce на pyspark

Практика запуска map-reduce на pyspark

Вопросы-ответы

About

Releases

Packages

Languages

pimiento/python_threads_examples

Folders and files

Latest commit

History

Repository files navigation

Посещаемость

Процесс

Поток

Что можно узнать про процесс?

создание процессов

создание потоков

CPU-bound / IO-bound задачи

GIL

GIL

GIL

GIL

Практика

Дополнительная литература

Что такое Celery?

Практика запуска задач на Celery

Практика запуска задач на Celery

Celery и Django

Почитать

Что такое map-reduce

Практика запуска map-reduce на pyspark

Практика запуска map-reduce на pyspark

Вопросы-ответы

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages