Multi Threading
多任务可以由多进程完成,也可以由一个进程内的多线程完成。
由于线程是操作系统直接支持的执行单元,因此,高级语言通常都内置多线程的支持,Python也不例外,并且,Python的线程是真正的Posix Thread
,而不是模拟出来的线程。
python提供了_thread
和threading
模块,_thread
是低层,threading
是高层模块,一般我们只要用threading
启动一个线程就是把一个函数传入并创建Thread实例,然后调用start()开始执行:
import time, threading
def loop():
print("thread %s is running...." % threading.current_thread().name)
n = 0
while n < 5:
n = n + 1
print('thread %s >>> %s' % (threading.current_thread().name, n))
time.sleep(1)
print('thread %s ended.' % threading.current_thread().name)
t = threading.Thread(target=loop, name='LoopThread')
t.start()
t.join()
print('thread %s ended.' % threading.current_thread().name)
任何进程默认就会启动一个线程,叫做MainThread
, 子线程的名字在创建时指定
Lock
multi-process和multi-thread最大的不同在:
- multi-process中,同一个
变量
各自有一份copy在每个进程中,互不影响 - mutli-thread中,所有
变量
都由所以thread共享,所以共享数据最大的危险在于多个thread同时修改一个变量
所以要给数据加上lock
,同一时刻最多只能有一个thread持有lock
,其他thread只能等待
通过threading.Lock()
来实现
balance = 0
#Lock instance
lock = threading.Lock()
def run_thread(n):
for i in range(100000):
# 先要获取锁:
lock.acquire()
try:
# 放心地改吧:
change_it(n)
finally:
# 改完了一定要释放锁:
lock.release()
获得锁的线程用完后一定要释放锁,否则那些苦苦等待锁的线程将永远等待下去,成为死线程。所以我们用try...finally来确保锁一定会被释放。
多核CPU
Python的线程虽然是真正的线程,但解释器执行代码时,有一个GIL锁:Global Interpreter Lock
,任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。这个GIL全局锁实际上把所有线程的执行代码都给上了锁,所以,多线程在Python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到1个核。
GIL是Python解释器设计的历史遗留问题,通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。
所以,在Python中,可以使用多线程,但不要指望能有效利用多核。如果一定要通过多线程利用多核,那只能通过C扩展来实现,不过这样就失去了Python简单易用的特点。
不过,也不用过于担心,Python虽然不能利用多线程实现多核任务,但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁,互不影响。