サイト/ URLのリスト(時間の経過とともに変化する可能性があります)をダウンロードする必要があり、現在multiprocessing.Manager().Queue()
、そのリストを送信および更新するために使用しています。
各URL /タスクを毎秒チェックする必要があります。したがって、各タスクは基本的に終了しません(ユーザーの中断など、特定の条件が満たされるまで)。優れた非同期HTTPクライアントとmultiprocessing.Process()
組み合わせると問題が解決するasyncio
と思いました。残念ながら、50以上のURLを送信した後でも、CPU使用率が非常に高くなっています。実行中-タスクはすべての要求をしていないときは、差分自分に気づくでしょう-と、彼らはされている場合-実行しています- 。mock_request()
do_request()
各ケースを再現する例を次に示します(CTRL + Cを押して、いつでも正常に終了します)。
import asyncio, os, sys, time, httpx
import multiprocessing
import queue as Queue
class ExitHandler(object):
def __init__(self, manager, queue, processes):
self.manager = manager
self.queue = queue
self.processes = processes
def set_exit_handler(self):
if os.name == "nt":
try:
import win32api
win32api.SetConsoleCtrlHandler(self.on_exit, True)
except ImportError:
version = ".".join(map(str, sys.version_info[:2]))
raise Exception("pywin32 not installed for Python " + version)
else:
import signal
signal.signal(signal.SIGINT, self.on_exit)
#signal.signal(signal.CTRL_C_EVENT, func)
signal.signal(signal.SIGTERM, self.on_exit)
def on_exit(self, sig, func=None):
print('[Main process]: exit triggered, terminating all workers')
STOP_WAIT_SECS= 5
for _ in range(N_WORKERS):
self.queue.put('END')
try:
end_time = time.time() + STOP_WAIT_SECS
# wait up to STOP_WAIT_SECS for all processes to complete
for proc in self.processes:
join_secs = max(0.0, min(end_time - time.time(), STOP_WAIT_SECS))
proc.join(join_secs)
# clear the procs list and _terminate_ any procs that have not yet exited
while self.processes and len(self.processes) > 0:
proc = self.processes.pop()
if proc.is_alive():
proc.terminate()
self.manager.shutdown()
# finally, kill this thread and any running
os._exit(0)
except Exception:
pass
async def mock_request(url):
# we won't do any request here, it's just an example of how much less CPU
# each process consumes when not doing requests
x = 0
while True:
try:
x += 1
print('Finished downloading {}'.format(url))
await asyncio.sleep(1)
except asyncio.CancelledError:
return
async def do_request(url):
while True:
try:
# I use httpx (https://github.com/encode/httpx/) as async client for its simplicity
# feel free to use your preferred library (e.g. aiohttp)
async with httpx.AsyncClient() as s:
await s.get(url)
print('Finished downloading {}'.format(url))
await asyncio.sleep(1)
except asyncio.CancelledError:
return
def worker(queue):
try:
event_loop = asyncio.get_event_loop()
event_loop.run_until_complete(request_worker(queue))
except KeyboardInterrupt:
pass
async def request_worker(queue):
p = multiprocessing.current_process()
loop = asyncio.get_event_loop()
while True:
try:
task = await loop.run_in_executor(None, queue.get)
if task == 'END':
break
elif task['action'] == 'DOWNLOAD':
print('Worker {}: Received new task'.format(p.name))
f = loop.create_task(do_request(task['url'])) # high CPU usage
# f = loop.create_task(mock_request(task['url'])) # low (almost none) CPU usage
except KeyboardInterrupt:
pass
except Queue.Empty:
pass
print('Task Worker {}: ending'.format(p.name))
def run_workers(queue, processes):
print('Starting workers')
for _ in range(N_WORKERS):
processes.append(multiprocessing.Process(target=worker, args=(queue,)))
task = {
'action': 'DOWNLOAD',
'url': 'https://google.com'
}
# this is just an example forcing the same URL * 100 times, while in reaility
# it will be 1 different URL per task
for _ in range(100):
queue.put(task)
for p in processes:
p.start()
for p in processes:
p.join()
return True
if __name__ == "__main__":
processes = []
N_WORKERS = 8 # processes to spawn
manager = multiprocessing.Manager()
q = manager.Queue() # main queue to send URLs to
# just a useful clean exit handler (press CTRL+C to terminate)
exit_handler = ExitHandler(manager, q, processes)
exit_handler.set_exit_handler()
# start the workers
run_workers(q, processes)
リクエストを同時に実行するときに、各プロセスが消費するCPUの数の例を次に示します。
マルチプロセッシングを使用するかどうかに関係なく、CPU使用率を大幅に削減する(1秒あたりのリクエスト数を同じに保つ)ソリューションはすべて受け入れられます。私にとって唯一の必需品はasync
パターンです。
これは際立っています:
while True:
try:
async with httpx.AsyncClient() as s:
これにより、リクエストごとに新しいクライアントが初期化され、実装を確認することで、SSLコンテキストがインポートおよび初期化されます。これらはIMOのコストのかかる操作であるため、ループ内で実行すると、CPUに多大なコストがかかる可能性があります。
代わりに、コードを次のように並べ替えることを検討してください
async with httpx.AsyncClient() as s:
while True:
try:
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加