下面的代码是使用正则表达式从文件(urlfile包含约1000个链接)中提取/support/security/*.html链接到urlsort文件,但是我对regex感到很虚弱,谁能告诉我该怎么做...?
#!/usr/bin/env python
import re,sys
fileHandle = open('urlfile', 'r')
f1 = open('urlsort', 'w')
for line in fileHandle.readlines():
links = re.findall(r"(\/support\/security\/*.html.*?)", line)
for link in links:
sys.stdout = f1
print ('%s' % (link[0]))
sys.stdout = sys.__stdout__
f1.close()
fileHandle.close()
您正则表达式有两个失误,丢失.
前的第一*
和一个额外的?
接近尾声。
这是一些代码,用于编写与您的模式匹配的url以urlsort
使用某些python惯用语。
#!/usr/bin/env python
import re
with open('urlfile', 'r') as urls_in:
with open('urlsort', 'w') as urls_out:
for line in urls_in:
links = re.findall(r"(\/support\/security\/bulletins\/.*.html)", line)
if links:
urls_out.write("%s\n" % links[0])
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句