我正在尝试使用awk解析HTML文档。
该文档包含几个<div class="p_header_bottom"></div
块
<div class="p_header_bottom">
<span class="fl_r"></span>
287,489 people
</div>
<div class="p_header_bottom">
<span class="fl_r"></span>
5 links
</div>
我在用
awk '/<div class="p_header_bottom">/,/<\/div>/'
接收所有此类div。
我如何287,489
从第一个电话号码获取号码?
实际上awk '/<\/span>/,/people/'
无法正常工作。
使用gawk并假设每个<div> </div>
块中仅有数字和逗号出现在感兴趣的数字部分中
awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句