usr bin env python coding cp1251 Coded by Psixo Sec Null Team 2008 www

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
#! /usr/bin/env python
# -*- coding: cp1251 -*-
###############################################################################################
"""
*
* Coded by Psixo Sec|Null Team 2008
* www.secnull.org
*
"""
##############################################################################################
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
##Функция распарсивания страницы регистрации
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
import pycurl
import urllib
import urllib2
import re
url_file = "urls.txt"
result_file = "result.txt"
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
# Функции
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
def LoadSiteList(url_page):
try:
data = urllib.urlopen(url_page).read()
except:
return []
# Распарсим
# <a target="_blank" class="noun" href="http://mariavto.ru/news/"><b>Новости сайта mariavto.ru</b></a>
return re.findall(r'<a target="_blank" class="noun" href="(.*?)"><b>.*?</b></a>', data)
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
# Основная часть скрипта
#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
if __name__ == "__main__":
# Загружаем список ссылок
F = open(url_file)
url_list = F.readlines()
F.close()
# Закачиваем страницу
F = open(result_file, "w")
k = 0
i = 0
for url in url_list:
result = LoadSiteList(url)
for tmp_result in result:
F.write(tmp_result + "\n")
k += 1
print "Parsing [%i | %i] ... \r" % (i, k),
i += 1
F.close()