1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import re
import os, os.path
import requests
import spynner
def get_links(browser, link):
browser.load('http://ru.savefrom.net/')
browser.fill('input[name=sf_url]', link)
browser.click('button[name=sf_submit]', wait_load=True)
browser.wait(3.0)
doc = leaf.parse(browser.html)
try:
result = [(link.text_content(), link.href) for link in doc.get('div.link_group')('div.link a')]
return result
except:
pass
def extract_videos(url, template, additional):
page = requests.get(url, prefetch=True)
content = page.content
links = set(re.findall(template, content))
links = map(lambda url: additional+url, links)
return links
def links_to_direct(links):
browser = spynner.Browser()
browser.user_agent = 'Mozilla/4.0 (compatible)'
for index, link in enumerate(links):
doc = open('./res/%d.txt'%(index), 'w+')
try:
doc.write(json.dumps((link, get_links(browser, link))))
except:
print 'error for %s'%link
finally:
doc.close()
browser.close()
def list_direct(verify = lambda desc: '360p' in desc):
def my_visit(a, dir, files):
for item in files:
doc = open(dir+item, 'r')
try:
data = doc.read()
url, links = json.loads(data)
for dest, url in links:
if verify(dest):
print url
break
except:
pass
finally:
doc.close()
os.path.walk('./res/', my_visit, None)
#links = extract_videos('http://www.chipmaker.ru/topic/80549/', '\"http://youtube.com/(.*?)\"', 'http://youtube.com/')
#print len(links), len(set(links))
#links_to_direct(links)
#list_direct()
links = extract_videos('http://www.chipmaker.ru/topic/80549/', 'http://rutube.ru/(.*?)\'', 'http://rutube.ru/')
#links = ['http://rutube.ru/tracks/3909002.html?mail=track_converted&v=943f149a85c37c6e350064c789ba69fd', 'http://rutube.ru/tracks/4434790.html', 'http://rutube.ru/tracks/4346540.html', 'http://rutube.ru/tracks/4428528.html', 'http://rutube.ru/tracks/4416155.html', 'http://rutube.ru/tracks/4288643.html', 'http://rutube.ru/tracks/4409443.html', 'http://rutube.ru/tracks/4436160.html', 'http://rutube.ru/tracks/4456252.html', 'http://rutube.ru/tracks/4292012.html', 'http://rutube.ru/tracks/4414728.html']
print len(links)
for link in links:
print link
#print links
#links_to_direct(links)
#list_direct(verify=lambda desc: True)
sys.exit(0)