require htmlparser php require cssparser php url http www google ru se

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
<?
require 'htmlparser.php';
require 'cssparser.php';
$url = 'http://www.google.ru/search?hl=ru&safe=off&client=firefox&rls=org.mozilla%3Aru%3Aofficial&hs=m2t&q=hello&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA&lr=&aq=f&oq=';
$urlData = parse_url($url);
$outputFolder = md5($url);
if(!file_exists($outputFolder))
mkdir($outputFolder);
$html = file_get_html( $url );
// Сначала сохраняем все цсс файлы
$cssFiles = $html->find('link');
echo "<h2>CSS</h2>";
foreach($cssFiles as &$css){
$cssHREF = $css->href;
$cssFILE = md5($cssHREF) . '.css';
// Анализируем ссылку на файл
// Абсолютная
if(strstr($cssHREF, 'http://'))
;
// Путь от корня домена
else if(substr($cssHREF, 0, 1) == '/') {
$cssHREF = $urlData['scheme'] . '://' . $urlData['host'] . $cssHREF;
// Относительная от текущего урла
} else {
}
echo "<p>$cssHREF </p>";
$data = file_get_contents($cssHREF);
if (strlen($data) > 15) {
file_put_contents($outputFolder.'/'.$cssFILE, $data);
$css->href = $cssFILE;
}
}
// Сначала сохраняем все жс файлы
$jsFiles = $html->find('script');
echo "<h2>JS</h2>";
foreach($jsFiles as &$js){
$jsHREF = $js->src;
$jsFILE = md5($jsHREF) . '.js';
// Анализируем ссылку на файл
// Абсолютная
if(strstr($jsHREF, 'http://'))
;
// Путь от корня домена
else if(substr($jsHREF, 0, 1) == '/') {
$jsHREF = $urlData['scheme'] . '://' . $urlData['host'] . $jsHREF;
// Относительная от текущего урла
} else {
}
echo "<p>$jsHREF </p>";
$data = file_get_contents($jsHREF);
if (strlen($data) > 15) {
file_put_contents($outputFolder.'/'.$jsFILE, $data);
$js->src = $jsFILE;
}
}
$html->save($outputFolder . '/index.html');
?>