пример конвертации HTML в LaTeX с помощью pandoc, добавлен только \usepackage{fontenc}

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
\documentclass{article}
\usepackage[T2A]{fontenc}
\usepackage{amsmath}
\usepackage[mathletters]{ucs}
\usepackage[utf8x]{inputenc}
\usepackage{listings}
\lstnewenvironment{code}{\lstset{language=Haskell,basicstyle=\small\ttfamily}}{}
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}
\usepackage[breaklinks=true]{hyperref}
\setcounter{secnumdepth}{0}
\author{}
\begin{document}
\subsection{21 Декабрь 2009}
\subsubsection{\href{http://mydebianblog.blogspot.com/2009/12/blogger-httrack-website-copier.html}{Архив блогов типа Blogger: делаем локальную копию с помощью HTTrack Website Copier}}
Архив блога можно сделать по-разному: например, экспортом в XML с
помощью встроенной функции Blogger - но это для авторов. А если
нужна работающая копия блога вместе с картинками, помещёнными на
другом хостинге, простым
\href{http://mydebianblog.blogspot.com/2007/09/wget.html}{wget}-ом
тут точно не обойтись. И тут нам на помощь приходит httrack website
copier - это offline browser, который позволяет скачивать сайты
целиком. В этом посте привожу небольшое руководство по httrack, в
смысле как пользоваться httrack для зеркалирования блогов а-ля
Blogspot.\\\\\\Мои пять копеек, или Как скачать блог на blogger для
локального просмотра\\Так как с помощью wget (во всяком случае
версии 1.10.2) создать полностью работоспособную копию блога на
blogspot не получается, будем для этих целей использовать так же
входящий в дистрибутив Debian (и не только его) offline броузер под
названием httrack website copier, или просто httrack далее.\\
\begin{quote}
Насчёт wget - друзья, мне самому он очень нравится, но есть задачи,
которые ему не по зубам. Без обид, всем теоретикам от WGET: ребята,
прежде, чем делать глобальные выводы, ПОПРОБУЙТЕ СВОИ РЕЦЕПТЫ!
Просто скачайте чей-нибудь мало-мальски нагруженный джаваскриптами
и картинками на другом хостинге блог на blogspot с помощью wget,
потом откройте его offline и Вы увидите \textbf{большую разницу}.
Поверьте, это не так просто, и я на 100\% солидарен с
\href{http://libc6.blogspot.com/2007/05/blogarchive-and-news.html}{Андреем Афанасенко}
и его комментариями в обсуждении
\href{http://libc6.blogspot.com/2007/05/blogarchive-and-news.html}{этой темы}:
всё не так просто.
\end{quote}
Опций, ключиков и шаманских проклятий к httrack море, но нам надо
скачать блог - так что будем использовать и проверять опыт
предыдущих поколений. Всё течёт и всё меняется, и на момент
последней правки этого поста командная строка, которая позволяет
зеркалировать для локального просмотра блог на blogspot выглядит
так:\\
\begin{quote}
httrack "http://ВАШБЛОГТУТ.blogspot.com/" "+*.css" "+*.js" "+*.jpg"
"+*.jpeg" "+*.tiff" "+*.png" "+*.gif" "+*.giff" "+*.swf" "+.ico" -v
--disable-security-limits -s0 "-*666*" "-*BlogBacklinkURL*"
\end{quote}
Кавычки обязательны. При этом хорошо бы сделать какой-нибудь
каталог, в который вы будете это сваливать (например,
/home/vasya/ЗЕРКАЛОБЛОГА/ ) и уже внутри этого каталога запускать
httrack с вышеупомянутыми заклинаниями.\\
\begin{quote}
Во всяком случае для блогов на платформе блоггера эта формула
работает: по крайней мере, так удалось полностью скачать блог
\href{http://icewmthemes.blogspot.com/}{IceWM and all around}
полностью, вместе с работающими ссылками на картинки (для просмотра
в полный рост) и ссылками в метках, которые позволяют просмотреть
все посты с одной меткой.\\
\end{quote}
И ещё. Блоги некоторых особо злостных графоманов (вроде меня)
занимают много, много места, так что запаситесь временем и местом
на диске. Очень может быть, что сразу, за один раз, блог вытащить
не удастся. Конкретно "Записки дебианщика" занимают вместе с
картинками и комментариями почти 2Гб. Будучи сжатыми архиватором 7Z
с агрессивными настройками, "записки" занимают 107Мб, но
распакуются в те же 2Гб. Кстати скачать "Записки дебианщика" одним
архивом теперь можно по этой
\href{http://narod.ru/disk/15579320000/mydebianblog.tar.7z.html}{ссылке}.\\
\\\\Обновление локальной копии\\Для того, чтобы продолжить
скачивание большого блога или синхронизировать локальную версию с
тем, что есть в Интернете, httrack может обновить скачанный проект.
Насколько я понял, для этого нужно добавить к вышеупомянутому
заклинанию ключик --update\\\\То есть для обновления уже скачанного
блога с blogspot из директории, где находится директория
\verb!hts-cache! (в ней лежит файл \verb!hts-cache/doit.log!
который содержит все нужные параметры) и пишем:\\
\begin{quote}
httrack "http://ВАШБЛОГТУТ.blogspot.com/" "+*.css" "+*.js" "+*.jpg"
"+*.jpeg" "+*.tiff" "+*.png" "+*.gif" "+*.giff" "+*.swf" "+.ico" -v
--disable-security-limits -s0 "-*666*" "-*BlogBacklinkURL*"
--update
\end{quote}
И httrack пытается обновить проект. И обновляет его, выкачивая
оставшиеся файлы. Кстати, чтобы пропускать файлы со слишком
тормозных серверов, можно ещё тайм-аут для httrack поставить
поменьше, добавив ключик --timeout 20 после чего тайм-аут будет 20
секунд.\\\\Отмечу так же, что в каталоге \verb!hts-cache! лежат два
больших архива в формате ZIP - так вот, удалить можно только тот из
них, который называется old.zip, а new.zip лучше не трогать. Дело в
том, что эти файлы содержат информацию, необходимую httrack для
обновления скачанного сайта, и если эти файлы удалить, то вы не
сможете просто обновить копию (придётся выкачивать всё
заново).\\\\\\Ссылки в тему\\Над этой темой бились лучшие умы
блоговедения и блоготехники, достижения коих увековечены к примеру
в заметке Дмитрия Конищева
\href{http://konishchevdmitry.blogspot.com/2007/08/blog-post_29.html}{Создание зеркала сайта}
и в посте Андрея Афанасенко
\href{http://libc6.blogspot.com/2007/05/blogarchive-and-news.html}{Архив блога/blogarchive}.
За что оным умам (а так же всем, кто принимал участие в
обсуждениях) низкий поклон и огромная благодарность.\\Так же
благодарность тов. \href{profile/15393425264821447162}{vnaum} за
то, что разыскал в дебрях документации к Блоггеру
\href{http://code.google.com/intl/ru/apis/blogger/docs/1.0/developers_guide_python.html#RetrievingWithoutQuery}{ссылку}
на возможность получить все посты Blogger с помощью скриптов на
Python.\\\\\href{http://mydebianblog.blogspot.com/2009/12/blogger-httrack-website-copier.html}{читать далее...}
\href{http://mydebianblog.blogspot.com/2009/12/blogger-httrack-website-copier.html}{а если копируете статью - поставьте ссылку на оригинал!}
\end{document}