Интернет - это огромная сокровищница знаний. Но это эфемерно и нет никаких гарантий Что контент, который вы хотите, будет в будущем. Если вы не можете потерять это содержимое, вы можете использовать инструмент веб-архивирования, чтобы сохранить копию веб-страницы.
Многие люди используют услуги чтения Потом Для сохранения веб-статей. Эти приложения работают нормально Лучше с содержанием документа в текст и недостаточно хорошо справляется с проектированием сложных веб-страниц или мультимедиа. Так вы ищете больше контроля?
Давайте посмотрим, как вы можете создать клон Instapaper или Pocket на своем ПК, не потеряв при этом никаких ресурсов веб-страницы.
Быстрые ссылки
Представляем ArchiveBox
АрхивБокс Это решение с открытым исходным кодом, которое может помочь вам разместить собственную альтернативу службе архивирования, такой как Wayback Machine. Вы не отказываетесь от своей конфиденциальности и не остаетесь в службе, которую вы не контролируете.
Команда работает со списком URL-адресов, которые вы хотите заархивировать, и создает локальный, доступный для просмотра HTML-клон содержимого в нескольких форматах. Включает локальные копии в HTML, снимки экрана страницы, PDF и WARC (веб-архив).
Эти копии останутся с вами, даже если исходная веб-страница исчезнет в будущем.
ArchiveBox запрограммирован с использованием Python 3. Он также использует такие зависимости, как Wget و Безголовый хром И инструменты Youtube-dl Юникс Другое, чтобы сохранить веб-страницу. Вам не нужен постоянно работающий в фоновом режиме сервер. Просто запускайте его каждый раз, когда хотите импортировать новые ссылки и обновить статический вывод.
После завершения архивирования вы можете открыть вывод /index.html созданный в вашем браузере для просмотра архива.
Преимущества ArchiveBox
- Он сохраняет ссылки в нескольких форматах файлов, которые действуют как резервные копии.
- Он пытается сохранить исходную веб-страницу, используя сложные методы захвата.
- Он имеет возможность автоматически извлекать контент и сохранять его в одной папке.
- Он также предоставляет простой интерфейс командной строки для обработки нескольких ссылок, каналов и закладок. Вы должны установить его один раз и запускать по расписанию, чтобы архивировать самые свежие ссылки.
Недостатки ArchiveBox
- ArchiveBox извлекает все ресурсы с веб-страницы. Он потребляет много места на диске и интенсивно использует процессор.
- Приложение требует трех или более зависимостей вне Python 3.5. Чтобы эти компоненты работали вместе, требуется метод проб и ошибок.
- Приложение не полностью поддерживает операционную систему Windows. Должен Вам необходимо установить Docker или же Включить подсистему Windows для Linux (WSL). Даже в этом случае некоторые функции могут работать, а могут и не работать.
Поддерживаемые операционные системы
ArchiveBox официально поддерживает следующие операционные системы:
- macOS: 10.12 Sierra с Homebrew.
- Linux: Ubuntu, Debian (с APT). Приложение может (а может и не) работать в Распределения Такие как Fedora, CentOS, SUSE, Arch и другие.
- BSD: FreeBSD, OpenBSD, NetBSD (с пакетом pkg).
зависимости
ArchiveBox - это гибкий инструмент веб-архивирования. Следующие зависимости должны быть установлены и соответствовать минимальным требованиям.
- Python 3. Не используйте Python 2.0 по умолчанию, поставляемый с macOS.
- Wget 1.16
- Хром 59. Если вы используете Google Chrome Уже не устанавливаю Chromium.
- Youtube-dl (необязательно): мультимедийным ресурсам требуется много места для хранения. Вы должны детально угадать это, прежде чем архивировать любимые сайты.
Настройка ArchiveBox
Есть два способа настроить ArchiveBox - автоматический и ручной.
в автоматическом режиме , скрипт плагина установит приложение и его зависимости. Но вы не сможете устранить проблему, если что-то пойдет не так. Лучше установить приложение вручную.
установить зависимости
Лучше всего устанавливать зависимости через диспетчер пакетов Homebrew. Чтобы понять его основы, ознакомьтесь с этой статьей О том, как устанавливать приложения с помощью Homebrew.
Откройте Терминал и введите
brew install python3 git wget curl youtube-dl
brew cask install chromium
Проверить номер версии всех зависимостей
Чтобы проверить номер версии всех зависимостей, введите
dependency app --version
(замените приложение зависимости на python3, wget, youtube-dl и другие)
Загрузите файл экспорта закладок
Все службы и браузеры Read Later могут экспортировать закладки в виде HTML-файла. Следуйте инструкциям в этой статье о том, как экспортировать закладки из вашего браузера. Вы также можете сохранить одну ссылку или список URL-адресов в текстовый файл.
Установить ArchiveBox
Скопировать репозиторий из GitHub. Вам нужно открыть терминал и ввести
git clone https://github.com/pirate/ArchiveBox
Потом,
cd ArchiveBox/
Когда это репо будет клонировано, установщик создаст папку ArchiveBox в вашем домашнем каталоге. Эта папка содержит все основные файлы и конфигурации приложений.
Добавьте свой URL в архив
Если вы хотите заархивировать одну ссылку, введите
echo 'https://example.com'| ./archive
Перейдите в папку ArchiveBox, чтобы увидеть вновь созданную выходную папку. Здесь вы увидите файл index.html.
Добавить несколько ссылок в архив
Если вы хотите сохранить несколько ссылок (десятки или больше), лучше добавить ссылки в текстовый файл. Приложение проанализирует и заархивирует URL-адреса в файле. Откройте Терминал и введите
./archive [Path to Your File.txt]
Если файл находится в папке «Загрузки», ваш путь будет выглядеть так:
./archive /Users/(Home directory name)/Downloads/links.txt
Подождите несколько минут / часов для завершения процесса. Чтобы получить доступ к вашему архиву, откройте вывод /index.html в вашем браузере. Вы можете сортировать по столбцу, искать заголовок, используя поле в правом верхнем углу, и видеть общее количество ссылок внизу.
Щелкните значок в столбце "Файлы", чтобы перейти на страницу с подробными сведениями. Вы найдете ссылки на один формат файла, как показано на скриншоте. Эта же ссылка также загружена в архив.орг.
Таким же образом экспортируйте ссылки Instapaper или Pocket в виде файла HTML. Затем введите
./archive ~/Downloads/instapaper-export.html
Вы также можете импортировать список ссылок из URL-адреса канала. Но помните, что вы можете столкнуться с множеством сбоев или истечением срока действия сеанса. Если есть тысячи URL-адресов, лучше разделить их на файлы меньшего размера, чтобы увеличить вероятность успеха.
Конфигурация ArchiveBox
Настройки по умолчанию работают в большинстве случаев, но есть некоторые важные параметры, которые вы можете настроить, чтобы получить больше функций. Файл конфигурации находится в
~/ArchiveBox/etc/ArchiveBox.conf.default
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf
Команда будет сгенерирована cp Дублирующая копия файла конфигурации в вашем домашнем каталоге. По умолчанию файл не отображается в вашем каталоге. Чтобы показать любой скрытый файл, нажмите Cmd + Shift + точка. Откройте файл конфигурации в TextEdit.
учителя
ArchiveBox предоставляет множество возможностей. Вот несколько важных.
- ТОЛЬКО_НОВОЕ: Установите значение True, чтобы загрузить архив только что добавленных ссылок. Полезно, если вы регулярно просматриваете ссылки.
- ТАЙМ-АУТ: Возможные значения: 60 или 120 секунд. Если вы видите повторяющиеся ошибки тайм-аута, увеличьте время до 120 секунд.
- URL_ЧЕРНЫЙ СПИСОК: Вы можете использовать выражение регулярного выражения, чтобы исключить из архива определенные домены, расширения или шаблоны URL.
- FETCH_MEDIA: Загрузите все аудио и видео файлы с помощью youtube-dl. Установите значение True, только если у вас достаточно места для хранения.
- WGET_USER_AGENT: Используйте его для изменения пользовательского агента во время архивирования. Если вас заблокируют определенные серверы, эта опция вам пригодится.
Чтобы узнать больше о деталях конфигурации, посетите Конфигурация ArchiveBox Для дополнительной информации.
Опубликуйте свой архив
Архив, созданный ArchiveBox, совместим с любым провайдером, который может размещать статический HTML. Например, GitHub Pages.
Вы также можете создать его на домашний слуга или же VPS Загрузив выходную папку прямо в ваш веб-каталог.
Убедитесь, что у вас нет работающего контента, такого как CGI или PHP, и вы хотите размещать только статические файлы HTML.
Хостинг вашего архива имеет как свои плюсы, так и минусы. Когда вы загружаете ссылки со случайных сайтов, вы должны понимать риски размещения вредоносных файлов CSS и JS в вашем общем домене. Вы также можете поместить список истории в файл robots.txt В черный список, чтобы сохранить конфиденциальность.
Загрузите все веб-сайты для офлайн-просмотра
Веб-архивирование привлекает внимание в последние несколько лет. Они записывают все содержимое веб-страницы, включая исходный HTML-код, встроенные изображения, стили и код JavaScript. ArchiveBox относится к широкой категории инструментов и услуг веб-архивирования.
Если вы разочарованы Instapaper или же карманный ArchiveBox станет отличной альтернативой. Помимо веб-статей, вы можете захотеть заархивировать целые веб-сайты для доступа в автономном режиме или для сохранения их информации. Если вас это интересует, прочтите эту статью о том, как Загрузите любой веб-сайт для чтения в автономном режиме.