![]() |
|
|||||||
|
|||||||
| Регистрация | Справка | Пользователи | Календарь | Все разделы прочитаны |
| Обсуждение Old-Web Идеи, предложения и публичная критика проекта — конструктив приветствуется. |
![]() |
|
|
Опции темы |
|
|
#11 |
|
Вебмастер
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 2,398
|
Не перестаю сталкиваться с проблемами при индексации. Теперь получается, что я индексирую одни и те же страницы за разные промежутки времени и получаю бесконечное количество дублей этих страниц. Соответственно в результатах поиска все эти ссылки выходят.
Решать эту проблему буду так. Настрою проксирование веб-архива, чтобы поисковик думал что индексирует обычный веб, то есть все ссылки на сайты будут прямые. Настрою период для даты от 2002 до 2005 годы. Опять же потому, что лично меня именно эти даты интересны. Индексирование начинаю сначала.
__________________
Я вебмастер, делаю сайты. Мой блог: http://erikoblog.ru. Mail Агент: eriko89@mail.ru || KICQ: 3225525 |
|
|
|
|
#12 |
|
Вебмастер
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 2,398
|
Через прокси почему то скорость отдачи страниц из http://web.archive.org (он же Wayback Machine) выросла... пока не тестировал лимит, не хочу чтобы мой ip забанили, но теперь мой бот может в разы быстрее индексировать архив.
Теперь осталось подождать пока не соберется более менее внушительная база. Мне придется потом написать скрипт, который будет добавлять к прямым ссылкам приставку http://web.archive.org/web/... чтобы открывать ссылки через веб-архив. Но это не сложно будет сделать. По итогу у нас будет поиск по настоящему старому вебу, который можно будет встроить в свои сайты. Для поисковой формы можно будет выбрать разный дизайн. P.S. Я действительно считаю, что мы никогда не сможем заменить веб-архив, даже если выложим все содержимое старых журналов, книг, дисков на свои сайты, там все равно есть тысячи форумов, которых больше нет, огромное количество информационных сайтов, содержимое которых писали авторы этих сайтов, новостные сайты, каталоги старых товаров, файловые помойки и многое другое. Скопировать все страницы веб-архива тоже невозможно, там не терабайты, а петабайты данных. просто будем бесконечно крутить процесс индексации и обнаружения новых ссылок из архива.
__________________
Я вебмастер, делаю сайты. Мой блог: http://erikoblog.ru. Mail Агент: eriko89@mail.ru || KICQ: 3225525 |
|
|
|
|
#13 |
|
Вебмастер
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 2,398
|
Забудьте, это был глюк.
Так, надоело время терять. Wayback Machine специально тормозит, не дает полноценно пользоваться, индексировать и сам не делает поиск по страницам. Значит это делается нарочно и видимо я не смогу обойти это. Прокси падает (его блочат со стороны Wayback Machine). Ну и скатертью дорога. Сделаю поиск по своим сайтам и сайтам из каталога old-web. На этом все..
__________________
Я вебмастер, делаю сайты. Мой блог: http://erikoblog.ru. Mail Агент: eriko89@mail.ru || KICQ: 3225525 |
|
|
![]() |
| Опции темы | |
|
|
Похожие темы
|
||||
| Тема | Автор | Раздел | Ответов | Последнее сообщение |
| Обсуждение каталога сайтов | eriko | Обсуждение Old-Web | 9 | 22.03.2026 10:49 |
| Обсуждение ДуДу2 и OldNet | nsfrolov | Флейм/Курилка | 3 | 20.02.2026 23:33 |
| Моё знакомство с OpenVK и создание своей новостной рубрики в нём. | Aboba224 | Прочее | 2 | 18.01.2026 16:02 |
| Обсуждение дисков (CD/DVD/Blu-ray) | eriko | Компьютеры | 12 | 24.04.2025 08:50 |
| Обсуждение Wayback Machine (Archive.org) | eriko | Другие онлайн-сервисы | 2 | 20.01.2025 08:19 |
|
|