Jonmey:
ChernavinOleg Мне вот интересен такой, я бы сказал застарелый момент OE (по крайней мере, я о нем знаю с момента начала использования - то есть больше 15 лет назад).
Не скажу за все сайты, но периодически (случайно, методом тыка) сталкиваюсь с ситуацией, когда OE не скачивает некоторые совершенно однотипные страницы. Причем речь идет не о навороченных говнокодом современных модных страниц, а вполне себе прозаических.
Вот скачивал намедни словарь (точнее, один из)
https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg=1 Простой перебор номеров с шагом 49 (+ сингл для полноты)
https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg={:1..76408|49} SingleURL=https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?pg=76408
Этот набор составляет исчерпывающий список URL на слова (76455 шт).
Ограничения на уровни нет, но есть фильтр на страницы, которые включать (кроме базовых)
https://www.grand-dictionnaire-latin.com/dictionnaire-latin-francais.php?lemma=* То есть, по расчетам, должно скачаться 78022 файла (html) = 1567 базовые + 76455 слова (согласно разрешенным для скачивания URL).
То есть задача не отличается сложностью.
Но OE, тем не менее с ходу не смог скачать все страницы, причем даже базовые.
То есть мне пришлось вручную просто добавить весь список в явном виде.
В данном случае нет никаких ограничений на скачивание с сервера (по крайней мере) я не незаметил таковых). Аналогичная картина и с разрешенными для скачивания URL - часть из них ОЕ не скачал по неизвестной причине (то есть, отсутствоали случаные страницы, ссылки на которые заведомо присутствовали в успешно скачанных базовых страницах.
Если бы список всех URL не был легко просчитываем (я просто его составил вручную весь список из 78022 URL и контролировал его скачивание, поскольку полнота скачивания была принципиальна для меня - речь о словаре). В противном случае. я бы даже не догадался, что ~5% страниц не скачаны, а OE никак об этом не информирует.
Это свежий пример. Но как я сказал - это застарелая болезнь OE, поскольку столкнулся с этим на заре использования программы. И как с ней бороться - не имею малейшего понятия.
Дело не в том, что OE, что не может чего-то там скачать. Это полбеды. Главная проблема в том что юзер даже не знает, что задание выполнено не полностью, хотя OE радостно рапортует об обратном.
Была бы например закладка (наряду с Map, Levels и проч.) типа Problems, на которой по результатам работы был бы представлен список страниц/URL, которые не скачались, на которые сервер дал ответ отличный от 200, которые скачались, но вызывают подозрение (маленький размер, отсутствие каких-то элементов и тд) и прочие проблемы, тогда юзер хотя бы мог узнать о возможной неполноте скачивания. А то странная ситуация - в программе присутствует опция "Проверять всевозможные каталоги" (то есть скачивать се что возможно, даже если этого в явном виде нет в задании), тогда как у программы имеются проблемы со скачиванием явно заданных страниц.
В данном случае все базовые URL явно заданы и программа точно знала их число. Причем скачав их, она также точно знала минимальное число URL первого уровня (76455) (разумеется я не учитываю вспомогательные файлы, типа css, js и проч., но они и не сильно важны в данном случае). При этом в настройках разрешено 20 раз пытаться скачать при неудаче.
Но как я уже сказал. это давно замеченная мною беда OE (пропуск страниц, по неизвестным причинам, как минимум, на некоторых сайтах). И лично для меня, она перевешивает все остальные недостатки OE вместе взятые.