mef-t
Осваивающий
- Сообщения
- 306
- Репутация
- 30
Доброго времени суток.
Подскажите пожалуйста, как можно проанализировать и получить информацию с большого количества сайтов.
Точнее как ускорить процесс получения данных с сайтов, если их достаточно много?
Если еще точнее, то как максимально сократить данное время? Какой алгоритм или подход использовать?
Для примера:
у меня есть список из 32 000 сайтов.
Нужно получить title и занести его в excel.
Изначально я открывал исходники сайта через $oHTTP.ResponseText() или _INetGetSource($URL, False).
Но с учетом обработки, время в среднем не меньше 1сек на 1 сайт, чаще получается больше.
Попробовал использовать InetGet("URL", "filename") с фоновой загрузкой в файл, чтобы избежать простоя при загрузке.
Время загрузки ~ 0,5 - 0,6 на сайт. Вторым этапом обработка файлов.
И все равно получается в среднем 1 сек на сайт.
Если брать 1 сек, то обработка 32 000 сайтов займет примерно 9 часов. И это с учетом того, что в процессе не возникнет проблем.
По факту же мне необходимо увеличить объем обрабатываемых сайтов до 1 000 000 (в идеале 5m). Это где-то 12 дней непрерывной работы.
Вот и хотел бы узнать, какие варианты анализа существуют для большого количества сайтов.
Догадываюсь, что одним из первых вариантов ответа будет предложение другого языка.
В этом случае хотел бы услышать, какого именно.
Но луче этот, так как других не знаю.
Подскажите пожалуйста, как можно проанализировать и получить информацию с большого количества сайтов.
Точнее как ускорить процесс получения данных с сайтов, если их достаточно много?
Если еще точнее, то как максимально сократить данное время? Какой алгоритм или подход использовать?
Для примера:
у меня есть список из 32 000 сайтов.
Нужно получить title и занести его в excel.
Изначально я открывал исходники сайта через $oHTTP.ResponseText() или _INetGetSource($URL, False).
Но с учетом обработки, время в среднем не меньше 1сек на 1 сайт, чаще получается больше.
Попробовал использовать InetGet("URL", "filename") с фоновой загрузкой в файл, чтобы избежать простоя при загрузке.
Время загрузки ~ 0,5 - 0,6 на сайт. Вторым этапом обработка файлов.
И все равно получается в среднем 1 сек на сайт.
Если брать 1 сек, то обработка 32 000 сайтов займет примерно 9 часов. И это с учетом того, что в процессе не возникнет проблем.
По факту же мне необходимо увеличить объем обрабатываемых сайтов до 1 000 000 (в идеале 5m). Это где-то 12 дней непрерывной работы.
Вот и хотел бы узнать, какие варианты анализа существуют для большого количества сайтов.
Догадываюсь, что одним из первых вариантов ответа будет предложение другого языка.
В этом случае хотел бы услышать, какого именно.
Но луче этот, так как других не знаю.