Что нового

Возможность поиска и сравнения между БД и форумом

svp_mgdn

Новичок
Сообщения
2
Репутация
0
Доброго дня, уважаемые знатоки.

Задача примерно следующая:

1. Имеется интернет-форум, точнее одна из его многочисленных тем.
В этой теме куча страниц, URL первой значится как forum.org/forum/viewforum.php?f=цифры
Последующие выглядят как: forum.org/forum/viewforum.php?f=цифры&start=50
На каждой следующей странице последние цифры увеличиваются на 50, то есть на каждой - по 50 записей.
Всего около 3100 записей (названий тем) с ссылками вида: forum.org/forum/viewtopic.php?t=семизначное число (может есть и шестизначные и даже пяти...)

2. Есть обычный эксел файл, где каждая строка уникальна, и соответствует как минимум одной записи темы, на какой-то из страниц этой темы. Часто - такие записи имеют повторы на рандомных страницах.

Задача: соорудить автоматизированный поиск и сравнение между значениями строк в эксел-файле и записями на страницах форума. Интересны только уникальные значения с совпадением как минимум двух слов. То есть надо найти все уникальные записи без повторов и кучи мусора (служебной инфы, которая указывается в названиях каждой из тем)
Ну и соответственно видеть ссылки на эти уникальные записи.

Может как то можно просто выдрать из темы значения всех 3100 записей, вместе с их ссылками и провести сравнение...

Дано:
Полный ноль в программировании :( хотя и инженер по связи и ближе к первым четырем уровням OSI))
Слышал подсказку что можно решить как-то эту задачу посредством MS Access и макросов, но не имею ни малейшего понятия как, куда и что. Что-то про регулярные выражения и т.п. :stars:
Собственно вроде мозг есть, и руки не кривые, так что прошу посильной помощи :-[
С меня - лучи добра и пожелания долго здравствовать! ;D
 

inververs

AutoIT Гуру
Сообщения
2,135
Репутация
465
Очень сумбурно. Но можно начать с того, что узнать, есть ли на форуме версия для печати. Там обычно упрощенная верстка.
Например как здесь: http://autoit-script.ru/index.php?action=printpage;topic=22405.0
 
Автор
S

svp_mgdn

Новичок
Сообщения
2
Репутация
0
Верно, сумбурно получилось...
Если кратко попробовать: как выдрать из отдельной темы форума ВСЕ (их более 3000) гиперссылки вида forum.org/forum/viewtopic.php?t="семизначное число" вместе с текстом самой ссылки и сравнить текст (не ссылку) с уже имеющимися записями в файле, чтобы не было повторов.

Движок того форума где все это происходит - TorrentPier. Задача стоит только по той причине что записей очень много, и много повторяющихся, а руками обработать более 3000 позиций... При этом вся беда заключается в том что записи постоянно двигаются, меняются, видимо в соответствии с вносимыми туда комментариями. Поэтому невозможно запомнить тот номер страницы, на которой остановился при ручной обработке.

Нет, переход на версию для печати не нашел...
 

inververs

AutoIT Гуру
Сообщения
2,135
Репутация
465
Примерно такой форум, такая тема? https://torrentpier.me/forum/threads/obschie-voprosy-pro-otvjazku-krona.191/
 
Верх