Всем доброго времени суток...
Давненько я не появлялся здесь :IL_AutoIt_1:
Передо мной встала, казалось бы тривиальная задача - разбор HTML файла с целью вытащить из него необходимые данные, содержащиеся в <table>, основная проблема в том что сервис который собирает такие html делает это крайне неуклюже, в конечном итоге из тривиальной таблицы предстоит вычленить табличку с XPath "/html/body/div/table/tbody/tr/td/div/table/tbody/tr[4]/td/div[2]/table/tbody/tr/td/div/div/table/tbody" (я сам в шоке )
ну и собственно перебирая его <tr> снимать необходимые поля...
Я был полон оптимизма найти необходимый инструмент при помощи которого можно распарить html, с целью получить в некий объект всю его структуру или опять же по XPath выдернуть тебуемый объект, основной идей в принципе является "работать с html как с объектом" вроде того как перетрясать DOM из JavaScript, или как в Qt, так же есть класс который разбирает html и представляет его в виде ассоциативного массива, где теги имена полей, а сами поля собственно данные, фактически тот же DOM получается...
И собственно у меня пока наработки хиленькие :-X удалось найти вот это здесь каким-то образом все прикручивается через
Google либо ловко прячет, либо действительно очень мало знает про сия зверя дивного, понятно только что это некий интерфейс доступный для OLE взаимодействия, причем сдается мне что он имеет какое-то отношение к Internet Explorer (что само по себе не радует )
ну да бог с ним... ну так я все равно не могу найти описания доступных функций, методов и т.д.
Обращаясь к коллективному разуму, хочу попросить пролить свет озарения на мои познания в отношении разбора html в AutoIT, как это делать правильнее, какие вообще методы существуют ?
PS: мне уже указали, что можно прийти к необходимому результату разбирая html как текст регулярками, но вот с последними у меня не все гладко, но если это единственный разумный способ - то... будем курить.
Давненько я не появлялся здесь :IL_AutoIt_1:
Передо мной встала, казалось бы тривиальная задача - разбор HTML файла с целью вытащить из него необходимые данные, содержащиеся в <table>, основная проблема в том что сервис который собирает такие html делает это крайне неуклюже, в конечном итоге из тривиальной таблицы предстоит вычленить табличку с XPath "/html/body/div/table/tbody/tr/td/div/table/tbody/tr[4]/td/div[2]/table/tbody/tr/td/div/div/table/tbody" (я сам в шоке )
ну и собственно перебирая его <tr> снимать необходимые поля...
Я был полон оптимизма найти необходимый инструмент при помощи которого можно распарить html, с целью получить в некий объект всю его структуру или опять же по XPath выдернуть тебуемый объект, основной идей в принципе является "работать с html как с объектом" вроде того как перетрясать DOM из JavaScript, или как в Qt, так же есть класс который разбирает html и представляет его в виде ассоциативного массива, где теги имена полей, а сами поля собственно данные, фактически тот же DOM получается...
И собственно у меня пока наработки хиленькие :-X удалось найти вот это здесь каким-то образом все прикручивается через
Код:
Local $hObj = ObjCreate("Shell.Explorer.2")
Google либо ловко прячет, либо действительно очень мало знает про сия зверя дивного, понятно только что это некий интерфейс доступный для OLE взаимодействия, причем сдается мне что он имеет какое-то отношение к Internet Explorer (что само по себе не радует )
ну да бог с ним... ну так я все равно не могу найти описания доступных функций, методов и т.д.
Обращаясь к коллективному разуму, хочу попросить пролить свет озарения на мои познания в отношении разбора html в AutoIT, как это делать правильнее, какие вообще методы существуют ?
PS: мне уже указали, что можно прийти к необходимому результату разбирая html как текст регулярками, но вот с последними у меня не все гладко, но если это единственный разумный способ - то... будем курить.