Как средствами Autoit вытащить из Word в html таблицу в очищенном виде?
В инете есть масса ссылок на онлайн программы, якобы вытаскивающие более-менее чисто, но на практике всегда или куча мусора или преобразование портит таблицу.
Может кто сталкивался с такой задачей, просьба подсказать, куда копать.
Пока я нашел один способ:
1) Сохраняем таблицу в pdf;
2) В Adobe Acrobat сохраняем pdf в html - получается более менее чистый код, который дополнительно очищаем StringRegExpReplace;
3) Вручную дорабатываем таблицу (кодировка сбивается, меняем на ANSI и UTF-8).
Если напрямую убирать все "лишнее"
теряется рамка и все сдвигается
В данном примере (doc файл) получается коряво, но многое зависит от самой таблицы
В инете есть масса ссылок на онлайн программы, якобы вытаскивающие более-менее чисто, но на практике всегда или куча мусора или преобразование портит таблицу.
Может кто сталкивался с такой задачей, просьба подсказать, куда копать.
Пока я нашел один способ:
1) Сохраняем таблицу в pdf;
2) В Adobe Acrobat сохраняем pdf в html - получается более менее чистый код, который дополнительно очищаем StringRegExpReplace;
3) Вручную дорабатываем таблицу (кодировка сбивается, меняем на ANSI и UTF-8).
Код:
$a = FileRead(@ScriptDir & '\Таблица неправильных глаголов.html')
$b = StringRegExpReplace($a, '<td', @CRLF&'<td')
;$c = StringRegExpReplace($b, '(<td)( .+)(?<=">)(<p.+)', '\1>\3')
ConsoleWrite($b)
FileWrite(@ScriptDir & '\Таблица неправильных глаголов-2.html', $b)
Если напрямую убирать все "лишнее"
Код:
$c = StringRegExpReplace($b, '(<td)( .+)(?<=">)(<p.+)', '\1>\3')
теряется рамка и все сдвигается
В данном примере (doc файл) получается коряво, но многое зависит от самой таблицы