Что нового

Как из html скопировать текст в файл исключая всевозможные теги?

viter

Новичок
Сообщения
40
Репутация
1
Задача в том что бы из html страницы выбрать только текст и записать в файл, то есть исключить все теги, насколько это возможно.
Прошу помощи, все что смог ниже, но почему то не работает
(страница взята для примера, первая попавшаяся)
Код:
$oIE=_IECreate ("http://www.rg.ru/2012/08/06/text.html")
$vTest=_IEDocReadHTML($oIE)


$aRet = StringRegExp($vTest, '/>(.*)/<', 3)
$file = FileOpen("c:\test.txt", 1)
For $sElement In $aRet
    FileWriteLine($file, $sElement)
 Next
 FileClose($file)
 

CreatoR

Must AutoIt!
Команда форума
Администратор
Сообщения
8,673
Репутация
2,486
Re: Поиск текста в html

Предупреждение За нарушение правил форума (пункт Б.5):
Имя темы должно нести смысловую нагрузку (отражать суть вопроса/проблемы)
Правильно сформулированное название темы привлекает больше внимания, и шансы получить конкретный ответ увеличиваются.


Данные правила могут пополняться локальными правилами раздела.
Как правильно называть темы

"Поиск текста в html" - это неприемлемое название темы, переименуйте тему иначе она будет закрыта, а вам возможно будет выдан бан на несколько дней.

С уважением, ваш Администратор.
 
Автор
V

viter

Новичок
Сообщения
40
Репутация
1
вот так вроде бы получилось
Код:
$oIE=_IECreate ("http://www.rg.ru/2012/08/06/text.html")
$vTest=_IEBodyReadHTML($oIE)


$aRet = StringRegExp($vTest, '>(.*?)<', 3)
$file = FileOpen("c:\test.txt", 1)
For $sElement In $aRet
    FileWriteLine($file, $sElement)
	
 Next
 FileClose($file)
 

C2H5OH

AutoIT Гуру
Сообщения
1,473
Репутация
333
:scratch:
А можно ж было в справку заглянуть http://autoit-script.ru/autoit3_docs/libfunctions/_iebodyreadtext.htm
:reading_book:

Код:
#include <IE.au3>
$oIE = _IECreate("http://autoit-script.ru/",1)
$sText = _IEBodyReadText ($oIE)
MsgBox(4096, "Body Text", $sText)
 
Автор
V

viter

Новичок
Сообщения
40
Репутация
1
Спасибо :-[ В справке я все функции просматривал но без знания английского, переводя трудно понять что именно делает данная функция, я решил что это аналог _IEBodyReadHTML
 

AZJIO

Меценат
Меценат
Сообщения
2,892
Репутация
1,196
OffTopic:
На форуме целый раздел любителей этого раздела, нет же раздела массивов или раздела файлов. Уже давно бы перевели для себя и не мучились.
 
Верх