Что нового

[Автоматизация] Проблема с кирилицей при попытке парсинга страницы

vitaliy4us

Новичок
Сообщения
158
Репутация
4
Получаю исходный код страницы при помощи функции
Код:
$str=_INetGetSource($oLink.href)

Однако для кирилических символов не могу использовать для поиска функцию
Код:
StringInStr($str, "искомая строка")

поскольку она возвращает 0. Кодировка на сайте <meta charset="utf-8">. Как быть?
 

madmasles

Модератор
Глобальный модератор
Сообщения
7,790
Репутация
2,322
vitaliy4us,
Код:
$sUrl = 'http://autoit-script.ru/index.php/'
$sHTML = BinaryToString(InetRead($sUrl, 17), 4)
ConsoleWrite($sHTML & @LF)



Добавлено:
Сообщение автоматически объединено:

PS
Код:
_INetGetSource()
подходит только для англоязычных сайтов.


Добавлено:
Сообщение автоматически объединено:

попытке парсинга сраницы
Как-то неприлично звучит ;D ,поправьте. Сам поправил.
 
Автор
V

vitaliy4us

Новичок
Сообщения
158
Репутация
4
Спасибо, конечно, но только в этом случае проблемы возникают с другим русскоязычным сайтом. Таким образом, функция
Код:
$str=_INetGetSource($oLink.href)

годится для одного из них, а
Код:
$str = BinaryToString(InetRead($oLink.href, 17), 4)

для другого. На обоих ищется одна и та же строка, а результат противоположный.


Добавлено:
Сообщение автоматически объединено:

Интересно, что считывается то страница нормально, но строка не ищется. Поэтому, строку, скопированную при помощи функции
Код:
$str=_INetGetSource($oLink.href)

можно сохранить в текстовом файле, а затем уже считать ее из этого файла и тогда поиск осуществляется корректно.
 

WSWR

AutoIT Гуру
Сообщения
941
Репутация
363
Может, тогда
http://autoit-script.ru/index.php/topic,510.0.html

и _Encoding_CyrillicTo1251
?
 
Верх