Что нового

конвертация строки MBCS в SBCS (multi в singlе-byte character)

forums_1

Новичок
Сообщения
4
Репутация
0
Версия AutoIt: 3.2.0

Описание:

Есть ПДФ с текстом в MBCS. Текст в в pdf-файле – на азербайджанском языке и буквы öüğçş в MBCS кодируются в зависимости от того где – в начале, в середине или в концене слова стоит буква различными комбинациями нескольких символов (например, ü: различные комбинации пробела, двух пробелов, двух точек «¨» (или просто точки «.») и обычной буквы u). При использовании ClipGet() в буфер попадают не символы öüğçş, а набор различных комбинаций пробела, «¨» и «¸». Например, слово «böyük» передается так «b ¨ oy¨uk»

Как правильно скопировать текст MBCS в буфер и конвертировать его в Юникод, чтоб многосимвольные буквы стали односимвольными?


Примечания:
для чего это надо: есть контекстный словарь, который переводит слова из буфера обмена, но понимает он лишь текст с односимвольными буквами öüğçş (Unicode, например) - поэтому получается проблема на стадии копирования текста в буфер обмена

вариант pdf-файла прилагается
 
Автор
F

forums_1

Новичок
Сообщения
4
Репутация
0
вот, что нашел - может кому поможет - сам пока не нашел ответ

- статья 1: "MBCS Support Autoit V3"
http://www.autoitscript.com/forum/topic/24301-mbcs-support-autoit-v3/
вопрос: поддерживать то поддерживает, но как ее корректно скопировать в буфер?

- статья 2: "MBCS to UTF-8 C++"
http://stackoverflow.com/questions/1063803/mbcs-to-utf-8-c

вопрос: может можно переложить выполнение операции конвертации на какое-то внешнее приложение (например написанное на том же C++) ? - к сожалению не знаток C++

заранее спасибо за любую помощь
 
Автор
F

forums_1

Новичок
Сообщения
4
Репутация
0
Нашел программу "Smart PDF Editor Pro", которая конвертирует pdf в Word корректно подменяя многосимвольные буквы в односимвольные. Отсюда сделал вывод - корректная конвертация возможна, вопрос только как. (программа триальная, но на функцию конвертации pdf в Word ораничений не накладывает). Пример сконвертированного файла Word не выкладываю - большой.

Вопрос остается открытым - как корректно скопировать текст предложения в буфер и провести его конвертацию средствами Autoit?
 
Верх