Что нового

Данные, строки Отфильтровать строку от мусора

musicstashall

Знающий
Сообщения
322
Репутация
7
Имеется бинарная строка, в которой присутствуют различные SOH, EOT, SO, DC1, DC2... и прочие ненужные Управляющие символы, кроме LF и CR разумеется. Строку нужно порезать в массив по нулевым байтам (NUL - Chr(0)), плюс потом каждую подстроку еще по символам SOH - Chr(1), чтобы получить массив чистых строк. Если в строке остаются только числа, удаляем строку, если остается один символ, тоже удаляем строку. Я топорным способом реализовал фильтрацию, но хотелось бы ускорить процесс с помощью регулярных выражений. Прошу помощи знатаков.
Код:
#include <Array.au3>
#include <WinAPIConv.au3>

Global $sBytes = '0x
Global $sBytes2 = '0x
Global $sBytes3 = '0x
Global $NameIndex = 1, $sTypeIndex = 1, $Enc = 4

_ArrayDisplay(BytesToArray($sBytes))

Func BytesToArray($sBytes, $iFlag = 1)
	Local $sStrsOld = BinaryToString($sBytes)
	Local $aStrs = StringSplit($sStrsOld, Chr(0))
	Local $aData[$aStrs[0]][3] = [[0]], $iIndex = 0
	For $i = 1 To $aStrs[0]
		If $iFlag Then
			StrFilter($aStrs[$i])
			If Not $aStrs[$i] Then ContinueLoop
		EndIf
		$iIndex += 1
		$aData[$iIndex][0] = $i
		$aData[$iIndex][1] = str(bin($aStrs[$i], 1))
	Next
	ReDim $aData[$iIndex + 1][3]
	$aData[0][0] = UBound($aData) -1
	$aData[0][1] = _WinAPI_MakeLong($NameIndex, $sTypeIndex)
	$aData[0][2] = $aStrs[0]
	Return $aData
EndFunc

Func StrFilter(ByRef $str)
	Local $SOH = StringSplit($str, Chr(1)), $Data, $st = '', $s = ''
	For $i = 1 To $SOH[0]
		$Data = StringToASCIIArray($SOH[$i])
		For $j = 0 To UBound($Data) -1
			If $j = UBound($Data) Then ExitLoop
			Switch $Data[$j]
				Case 0 To 8, 12, 14 To 31, 127, 160, 152, 256 To 1024, 1040 To 1055, 1058 To 1104, 1120 To 1167, 1170 To 8210, 8219, 8223, _
					8227 To 8229, 8231 To 8239, 8241 To 8248, 8251 To 8363, 8365 To 8469, 8471 To 8481, 8483 To 1000000
					_ArrayDelete($Data, $j)
					$j -= 1
				Case Else

			EndSwitch
		Next
		$s = StringFromASCIIArray($Data)
		If UBound($Data) And StringLen($s) > 1 Then $st &= $s
	Next
	$str = $st

	If StringIsDigit($str) Then $str = ''
	If StringIsFloat($str) Then $str = ''
EndFunc


Func str($aBinary, $encoding = $Enc)
    Return BinaryToString($aBinary, $encoding)
EndFunc

Func bin($string, $encoding = $Enc)
    Return StringToBinary($string, $encoding)
EndFunc
 
Последнее редактирование:

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
хотелось бы ускорить процесс с помощью регулярных выражений.
Можно так - подогнав регулярку под себя

Код:
$aArray1=_Get_Text($sBytes)
_ArrayDisplay($aArray1)
$aArray2=_Get_Text($sBytes2)
_ArrayDisplay($aArray2)
$aArray3=_Get_Text($sBytes3)
_ArrayDisplay($aArray3)

Func _Get_Text($sBytes)
  Local $sStrsOld = BinaryToString($sBytes)
  $sStrsOld=StringReplace($sStrsOld,Chr(0),' ')
  Return StringRegExp($sStrsOld,'(*UCP)((?:\b[\p{L}:.()]{2,}[ ()]?)+)',3)
  ; Return StringRegExp($sStrsOld,'(*UCP)((?:[()]?\b[\p{L}]{2,}[ ():.+\d]*)+)',3)
EndFunc
 
Последнее редактирование:
Автор
M

musicstashall

Знающий
Сообщения
322
Репутация
7
В третьем бинарнике в девятой строке вначале присутствуют "яя". Это значит, что нужно было строку разделить по символу SOH, а потом проверять на соответствие условиям.
подогнав регулярку под себя
Дружище, мне трудно будет, я регулярки ваще не освоил. Попробуй еще варианты. Пжлста)
Строку сначала сплитим по нулям, затем по SOH, потом фильтруем: пустые строки удаляем, строки с одним символом удаляем и строки, в которых нет буквенных символов, тоже удаляем. По сути, нам нужны строки с символами ANSI и UTF8

Надо отметить, что скорость возросла в тысячи!!! раз! Это очень хорошо!

Вот в таком бинарнике вообще не должно быть строк:
Код:
0xDD0000001000040064006400FA0057004672616D6520706C616E6B73000B0001000200040005000200300028000000767F02000200040035000200300028000000777F03000200040065000200300028000000787F04000200040095000200300028000000797F050002000400C50002003000280000007A7F06000200040005002A003000280000007B7F07000200040035002A003000280000007C7F08000200040065002A003000280000007D7F09000200040095002A003000280000007E7F0A0002000400C5002A003000280000007F7F0B000F00000000005500FA000200

Здесь очень много мусора:
Код:
0x
 
Последнее редактирование:

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
Вот в таком бинарнике вообще не должно быть строк
Там строка "Frame planks" подходит под условие
Пробуйте - 2 варианта
Код:
Func _Get_Text($sBytes)
  Local $sStrsOld = BinaryToString($sBytes)
  $sStrsOld=StringReplace($sStrsOld,Chr(0),' ')
  $sStrsOld=StringReplace($sStrsOld,'яя','')
  Return StringRegExp($sStrsOld,"(*UCP)((?:\d?\b[\p{L}\p{P}()<>]{2,}[ <>=()\d+]*)+)",3)
EndFunc

Func _Get_Text2($sBytes)
  Local $sStrsOld = BinaryToString($sBytes)
  $sStrsOld=StringReplace($sStrsOld,Chr(0),@CRLF)
  $sStrsOld=StringReplace($sStrsOld,'яя','')
  Return StringRegExp($sStrsOld,"(*UCP)(?m)(\b[\p{L}\p{P}()<>]{2,}.*)$",3)
EndFunc
 
Автор
M

musicstashall

Знающий
Сообщения
322
Репутация
7
Второй вариант пока рулит. Благодарю.

Да, как оказалось, этот вариант ломает многострочные строки. Но в других случаях он работал чище.
Код:
Global $sBytes6 = '0x

Func __ArrayDisplay($array)
	ConsoleWrite('++++++++++++++++++ARRAY DISPLAY++++++++++++++++' & @CR)
	Local $size = UBound($array, 0), $str
	For $i = 0 To UBound($array) -1
		If $size == 1 Then
			ConsoleWrite('=' & @TAB & $array[$i] & @CR)
		Else
			$str = '=' & @TAB
			For $j = 1 To $size
				$str &= $array[$i][$j -1] & @TAB
			Next
			ConsoleWrite($str & @CR)
		EndIf
	Next
	ConsoleWrite('+++++++++++++++++++++++END+++++++++++++++++++++' & @CR)
EndFunc


Кроме всего, мне строки нужно получать как в UTF8, так и в ANSI, в зависимости от переменной $enc

А нельзя ли попробовать использовать вместо StringRegExp функцию StringRegExpReplace? Потому что мне желательно иметь свой массив с тремя колонками, где в первой колонке должны быть номера строк. Я бы рассмотрел оба варианта, скорость на первом месте.
 
Последнее редактирование:

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
Ещё 2 варианта, первый для быстрого получения, но если многострочные строки, то ещё надо подчистить. 2-вариант - с массивом подобным вашему.
Код:
Func _Get_Text3($sBytes)
  Local $sStrsOld=BinaryToString($sBytes)
  $sStrsOld=StringRegExpReplace($sStrsOld,'(\r\n|\r|\n)','§') ; заменяем переносы любым ненужным символом,можете вставить свой, потом надо удалять в многострочных строках
  $sStrsOld=StringReplace($sStrsOld,Chr(0),@CR)
  $iIndex=@extended ; содержит количество замен
  $sStrsOld=StringRegExpReplace($sStrsOld,'(?m)^яя','')
  Return StringRegExp($sStrsOld,'(*UCP)(?m)(<?\b[\p{L}\p{P}()<>]{2,}.*)$',3)
EndFunc

Func _Get_Text4($sBytes,$iEncoding=1)
  Local $sStrsOld=BinaryToString($sBytes,$iEncoding)
  $sStrsOld=StringReplace($sStrsOld,Chr(0)&'яя',Chr(0))
  Local $aStrs=StringSplit($sStrsOld,Chr(0)),$iIndex=1,$aData[$aStrs[0]][3]
  For $i=1 To $aStrs[0]
    $aRes=StringRegExp($aStrs[$i],'(*UCP)(?s)([\p{L}\p{P}()<>]{2,}.*)',1)
    If @error=0 Then
      $aData[$iIndex][0]=$i
      $aData[$iIndex][1]=$aRes[0]
      $iIndex+=1
    EndIf
  Next
  ReDim $aData[$iIndex][3]
  $aData[0][0]=$iIndex-1
  $aData[0][1]=_WinAPI_MakeLong($NameIndex,$sTypeIndex)
  $aData[0][2]=$aStrs[0]
  Return $aData
EndFunc
 
Последнее редактирование:
Автор
M

musicstashall

Знающий
Сообщения
322
Репутация
7
Отлично. Последний вариант забираю. Очень признателен. Добра.

ПС: первый из последних я не могу использовать, так как перенос на другую строку в оригинале используется различный — или CR или LF, поэтому тут придется всякий раз сравнивать с оригиналом. Но, вижу, что можно будет поиграть с вариантами...
Вот здесь StringRegExpReplace($sStrsOld,'(\r\n|\r|\n)','§') возможно указать символ замены в зависимости от \r или \n?
 
Последнее редактирование:

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
Вот здесь StringRegExpReplace($sStrsOld,'(\r\n|\r|\n)','§') возможно указать символ замены в зависимости от \r или \n?
Это общий вариант.
В основном встречаются 3 типа файла
1 - в котором перенос \r\n - @CRLF
2 - в котором перенос \r - @CR
3 - в котором перенос \n - @LF
И эта регулярка неважно какой из этих файлов найдёт перенос и заменит его на символ, поэтому отдельно использовать не вижу смысла
Код:
StringRegExpReplace($sStrsOld,'(\r)','§')
; или
StringRegExpReplace($sStrsOld,'(\n)','§')
; или
StringRegExpReplace($sStrsOld,'(\r|\n)','§')
; не вижу смысла


В RegExp есть ещё и \R

\R - любой из символов переноса строки. [\n\f\r\v] Chr(10), Chr(11), Chr(12), Chr(13), соответствует "(?>\r\n|\n|\r)"
 

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
восстановить эти символы в строке
Я просто не понял о чём сразу речь - тогда ещё пару функций, подработайте под себя
Код:
Func _CRLF(Const ByRef $sText)
  Return StringRegExp($sText,@CRLF)? @CRLF :(StringRegExp($sText,@LF)? @LF :(StringRegExp($sText,@CR)? @CR : 'нет переноса'))
EndFunc

Func _CRLF(Const ByRef $sText)
  Local $R=StringRegExp($sText,'(\r\n|\r|\n)',1)
  Return @error ? 'нет переноса' : $R[0]
EndFunc
 
Автор
M

musicstashall

Знающий
Сообщения
322
Репутация
7
Обнаружил вот, начало строки обрезает: 3D material name, empty=default. 3D + пробел обрезает. В результате некоторые строки у меня пропали. Я так понял, что регулярка наблюдает первый символ — если это цифра, то обрезает, а D остается одна и тоже обрезается. Тогда проверять нужно не один символ, а два первых символа, так как один символ и так обрезается. Нельзя ли исправить, уважаемый человек?
 

Andrey_A

Продвинутый
Сообщения
323
Репутация
68
Может быть так...
Код:
$aRes=StringRegExp($aStrs[$i],'(*UCP)(?s)([\p{L}\p{P}()<>]{2,}.*|\d\p{L} .*)',1)
 
Автор
M

musicstashall

Знающий
Сообщения
322
Репутация
7
Теперь вначале строки пропали числа: 200 OBSOLETE Angled
Поэксперементировал, вставил между цифр букву 1B0 OBSOLETE Angled, но все равно, вместе с буквой отгрызает начальные символы. Оставляю только два символа в начале 1B OBSOLETE Angled — их не удаляет. Я бы даже согласился бы с таким вариантом, что цифры вначале строки удаляет, но с буквой тоже, получается, удаляет.
Оказывается, цифры удалял и предыдущий вариант, я не заметил.
 
Последнее редактирование:
Верх