awk regexp problem

**shb** · 28-12-2004, 14:13

ich habe folgendens scirpt geschrieben

Code:

$1~/[0-9]\{7\}\-[0-9]\{3\}/p {
print $1
}

dies rufe ich mit

Code:

awk -f con.awk datei

und dann erhalte ich folgendes ergebnis

Code:

4152312-009-00029/002.006
70015
7152307
7152308
715261004
715261024
715261050
715261051
715261060

warum? eigentlich dürfte ich doch nur das erste kriegen

thx cu SHB

**Hans-Georg Normann** · 28-12-2004, 16:09

Möglich, dass du mal einen Auszug von "datei" schickst?

Was willst du daraus extrahieren?

Hans

**shb** · 28-12-2004, 16:26

hier ist ein auszug

4152312-009-00029/002.006 Z 152312-00443 0191 0N10001.00.00.00.00 0 82 0016
4152312-009-00029/002.006 Z 152312-00443 0191 0N10001.00.00.00.00 1E.d.V.; RT: LPG (P)
4152312-009-00029/002.006 Z 152312-00443 0191 0N10001.00.00.00.00 2Schafst~Ddt
70015 A00Lieg.kat.f~Ahrende Stelle 9Halle
7152283 15261004 1105 B09Groágr~Dfendorf
7152286 15261024 1105 B09Klobikau
7152307 15261050 1105 B09Schafst~Ddt
7152308 15261051 1105 B09Schkopau

ach ja mit sed klappt es.
solche zahlen will ich 4152312-009-00029/002.006 Z und davon hab ich genung zahlen

Code:

sed -n '/^[0-9]\{7\}-[0-9]\{3\}-[0-9]\{5\}\/[0-9]\{3\}\.[0-9]\{3\}\ [A-Z]/p' datei

thx cu SHB

**Hans-Georg Normann** · 28-12-2004, 17:31

Ich muss, gestehen, ich versteh deine RegEx nicht

Aber das soll nicht heissen, dass sie falsch ist.

Mein Vorschlag: Zieh doch das ganze einmal auseiander, soll heissen, bau dir Funktionen. Dann wird es vielleicht etwas einfacher. Hier mal ein Scripts, was ich geschrieben habe. Das sollte bestimmte Zeilen überlesen und den Rest in eine Textdatei schreiben. Gegeben war in meinem Fall eine Textdatei mit Dateinamen. Ich benötigte alle Zeilen, die in der Textdatei mit ./infosheet/ begannen.

Code:

BEGIN {
  System_Init()
}

/^\.\/infosheet/ {
     UAPFILE=$0
     TEXTFILE=(UAPFILE ".txt")
     # fTIME=strftime("%T %Z")
     fTIME="-- "
     printf "%s: converting file: %s\n", fTIME, $0
     Uniplex_Convert()
}

function System_Init() {
  false=0
  true=!false
}

function Uniplex_Convert() {
  EFFECT=false

  while (getline < UAPFILE > 0) {
    TEXT=$0
    if (TEXT=="") {
      print "\r" > TEXTFILE
    }

    if (EFFECT) {
      EFFECT=false
      continue
    }

    # nex line contains fontattributes
    MATCH=substr(TEXT,length(TEXT)-1)
    if (MATCH == "@@") {
      TEXT=substr(TEXT,1,length(TEXT)-2)
      EFFECT=true
      print (TEXT "\r") > TEXTFILE
      continue
    }

    # UAP Tabulator
    if (index(TEXT,"....T....") > 0){
      continue
    }

    print (TEXT "\r") > TEXTFILE
  }

    # UAP Tabulator
    if (index(TEXT,"....T....") > 0){
      continue
    }

    print (TEXT "\r") > TEXTFILE
  }

  close(UAPFILE)
  close(TEXTFILE)
}

Hans

**shb** · 28-12-2004, 18:26

gut ich werd dir mein regexp mal erklären

Code:

/ einleitung bei sed /awk 
^ vom anfang der zeile lesen 
[0-9]\{7\}  von 0-9 die genau 7  (unterschiedliche) zahlen hinterheinander
- Bindestrich
[0-9]\{3\} von 0-9 die genau 3  (unterschiedliche) zahlen hinterheinander
- Bindestrich
[0-9]\{5\} von 0-9 die genau 5  (unterschiedliche) zahlen hinterheinander
\/ ein slash
[0-9]\{3\} von 0-9 die genau 3  (unterschiedliche) zahlen hinterheinander
\. ein Punkt
[0-9]\{3\} von 0-9 die genau 3  (unterschiedliche) zahlen hinterheinander
\  eine leertaste
[A-Z] ein großbuchstabe zwischen A und Z
/ ende von sed/awk
p keine ahnung für was das p, aber ohne geht es nicht

ich wollte das ganze aber auf diese art machen, ich kann mir nicht vorstelln, das awk das nicht ordentlich beherscht ;( "einfache" regexp macht er ja

thx cu SHB

**Hans-Georg Normann** · 28-12-2004, 21:42

oops, die Bedeutung von {nummer} war mir im Zusammenhang mit RegEx nicht bekannt.

Habe das Ganze mal aufgedröselt. Dazu gibt es zwei Funktionen. Jede liefert hoffentlich das richtige Erfebnis. Ist natürlich Ausbaufähig.

Code:

/^[0-9]\{7\}\-[0-9]\{3\}/p {
   #print $1
   checkLength1($1)
}

function checkLength(fValue) {
  if (length(fValue) >= 11) {
    if ((substr(fValue,8,1) == "-") && (substr(fValue,12,1)) == "-") {
      print fValue
    }
  }
}

function checkLength1(fValue) {
  if (length(fValue) <= 11)       { exit 0 }
  if (substr(fValue,8,1) != "-")  { exit 0 }
  if (substr(fValue,12,1) != "-") { exit 0 }
  print fValue

}

Die Syntax sollte eigentlich kein Problem darstellen.

Hans

**shb** · 29-12-2004, 09:37

mmm gut die erste funktion geht, aber was mich so stört ist, dass der regexp nicht geht, selbst wenn ich das ganze hart schreibe

Code:

/[0-9][0-9][0-9][0-9][0-9][0-9][0-9]\-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9][0-9]\/[0-9][0-9][0-9][0-9]/

kommen solche ergebnisse mit raus

Code:

19915D9956

thx cu SHB

**Hans-Georg Normann** · 29-12-2004, 22:03

Code:

/^.......-...-/ {
   print $1
}

bringt schon mal ein besseres Ergebnis, auch ohne das p nach der RegEx

Code:

[hans@rosi tmp]$ awk -f xyz.awk xyz.txt
4152312-009-00029/002.006
4152312-009-00029/002.006

Wie setzt man eigentlich

Hans

Code:

/[[:digit:]]/

ein? Bin da aus dem Manual nicht so ganz schlau geworden.

Hans

**Hans-Georg Normann** · 29-12-2004, 22:33

TaDaaaa

Geht doch doch! Manpages verraten unter Expression folgendes

r{n}
r{n,}
r{n,m} One or two numbers inside braces denote an interval expression. If there is one number in the braces, the preceding regular expression r is repeated n times. If there are two numbers separated by a comma, r is repeated n to m times. If there is one number followed by a comma, then r is repeated at least n times.

Interval expressions are only available if either - -posix or - -re-interval is specified on the command line.

Das ganze sieht dann so aus:

Code:

/^[0-9]{7}-[0-9]{3}-[0-9]{5}/ {
   print $1
}

und jetzt noch der Aufruf

Code:

[hans@rosi tmp]$ awk --posix -f xyz.awk xyz.txt
4152312-009-00029/002.006
4152312-009-00029/002.006
[hans@rosi tmp]$

Noch Fragen?

Hans

**shb** · 30-12-2004, 12:41

aber warum --posix?

thx cu SHB

**peschmae** · 30-12-2004, 15:41

Naja, für AWK gibts einen Posix-Standard, ist vermutlich also dort drin.
Aber wieso der Parameter jetzt nötig ist (und erst bei so was nützlichem) weiss ich jetzt auch gerade nicht - eine der wenigen Ausnahmen wo sich die GNU-Tools negativ vom Standard abheben.

MfG Peschmä

balduin · 20-09-2005, 15:04

Hi,

Der Parameter --posix ist notwendig, damit awk die Interval- und Mengenangaben {x,y} interpretiert, soweit ich weiß.

gruß,
balduin

**Jasper** · 20-09-2005, 18:31

Zitat von shb

ich wollte das ganze aber auf diese art machen, ich kann mir nicht vorstelln, das awk das nicht ordentlich beherscht ;( "einfache" regexp macht er ja

awk kann das schon:

awk --posix '$1 ~ /[0-9]{7}-[0-9]{3}/ {print $1}' file

oder

awk --re-interval '$1 ~ /[0-9]{7}-[0-9]{3}/ {print $1}' file

dein problem sind die interval expressions {}. die kann standard-awk nicht. --re-interval (in --posix enthalten) schaltet diese an.

-j

Thema: awk regexp problem

Themen-Optionen

Thema bewerten

Anzeige

awk regexp problem

super, danke

Lesezeichen

Lesezeichen

Berechtigungen