Articles of regex

Extraindo dados de tags de âncora usando regex em python

Eu estou tentando extrair os hiperlinks de uma página da Web usando regex em Python. suponha que minha string de texto seja: text = ‘ALL/nASSIGN’ e eu quero extrair ALL e ASSIGN, estou usando esta expressão regular: re.findall(r'(\w+)’, text, re.DOTALL) isso apenas retorna ASSIGN. Alguém pode me ajudar a apontar o erro na expressão regular? […]

Como fazer o Regex ignorar um padrão seguindo um grupo específico

Eu fiz esta pergunta 2 meses atrás e peguei o seguinte padrão REGEX para capturar códigos ICD9. O que se espera é capturar apenas códigos ICD9 (ex: 134,57 ou V23,54 ou E33.62) e ignorar o peso do paciente em 134,57 lb ou um resultado de laboratório como 127,20 mg / dL. icdRegex = recomp(‘(V\d{2}\.\d{1,2}|\d{3}\.\d{1,2}|E\d{3}\.\d)(?!\s*(?:kg|lb|mg)s?)’) Agora […]

Look-behind negativo do regex do Python

Nós analisamos logs criados por scripts automatizados. Uma coisa típica com que nos preocupamos é a string: ‘1.10.07-SNAPSHOT (1.10.07-20110303.024749-7)’ da seguinte linha: 15:28:02.115 – INFO – TestLib: Successfully retrieved build version: ‘1.11.11-SNAPSHOT (1.11.11-20110303.024749-7)’ O problema é que alguns logs são criados manualmente, com os usuários inserindo essas informações. Para se lembrar do formato, eles adicionaram […]

Como encurtar esta expressão usando regex

Eu tenho a seguinte declaração: if not fileName.startswith(“.”) and re.search(“(.exe|.EXE)$”, fileName) is not None and not fileName.endswith(“-xyz.exe”): pass Essencialmente, gostaria de verificar se o nome do arquivo não inicia com um ponto e termina com a extensão .exe ou .EXE, mas não com a extensão -xyz.exe. Como posso me livrar do começo e do fim […]

Correspondência de object Python usando string

Por que não consigo encontrar a correspondência? >>> ti = “abcd” >>> tq = “abcdef” >>> check_abcd = re.compile(‘^abcd’) >>> if check_abcd.search(ti) is check_abcd.search(tq): … print “Matching” … else: … print “not matching” … not matching Embora as duas variables, ti e tq, sejam correspondentes e tenham a mesma referência >>> print check_abcd.search(ti) >>> print […]

manipulação de string python

Eu tenho uma string s com colchetes nesteds: s = “AX(p>q)&E((-p)Ur)” Eu quero remover todos os caracteres entre todos os pares de colchetes e armazenar em uma nova string como esta: new_string = AX&E Eu tentei fazer isso: p = re.compile(“\(.*?\)”, re.DOTALL) new_string = p.sub(“”, s) Dá saída: AX&EUr) Existe alguma maneira de corrigir isso, […]

Como limitar o método findall () do regex

Existe um equivalente regex do argumento limit=X do BeautifulSoup para o método findall ? Quero dizer, como encontrar as primeiras X palavras em questão e depois quebrar a execução do código? obrigado

Backtracking catastrófico do regex do Python

Eu estou procurando um arquivo XML gerado a partir da palavra Ms para algumas frases. O problema é que qualquer frase pode ser interrompida com algumas tags XML, que podem estar entre as palavras ou até mesmo dentro das palavras, como você pode ver no exemplo: To increase knowledge of and acquired skills for implementing […]

Extrair e replace substring entre marcadores de posição em string

Eu tenho um texto de input input = ‘I like {sushi} and {tempura}.’ e deseja obter uma lista e um src substituído a partir disso. lst = [‘sushi’, ‘tempura’] src = ‘I like * and *.’ Eu posso usar quaisquer tokens nas seqüências de input / saída em vez de {} e * , como […]

Eficiente User-Agent Regex para encontrar o Safari em Python

Para descobrir se o user-agent pertence ao Safari, deve-se procurar a presença do Safari, mas não a presença do Chrome. Eu também estou supondo que isso precisa ser insensível a maiúsculas e minúsculas. Eu estou tentando fazer isso usando expressões regulares no Python sem posteriormente precisar percorrer grupos para corresponder seqüências de caracteres. Uma maneira […]