Articles of dataframe

Como comparar duas colunas do mesmo dataframe?

Eu tenho um dataframe assim: match_id inn1 bat bowl runs1 inn2 runs2 is_score_chased 1 1 KKR RCB 222 2 82 1 2 1 CSK KXIP 240 2 207 1 8 1 CSK MI 208 2 202 1 9 1 DC RR 214 2 217 1 33 1 KKR DC 204 2 181 1 Agora, quero […]

Python Localizar max na coluna dataframe para fazer um loop para encontrar todos os valores

Então eu tenho um grande dataframe, usando pandas. Quando faço max(df[‘A’]) ele reporta um máximo de 9999 quando deveria ser 396450 por observação. import numpy as numpy import pandas as pd f = open(“20170901.as-rel2.txt”, ‘r’) #read file into array, ignore first 6 lines lines = loadtxt(“20170901.as-rel2.txt”, dtype=’str’, comments=”#”, delimiter=”|”, unpack=False) #ignore col 4 lines=lines[:, :3] […]

Inserir o dataframe do Pandas na tabela Cassandra

A partir da documentação , há uma maneira de inserir dados na tabela: session.execute( “”” INSERT INTO users (name, credits, user_id) VALUES (%s, %s, %s) “””, (“John O’Reilly”, 42, uuid.uuid1()) ) O nome da coluna deve ser indicado lá. No entanto, no meu caso, eu tenho um dataframe que tem apenas uma linha de header […]

O que squeeze = True faz em groupby?

Eu achei doc diz reduzir a dimensionalidade do tipo de retorno, se possível, caso contrário, retornar um tipo consistente. df = pd.DataFrame( {‘a’: np.ones(4, dtype=’float32′), ‘b’: np.ones(4, dtype=’float32′), ‘c’: np.zeros(4, dtype=’float32′)}) df.groupby(df4.index,squeeze=True)[‘b’].sum() Eu não podia ver nenhuma mudança com ou sem squeeze.Pode alguém me explicar o propósito real de squeeze = True e por que […]

Distância euclidiana emparelhada com pandas ignorando NaNs

Eu começo com um dictionary, que é como meus dados já foram formatados: import pandas as pd dict2 = {‘A’: {‘a’:1.0, ‘b’:2.0, ‘d’:4.0}, ‘B’:{‘a’:2.0, ‘c’:2.0, ‘d’:5.0}, ‘C’:{‘b’:1.0,’c’:2.0, ‘d’:4.0}} Eu então converto para um dataframe pandas: df = pd.DataFrame(dict2) print(df) ABC a 1.0 2.0 NaN b 2.0 NaN 1.0 c NaN 2.0 2.0 d 4.0 5.0 […]

Como mesclar duas tabelas e transpor linhas para colunas

Eu tenho estas duas tabelas: T1 id xy 8 42 1.9 9 30 1.9 T2 id signal 8 55 8 56 8 59 9 57 9 58 9 60 O objective é obter a nova tabela T3: id xy s1 s2 s3 8 42 1.9 55 56 58 9 30 1.9 57 58 60 Se […]

Criando um novo nome de coluna com base em uma variável de loop e uma string adicional

Eu quero criar coluna de alteração de porcentagem para cada coluna que é um float no meu dataframe e armazená-lo em uma coluna newn cada vez com o nome da coluna inicial e adicionar em “_change” Eu tentei isso, mas não parece funcionar nenhuma idéia? for col in df.columns: if df[col].dtypes == “float”: df[ col&’_change’] […]

Adicionar coluna aos pandas sem headers

Como um acrescentar uma coluna de valores constantes para um dataframe pandas sem headers? Eu quero acrescentar a coluna no final. Com headers eu posso fazer assim: df[‘new’] = pd.Series([0 for x in range(len(df.index))], index=df.index)

Iterando através do Dataframe do Pandas para calcular com base nas condições

Para o DataFrame abaixo, preciso criar uma nova coluna ‘unit_count’, que é ‘unit’ / ‘count’ para cada ano e mês. No entanto, como cada ano e mês não são exclusivos, para cada input, só desejo usar a contagem de um determinado mês a partir da opção B. key UID count month option unit year 0 […]

Converter StringType para ArrayType no PySpark

Eu estou tentando executar o algoritmo FPGrowth no PySpark no meu DataSet. from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(itemsCol=”name”, minSupport=0.5,minConfidence=0.6) model = fpGrowth.fit(df) Eu estou recebendo o seguinte erro: An error occurred while calling o2139.fit. : java.lang.IllegalArgumentException: requirement failed: The input column must be ArrayType, but got StringType. at scala.Predef$.require(Predef.scala:224) Meu Dataframe df está no […]