Articles of scikit learn

Significado de abreviações de verbos verbosos em SVC, scikit-learn

Eu estou procurando o significado de abbriviations de log detalhado da function SVC em scikit-learn? Se nSV é o número de vetores de suporte, #iter é o número de iteração, que dose nBSV, rho, obj significa? Isto é um exemplo: import numpy as np from sklearn.svm import SVR sets=np.loadtxt(‘data\Exp Rot.txt’) # reading data model=SVR(kernel=’rbf’,C=100,gamma=1,max_iter=100000,verbose=True) model.fit(sets[:,:2],sets[:,2]) […]

Sklearn Chi2 para seleção de resources

Estou aprendendo sobre chi2 para seleção de resources e encontrei um código como este No entanto, minha compreensão do chi2 foi que escolors mais altos significam que o recurso é mais independente (e, portanto, menos útil ao modelo) e, portanto, estaríamos interessados ​​em resources com as pontuações mais baixas. No entanto, usando scikit aprende SelectKBest […]

Como selecionar múltiplas colunas (numéricas e texto) usando o sklearn Pipeline & FeatureUnion para sorting de texto?

Eu desenvolvi um modelo de texto para sorting multilabel. O modelo OneVsRestClassifier LinearSVC usa o sklearns Pipeline e o FeatureUnion para a preparação do modelo. Os principais resources de input consistem em uma coluna de texto chamada response mas também 5 probabilidades de tópico (geradas a partir de um Modelo de Tópico da LDA anterior) […]

Informações de Python ganham implementação

Atualmente estou usando o scikit-learn para sorting de texto no dataset 20ng. Eu quero calcular o ganho de informação para um dataset vetorizado. Foi-me sugerido que isso pode ser feito usando mutual_info_classif de sklearn. No entanto, este método é muito lento, então eu estava tentando implementar informações me ganhar com base neste post . Eu […]

Tentando converter um arquivo mp3 para um Numpy Array, e ffmpeg apenas trava

Estou trabalhando em uma metodologia de sorting musical com o Scikit-learn, e o primeiro passo nesse processo é converter um arquivo de música em um array numpy. Depois de tentar, sem sucesso, chamar o ffmpeg de um script python, decidi simplesmente enviar o arquivo diretamente: FFMPEG_BIN = “ffmpeg” cwd = (os.getcwd()) dcwd = (cwd + […]

Validação cruzada do SKLearn: Como passar informações sobre exemplos de dobra para minha function de apontador?

Eu estou tentando criar uma function de apontador personalizado para validação cruzada do meu modelo (sorting binária) em scikit-learn (Python). Alguns exemplos dos meus dados de teste brutos: Source Feature1 Feature2 Feature3 123 0.1 0.2 0.3 123 0.4 0.5 0.6 456 0.7 0.8 0.9 Supondo que qualquer dobra pode conter vários exemplos de teste que […]

Como criar meus próprios conjuntos de dados usando o scikit-learn?

Eu quero criar meus próprios conjuntos de dados e usá-lo no scikit-learn. O Scikit-learn tem alguns conjuntos de dados como ‘The Boston Housing Dataset’ (.csv), o usuário pode usá-lo por: from sklearn import datasets boston = datasets.load_boston() e os códigos abaixo podem obter os data e o target deste dataset: X = boston.data y = […]

Como serializar um CountVectorizer com uma function de tokenize personalizada com o joblib

Eu uso um CountVectorizer com um método de tokenize personalizado. Quando eu serializo, em seguida, desserializá-lo, recebo a seguinte mensagem de erro: AttributeError: module ‘__main__’ has no attribute ‘tokenize’ Como posso “serializar” o método tokenize ? Aqui está um pequeno exemplo: import nltk from nltk.stem.snowball import FrenchStemmer stemmer = FrenchStemmer() def stem_tokens(tokens, stemmer): stemmed = […]

GridSearchCV: imprime alguma expressão toda vez que uma function completa um loop

Suponha que você tenha alguma function em Python que funcione por looping: por exemplo, pode ser uma function que avalia uma certa expressão matemática, por exemplo x**2 , para todos os elementos de uma matriz, por exemplo ([1, 2, …, 100]) (obviamente, este é um exemplo de brinquedo). Seria possível escrever um código tal que, […]

Como obter precisão e pontuação f1 de cada dobra em GridSearchCV?

Estou usando o object GridSearchCV para treinar um classificador. Eu configurei a pesquisa de parâmetro de validação 5 vezes e depois de chamar fit (), preciso ver as métricas para o conjunto de validações de cada dobra, ou seja, precisão e pontuação de f1. Como posso fazer isso? clf = GridSearchCV(pipeline, param_grid=param_grid, n_jobs=1, cv=5, compute_training_score=True) […]