Gegevenswetenschap

Logistieke regressie in Python

Logistieke regressie in Python
Logistische regressie is een classificatiealgoritme voor machine learning learning. Logistische regressie is ook vergelijkbaar met lineaire regressie. Maar het belangrijkste verschil tussen logistische regressie en lineaire regressie is dat de uitvoerwaarden van de logistische regressie altijd binair (0, 1) en niet numeriek zijn. De logistische regressie creëert in feite een relatie tussen onafhankelijke variabelen (een of meer dan één) en afhankelijke variabelen. De afhankelijke variabele is een binaire variabele die meestal twee gevallen heeft:

Het belangrijkste belang van logistieke regressie:

  1. De onafhankelijke variabelen mogen geen multicollineariteit zijn; als er een relatie is, dan zou het heel weinig moeten zijn.
  2. De dataset voor de logistische regressie moet groot genoeg zijn om betere resultaten te krijgen.
  3. Alleen die attributen zouden in de dataset moeten staan, wat enige betekenis heeft.
  4. De onafhankelijke variabelen moeten in overeenstemming zijn met de kansen loggen.

Om het model van de . te bouwen logistische regressie, wij gebruiken de scikit-leren bibliotheek. Het proces van de logistische regressie in python wordt hieronder gegeven:

  1. Importeer alle vereiste pakketten voor de logistische regressie en andere bibliotheken.
  2. Upload de dataset.
  3. De onafhankelijke datasetvariabelen en afhankelijke variabelen begrijpen.
  4. Splits de dataset op in trainings- en testdata.
  5. Initialiseer het logistische regressiemodel.
  6. Pas het model aan met de trainingsdataset.
  7. Voorspel het model met behulp van de testgegevens en bereken de nauwkeurigheid van het model.

Probleem: De eerste stappen zijn het verzamelen van de dataset waarop we de willen toepassen Logistieke regressie. De dataset die we hier gaan gebruiken, is voor de MS-toelatingsdataset. Deze dataset heeft vier variabelen en waarvan drie onafhankelijke variabelen (GRE, GPA, work_experience), en één is een afhankelijke variabele (toegegeven). Deze dataset zal vertellen of de kandidaat al dan niet wordt toegelaten tot een prestigieuze universiteit op basis van hun GPA, GRE of werkervaring.

Stap 1: We importeren alle vereiste bibliotheken die we nodig hebben voor het python-programma.

Stap 2: Nu laden we onze ms-toegangsgegevensset met behulp van de read_csv pandas-functie.

Stap 3: De dataset ziet er als volgt uit:

Stap 4: We controleren alle beschikbare kolommen in de dataset en stellen vervolgens alle onafhankelijke variabelen in op variabele X en afhankelijke variabelen op y, zoals weergegeven in de onderstaande schermafbeelding.

Stap 5: Na het instellen van de onafhankelijke variabelen op X en de afhankelijke variabele op y, zijn we nu hier aan het afdrukken om X en y te controleren met behulp van de hoofdpanda's-functie.

Stap 6: Nu gaan we de hele dataset opdelen in training en test. Hiervoor gebruiken we de train_test_split methode van sklearn. We hebben 25% van de hele dataset aan de test gegeven en de resterende 75% van de dataset aan de training.

Stap 7: Nu gaan we de hele dataset opdelen in training en test. Hiervoor gebruiken we de train_test_split methode van sklearn. We hebben 25% van de hele dataset aan de test gegeven en de resterende 75% van de dataset aan de training.

Vervolgens maken we het Logistic Regression-model en passen we de trainingsgegevens aan.

Stap 8: Nu is ons model klaar voor voorspelling, dus we geven nu de testgegevens (X_test) door aan het model en hebben de resultaten gekregen. De resultaten laten zien (y_predictions) dat waarden 1 (toegelaten) en 0 (niet toegelaten).

Stap 9: Nu drukken we het classificatierapport en de verwarringsmatrix af.

Het classificatierapport laat zien dat het model de resultaten kan voorspellen met een nauwkeurigheid van 69%.
De verwarringsmatrix toont de totale X_test-gegevensdetails als:
TP = True Positives = 8
TN = echte negatieven = 61
FP = valse positieven = 4
FN = valse negatieven = 27

Dus de totale nauwkeurigheid volgens de verwarring_matrix is:

Nauwkeurigheid = (TP+TN)/Totaal = (8+61)/100 = 0.69

Stap 10: Nu gaan we het resultaat controleren via print. Dus we drukken gewoon de top 5 elementen van de X_test en y_test (werkelijke werkelijke waarde) af met behulp van de functie hoofdpanda's. Vervolgens printen we ook de top 5 resultaten van de voorspellingen zoals hieronder weergegeven:

We combineren alle drie de resultaten in een blad om de voorspellingen te begrijpen, zoals hieronder weergegeven:. We kunnen zien dat behalve de 341 X_test-gegevens, die waar waren (1), de voorspelling onwaar is (0) anders. Onze modelvoorspellingen werken dus 69%, zoals we hierboven al hebben laten zien.

Stap 11 : We begrijpen dus hoe de modelvoorspellingen worden gedaan op de onzichtbare dataset zoals X_test. Dus we hebben gewoon een willekeurig nieuwe dataset gemaakt met behulp van een panda-dataframe, deze doorgegeven aan het getrainde model en het onderstaande resultaat hebben gekregen.

De volledige code in python hieronder:

De code voor deze blog, samen met de dataset, is beschikbaar via de volgende link:
https://github.com/shekharpandey89/logistic-regression

Middelste muisknop werkt niet in Windows 10
De middelste muis knop helpt u door lange webpagina's en schermen met veel gegevens te bladeren. Als dat stopt, zul je uiteindelijk het toetsenbord ge...
Hoe de linker- en rechtermuisknop op Windows 10 pc te veranderen
Het is nogal een norm dat alle computermuisapparaten ergonomisch zijn ontworpen voor rechtshandige gebruikers. Maar er zijn muisapparaten beschikbaar ...
Emuleer muisklikken door te zweven met Clickless Mouse in Windows 10
Het gebruik van een muis of toetsenbord in de verkeerde houding of overmatig gebruik kan leiden tot veel gezondheidsproblemen, waaronder spanning, car...