R

R Programmeerhandleiding

R Programmeerhandleiding
Je wilt snel voor beginner tot expert R-programmeur?? R is een van de beste programmeertaal voor het werken met statistiek, wiskunde en datawetenschap. Deze tutorial helpt je om R te leren en je eerste machine learning-model te bouwen. Laten we beginnen.

R compileren en uitvoeren vanaf de opdrachtregel

De twee manieren om R-programma's uit te voeren zijn: een R-script, dat veel wordt gebruikt en de meeste voorkeur heeft, en de tweede is R CMD BATCH, het is geen veelgebruikte opdracht. We kunnen ze rechtstreeks vanaf de opdrachtregel of een andere taakplanner bellen.

Je kunt deze opdrachten mogelijk aanroepen vanuit een shell die in de IDE is ingebouwd en tegenwoordig wordt de RStudio IDE geleverd met tools die het R-script en de R CMD BATCH-functies verbeteren of beheren.

source() functie binnen R is een goed alternatief voor het gebruik van de opdrachtregel. Deze functie kan ook een script aanroepen, maar om deze functie te gebruiken, moet je binnen de R-omgeving zijn.

R Taal Ingebouwde datasets

Om de datasets weer te geven die zijn ingebouwd in R, gebruikt u de opdracht data() en zoekt u vervolgens wat u zoekt en gebruikt u de naam van de dataset in de functie data(). Vind ik leuk data (functienaam).

Toon datasets in R

Het vraagteken (?) kan worden gebruikt om hulp te vragen voor datasets.

Gebruik samenvatting () om alles te controleren.

Plot () is ook een functie die wordt gebruikt om grafieken te plotten.

Laten we een testscript maken en het uitvoeren. Aanmaken p1.R bestand en sla het op in de thuismap met de volgende inhoud:

Codevoorbeeld:

 # Eenvoudige hallo wereld-code in R print ("Hallo wereld!") print("LinuxHint") print(5+6) 

Hardlopen Hallo Wereld

R-gegevensframes

Voor het opslaan van gegevens in tabellen gebruiken we een structuur in R genaamd a Gegevensframe. Het wordt gebruikt om vectoren van gelijke lengte weer te geven. De volgende variabele nm is bijvoorbeeld een gegevensframe met drie vectoren x, y, z:

x = c(2, 3, 5) y = c("aa", "bb", "cc") z = c(TRUE, FALSE, TRUE) # nm is een dataframe nm = data.frame(n, s, b) 

Er is een concept genaamd IngebouwdDataframes ook in R. mtcars is zo'n ingebouwd dataframe in R, dat we als voorbeeld zullen gebruiken voor een beter begrip. Zie onderstaande code:

 > mtcars mpg cyl disp hp drat wt… Mazda RX4 21.0 6 160 110 3.90 2.62… bus RX4 Wag 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32… 

mtcars bulitin dataframe

De kop is de bovenste regel van de tabel die de kolomnamen bevat. Gegevensrijen worden gedoneerd door elke horizontale lijn; elke regel begint met de naam van de rij en wordt dan gevolgd door de feitelijke gegevens. Het gegevenslid van een rij wordt een cel genoemd.

We zouden de rij- en kolomcoördinaten invoeren in een enkele vierkante haak '[]'-operator om gegevens in een cel op te halen. Om de coördinaten te scheiden, gebruiken we een komma. De bestelling is essentieel. De coördinaat begint met rij, dan komma en eindigt dan met de kolom. Celwaarde van 2nd rij en 1st kolom wordt gegeven als:

 > mtcars[2, 2] [1] 6 

We kunnen ook rij- en kolomnaam gebruiken in plaats van coördinaten:

 > mtcars ["Bus RX4", "mpg"] [1] 6 

nrow-functie wordt gebruikt om het aantal rijen in het dataframe te vinden.

 > nrow(mtcars) # aantal gegevensrijen [1] 32 

ncol-functie wordt gebruikt om het aantal kolommen in een dataframe te vinden.

 > ncol(mtcars) # aantal kolommen [1] 11 

R Programmeerlussen

Onder sommige omstandigheden gebruiken we lussen wanneer we een deel van de code willen automatiseren, of als we een reeks instructies willen herhalen.

For-lus in R

Als we deze jaargegevens meer dan één keer willen afdrukken.

 print(paste("Het jaar is", 2000)) "Het jaar is 2000" print(paste("Het jaar is", 2001)) "Het jaar is 2001" print(paste("Het jaar is", 2002) ) "Het jaar is 2002" print(paste("Het jaar is", 2003)) "Het jaar is 2003" print(paste("Het jaar is", 2004)) "Het jaar is 2004" print(paste(" Het jaar is", 2005)) "Het jaar is 2005" 

In plaats van onze verklaring keer op keer te herhalen als we voor lus zal het veel gemakkelijker voor ons zijn. Soortgelijk:

 for (jaar in c(2000,2001,2002,2003,2004,2005)) print(paste("Het jaar is", jaar))  "Het jaar is 2000" "Het jaar is 2001" "Het jaar is 2002" "Het jaar is 2003" "Het jaar is 2004" "Het jaar is 2005" 

Terwijl lus in R

 while (uitdrukking)  statement  

Als het resultaat van expressie TRUE is, wordt de hoofdtekst van de lus ingevoerd. De instructies in de lus worden uitgevoerd en de stroom keert terug om de uitdrukking opnieuw te beoordelen. De lus herhaalt zichzelf totdat de uitdrukking FALSE evalueert, in welk geval de lus wordt afgesloten.

Voorbeeld van while-lus:

 # i wordt aanvankelijk geïnitialiseerd op 0 i = 0 terwijl (i<5)  print (i) i=i+1  Output: 0 1 2 3 4 

In de bovenstaande while-lus is de uitdrukking ik<5welke meet naar TRUE aangezien 0 kleiner is dan 5. Daarom wordt het lichaam van de lus uitgevoerd, en ik wordt uitgevoerd en verhoogd. Het is belangrijk om te verhogen ik binnen de lus, dus het zal op een of andere manier aan de voorwaarde voldoen. In de volgende lus, de waarde van ik is 1, en de lus gaat verder. Het zal zich herhalen totdat ik is gelijk aan 5 wanneer de voorwaarde 5<5 reached loop will give FALSE and the while loop will exit.

R-functies

om een ​​te maken functie we gebruiken de richtlijnfunctie (). In het bijzonder zijn het R-objecten van klasse functie.

f <- function()  ##some piece of instructions  

Met name functies kunnen worden doorgegeven aan andere functies omdat argumenten en functies kunnen worden genest, zodat u een functie binnen een andere functie kunt bepalen.

Functies kunnen optioneel enkele benoemde argumenten hebben die standaardwaarden hebben. Als u geen standaardwaarde wilt, kunt u de waarde instellen op NULL.

Enkele feiten over R-functieargumenten:

#Een functie definiëren: f <- function (x, y = 1, z = 2, s= NULL)   

Een logistisch regressiemodel maken met ingebouwde dataset

De glm() functie wordt gebruikt in R om de logistische regressie te passen. glm() functie is vergelijkbaar met de lm() maar glm() heeft enkele extra parameters. Het formaat ziet er als volgt uit:

 glm(X~Z1+Z2+Z3, family=binomiaal (link=”logit”), data=mijngegevens) 

X is afhankelijk van de waarden van Z1, Z2 en Z3. Wat betekent dat Z1, Z2 en Z3 onafhankelijke variabelen zijn en X de afhankelijke variabele is. Functie omvat een extra parameterfamilie en heeft een binomiale waarde (link = "logit"), wat betekent dat de linkfunctie logit is en de kansverdeling van het regressiemodel binomiaal is.

Stel we hebben een voorbeeld van een student waar hij toelating krijgt op basis van twee examenresultaten. De dataset bevat de volgende items:

Beste Linux-distributies voor gaming in 2021
Het Linux-besturingssysteem heeft een lange weg afgelegd van zijn oorspronkelijke, eenvoudige, servergebaseerde uiterlijk. Dit besturingssysteem is de...
Hoe u uw gamesessie op Linux kunt vastleggen en streamen
In het verleden werd het spelen van games alleen als een hobby beschouwd, maar met de tijd zag de game-industrie een enorme groei in termen van techno...
Beste spellen om te spelen met handtracking
Oculus Quest introduceerde onlangs het geweldige idee van handtracking zonder controllers. Met een steeds toenemend aantal games en activiteiten die f...