Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W tym poście na blogu przyjrzymy się komunikowaniu badań i prezentowaniu tych wyników za pomocą notatników języka R. Mamy nadzieję, że to, co uzyskasz dzięki temu samouczkowi, będzie platformą do raportowania i komunikowania wszelkiego rodzaju wyników badań przy użyciu notatników języka R.
Ma to wiele zalet, zwłaszcza jeśli chodzi o ideę powtarzalnych badań . Omówimy, co to oznacza i jak to zrobić w notesach języka R.
Spis treści
Co to jest odtwarzalność?
Idea odtwarzalności polega na tym, że każdy może skontrolować twoje ustalenia, a biorąc pod uwagę dane wejściowe i zastosowane procesy, powinien być w stanie przejść przez całość. Istnieje kilka sposobów, w jakie wchodzi to w grę dla naszych potrzeb w zakresie analizy danych: środowisko, które sprawia, że rzeczy są odtwarzalne, upewniając się, że ludzie mogą zobaczyć, co zostało wniesione, możliwość łatwego audytu pliku i posiadanie powtarzalnego wydawcy.
Idealnie byłoby, gdyby ktoś mógł dokładnie zobaczyć, w jaki sposób dotarłeś do raportu i jak wygenerowano wykorzystany wykres lub tabelę, aby wszystko było w pełni odtwarzalnym środowisku.
Teraz możesz się zastanawiać, jak pasuje do tego coś takiego jak LuckyTemplates lub Excel . Powiedziałbym, że jest w połowie tego powtarzalnego przepływu pracy. Kiedy myślimy w szczególności o zapytaniu o moc , jest ono całkiem dobre pod względem odtwarzalności. Pomyśl o zastosowanych krokach , w których bardzo łatwo jest zobaczyć zaangażowane procesy.
Jeśli chodzi o wizualizacje i raporty, tutaj sprawy stają się nieco bardziej skomplikowane. Notatniki R są częścią RStudio. Mamy kurs w portalu LuckyTemplates, który pomoże Ci rozpocząć pracę. Ten dotyczy w szczególności R Markdown i R Notebooks .
Więc jeśli znasz notatnik Jupyter , pomysł polega na tym, że jesteśmy w stanie przeplatać tekst i kod, aby stworzyć dokument opowiadający historię dla naszych badań.
Będziemy mogli renderować te wyniki w wielu różnych wynikach. Niezależnie od tego, czy chcesz utworzyć plik PDF, czy renderować go do formatu HTML, notatników R można używać do różnych formatów plików.
Aby rozpocząć, otwórz notatnik R i przejdź do Plik, Nowy plik, a następnie Notatnik R w RStudio. Będziemy pracować ze starszym zbiorem danych w zasobach, z tym naprawdę prostym pytaniem badawczym:
Czy cena komputera w ogóle zależy od tego, czy ma on CD-ROM, czy nie?
To pytanie jest przestarzałe, ale wszyscy musimy od czegoś zacząć. Umieścimy również szkielet raportu badawczego i przedstawimy wyniki badań przy użyciu tych podstawowych ram.
Zobaczymy coś takiego w RStudio, a to jest tak zwany plik .rmd, który jest rozszerzeniem pliku R markdown. Może to być trochę irytujące, zwłaszcza jeśli nie jesteś do tego przyzwyczajony, ale istnieje sposób na podgląd dopracowanego produktu końcowego.
Ta część notatnika to metadane zwane plikiem YAML.
Po tej sekcji znajdują się teksty z tyłu, do których trafią twoje kody. Następnie jest część tekstowa dokumentu przy użyciu R Markdown . Jeśli korzystałeś już z Markdown, R Markdown jest bardzo podobny. Możemy używać gwiazdek i krzyżyków do oznaczania i renderowania naszych tekstów.
Przejdźmy do R Studio i R Notebooks, a następnie wspólnie przejrzyjmy tę analizę. Kliknij koło zębate i upewnij się, że jest napisane Podgląd w okienku przeglądarki .
Uruchamianie notatnika R
Klikniemy przycisk Podgląd i poprosi nas o zapisanie. Ponownie, jest to plik RMD, więc musimy go najpierw zapisać. W lewym okienku zobaczymy wyrenderowane dane wyjściowe. Teraz, gdybyśmy mieli coś tutaj zmienić i powiedzieć coś w rodzaju Analiza komputerowa i dodać nazwisko autora, takie jak George Mount , trzeba by to ująć w cudzysłów.
Gdy klikniemy Zapisz , automatycznie zaktualizuje się do tego.
Więc pobawmy się tym. Jest tu już kilka symboli zastępczych, co jest w porządku. Pierwszą rzeczą, którą zrobimy, będzie wpisanie „Czy płyta CD-ROM wpływa na cenę sprzedaży?” Kiedy to zapiszemy, będzie to Header1. Ale jeśli zamienimy to na dwa znaki krzyżyka, zmieni się to w Nagłówek2 i będzie mniejszy.
Następnym krokiem jest wprowadzenie , w którym możemy wpisać, dlaczego te rzeczy są ważne. Na przykład możemy powiedzieć, że CD-ROM jest następną najlepszą rzeczą lub coś w tym rodzaju. Jeśli pracujesz nad raportami konsumenckimi lub pracujesz w dziale marketingu, próbujesz zrozumieć, jakie funkcje są naprawdę ważne lub czego szukają konsumenci.
Wezwiemy pakiety R i zaczniemy. Jedyną fajną rzeczą, którą tutaj uwielbiam, jest to, że możemy faktycznie używać HTML w R Notebook. Na przykład, jeśli chcemy zostawić sobie komentarz, możemy zrobić coś takiego.
Kiedy to zapiszemy, w ogóle się nie wyświetla. Więc zostawiamy to jako komentarz dla siebie w tekście. Jest to coś, co chciałbym, abyśmy mogli robić w miejscach takich jak MS Word.
Przedstawiamy pakiety w notebookach R
Następnym krokiem jest użycie tutaj tego wykresu kodu i dodanie kilku ustawień. Możemy użyć Pythona i SQL, ale w tym przykładzie używamy języka R.
Przeczytamy wszystkie potrzebne pakiety. Jeśli nie masz ich na swoim komputerze, może być konieczne ich zainstalowanie.
Ponownie, nie jest to pełny raport. Przejdziemy przez szkielet, aby pokazać Ci kilka rzeczy, które warto wiedzieć o R Markdown.
Teraz przedstawimy, skąd czerpiemy nasze dane i dlaczego są one ważne. W tym przypadku moglibyśmy powiedzieć, że naszym źródłem jest Journal of Applied Econometrics. Kiedy zrobimy tę gwiazdkę, zmieni ją na kursywę.
Następnie odczytamy plik w Excelu i użyjemy R, aby go wprowadzić. Jak widać, dane już wyglądają całkiem dobrze, co jest kolejną fajną rzeczą w R Notebooks.
W zależności od formatu wyjściowego może to nawet się pojawić. Jeśli używasz HTML, użytkownik może przeglądać dane i wykonywać podstawowe czynności. To wspaniałe, że naprawdę możemy to robić w dokumentach na żywo.
Dodawanie dynamicznego odniesienia w notatnikach R
Załóżmy teraz, że chcemy dołączyć dynamiczne odniesienie do tekstu danych. Chcemy, aby to było regularnie aktualizowane, ponieważ może to nie być takie samo za każdym razem, gdy jesteśmy w raporcie, prawda? Więc utworzymy dynamiczne odniesienie tutaj w linii, bezpośrednio w tekście.
Istnieje ściągawka i przewodnik referencyjny dla wszystkich tych kodów. Przejdź do Pomocy i wybierz tę dla R Markdown, aby móc przejrzeć wszystkie różne ustawienia. Prawdopodobnie nie warto próbować ich zapamiętywać, ponieważ jest ich dużo i możesz po prostu użyć tego zamiast tego.
Ponownie wstawimy fragment R i dołączymy FALSE , nrows i ncols .
Gdy to zostanie uruchomione i wykonane, możemy nawet przejść do środowiska R, aby zobaczyć, czy zostało ono przekształcone w obiekty.
Kolejną fajną rzeczą jest to, że jeśli rzucasz pomysłami i chcesz wiedzieć, jak to będzie wyglądać, możesz po prostu użyć konsoli na dole. Możemy uruchomić go na konsoli i zobaczyć, jak wygląda wynik.
Wrócimy do naszego panelu przeglądarki. Teraz ta sekcja tutaj w ogóle nie pojawia się w raporcie. Jest to dobre, jeśli chcesz użyć jakiegoś obiektu, ale nie chcesz pokazywać żadnego kodu.
Używamy tych zwrotnych tekstów na nrows i ncols, aby zachować dynamikę. Jeśli masz raport w formacie PDF i musisz automatycznie zmieniać te liczby, zamiast kodować je na stałe tydzień po tygodniu, możesz skorzystać z tych wbudowanych odniesień.
Jesteśmy w trakcie ponownego przeglądania danych i sprawdzania ceny komputerów.
Po uruchomieniu tego kodu możemy zobaczyć statystyki opisowe, które są ładnie sformatowane. W zależności od rozmiaru danych jest dość responsywny i reaguje na rozmiar pliku.
Wniosek
W tym samouczku omówiliśmy znaczenie opracowywania powtarzalnych badań i usprawniania procesu komunikowania wyników badań za pomocą notesów języka R. W ten sposób możemy szybko i łatwo odtworzyć oryginalne wyniki i prześledzić wstecz, aby określić, w jaki sposób zostały uzyskane.
Uważaj na kontynuację tego samouczka w części 2 tej serii.
Jerzego Mounta
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.