Секреты науки о данных

Структуры данных в науке о данных

Структуры данных с примерами Python и R

Большинство новичков путаются с различными структурами данных, используемыми в Data Science. В этом посте я стремлюсь прояснить каждую структуру данных вместе с примерами как на R, так и на Python.

Что такое структура данных?

Структура данных используется для хранения данных в организованном порядке, чтобы сделать манипуляции с данными и другие операции с данными более эффективными.

Типы структур данных:

  1. Vector- это одна из основных структур данных, имеющая однородный характер. Это означает, что он содержит только элементы одного типа данных. Типы данных могут быть числовыми, целочисленными, символьными, сложными или логическими.

Как создать вектор в R:

В программировании на R функция c () используется для создания вектора. Принуждение происходит в векторе снизу вверх, если переданные элементы имеют разные типы данных.

Пример:

#Example 1
x <- c(44, 25, 64, 96, 30)
#Example 2
x2 <- c(1,TRUE, 2.3, "R")

Как создать вектор в Python:

В Python используйте функцию np.array () для создания вектора.

# Vector as row
vec_row = np.array([1, 2, 3])
vector_row
#Vector as column
vec_column = np.array([[1],
                       [2],
                       [3]])
vector_column

2. Матрица- Матрица - это двумерная структура данных, которая однородна по своей природе. Это означает, что он принимает только элементы одного типа данных. Принуждение происходит, если передаются элементы с разными типами данных.

Как создать матрицу в R:

В R он создается с помощью функции matrix (). Базовый синтаксис для создания матрицы:
matrix (data, nrow, ncol, byrow, dimnames)
где:

  • элемент ввода данных, заданный как вектор.
  • nrow- количество создаваемых строк.
  • ncol- количество создаваемых столбцов.
  • по строкам - расположение элементов по строкам, а не по столбцам.
  • dimnames - имена создаваемых столбцов / строк.

Пример:

M <- matrix(c(1:9), nrow = 5, ncol =5, byrow= TRUE)
M

Как создать матрицу в Python:

В Python используйте функцию np.mat () для создания матрицы.

Пример:

matrix = np.mat([[1, 2],
                [1, 2],
                [1, 2]])
matrix

3. Массив- Это многомерные структуры данных. В массиве данные хранятся в виде матриц, строк и столбцов. Мы можем использовать уровень матрицы, индекс строки и индекс столбца для доступа к элементам матрицы.

Как создать массив в R:

В R массив создается с помощью функции array (). Мы будем использовать векторы в качестве входных данных для этого примера.

vector1 <- c(10,12,40)
vector2 <- c(15,17,27)
output <- array(c(vector1,vector2),dim = c(2,2,2))
output

Как создать массив в Python:

В Python для создания массивов используйте квадратные скобки.

cars = ["Ford", "Volvo", "BMW"]
cars

4. Серии - это эксклюзивно для Python, особенно при работе с библиотекой Pandas. Это представляет собой одномерный помеченный массив, способный хранить данные любого типа (целые, строковые, с плавающей запятой, объекты python и т. д.). Метки осей вместе называются «индексом».

Как создать серию в Python:

сначала создайте массив с помощью функции array (). Затем передайте массив в качестве входных данных в серию с помощью функции Series ().

a = np.array(['g', 'e', 'e', 'k', 's'])
s = pd.Series(a)
s

5. Фрейм данных- Фрейм данных представляет собой двумерный массив, напоминающий таблицу. Каждый столбец содержит значения одной переменной, а каждая строка содержит один набор значений из каждого столбца. Данные, хранящиеся во фрейме данных, могут быть числовыми, множительными или символьными. Каждый столбец должен содержать одинаковое количество элементов данных.

Как создать фрейм данных в R:

Сначала создайте набор серии. Затем используйте функцию data.frame (), чтобы создать фрейм данных.

Пример:

series1 <- c(1:4)
series2 <- c("Sam","Rob","Max","John")
series3 <- c("Google","Apple","Microsoft","Amazon")
df.data <- data.frame(df1,df2,df3)
print(df.data)

Как создать фрейм данных в Python:

В Python набор серий называется фреймом данных. Мы используем библиотеку pandas для создания фрейма данных. Используйте функцию DataFrame, чтобы создать фрейм данных.

Пример:

cars = {'Brand': ['Honda Civic','Toyota Corolla','Ford Focus'],
        'Price': [22000,25000,27000,35000]
        }

df = pd.DataFrame(cars, columns = ['Brand', 'Price'])

print (df)

6. Таблица- Он просто создает табличные результаты категориальных переменных. IT обычно используется в R в эстетических целях.

Как создать таблицу в R:

Мы используем функцию table ().

output <- table(iris$Species,iris$Sepal.Length)
output

7. Фактор- Факторы используются в анализе данных для статистического моделирования. Они используются для категоризации категориальных переменных в столбцах, таких как «ИСТИНА», «ЛОЖЬ» и т. Д., И сохранения их в виде уровней. Они могут хранить как строки, так и целые числа. Факторы являются эксклюзивными для R.

Как создать фактор в R:
В R функция factor () используется для создания фактора и сохранения векторов в качестве входных данных.

Пример:

#Create a vector
x <- c("East","West","East","North","North","East","West")
# Apply the factor function.
factor_data <- factor(x)
print(x)
print(is.factor(x))

8. Список- Списки содержат элементы разных типов, например числа, строки, векторы и другой список внутри него. Список также может содержать в качестве элементов матрицу или функцию. Это упорядоченная и изменяемая коллекция (может быть изменена).

Примечание: он может содержать дубликаты.

Как создать список в R:

Список создается с помощью функции list ().

list1 <- list("Red", "Rita", c(21,32,11), TRUE, 51.23)
print(list1)

Как создать список в Python:

Это так же просто, как создать переменную, открыть квадратную скобку и ввести желаемые значения.

n = ["Red", "Rita", c(21,32,11), TRUE, 51.23]

9. Словарь- Он также называется хеш-картой и поддерживает произвольные ключи, а также значения. Ключи могут быть числами, числовыми векторами, строками, строковыми векторами. Он неупорядоченный, изменяемый и индексированный.

Примечание: он не содержит повторяющихся членов.

Как создать словарь на R:

Вам нужно использовать библиотеку, такую ​​как хэш, для создания словаря. Затем используйте функцию hash ().

# import library
library(hash)
# create empty dictionary
h <- hash() 
# set values
h[["1"]] <- 42
h[["foo"]] <- "bar"
h[["4"]] <- list(a=1, b=2)

Как создать словарь на Python:

Просто откройте фигурную скобку, определите ключ и введите значения.

{1: [1, 2, 3, 4], 'Name': 'Bill'}

10. Кортеж - это исключительно для Python. Он содержит упорядоченные и неизменяемые элементы. Кортеж может содержать любое количество элементов, и они могут быть разных типов (целые числа, числа с плавающей запятой, список, строка и т. Д.).

Примечание: он содержит повторяющиеся элементы.

Как создать кортеж в Python:

Просто создайте переменную, откройте скобку и введите значения.

tuple1 = ("apple",1, False)
print(tuple1)

Надеюсь, это устранит любые недоразумения относительно структур данных, используемых в науке о данных. Понимание структур данных - ключевой шаг к тому, чтобы стать специалистом по основным данным.

Свяжитесь со мной:

Facebook, Twitter, Quora, Youtube и Linkedin.