Я планирую использовать большой набор данных в сотни гигабайт в Amazon S3 / Athena, и у меня есть вопрос к опытным практикам относительно передовых методов хранения данных (с точки зрения затрат и производительности).
Мой набор данных строк содержит около 40 столбцов с элементами, похожими на числа, дату и строки. Мои запросы будут выполнять некоторые арифметические операции и группировку довольно часто.
Хорошая ли идея хранить все данные в виде строк? Какие плюсы и минусы такого подхода? (введение приведения и преобразования типов данных на лету при запросе)
или лучше сразу реализовать преобразования и хранить числа в числовом формате, даты в форматах timestmap и т. д.