Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - читать онлайн бесплатно, автор Никита Сергеев, ЛитПортал
bannerbanner
Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…
Добавить В библиотеку
Оценить:

Рейтинг: 4

Поделиться
Купить и скачать

Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…

На страницу:
4 из 4
Настройки чтения
Размер шрифта
Высота строк
Поля

4. В практике стоит различать три типа шкал для измерения переменных. Номинальная: шкала наименований – город, пол, профессия и т. д. Ординальная / порядковая: отражающая степень проявления какого-либо свойства, без точных измерений – высокий-низкий; больше-меньше; I – II – III место и т. д. Интервальная: отражает размерность или масштаб каждой переменной – доход, возраст в годах, расстояние и т. д.

5. Мы выдвигаем наши предположения / суждения (как в виде мнений или домыслов, так и опыта) в виде гипотез, которые потом проверяем цифрами и аналитикой. В статистике фигурируют две гипотезы. Нулевая гипотеза (H0), гласящая что закономерностей, взаимосвязей, различий в генеральной совокупности не существует – все что мы обнаружили всего лишь нелепая случайность в нашей выборке. И альтернативная (H1), которая гласит, что обнаруженные в выборке различия нельзя объяснить случайностью: они вероятнее всего имеют место и «материальны» в генеральной совокупности.

6. Практическая статистика оперирует не вероятностью наступления события (или истинности утверждения), а вероятностью ошибиться в случае применения обнаруженной закономерности ко всей генеральной совокупности. Самым страшным и критичным в анализе считается именно обнаружить закономерности, взаимосвязи или различия, которых на самом деле в генеральной совокупности не существует.

7. Все закономерности (взаимосвязи, различия), по которым вероятность ошибки относительно их отсутствия в генеральной совокупности менее 5% (менее 0,05), считаются статистически значимыми.

8. В социально-экономической реальности Вы редко будете встречать нормальное распределение. Оно будет скорее скошено вправо или влево, или очень сжато к оси ОХ или ОY. 90% жителей страны владеют 2% капитала, 2 певца забирают 95% популярности, 99% тиража всех книг приходится на 1% авторов и т. д.

КРАТКО О ПОДГОТОВКЕ МАССИВА ДАННЫХ ДЛЯ АНАЛИЗА

Что такое массив данных

Массивом данных для пользователей как мы с Вами по большому счету является таблица, в которую внесены данные. Главное: в массиве все данные по той или иной переменной должны соотноситься с конкретным случаем, объектом, процессом, явлением.

Строки таблицы – это случаи или объекты (ФИО, завод, филиал, клиент и т.д.).

Столбцы\Колонки – это наши переменные, то есть характеристики этих случаев или объектов (доход, % брака, возраст, пол, страна и т.д.).

Массивом для последующей аналитической обработки является «плоская» таблица (не сведенный отчет). См. рис. 18.


Рис. 18. Базовая структура массива данных


В массивах по строкам идут случаи / объекты / процессы (компания, дата замера, человек, клиент и т.д.), а по столбцам\колонкам – исследуемые переменные с их значениями для этих случаев / объектов / процессов по ячейкам.

В массиве не должно быть никаких объединений ячеек или по несколько разных переменных в одной ячейке. Каждая переменная – отдельная колонка и ее значение для каждого объекта / случая записывается в отдельную ячейку.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Вы ознакомились с фрагментом книги.
Приобретайте полный текст книги у нашего партнера:
На страницу:
4 из 4