Telegram Group Search
Open Forensic Science in R 🔍

Одно из не совсем обычных приложений языка R - использование в (криминалистической) судебной экспертизе. Книга Open Forensic Science in R знакомит читателей с самыми различными аспектами судебной экспертизы с применением языка R: извлечение сигнатуры пули, маркировки гильзы, детализации отпечатков пальцев, отпечатков подошвы обуви, принятия решений в задачах судебно-медицинской идентификации и т.д.

Конечно, какие-то исследования имеют региональную особенность (например, зависимы от справочных баз) и не годятся для стран, кроме США, но подходы, используемые в онлайн-книге, могут быть полезны для решения вопросов экспертизы. Хотелось бы иметь подобную книгу и для экспертизы пожаров (с аспектами в аналитической химии) + Python-версию аналогичных изданий.
R for the Raspberry Pi 🍓

Этот пост для тех, кто любит мастерить руками и неравнодушен к R. Сайт R for the Raspberry Pi предоставляет актуальные сборки R и инструкции по установке R и библиотек. Отмечу, что для работы с Shiny лучше использовать более мощные версии "малинок".

Где и как можно использовать R на Pi? Например, Юрий Тукачев написал небольшую статью по использованию R на Raspberry PI Zero W для мониторинга погоды, что отображается на замечательном Datawrapper-дэшборде.

А в статье R Waters My Garden описано совершенно чудесное использование Pi и R... для спринклерной системы, которую построил Mark Niemann-Ross на R: она проверяет прогноз погоды, а затем решает, когда поливать сад! (см. также R Meets Hardware).

Большое спасибо Юрию Тукачеву за консультацию при подготовке материала!
Различные исторические версии R

Я считаю, что для индивидуальных целей нет причин не устанавливать последнюю версию R, но... вдруг вам необходимо тестирование библиотек или у вас тот редкий случай, когда библиотека работает на старой версии R. Здесь можно указать несколько возможностей.

1. Экспериментальный проект Run historical R versions on today’s computers, в котором ежедневно публикуются docker-снимки CRAN, начиная с самого начала и до сегодняшнего дня.

2. Проект rig позволяет устанавливать несколько версий R одновременно, причем в macOS можно в RStudio переключать версии, однако необходимо детально разбираться с установкой.

3. Если важно сделать полностью воспроизводимое изолированное окружение, гарантирующее воспроизводимость библиотек и отсутствие необъявленных зависимостей, то тут поможет Nix и R-библиотека rix на его основе. Создатель библиотеки Bruno Rodrigues, в частности, записал видео Nix for R users with {rix} - running an old project with an old R and old packages.
Интересное за неделю

▪️ В блоге, который ведет Kyle Walker можно взглянуть, как с помощью библиотеки rdeck (интерфейс R для Deck.gl) можно визуализировать 3D-представление по зданиям в Сан-Франциско. Выглядит потрясающе, но воспроизвести у меня, увы, не удается, как и пример с изохронами. Если у кого-то получится зарегистрировать API Key, который работает с mapboxapi-семейством R-библиотек - напишите в комментариях.

▪️ Довольно интересно взглянуть на Hands-On Mathematical Optimization with Python - набор ноутбуков для одноименной книги, которая выйдет в издательстве Cambridge University press в 2024 году.

▪️ Коллеги подсказывают, что Geoff Boeing выпустил бета-версию 2.0 своей известной Python библиотеки OSMnx, позволяющей загружать, анализировать и визуализировать данные по дорожно-транспортным сетям и другим геопространственным объектам из OpenStreetMap.

▪️ Josiah Parry написал статью Encoding spatial patterns as variables. Principal Coordinate Analysis & Moran Eigenvectors для всех интересующихся моделированием данных, демонстрирующих пространственную зависимость. Для введения в данную тему рекомендую книги Spatial Statistics for Data Science: Theory and Practice with R и Визуализация и анализ географических данных на языке R.

▪️ Библиотека terra будет использовать в последующих версиях по умолчанию цветовую палитру viridis, а tmap ожидает ждет интеграция с deck.gl и 3D-слои.

▪️ keras3 обновили до версии 1.0.0. Про torch тоже не забыли.

▪️ Andrew Heiss перевел свой курс Data Visualization with R на webR.

Видео:

▪️ Equal-Effects Meta-Analysis | Theory and Application in R [данные + код] (Matthew B. Jané)

▪️ Publishing Quarto Dashboards for FREE using GitHub Actions and GitHub Pages (Melissa Van Bussel)

▪️ How to securely store passwords as environment variables using GitHub Actions (Melissa Van Bussel)

▪️ How To Create Interactive Maps with R | Step-By-Step Tutorial [+руководство] (Albert Rapp)

▪️Debugging in R [Salt Lake City R Users Group]

▪️Generating and classifying bootstrap replicates with test driven development (Pat Schloss)
Когда один образ лучше тысячи слов

Коллега показал мне книгу Погружение в аналитику данных. От Excel к Python и R (автор Джордж Маунт). Я ее полистал, закрыл... Может, книга будет для кого-то хороша и полезна, но я понял, что картинка выше будет лучше любой рецензии.

Всем хороших выходных! 👋
ALA Labs 🦜

Веб-сайт ALA (Atlas of Living Australia) Labs - замечательный пример использования языка R для научных исследований.

Сайт содержит интересные проекты, в частности, блог на основе Quarto, в котором множество примеров решения (макро-)экологических задач, а также задач природоохранной биологии на основе данных о биоразнообразии, размещенных в Атласе живой Австралии.

Исследования выделяет прекрасная визуализация и построение геопространственных моделей.
This media is not supported in your browser
VIEW IN TELEGRAM
Уважаемые коллеги, я уехал в Москву на мероприятие (я уже в Москве), затем буду в отпуске (но буду стараться держать в курсе интересных событий). ✈️

Всем хорошо покодить и отлично отдохнуть!

Е.Н.

Незаметно присоединяйтесь!
Каналу Наука и данные 1 год 🎉

Уважаемые коллеги, друзья, ровно год тому назад я создал TG-канал Наука и данные. Интересные новости из мира компьютерных технологий идут из разных источников и мне понадобилась записная книжка, в которой ссылки сочетались бы с понятным повествовательным текстом-объяснением. В основном новости и находки касаются языка программирования R, который мне очень нравится.

У нас с вами большая 1K+ аудитория, которая объединяет всех: от студентов до начальников научно-учебных комплексов, от экономистов и биологов до гидрологов и даже детских хирургов. Все это связано с универсальностью прикладных решений языка R, наличием хорошей литературы и замечательным дружелюбным сообществом.

Мой канал - не самоцель, а увлечение, мне очень приятно, что какие-то записи этого мини-блога (как и веб-страницы НиД) помогают в решении ваших научных задач.

Я хочу пожелать всем здоровья, не пропустите лето, больше встречайтесь друг с другом и читайте только самое лучшее!

Е.Н.
Что запомнилось на этой неделе?

▫️ Несомненно, первое - это анонс DuckDB 1.0.0, у компании интересный новостной блог, есть что почитать.

▫️ На CRAN появился отдельный раздел, посвященный дистанционному зондированию Земли (можно также напомнить про обзор инструментов по ДЗЗ в R).

▫️ Mickaël CANOUIL сделал новый сайт для расширений Quarto, выглядит очень эффектно, мне как-то ближе официальный вариант с разбивкой по категориям. Например, обновилось расширение для подсчета количества слов в Quarto-документах (автор Andrew Heiss).

▫️ Emil Hvitfeldt оформил отдельной страницей Slidecraft 101 свои наработки, касающиеся презентаций на Quarto.

▫️ Новый интерфейс для R-universe выглядит прекрасно: пример 1 + пример 2 + пример 3 + пример 4.

▫️ Nicola Rennie написала статью, которую следует отметить отдельно: Creating R tutorial worksheets (with and without solutions) using Quarto. Статья будет интересна для преподавателей. С помощью парметризированных отчетов можно создавать две версии учебных материалов - с вопросами для учащихся и решениями или без них. Остался один шажок для полной реализации учебного цикла на Quarto - нужна возможность сбора ответов от студентов, вот тогда будет 👌.

▫️ Повестка useR! Virtual Event выглядит очень многообещающе.

▫️ ggplot2-значки придут в библиотеку tmap для создания тематических карт.

▫️ Разобраться с Docker поможет статья How to add a Docker image to your R project to improve reproducibility

▫️ Для меня стало небольшим открытием наличие библиотеки tidylog для расшифровки пошагового логирования tidyverse-глаголов, иногда такая штука может быть полезной в процессе обучения tidyverse.

▫️ Thomas Lin Pedersen создал библиотеку {marquee} для форматирования текстовых элементов в {ggplot2} и R-графики в целом. Требует R версии > 4.3.

▫️ Kieran Healy начал работу над вторым изданием книги Data Visualization и уже рассказывает о некоторых вещах, которые хочет включить в новое издание, очень красивые карты.

▫️ R Packages: Q&A with Jenny Bryan and Jon Harmon - видеоинтервью с Jenny Bryan.

▫️ Анонсирован NumPy 2.0.0, включающий как новые возможности и улучшение производительности, так и многое другое.

▫️ Physics-Based Simulation - книга, где алгоритмы физического моделирования сочетаются с Python-кодом.
♥️

Лучше всего для пятничной картинки подойдет рисунок Cosima Meyer, репозиторий которой содержит иллюстрации к различным Data Science явлениям и портреты женщин-статистиков и программистов. Немного напоминает работы, которые делает Julia Evans или Allison Horst.
Shiny apps for demystifying statistical models and methods 💡

Ben Prytherch преподает в Colorado State University, Department of Statistics. Бен реализовал несколько визуальных идей для преподавания статистики, например, как выглядит ANOVA со смешанными эффектами, логистическая регрессия и т.д.

Сюжеты в его Shiny-приложениях мотивированы картинками, которые он рисует, когда студенты задают вопросы, на которые трудно ответить словами. Цель этих приложений - продемонстрировать, как работают статистические методы и модели, используя визуализацию данных.
2024 Posit Table Contest - Melissa Van Bussel

Melissa Van Bussel участвует в конкурсе Posit Table Contest 2024 📊, о сути которого на канале была небольшая запись. У нее есть все шансы на победу, поскольку ее дэшборд выглядит и вправду красиво (в РФ, возможно, понадобится VPN для полного отображения).

Идея проекта состоит в реализации чарта Top Spotify, который ежедневно обновляется. Мелисса использует такие инструменты, как httr2, Shiny, GitHub Actions, отмечу ее интересный YouTube-канал.

📽️ Плейлист с видео-руководством

📦 Репозиторий

Дэшборд
🔥 Achim Zeileis (Universität Innsbruck) опубликовал классную новость: все библиотеки CRAN получат собственный код DOI!
The 10th anniversary of the New York R Conference 🚀

Lander Analytics выложили видео с 10-й юбилейной конференции, посвященной языку R.

Список спикеров есть на сайте конференции, а сами видео на YouTube-канале Lander Analytics.

Легендарные докладчики, отличный материал, осталось только найти время все это посмотреть! 👍
Архивация библиотек CRAN

1. С недавнего времени на странице любой библиотеки CRAN можно увидеть информацию о проблемах, которые необходимо устранить до определенной даты чтобы избежать архивации (как на скриншоте). Это означает, что не только разработчик получает предупреждение, но и сообщество может заранее узнать, есть ли риск того, что библиотека будет заархивирована.

2. Увидеть информацию по конкретной библиотеке R можно в списке библиотек в зоне риска или так:


db <- tools::CRAN_package_db()
subset(db, Package == "geoarrow", select = "Deadline")
#> Deadline
#> 6697 2024-06-15


3. Список недавно заархивированных библиотек есть на сайте Dashboard: Recently Archived CRAN Packages
A User’s Guide to Statistical Inference and Regression

По линейной регрессии существует просто огромное количество различной литературы, начиная от фундаментальной монографии Прикладной регрессионный анализ (Н. Дрейпер, Г. Смит), заканчивая, скажем, Handbook of Regression Modeling in People Analytics: With Examples in R, Python and Julia by Keith McNulty. Кажется, что любой учебник по статистике непременно содержит главу по регрессии.

Книга A User’s Guide to Statistical Inference and Regression, которую написал Matthew Blackwell (Harvard University) содержит классический материал, основанный на исправленном переиздании 2002 года курса для аспирантов и прикладных исследователей. Книга была дополнена новой первой главой Design-based Inference. Материал хорошо написан и проиллюстрирован, стиль изложения очень близок к лекционному. PDF-версия книги также доступна.
SDS 779: The Tidyverse of Essential R Libraries and their Python Analogues, with Dr. Hadley Wickham 🔥

Dr. Hadley Wickham (Chief Scientist at Posit PBC) не нуждается в представлении, его всегда очень интересно послушать. В SuperDataScience Podcast он размышляет о том, как далеко продвинулась наука о данных с точки зрения функциональности, рассказывает о любимых библиотеках, R vs Python и многом другом. Можно почитать краткое содержание интервью или посмотреть полный вариант.

useR! Conference опубликовали видео Ask Hadley Anything, в котором была уникальная возможность задать вопросы живой легенде.

Стоит также порекомендовать еще один интересный доклад: R in Production (Hadley Wickham). R-Ladies Rome (English) talk и аналогичный доклад R in Production на конференции NYR 10.
Небольшой недельный дайджест

Quarto перешел в разряд Release Candidate, новые функциональные возможности можно посмотреть в предварительном релиз-документе.

Emil Hvitfeldt не перестает удивлять красотой презентаций на Quarto, его последний проект называется Branded Quarto.

James Balamuta совершенствует webR и выпустил библиотеку {panelize} для обработки интерактивных ячеек с кодом в Quarto.

● Как строить прогнозы временных рядов на основе регрессионных моделей, в которых изменяются во времени сезонные закономерности? Здесь могут помочь динамические обобщенные аддитивные модели из статьи Incorporating time-varying seasonality in forecast models замечательного блога GAMbler.

● Видео Personal R Administration (+презентация) показывает советы, варианты настройки и некоторые хаки для создания сред разработки в области R-Data Science.

● Напомню, что проект rig хорош для использования нескольких версий R, но оказывается Bob Rudis сделал для пользователей macOS небольшую утилиту RSwitch для переключения версий R.

● Одна из полезнейших библиотек santoku 🔪 для "нарезки данных", а точнее - замена base::cut() (этот пост хорошо описывает возможности) обновилась до версии 1.0.

Rami Krispin опубликовал материалы Setting Up a Dockerized R Development Environment with VScode для R/Medicine 2024 conference.
--
Я немного неравнодушен к визуализации данных и философии (и антропологии) искусства, поэтому с огромным удовольствием посмотрел в прямом эфире митап Data Art-сообщества Цветы & Цифры. Спасибо Наталье Киселевой за столь замечательное уникальное движение!
Уважаемые коллеги, у меня сегодня юбилей 🎉 (даже самому не верится, но время делает свое дело).

Для тех, кто читает и поддерживает канал или просто заскочил на минутку, скажу, что мне всегда приятно делиться интересными находками или идеями 💡, общаться с вами, пусть и виртуально. Да я и сам за последний год существенно расширил свой кругозор и познакомился со множеством незаурядных коллег! Большое спасибо вам!

Здорово то, что этот проект сумел объединить многих людей независимо от того, где они находятся или чем занимаются в жизни, ну а самая главная ценность для нас - это наша семья, наши дети.

Поскольку я именинник, с меня небольшой подарок 📦. 👇
Где можно найти книги по Data Science? 📔

Лето как нельзя лучше подходит для факультативного чтения и освоения новых технологий с помощью литературы.

На канале Наука и данные уже было множество различных подборок и обзоров книг, в основном новинок и каких-то уже достаточно разработанных и опробованных материалов. Но что, если не хватает этого многообразия, хочется полистать дополнительную литературу из открытых источников?

Подскажу три больших коллекции, а вы уже посмотрите:

1. Big Book of R

2. Free Online Data Science E-Books

3. BOOKDOWN

Если хотите погрузиться в изучение ML-моделей на R, загляните на эту страничку, а за событиями и конференциями по R можно следить на этой странице.
2024/06/15 13:26:35
Back to Top
HTML Embed Code: