Post

追求有趣味的每一周-002

追求有趣味的每一周-002

主題曲

這張專輯是星期二 Spotify 主頁推薦給我的,《不穩定的規律/有序混亂》這名字一下子就吸引到我。

誰說我自己的生活不是如此呢?構築很多的規律,依然在混亂之中徘徊。

其中最喜歡的一首《睡蓮裡》一連循環聽了好多天,這星期的日子過得也如歌曲開頭描繪得那般,夜夜在散步時飲酒,看著地面的光:

1
2
3
4
5
6
7
8
9
潮濕的地面印著光,

像睡蓮開在路上,

就映照在酒杯上,

推杯換盞叮叮噹噹。

有趣工具

Aspera Connect

工具地址:AsperaConnect ✨

很久沒有下載公共數據了,發現已經更新換代到有比 sra-tools 更快的工具。安裝流程紀錄一下以便於後續在其它機器上直接抄:

1
2
mamba create --name ncbi_fetch bioconda::sra-tools hcc::aspera-cli
mamba activate ncbi_fetch

接下來是最最最 tricky 的腳本書寫。網上有很多不同的寫法,但大多都是過時的,試了很多錯⋯⋯

  • 當 NCBI 下載的 SRR_Acc_List.txt 中是以 SRR 開頭的列表時,對於所有後接 7 位及以上(我想下的數據是 8 位數),都需要在下載源路徑中間加上 /006/ ;而不論是幾位,前面路徑提取的位數都為 SRR 及其後 3 位。奇怪的抓取數據的方法。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
      list_file=${SRR_Acc_List.txt} # SRR list downloaded from NCBI, rename it
      dt_dir=${output_directory} # Replace it with the output directory
      cat ${list_file} | while read id
      do
              x=$(echo $id | cut -b1-6)
              echo ${id}
              echo ${x}
              ascp -QT -l 300m -P33001  -i \
              ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
              era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/${x}/006/${id}/ ${dt_dir}
      done
    
  • 當 NCBI 下載的 SRR_Acc_List.txt 中是以 ERR 開頭的列表時,對於後接 6 位直接用 x=$(echo $id | cut -b1-6) 然後使用 /vol1/fastq/$x/$id/ 的源路徑,但如果是 6 位及以上(沒錯,我又踩到雷了,我想下的是 7 位),則需要改變 x 的提取方式:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
      list_file=${SRR_Acc_List.txt} # SRR list downloaded from NCBI, rename it
      dt_dir=${output_directory} # Replace it with the output directory
      cat ${list_file} | while read id
      do
              x=$(echo $id | cut -b1-7)
              echo ${id}
              echo ${x}
              ascp -QT -l 300m -P33001  -i \
              ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
              era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/$x/$id/ ${dt_dir}
      done
    

但這兩個腳本不是一定會成功的,因為有一些 7 位的實際上並沒有以這種方式存儲。目前還沒有找到那些不成功的數據,具體應該用什麼樣的方式才能快速下載。

最後還是用老辦法 prefetch 來解決了,腳本如下:

1
2
3
list_file=${SRR_Acc_List.txt} # SRR list downloaded from NCBI, rename it
dt_dir=${output_directory} # Replace it with the output directory
prefetch --option-file ${list_file} --output-directory ${dt_dir}

但是 aspera 下載數據的速度真的遠遠勝過 preftech ,可以考慮一下用它來做其它的大型數據傳輸工作,比如不同 server 之間的數據拷貝。

AIDente - 減少電池充放電循環次數

工具地址:AIDente ✨

在 release 中下載了免費版進行嘗試,希望能夠通過達到閾值後,直接通過外部電源供電而不經過內部電池充放電供電。指引中的第一個頁面說得好有創意:

f9ac5a01e0f3894a084403eb6d6d2c45.JPG

不過試用時,稍微感覺有一點擔心,在「電池沒有在充電」階段,會感覺到電腦有超過平時的發熱手感,不確定會否影響到電腦其它部位的壽命(?),準備再觀察一段時間,控制變量地探索一下這種感受到的發熱是否是真的。

有趣網站

Virtual Ocean - 網頁版海洋白噪音,可疊加

virtocean ✨

截屏2025-04-18 09.27.10.png

不需要註冊就可以使用,而且各種類型的水聲可以疊加,找到讓自己感覺最舒服的組合,比流媒體上搜白噪音更方便。喜歡。

Kaggle - 用 Python 學點基礎的機器學習

Kaggle ✨

課程的學習分為三個層級:針對初學者/有一定基礎的人/高級進階。

image.png

所有的運行都在網頁版上完成,在學習過程中能夠省去配置環境的麻煩事,相對來說便利了不少。略有不足的是,加載起來會比本地慢挺多。

這兩年用 Python 的頻率比本科時候低了太多,有很多語法也忘得七七八八,正好一邊複習,一邊學一些和機器學習相關的包和函數的調用。

本週進度:已經複習完 Python 各類語法,下週開始可以學習 ML 相關的內容了。

musicForProgramming(); - 完美的 UI / 聽不下去的音樂

musicForProgramming();

截屏2025-04-11 15.23.19.png

一個選給適配寫代碼的音樂播放器,字符型的界面令人眼前一亮,左側按鍵也非常有 CD 機的感覺,好喜歡這種設計。但是這一類電子樂的音樂風格接受無能⋯⋯感覺在攻擊我的大腦皮層(?)如果能扒下來源碼,替代成自己喜歡的音樂就好了。

24h 臨時收發郵件的郵箱

snapmail ✨

image.png

隨機刷新出一個郵箱,可以在 24h 內收發郵件。某些網站只能註冊帳號才能訪問或使用基礎功能,以後可以考慮用這個來完成註冊。要是早些時日知道這就好了,現在根本不敢打開 gmail,完全被各種廣告包圍。

Cilisousuo - 磁力搜索

cilisousuo ✨

截屏2025-04-18 09.29.25.png

很好記的域名,嘗試搜了一下前不久剛看完的 Severance 有很多 2k 質量的資源。點開以後界面也很簡潔易用。之前嘗試過幾種不同的種子網站,大多都很醜陋,而且各種引導性的訪問也容易讓人頭疼。這個看起來舒適很多。馬上要播 Black Mirror 新一季了,試用一下~

有趣論文

代謝物通路富集的問題

Metabolites are not genes — avoiding the misuse of pathway analysis in metabolomics

做上一個項目時,已經發現代謝物的差異分析和通路分析實操起來非常離譜了,不論是簡單粗暴的統計學檢驗,差異 cutoff 的選擇,還是大量丟失的 annotations,都使得整個通路探索的進程變得不客觀。在後一個項目再一次涉及到代謝物方面的數據時,查閱了很多資料來規避之前遇到的問題,也放棄了通過注釋本身對通路進行展示的做法,倒是誤打誤撞和這篇文章的觀點不謀而合了。

這篇提出的幾個點主要在於:

  • 當某條路徑上調時,參與此路徑的所有基因都會產生更多的拷貝;在線性生物合成途徑中,代謝物水平在調節過程中表現出較低的連貫性。上調可能會增加最終產品的豐度,而中間水平保持不變,只有其周轉率增加(由較粗的箭頭表示)。
  • 增加的途徑活性可能會被高代謝物輸出率所掩蓋,因為產量增加的代謝物可能會被迅速運出細胞,以維持正常的生理濃度並發揮生物學功能。
  • 代謝物經常在器官和組織之間運輸,因此代謝濃度並不能反映特定基因的活性。
  • 單一代謝物可由多種代謝活動產生並發揮多種功能。
  • 基於 MS 的代謝組學代謝組覆蓋不完整,以及其他定量和註釋挑戰。

不過個人感覺,這篇將基因拷貝和功能的變化作為一種對比參考,說得太過絕對了。實際上,大家都是一樣「混亂邪惡」~

Community-scale 的微生物研究面臨的問題

Moving from genome-scale to community-scale metabolic models for the human gut microbiome

正在做實驗的那個項目,在前期 argue 了很多次,才最終得以保留 community-scale 的分析,其中各種 weights 和 represents 的選擇,也經歷了好幾輪考察和修改。但是最後落腳在實驗上,卻沒有任何辦法把這種相對系統的思維延續下去,還是不得不進行所謂的單變量還原論的驗證。

這篇文章站在代謝的角度,提出要以基因組水平的代謝模型(GEM)整合成微生物群落規模代謝模型(MCMM),來重構微生物群落活動。這個角度真的非常系統生物學,喜歡了!

不過 MCMM 能夠整合的 GEM,是依賴於實驗室條件下觀測特定微生物的代謝通量(flux)來構建的話,跟環境(尤其是體內環境)之間可能的交互其實是無法衡量的;當存在多種微生物的時候,除了代謝物質之間的流通以外,還會存在互相分泌和接收 quorum sensing 物質的情況,從而干擾文章中說的代謝物對“最大化生物量”這一模型指標的貢獻(可能?)。不過這些應該是專門做模型的人應該考慮的問題,我一外行也無從下手修改什麼。

不知道用不用得上,畢竟現在手頭甚至連一份宏基因組數據都沒有⋯⋯好悲傷的現狀。思路是我所喜歡的所以先 mark 一下。

其它思考

代碼復現/復用實例

上週思考的內容,在這週有意識地進行了留意和篩選,最終確定了 Nature Genetics 上的這篇文章進行實戰練習:Longitudinal single-cell multiomic atlas of high-risk neuroblastoma reveals chemotherapy-induced tumor microenvironment rewiring

選擇時考慮的點主要在於:

  • 我之前已經接觸過 snRNA-seq 的數據,在嘗試跑流程整合 snATAC-seq 時有過一次失敗經歷,那次訓練在日後也沒有機會重新理解原因、修正問題,而這篇文章剛好也提供了這兩種數據,並且提供了開源代碼,我可以在復現他們研究的過程中,回過頭看過去那次訓練為何失敗;
  • 這篇文章的研究對象是神經母細胞瘤,算是我這一年感興趣的神經-免疫-腫瘤三者的 crosstalk 研究的範例,可能可以為我後續理解相關文章提供經驗支持;
  • 文章的結論落腳點在 ERK 通路上,我上一個項目的落腳點也與此有關,可以通過他們在通路分析上採用的方式方法和篩選推理,來對照檢查我對自己項目的通路分析。

兩天後的更新:被現實打回來了,除了 snRNA-seq 以外,其它數據需要通過 organization 申請,個人無獲取權限。

不過找到了前面論文時因沒有數據而感覺悲哀的補救——胃部組織的宏碁因組測序數據。很難得,絕大部分人體微生態的宏碁因組測序都是用人類糞便檢測腸道生態的,很少見到真的做了胃部組織的。數據很大,下載和分割已經做了兩天,希望下週可以開始實操。

完善他人已基本完成的工作時的心態問題

改導師的文章和返修意見的過程中,每時每刻都像是有什麼在內臟中燃燒但卻不能表現出來的壓抑感。為了出圖而寫代碼時,可能因為目的是明確的,沒有那麼嚴重的不適感;但是改文字的時候,逐漸感覺呼吸也困難起來。導師批評我時問我:“為什麼你不能把它當成自己的項目來對待?”我回答不上來,因為我也不知道。

在做自己的項目時,無論是找方向、寫代碼、優化圖、做匯報還是寫文章,感覺都是自然而流暢的。也會有遇到困難卡殼的時候,但大多是因為面臨一些具體的問題,而不是面對無法理解的情緒。

我無法確定,這種煩躁感,究竟是因為我不能方方面面了解透整個 project 卻要裝作了解地闡述它而不安,還是因為我不喜歡這個 project 本身的思路而感覺在到做自己不喜歡的事情。也許兩方面的原因都有。

但是仔細一想,絕大部分工作都是和這件事一樣的性質。進入一份工作的人,都需要在其他人已經完成了很大一部分的基礎上去完善或拓展,而剛進入工作的時候,對那些大型項目,其實也很難透徹地了解到構建的方方面面,基本也都是從被指派的任務做起。那麼,大家是如何對待這些加諸己身的事項的呢?為什麼我看起來完全沒有辦法接受這種情況?

一次塔羅

一直都只是抱著看看玩玩的態度對待玄學,但直覺指引下莫名其妙想抽次牌,抽牌網站是隨便找的,牌組解讀是交由 DeepSeek 的(過去沒跟 DS 聊過天)。但解出來準確得有點震驚到我了:

Picsew_20250418102315

當前階段確實完全在因為重複性工作而處於「被動接收但難以滿足」的狀態,持續地感受著壓抑。而未來發展的可能裏,用大量文獻閱讀逃避核心問題的思考其實是我用上 RSS 以後非常傾向於去做的事情,確乎有可能發生在手頭這個項目結束以後。最終結果「正位隱士」的描述,也是我想要成為的樣子。

笑,但也不過是在眾多的推測描述中,更加關注了適合自身的那一部分罷了。

This post is licensed under CC BY 4.0 by the author.

Trending Tags