<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformers.js 2.13、2.14 發布,新增8個新的架構

新機器視覺 ? 來源:前段圈 ? 2024-01-23 16:31 ? 次閱讀
Transformers.js 作者 Joshua Lochner 在 GitHub 宣傳 Transformers.js v2.13 和 v2.14 發布。具體更新如下(文中提到的鏈接,可通過閱讀原文獲?。?br /> 8 個新的架構!這個版本支持了很多新的多模態架構,能夠支持的架構總數達到了 80 個!1.支持超過 1000 種語言的多語種文本轉語音的 VITS!(#466)
import { pipeline } from '@xenova/transformers';


// Create English text-to-speech pipeline
const synthesizer = await pipeline('text-to-speech', 'Xenova/mms-tts-eng');


// Generate speech
const output = await synthesizer('I love transformers');
// {
//   audio: Float32Array(26112) [...],
//   sampling_rate: 16000
// }
請參閱此處了解可用模型的列表。首先,我們在 Hugging Face Hub 上轉換了約 1140 個模型中的 12 個。如果其中沒有你想要的,可以使用我們的轉換腳本自行轉換。

2. CLIPSeg 用于零樣本圖像分割。(#478)

import { AutoTokenizer, AutoProcessor, CLIPSegForImageSegmentation, RawImage } from '@xenova/transformers';


// Load tokenizer, processor, and model
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/clipseg-rd64-refined');
const processor = await AutoProcessor.from_pretrained('Xenova/clipseg-rd64-refined');
const model = await CLIPSegForImageSegmentation.from_pretrained('Xenova/clipseg-rd64-refined');


// Run tokenization
const texts = ['a glass', 'something to fill', 'wood', 'a jar'];
const text_inputs = tokenizer(texts, { padding: true, truncation: true });


// Read image and run processor
const image = await RawImage.read('https://github.com/timojl/clipseg/blob/master/example_image.jpg?raw=true');
const image_inputs = await processor(image);


// Run model with both text and pixel inputs
const { logits } = await model({ ...text_inputs, ...image_inputs });
// logits: Tensor {
//   dims: [4, 352, 352],
//   type: 'float32',
//   data: Float32Array(495616)[ ... ],
//   size: 495616
// }

您可以按如下方式可視化預測結果:

const preds = logits
  .unsqueeze_(1)
  .sigmoid_()
  .mul_(255)
  .round_()
  .to('uint8');


for (let i = 0; i < preds.dims[0]; ++i) {
  const img = RawImage.fromTensor(preds[i]);
  img.save(`prediction_${i}.png`);
}

Original "a glass" "something to fill" "wood" "a jar"
7431df5a-b9b7-11ee-8b88-92fbcf53809c.png 745c99e8-b9b7-11ee-8b88-92fbcf53809c.png 7466c42c-b9b7-11ee-8b88-92fbcf53809c.png 7478712c-b9b7-11ee-8b88-92fbcf53809c.png 7481d276-b9b7-11ee-8b88-92fbcf53809c.png

請查看此處以獲取可用模型列表。

3. SegFormer 用于語義分割和圖像分類。(#480)

import { pipeline } from '@xenova/transformers';


// Create an image segmentation pipeline
const segmenter = await pipeline('image-segmentation', 'Xenova/segformer_b2_clothes');


// Segment an image
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/young-man-standing-and-leaning-on-car.jpg';
const output = await segmenter(url);

748c26fe-b9b7-11ee-8b88-92fbcf53809c.jpg

4. Table Transformer 用于從非結構化文檔中提取表格。(#477)

import { pipeline } from '@xenova/transformers';


// Create an object detection pipeline
const detector = await pipeline('object-detection', 'Xenova/table-transformer-detection', { quantized: false });


// Detect tables in an image
const img = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/invoice-with-table.png';
const output = await detector(img);
// [{ score: 0.9967531561851501, label: 'table', box: { xmin: 52, ymin: 322, xmax: 546, ymax: 525 } }]

5. DiT用于文檔圖像分類。(#474)

import { pipeline } from '@xenova/transformers';


// Create an image classification pipeline
const classifier = await pipeline('image-classification', 'Xenova/dit-base-finetuned-rvlcdip');


// Classify an image 
const url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/coca_cola_advertisement.png';
const output = await classifier(url);
// [{ label: 'advertisement', score: 0.9035086035728455 }]

6. SigLIP用于零樣本圖像分類。(#473)

import { pipeline } from '@xenova/transformers';


// Create a zero-shot image classification pipeline
const classifier = await pipeline('zero-shot-image-classification', 'Xenova/siglip-base-patch16-224');


// Classify images according to provided labels
const url = 'http://images.cocodataset.org/val2017/000000039769.jpg';
const output = await classifier(url, ['2 cats', '2 dogs'], {
    hypothesis_template: 'a photo of {}',
});
// [
//   { score: 0.16770583391189575, label: '2 cats' },
//   { score: 0.000022096000975579955, label: '2 dogs' }
// ]

7. RoFormer 用于蒙版語言建模、序列分類、標記分類和問題回答。(#464)

import { pipeline } from '@xenova/transformers';


// Create a masked language modelling pipeline
const pipe = await pipeline('fill-mask', 'Xenova/antiberta2');


// Predict missing token
const output = await pipe('? Q V Q ... C A [MASK] D ... T V S S');

8.分段任意模型 (SAM)

分段任意模型(SAM)可以在給定輸入圖像和輸入點的情況下,用于生成場景中對象的分割蒙版。請查看此處以獲取完整的預轉換模型列表。對該模型的支持已在#510中添加。

例子+源碼:https://huggingface.co/spaces/Xenova/segment-anything-web

示例:使用 Xenova/slimsam-77-uniform 執行掩模生成。

import { SamModel, AutoProcessor, RawImage } from '@xenova/transformers';


const model = await SamModel.from_pretrained('Xenova/slimsam-77-uniform');
const processor = await AutoProcessor.from_pretrained('Xenova/slimsam-77-uniform');


const img_url = 'https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/corgi.jpg';
const raw_image = await RawImage.read(img_url);
const input_points = [[[340, 250]]] // 2D localization of a window


const inputs = await processor(raw_image, input_points);
const outputs = await model(inputs);


const masks = await processor.post_process_masks(outputs.pred_masks, inputs.original_sizes, inputs.reshaped_input_sizes);
console.log(masks);
// [
//   Tensor {
//     dims: [ 1, 3, 410, 614 ],
//     type: 'bool',
//     data: Uint8Array(755220) [ ... ],
//     size: 755220
//   }
// ]
const scores = outputs.iou_scores;
console.log(scores);
// Tensor {
//   dims: [ 1, 1, 3 ],
//   type: 'float32',
//   data: Float32Array(3) [
//     0.8350210189819336,
//     0.9786665439605713,
//     0.8379436731338501
//   ],
//   size: 3
// }

這樣可以將這三個預測蒙板可視化:

const image = RawImage.fromTensor(masks[0][0].mul(255));
image.save('mask.png');
Input image Visualized output

74990bbc-b9b7-11ee-8b88-92fbcf53809c.jpg

74aecbbe-b9b7-11ee-8b88-92fbcf53809c.png

接下來,選擇 IoU 分數最高的通道,在本例中是第二個(綠色)通道。將其與原始圖像相交,我們得到了該主題的孤立版本:

Selected Mask Intersected

74b58dbe-b9b7-11ee-8b88-92fbcf53809c.png

74b98e00-b9b7-11ee-8b88-92fbcf53809c.png

其他改進

  • 修復了@Lian1230在#461中提交的關于Next.js Dockerfile的HOSTNAME 問題。

  • 在#467中,在 README 中添加了空模板的鏈接。

  • 在 #503 中添加對使用 ConvNextFeatureExtractor 處理非方形圖像的支持

  • 通過 #507 對遠程 URL 中的修訂進行編碼

  • @Lian1230 在 #461 中進行了他們的首次貢獻。

改進#485中的pipeline函數的類型。感謝@wesbos提出的建議!

意味著當您將鼠標懸停在類名稱上時,您將獲得示例代碼來幫助您。

74c71cc8-b9b7-11ee-8b88-92fbcf53809c.gif

此版本是 #485 的后續版本,具有額外的以智能感知為中心的改進(請參閱 PR)。

添加對跨編碼器模型的支持(+修復令牌類型 ID)(#501)

示例:使用 Xenova/ms-marco-TinyBERT-L-2-v2 進行信息檢索。

import { AutoTokenizer, AutoModelForSequenceClassification } from '@xenova/transformers';


const model = await AutoModelForSequenceClassification.from_pretrained('Xenova/ms-marco-TinyBERT-L-2-v2');
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/ms-marco-TinyBERT-L-2-v2');


const features = tokenizer(
    ['How many people live in Berlin?', 'How many people live in Berlin?'],
    {
        text_pair: [
            'Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.',
            'New York City is famous for the Metropolitan Museum of Art.',
        ],
        padding: true,
        truncation: true,
    }
)


const { logits } = await model(features)
console.log(logits.data);
// quantized:   [ 7.210887908935547, -11.559350967407227 ]
// unquantized: [ 7.235750675201416, -11.562294006347656 ]


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 源碼
    +關注

    關注

    8

    文章

    579

    瀏覽量

    28647
  • 模型
    +關注

    關注

    1

    文章

    2754

    瀏覽量

    47821
  • 架構
    +關注

    關注

    1

    文章

    489

    瀏覽量

    25248

原文標題:Transformers.js 2.13、2.14 發布,新增 8 個新的架構

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用基于Transformers的API在CPU上實現LLM高效推理

    英特爾 Extension for Transformers是英特爾推出的一個創新工具包,可基于英特爾 架構平臺,尤其是第四代英特爾 至強 可擴展處理器(代號 SapphireRapids,SPR)顯著加速基于Transformers
    的頭像 發表于 01-22 11:11 ?1975次閱讀
    使用基于<b class='flag-5'>Transformers</b>的API在CPU上實現LLM高效推理

    Hanlp1.7版本的新增功能一覽

    `Hanlp1.7版本在去年下半年的時候就隨大快的DKH1.6版本同時發布了,截至目前1.7大版本也更新到了1.7.1了。本篇分別就1.7.0和1.7.1中新增的功能做一簡單的匯總介紹。HanLP
    發表于 03-22 09:56

    用戶管理-動態調用VI(新增用戶插件)

    介紹一種基于動態調用VI的用戶登錄管理的方法,結合之前介紹的源代碼發布,將新增的用戶信息(一獨立的VI)以源代碼發布的形式(去除程序面板)放入指定User List文件夾下,即使生成
    發表于 04-26 22:40

    DevEco Studio 2.2 Beta2新版本發布,SDK API6正式Release

    ReleaseHarmonyOS SDK API6升級為Release版本,版本號為2.2.0.3,配套的編譯構建插件為2.4.5.5。新版本較前一版本在接口內容上無新增和變更。但對于JS API,部分在API6
    發表于 09-15 17:28

    OpenHarmony 3.0 LTS 新增特性功能

    內容:標準系統新增特性功能用戶程序框架支持服務能力(ServiceAbility,DataAbility)和線程模型。支持文件安全訪問,即文件轉成URI和解析URI打開文件的能力。支持設備管理PIN碼
    發表于 09-30 08:24

    94JS/eTS開源組件首發上新,肯定有你要用的一款!

    2021年的華為開發者大會(HDC2021)上,我們發布了新一代的聲明式UI框架——方舟開發框架(ArkUI)。 ArkUI框架引入了基于TS擴展的聲明式開發范式。自此,越來越多的開發者加入到JS
    發表于 05-09 14:51

    HarmonyOS 3.0 Beta版本說明

    與OpenHarmony SDK配套使用。配套JS/eTS SDK、Native SDK,推薦使用JS/eTS進行應用開發。OpenHarmony SDK新增API Version 8
    發表于 07-07 14:16

    面向開發者的HarmonyOS 3.0 Beta發布

    與OpenHarmony SDK配套使用?!?配套JS/eTS SDK、Native SDK,推薦使用JS/eTS進行應用開發?!?OpenHarmony SDK新增API Version 8
    發表于 07-08 11:14

    OpenHarmony 3.2 Beta2 版本發布:支持電源管理重啟恢復機制等

    worker傳遞I58034 【增強特性】使用libuv統一JS Looper機制I57ZZH 【新增特性】提供創建不同Hap包上下文能力NA包管理新增默認應用管理能力,支持眾測應用、獲取包指紋信息等
    發表于 08-02 10:31

    DevEco Studio 3.1 Beta1版本發布——新增六大關鍵特性,開發更高效

    、開發、編譯、調試等功能。2023年2月16日發布的DevEco Studio 3.1 Beta1版本,在Canary1版本基礎上,新增以下關鍵特性:-> 新增支持Windows 11
    發表于 02-24 11:22

    GPU-Z 2.26.0正式發布 新增對部分假冒顯卡核心的支持

    TechPowerUp剛剛發布了最新版的GPU-Z 2.26.0,除了支持部分新硬件,還修復了大量Bug,并新增了對部分假冒顯卡核心的支持,再也不怕被JS坑了。
    發表于 10-09 15:26 ?632次閱讀

    微雪電子樹莓派2.13寸柔性屏介紹

    2.13寸柔性墨水屏 212×104分辨率 黑白 e-paper 電子紙 功耗低、視角寬、斷電仍可清晰顯示 基于樹莓派設計 也可以接Raspberry/Jetson Nano/Arduino/STM32等 型號 2.13inch e-Paper HAT (D)
    的頭像 發表于 11-25 11:02 ?1056次閱讀
    微雪電子樹莓派<b class='flag-5'>2.13</b>寸柔性屏介紹

    微雪電子2.13寸電子紙裸屏簡介

    2.13寸電子墨水屏 電子紙屏 250122分辨率 黑白 支持局部刷新 功耗低、視角寬、斷電仍可清晰顯示 可接入Raspberry/Jetson Nano/Arduino/Nucleo等主控板
    的頭像 發表于 01-09 10:42 ?1748次閱讀
    微雪電子<b class='flag-5'>2.13</b>寸電子紙裸屏簡介

    漢朔2.13寸電子水墨屏的電子標簽把玩

    漢朔2.13寸電子水墨屏的電子標簽把玩
    發表于 11-30 13:51 ?16次下載
    漢朔<b class='flag-5'>2.13</b>寸電子水墨屏的電子標簽把玩

    Transformers的功能概述

    近年來,我們聽說了很多關于Transformers的事情,并且在過去的幾年里,它們已經在NLP領域取得了巨大成功。Transformers是一種使用注意力機制(Attention)顯著改進深度學習
    的頭像 發表于 01-23 10:15 ?285次閱讀
    <b class='flag-5'>Transformers</b>的功能概述
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>